Navegador sin cabeza y raspado – soluciones

Estoy tratando de poner una lista de posibles soluciones para los juegos de pruebas automáticas del navegador y plataformas de navegación sin cabeza capaces de raspar.


PRUEBA / RASGUAMIENTO DEL NAVEGADOR:

  • Selenium : buque insignia de políglota en la automatización del navegador, enlaces para Python, Ruby, JavaScript, C #, Haskell y más, IDE para Firefox (como una extensión) para una implementación de prueba más rápida. Puede actuar como un servidor y tiene toneladas de funciones.

JAVASCRIPT

  • PhantomJS – JavaScript , pruebas sin cabeza con captura de pantalla y automatización, usa Webkit . A partir de la versión 1.8, se implementa la API WebDriver de Selenium, por lo que puede utilizar cualquier enlace de WebDriver y las pruebas serán compatibles con Selenium
  • SlimerJS : similar a PhantomJS, usa Gecko (Firefox) en lugar de WebKit
  • CasperJS – JavaScript , basado en PhantomJS y SlimerJS, tiene características adicionales
  • Ghost Driver : implementación de JavaScript del protocolo WebDriver Wire para PhantomJS .
  • nuevo PhantomCSS – Prueba de regresión CSS. Un módulo CasperJS para automatizar las pruebas de regresión visual con PhantomJS y Resemble.js.
  • nuevo WebdriverCSS : complemento para Webdriver.io para automatizar las pruebas de regresión visual
  • nuevo PhantomFlow : describe y visualiza los flujos de usuarios a través de pruebas. Un enfoque experimental para la prueba de interfaz de usuario web.
  • nuevo trifleJS – puertos de la API PhantomJS para usar el motor de Internet Explorer.
  • nuevo CasperJS IDE (comercial)

NODE.JS

  • Nodo-fantasma : cierra la brecha entre PhantomJS y node.js
  • WebDriverJs – Selenium WebDriver bindings for node.js por Selenium Team
  • WD.js : módulo de nodo para WebDriver / Selenium 2
  • yiewd – WD.js envoltura utilizando los últimos generadores Harmony! Deshacerse de la pirámide de callback con rendimiento
  • ZombieJs : prueba increíblemente rápida y sin cabeza de stack completa con node.js
  • NightwatchJs – Solución de prueba basada en Node JS utilizando Selenium Webdriver
  • Chimera – Chimera: puede hacer todo lo que phantomJS hace, pero en un entorno JS completo
  • Dalek.js : pruebas automatizadas de navegador cruzado con JavaScript a través de Selenium Webdriver
  • Webdriver.io : mejor implementación de enlaces de WebDriver con más de 50 acciones predefinidas
  • Nightmare – Puente electrónico con una API de alto nivel.
  • jsdom – Adaptado al raspado de la web. Un DOM muy ligero implementado en Node.js, admite páginas con javascript.

RASGADO DE LA WEB / MINERÍA

  • Scrapy – Python , principalmente un raspador / minero – rápido, bien documentado y, se puede vincular con Django Dynamic Scraper para implementaciones de minería agradables, o Scrapy Cloud para implementación PaaS (sin servidor), funciona en terminal o en un servidor de procesos independientes , se puede usar con Apio , construido sobre Torcido
  • Snailer – módulo node.js , aún no probado.
  • Node-Crawler : módulo node.js , aún no probado.

HERRAMIENTAS ONLINE

  • nuevo cliente HTTP en línea – respuesta dedicada de SO
  • Dead CasperBox – Ejecuta scripts CasperJS en línea

ENLACES RELACIONADOS Y RECURSOS

  • Compasión del software Webscraping
  • nuevo Resemble.js : análisis y comparación de imágenes

Preguntas:

  • ¿Alguna solución pura de Node.js o Nodejs a PhanthomJS / CasperJS que realmente funciona y está documentada?

Respuesta: Chimera parece ir en esa dirección, pagar Chimera

  • ¿Otras soluciones capaces de una inyección de JavaScript más fácil que el selenium?

  • ¿Conoces alguna solución pura de Ruby ?

Respuesta: Verifique la lista creada por rjk con soluciones basadas en ruby

  • ¿Conoces alguna tecnología o solución relacionada?

¡Siéntase libre de reeditar esta pregunta y agregar contenido como lo desee! ¡Gracias por sus aportaciones!


Actualizaciones

  1. añadido SlimerJS a la lista
  2. Snailer añadido y Node-Crawler y Node-phantom
  3. Se agregó la envoltura Yiewd WebDriver
  4. WebDriverJs y WD.js añadidos
  5. driver fantasma agregado
  6. Se agregó el software Comparsion of Webscraping en el Blog de Screen Scraper
  7. ZombieJs añadido
  8. Se agregó Resemble.js y PhantomCSS y PhantomFlow , contenido categorizado y reeditado
  9. 04.01.2014, agregó Chimera , respondió 2 preguntas
  10. añadió NightWatchJs
  11. añadió DalekJS
  12. Se agregó WebdriverCSS
  13. CasperBox añadido
  14. agregado trifleJS
  15. añadió CasperJS IDE
  16. añadió Pesadilla
  17. jsdom añadido
  18. añadido un cliente HTTP en línea , CasperBox actualizado (muerto)
  19. Se agregó NoraUi , NoraUi (Automatización de regresión NOn para interfaces de usuario) es un marco de Java basado en stack de selenium, pepino y pepinillo

Si Ruby es lo tuyo, también puedes probar:

también, la gem Nokogiri se puede usar para raspar:

hay un libro dedicado sobre cómo utilizar nokogiri para raspar mediante la publicación de paquetes

http://triflejs.org/ es como phantomjs pero está basado en IE

Una clase de Selenium basado en JS es Dalek.js . No solo apunta a pruebas frontend automatizadas, también puedes hacer capturas de pantalla con ella. Tiene controladores de red para todos los navegadores importantes. Lamentablemente, esos controladores de red parecen valer la pena mejorar (simplemente no decir “buggy” para Firefox).

    Intereting Posts