Articles of web crawler

El selenium espera a que se cargue el contenido de Ajax: enfoque universal

¿Hay un enfoque universal para que Selenium espere hasta que todo el contenido de Ajax se haya cargado? (No está vinculado a un sitio web específico, por lo que funciona para todos los sitios web de Ajax)

HtmlUnit solo muestra la página HTML del host para la aplicación GWT

Estoy usando HtmlUnit API para agregar soporte de rastreador a mi aplicación GWT de la siguiente manera: PrintWriter out = null; try { resp.setCharacterEncoding(CHAR_ENCODING); resp.setContentType(“text/html”); url = buildUrl(req); out = resp.getWriter(); WebClient webClient = webClientProvider.get(); // set options WebClientOptions options = webClient.getOptions(); options.setCssEnabled(false); options.setThrowExceptionOnScriptError(false); options.setThrowExceptionOnFailingStatusCode(false); options.setRedirectEnabled(true); options.setJavaScriptEnabled(true); // set timeouts webClient.setJavaScriptTimeout(0); webClient.waitForBackgroundJavaScript(20000); // ajax controller […]

Necesito una biblioteca potente de raspador web

Necesito una potente biblioteca web scraper para extraer contenidos de la web. Eso puede ser pagado o gratis ambos estarán bien para mí. Por favor sugiérame una biblioteca o una mejor forma de extraer los datos y almacenarlos en mi base de datos preferida. He buscado pero no encontré ninguna buena solución para esto. Necesito […]

¿Cómo dar URL a scrapy para rastrear?

Quiero usar scrapy para rastrear páginas web. ¿Hay alguna manera de pasar la URL de inicio desde el terminal mismo? En la documentación se indica que se puede dar el nombre de la araña o la URL, pero cuando recibo la url arroja un error: // El nombre de mi araña es un ejemplo, pero […]

Spider un sitio web y solo URLs de retorno

Estoy buscando una forma de pseudo-araña de un sitio web. La clave es que realmente no quiero el contenido, sino una simple lista de URI. Puedo acercarme razonablemente a esta idea con Wget usando la opción –spider , pero al canalizar esa salida a través de un grep , parece que no puedo encontrar la […]

Obtener contenido (cargado a través de una llamada AJAX) de una página web

Soy un principiante para gatear. Tengo el requisito de buscar las publicaciones y los comentarios de un enlace. Quiero automatizar este proceso. Consideré usar webcrawler y jsoup para esto, pero me dijeron que los webcrawlers se usan principalmente para sitios web con mayor profundidad. Muestra de una página: sitio web de la comunidad Jive Para […]

Extraer datos de una página web, analizarla para piezas específicas y mostrarla

He estado usando este sitio durante mucho tiempo para encontrar respuestas a mis preguntas, pero no he podido encontrar la respuesta en este. Estoy trabajando con un pequeño grupo en un proyecto de clase. Debemos construir un pequeño sitio web de “comercio de juegos” que permita a las personas registrarse, poner en juego un juego […]

¿Los rastreadores de Google interpretan Javascript? ¿Qué sucede si cargo una página a través de AJAX?

Cuando un usuario entra en mi página, tengo que hacer otra llamada AJAX … para cargar datos dentro de un div. Así es como funciona mi aplicación. El problema es … cuando veo la fuente de este código, no contiene la fuente de ese AJAX. Por supuesto, cuando hago wget URL … tampoco muestra el […]

Cómo pasar un argumento definido por el usuario en scrapy spider

Estoy tratando de pasar un argumento definido por el usuario a la araña de un scrapy. ¿Alguien puede sugerir sobre cómo hacer eso? Leí sobre un parámetro -a algún lugar, pero no tengo idea de cómo usarlo.