Articles of scrapy

Scrapy: ¿Seguir el enlace para obtener datos adicionales del artículo?

No tengo un problema de código específico. No estoy seguro de cómo abordar el siguiente problema logísticamente con el marco de Scrapy: La estructura de los datos que quiero raspar suele ser una fila de tabla para cada elemento. Muy sencillo, ¿verdad? En última instancia, quiero raspar el título , la fecha de vencimiento y […]

¿Cómo dar URL a scrapy para rastrear?

Quiero usar scrapy para rastrear páginas web. ¿Hay alguna manera de pasar la URL de inicio desde el terminal mismo? En la documentación se indica que se puede dar el nombre de la araña o la URL, pero cuando recibo la url arroja un error: // El nombre de mi araña es un ejemplo, pero […]

Ejecutar una araña Scrapy en una tarea de apio

Esto ya no funciona , la API de scrapy ha cambiado. Ahora la documentación muestra una forma de ” Ejecutar Scrapy desde un script ” pero obtengo el error ReactorNotRestartable . Mi tarea: from celery import Task from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from scrapy.utils.project import get_project_settings from […]

Scrapy y proxies

¿Cómo se utiliza el soporte de proxy con el framework de depuración web python Scrapy?

Cómo pasar un argumento definido por el usuario en scrapy spider

Estoy tratando de pasar un argumento definido por el usuario a la araña de un scrapy. ¿Alguien puede sugerir sobre cómo hacer eso? Leí sobre un parámetro -a algún lugar, pero no tengo idea de cómo usarlo.

Navegador sin cabeza y raspado – soluciones

Estoy tratando de poner una lista de posibles soluciones para los juegos de pruebas automáticas del navegador y plataformas de navegación sin cabeza capaces de raspar. PRUEBA / RASGUAMIENTO DEL NAVEGADOR: Selenium : buque insignia de políglota en la automatización del navegador, enlaces para Python, Ruby, JavaScript, C #, Haskell y más, IDE para Firefox […]