Articles of web scraping

R: extrae texto UTF-8 “limpio” de una página web grabada con RCurl

Usando R, estoy tratando de raspar una página web, guardo el texto, que está en japonés, en un archivo. En última instancia, esto debe ampliarse para abordar cientos de páginas a diario. Ya tengo una solución viable en Perl, pero estoy tratando de migrar la secuencia de comandos a R para reducir la carga cognitiva […]

Cómo usar R para descargar un archivo comprimido de una página SSL que requiere cookies

Estoy intentando descargar un archivo de una página https que requiere que se presione un botón “Acepto” y luego almacena una cookie. Mis disculpas si esta respuesta es obvia en alguna parte … Cuando abro la página web directamente en Chrome y hago clic en “Acepto”, el archivo comienza a descargarse automáticamente. http://www.icpsr.umich.edu/cgi-bin/bob/zipcart2?path=SAMHDA&study=32722&bundle=delimited&ds=1&dups=yes Traté de […]

Utilice getElementById en HTMLElement en lugar de HTMLDocument

He estado jugando con datos raspados de páginas web usando VBS / VBA. Si fuera Javascript estaría lejos porque es fácil, pero no parece ser tan simple en VBS / VBA. Este es un ejemplo que hice para una respuesta, funciona, pero tenía planeado acceder a los nodos secundarios usando getElementByTagName pero no pude encontrar […]

¿Cómo webscrapear páginas aseguradas en R (enlaces https) (usando readHTMLTable del paquete XML)?

Hay buenas respuestas sobre SO sobre cómo usar readHTMLTable desde el paquete XML y lo hice con páginas http regulares, sin embargo, no puedo resolver mi problema con las páginas https. Estoy tratando de leer la tabla en este sitio web (url string): library(RTidyHTML) library(XML) url <- "https://ned.nih.gov/search/ViewDetails.aspx?NIHID=0010121048" h = htmlParse(url) tables <- readHTMLTable(url) Pero […]

Android Web Scraping con un navegador sin cabeza

He pasado un día investigando una biblioteca que se puede usar para lograr lo siguiente: Recupere el contenido completo de una página web como en el fondo sin mostrar el resultado a una vista. La lib debería admitir páginas que disparan solicitudes ajax para cargar algunos datos de resultados adicionales después de que el HTML […]

¿Cómo puedo automatizar el cuadro de diálogo Guardar como en IE11 usando VBA?

Estoy tratando de descargar algunos datos sobre emisiones de carbono. Puedo precargar la página con la configuración relevante a través de la URL. Se carga bien y puedo hacer clic en el botón Aceptar por su ID, luego aparece IE11 – Abrir / Guardar / Cancelar Diálogo en la parte inferior. He intentado todas las […]

¿El módulo solicita cómo recuperar correctamente los caracteres acentuados?

Estoy usando: Módulo: Solicitud – Método de solicitud HTTP simplificado para raspar una página web con caracteres acentuados á é ó ú ê ã etc. Ya he intentado encoding: utf-8 sin éxito. Todavía estoy obteniendo estos caracteres en el resultado. request.get({ uri: url, encoding: ‘utf-8’ // … ¿Hay alguna configuración para arreglarlo? No sé si […]

Necesito una biblioteca potente de raspador web

Necesito una potente biblioteca web scraper para extraer contenidos de la web. Eso puede ser pagado o gratis ambos estarán bien para mí. Por favor sugiérame una biblioteca o una mejor forma de extraer los datos y almacenarlos en mi base de datos preferida. He buscado pero no encontré ninguna buena solución para esto. Necesito […]

¿Cómo iniciar sesión programáticamente en un sitio web a screenscape?

Necesito información de un sitio web que no sea mío, para obtener esta información necesito iniciar sesión en el sitio web para recostackr la información, esto sucede a través de un formulario HTML. ¿Cómo puedo hacer esta captura de pantalla autenticada en C #? Información extra: Autenticación basada en cookies. Acción POST necesaria.

Android: uso de WebView fuera de un contexto de actividad

Estoy tratando de lograr Web Scraping a través de un IntentService de fondo que raspa periódicamente un sitio web sin una visualización en el teléfono de los usuarios. Como tengo que llamar un javascript en la página cargada, no puedo usar ningún HttpGet, etc. Por lo tanto, tengo que usar una instancia de WebView que […]