Articles of html parsing

Imágenes de Android ImageGetter que se superponen texto

Intento cargar un bloque de HTML en un TextView, incluidas las imágenes, usando URLImageParser p = new URLImageParser(articleBody, this); Spanned htmlSpan = Html.fromHtml(parsedString, p, null); parsedString es el HTML, por cierto. De todos modos, se carga, pero las imágenes no tienen espacio para que se sienten, por lo que terminan superponiendo el texto sobre ellas. […]

Análisis de HTML para obtener contenido con C #

Estoy escribiendo una aplicación que rastrea un grupo de mis páginas web. En lugar de tomar todo el código fuente de la página, me gustaría tomar todo el contenido y almacenarlo y poder almacenar la página como texto sin formato dentro de una base de datos. El contenido será utilizado en otras aplicaciones y no […]

C #: HtmlAgilityPack extraer texto interno

Estoy usando HtmlAgilityPack. ¿Hay un código de una línea que pueda obtener todo el texto interno de html, por ejemplo, eliminar todas las tags html y scripts?

¿Cuál es la mejor práctica para analizar el contenido remoto con jQuery?

Después de una llamada jQuery ajax para recuperar un documento XHTML completo, ¿cuál es la mejor manera de seleccionar elementos específicos de la cadena resultante? Tal vez hay una biblioteca o un complemento que resuelve este problema? jQuery solo puede seleccionar elementos XHTML que existen en una cadena si normalmente están permitidos en un div […]

La secuencia de comandos por lotes obtiene el sitio html y analiza el contenido (sin wget, curl u otra aplicación externa)

Necesito trabajar solo con la funcionalidad de Windows CMD. Necesito dos vars / strings de un sitio web para usar en el batchscript para validar acciones con él. Para no hacerlo demasiado simple, este sitio web también necesita autenticación. Encontré esto en alguna parte: @set @x=0 /* :: ChkHTTP.cmd @echo off setlocal set “URL=http://www.google.com” cscript […]

Las tags HTML Agility Pack NO están en la lista blanca

Intento crear una función que elimine las tags html y los atributos que no están en una lista blanca. Tengo el siguiente HTML: first text second text here some text here some text here some twxt here Estoy usando HTML Agility Pack y el código que tengo hasta ahora es: static List WhiteNodeList = new […]

Android HTML ImageGetter como AsyncTask

De acuerdo, estoy perdiendo la cabeza por esto. Tengo un método en mi progtwig que analiza HTML. Quiero incluir las imágenes en línea, y tengo la impresión de que usar Html.fromHtml (cadena, Html.ImageGetter, Html.TagHandler) permitirá que esto suceda. Como Html.ImageGetter no tiene una implementación, me corresponde a mí escribir una. Sin embargo, como el análisis […]

¿Cómo se analiza y procesa HTML / XML en PHP?

¿Cómo se puede analizar HTML / XML y extraer información de él?

Usar expresiones regulares para analizar HTML: ¿por qué no?

Parece que todas las preguntas en stackoverflow donde el asker está usando regex para obtener algo de información de HTML inevitablemente tendrá una “respuesta” que dice que no se debe usar regex para analizar HTML. Por qué no? Soy consciente de que hay analizadores de HTML “reales” entre comillas, como Beautiful Soup , y estoy […]