¿Los rastreadores de Google interpretan Javascript? ¿Qué sucede si cargo una página a través de AJAX?

Cuando un usuario entra en mi página, tengo que hacer otra llamada AJAX … para cargar datos dentro de un div. Así es como funciona mi aplicación.

El problema es … cuando veo la fuente de este código, no contiene la fuente de ese AJAX. Por supuesto, cuando hago wget URL … tampoco muestra el HTML de AJAX. Tiene sentido.

¿Pero qué pasa con Google? ¿Podrá Google rastrear el contenido, como si fuera un navegador? ¿Cómo permito que Google rastree mi página como lo vería un usuario?

Actualizado: De la respuesta a esta pregunta sobre “Contenido generado por Ajax, rastreo y listado negro” Encontré este documento sobre la forma en que Google rastrea las solicitudes AJAX, que es parte de una colección de documentos sobre cómo hacer que las aplicaciones AJAX se puedan rastrear .

En resumen, significa que debe utilizar ... lugar de ... y luego proporcionar un servidor real. -respuesta a la path/to/path?_escaped_fragment_=data URL path/to/path?_escaped_fragment_=data .

Considere también una etiqueta para proporcionar a los rastreadores pistas sobre el contenido optimizado para SEO. , que este artículo explica un poco, es un buen candidato

Nota: Tomé la respuesta de: https://stackoverflow.com/questions/10006825/search-engine-misunderstanting/10006925#comment12792862_10006925 porque parece que no puedo eliminar la mía aquí.

A pesar de las respuestas anteriores, aparentemente interpreta JavaScript, hasta cierto punto, según Matt Cutts :

“Durante un tiempo, estuvimos escaneando dentro de JavaScript, y estábamos buscando enlaces. Google se volvió más inteligente sobre JavaScript y puede ejecutar JavaScript. No diría que ejecutamos todos los JavaScript, por lo que hay algunas condiciones en las que “Ejecutar JavaScript. Ciertamente hay algunos elementos de JavaScript conocidos y comunes, como Google Analytics, que ni siquiera querrías ejecutar porque no querrías intentar generar visitas fantasmas de Googlebot en tu Google Analytics”.

(¿Por qué responder una pregunta respondida? Principalmente porque acabo de verla debido a una pregunta duplicada publicada hoy, y no vi esta información aquí).

En realidad … Google tiene una solución para rastrear aplicaciones Ajax …

http://code.google.com/web/ajaxcrawling/docs/getting-started.html

Lo que hago en esta situación siempre es poblar inicialmente la página con contenido basado en los parámetros predeterminados de lo que sea que esté haciendo la llamada Ajax. Entonces solo uso javascript ajax para hacer actualizaciones a la página.

Como dicen otras respuestas, el rastreador de Google (y creo que los de otros motores de búsqueda) no interpreta Javascript, y no debe intentar diferenciar por agente de usuario o similar (a riesgo de que su sitio sea degradado o bloqueado por presentar diferentes contenidos para usuarios vs robots). Más bien, ofrecen cierto nivel de contenido (quizás mínimo) a los visitantes que tienen Javascript bloqueado por cualquier motivo (incluidos los casos en los que el motivo es “ser robots” 😉 – después de todo, esa es la razón por la que existe la etiqueta noscript . .. para que sea muy, muy fácil ofrecer ese “nivel mínimo de contenido” (o, más que mínimo, si así lo eliges 😉 a los no usuarios de Javascript.

Los rastreadores web tienen dificultades con ajax y javascript que carga dinámicamente el contenido. Este sitio tiene algunas ideas que le muestran cómo ayudar a google a indexar su sitio http://www.softwaredeveloper.com/features/google-ajax-play-nice-061907/

Si crea sus páginas de manera que funcionen con O sin javascript (es decir, recurra al uso de marcos o solicitudes GET / POST estándar al servidor si falla el javascript, ya sea automáticamente o mediante un enlace “Mostrar como html simple”), será mucho más fácil para los motores de búsqueda rastrear la página.

Tiene sentido para ellos no rastrear contenido “dynamic”, porque es solo eso … dynamic.

Según tengo entendido, en la mayoría de las situaciones, Google no rastrea el contenido dynamic del lado del cliente.

Ahora parece que ike Google bot no está limitado a un simple navegador como el de lynx .

El bot de Google intenta tomar el texto Humanly visible y el Humanly contrasting para dar importancia en diferentes sectores de la página. Por lo tanto, muestra la página con un Layout Engine como lo hacen otros navegadores como FF o Chrome.

Incluso podría tener soporte para v8 Javascript Engine. y el bot podría cargar la página y esperar hasta que dom esté ready e incluso puede esperar unos segundos para que la página tenga una vista estable. y luego recorta el texto contrastante.