Googlebot

¡Invasión de arañas robot! (no es una película… es Googlebot)

Paula Obeso
Imagina una gran biblioteca, la más grande de todo el mundo. Esa biblioteca es gobernada por pequeñas arañas robot que van de acá para allá clasificando los libros existentes, trayendo otros nuevos y registrando cada uno de los títulos con todos sus capítulos y palabras en un inmenso documento que nunca terminan de construir.

Sé que suena a ficción, pero eso es lo que está pasando ahora mismo en la Web. Los libros son cada uno de los sitios, los capítulos son las respectivas páginas web, y el documento interminable es el índice al que accedes cada vez que realizas una búsqueda en cualquier buscador. A noviembre de 2016, la cantidad de páginas individuales registradas en el índice de Google superaba los 130 trillones. ¡Nada mal para unas arañitas!

googlebot

Fuente: www.pinterest.com

Ahora sí, ¿qué es Googlebot?

Googlebot es el nombre que se le da a estas “arañas robot”. Cada buscador tiene sus propios robots, por lo que los Googlebots son exclusivos de Google. El trabajo de estas diligentes arañas es rastrear actualizaciones en las páginas existentes y hallar páginas nuevas para clasificarlas e ingresarlas en el índice.

Que nuestras páginas y actualizaciones se registren en dicho índice es el primer paso para construir nuestra visibilidad y posicionamiento en la Web.

Conceptos básicos para comprenderlo

Crawling

En inglés, la palabra “crawl” se refiere al movimiento lento con el que se desplazan ciertos insectos. En nuestro contexto, crawling es el proceso realizado por los motores de búsqueda para identificar y clasificar las páginas web. Así, “crawler” es otra manera de llamar a los robots (lo cual es bastante irónico, ya que estas arañas no son nada lentas).

El crawling se hace de forma periódica para identificar contenidos actualizados, enlaces obsoletos, etc.

Indexar

“Index” significa “índice” en inglés. Cada vez que un Googlebot pasa por una página web, la indexa, es decir, la incluye en el índice. Y cada vez que realizas una búsqueda, el buscador va a la parte del índice donde se encuentra esta página y le otorga una posición, la cual depende de un algoritmo.

Algoritmo

Hacer una búsqueda es como preguntarle algo al buscador. No necesitas millones de respuestas,solo necesitas una o pocas que te den la información justa. Para eso existen los algoritmos, que determinan el posicionamiento de una página con respecto a una búsqueda específica.

Los más de 200 factores que tiene en cuenta el algoritmo para tomar esa decisión son secretos. Sin embargo hay técnicas de SEO que ayudan a mejorar el posicionamiento orgánico en los buscadores.

Pagerank

Es la calificación que Google le otorga a cada página web dependiendo de su relevancia y se realiza en una escala de 0 a 10. Para definir esta calificación, Google mide la cantidad, calidad y contexto de los clics que cada página recibe.

De manera que, si hay enlaces apuntando a tu página provenientes de otras páginas con un alto pagerank, esto le trasladará valor a tu página. Un alto pagerank influye en tu posicionamiento en los resultados de búsqueda.

Sitemap

Es el archivo XML que se aloja en el servidor de tu sitio web, y en el que le muestras a los motores de búsqueda las páginas de tu sitio. También sirve para proporcionar información a Google en forma de metadatos sobre los tipos de contenido incluidos en las páginas, cada cuanto se actualizan, su importancia con relación a otras url del sitio, etc.

Este documento facilita el rastreo de las páginas por parte de los Googlebots.

¿Cómo funciona Googlebot?

El proceso de crawling comienza por las direcciones web rastreadas en el pasado y los sitemaps que proveen los webmasters. A medida que estas pequeñas arañas robot pasan por los sitios, usan los links en ellos para descubrir otras páginas. De esta manera identifican sitios nuevos, cambios y enlaces obsoletos, y usan esta información para actualizar el índice de Google. Cada vez que Googlebot encuentra una página, analiza su contenido, la indexa y la incluye en su ruta para revisarla periódicamente. La frecuencia con la que este robot pasa por cada página depende de su pagerank (a mayor pagerank, más frecuencia). Además de páginas web (HTML), Googlebot puede indexar archivos PDF, XLS y DOC.

Existen dos versiones de Googlebot:

Freshbot

Es un tipo de araña robot que se especializa en encontrar contenido nuevo, por lo que visita asiduamente los sitios que se actualizan constantemente, como los de noticias.

Deepbot

Se encarga de analizar a profundidad cada página, siguiendo cada uno de sus enlaces, guardando en caché las páginas que encuentra y haciéndolas visibles para el buscador.

Ven, arañita, arañita…

Si te preguntas, “entonces, ¿cómo hago que Googlebot pase por mis páginas?”, aquí te dejo algunos tips para facilitarle el acceso:

  • Crea contenidos frescos y de alta calidad.
  • Actualiza constantemente.
  • Añade los links a tus redes sociales. Los bots encontrarán tus páginas a través de estos.
  • Haz linkbuilding.
  • Crea una estructura fluida que permita una fácil navegación por cada página de tu sitio.
  • Evita el uso de Flash y otras formas de programación no accesibles.
  • Crea un sitemap. Si tu sitio está hecho en WordPress solo debes instalar uno de los plugins para generarlo. Este debe registrarse en Google Webmaster Tools.
  • Añade tu web a marcadores sociales de calidad como Delicious, Digg o Stumbleupon.
  • Cuida la calidad técnica de tu sitio: velocidad de carga, diseño responsivo, etc.
  • Usa robots.txt. Este archivo sirve para bloquear la indexación de las URL que no te interesa indexar.

Para saber cuándo fue la última vez que el Googlebot pasó por tu página, solo accede a la versión en caché. En la parte superior verás la fecha y hora a la que pasó.

Una reflexión final

Conocer el funcionamiento de los buscadores y la función de Googlebot es importante para saber cómo posicionar mejor nuestro contenido. La clave más importante es pensar siempre en el usuario, brindándole facilidad y valor en todos los aspectos: desde los contenidos hasta la navegación 🙂