Googlebot es el rastreador web utilizado por Google para recopilar la información necesaria y crear un índice de búsqueda de la web. Googlebot tiene rastreadores móviles y de escritorio, así como rastreadores especializados para noticias, imágenes y videos.
Hay más rastreadores que usa Google para tareas específicas, y cada rastreador se identificará con una cadena de texto diferente llamada «agente de usuario». Googlebot es perenne, lo que significa que ve los sitios web como lo harían los usuarios en el navegador Chrome más reciente.
Googlebot se ejecuta en miles de máquinas. Determinan qué tan rápido y qué rastrear en los sitios web. Pero ralentizarán su rastreo para no abrumar a los sitios web.
Veamos su proceso para construir un índice de la web.
Cómo Googlebot rastrea e indexa la web
Google ha compartido algunas versiones de su tubería en el pasado. El siguiente es el más reciente.
Google comienza con una lista de URL que recopila de varias fuentes, como páginas, mapas de sitios, fuentes RSS y URL enviadas en Google Search Console o la API de indexación. Prioriza lo que quiere rastrear, obtiene las páginas y almacena copias de las páginas.
Estas páginas se procesan para encontrar más enlaces, incluidos enlaces a cosas como solicitudes de API, JavaScript y CSS que Google necesita para mostrar una página. Todas estas solicitudes adicionales se rastrean y almacenan en caché (almacenadas). Google utiliza un servicio de representación que utiliza estos recursos almacenados en caché para ver páginas de forma similar a como lo haría un usuario.
Procesa esto nuevamente y busca cualquier cambio en la página o nuevos enlaces. El contenido de las páginas representadas es lo que se almacena y se puede buscar en el índice de Google. Todos los enlaces nuevos encontrados vuelven al depósito de URL para que se rastreen.
Tenemos más detalles sobre este proceso en nuestro artículo sobre cómo funcionan los motores de búsqueda.
Cómo controlar el robot de Google
Google le brinda algunas formas de controlar lo que se rastrea e indexa.
Maneras de controlar el rastreo
Maneras de controlar la indexación
- Eliminar tu contenido – Si elimina una página, entonces no hay nada que indexar. La desventaja de esto es que nadie más puede acceder a él tampoco.
- Restringir el acceso al contenido – Google no inicia sesión en los sitios web, por lo que cualquier tipo de autenticación o protección con contraseña evitará que vea el contenido.
- Sin índice – Un noindex en la etiqueta de meta robots le dice a los motores de búsqueda que no indexen su página.
- Herramienta de eliminación de URL – El nombre de esta herramienta de Google es un poco engañoso, ya que la forma en que funciona oculta temporalmente el contenido. Google seguirá viendo y rastreando este contenido, pero las páginas no aparecerán en los resultados de búsqueda.
- Robots.txt (Solo imágenes) – Bloquear el rastreo de Googlebot Image significa que sus imágenes no se indexarán.
Si no está seguro de qué control de indexación debe usar, consulte nuestro diagrama de flujo en nuestra publicación sobre la eliminación de URL de la búsqueda de Google.
¿Es realmente Googlebot?
Muchas herramientas de SEO y algunos bots maliciosos pretenderán ser Googlebot. Esto puede permitirles acceder a sitios web que intentan bloquearlos.
En el pasado, necesitaba ejecutar una búsqueda de DNS para verificar Googlebot. Pero recientemente, Google lo hizo aún más fácil y proporcionó una lista de direcciones IP públicas que puede usar para verificar que las solicitudes provienen de Google. Puede comparar esto con los datos en los registros de su servidor.
También tiene acceso a un informe de «Estadísticas de rastreo» en Google Search Console. Si vas a Ajustes > Estadísticas de rastreo, el informe contiene mucha información sobre cómo Google rastrea su sitio web. Puede ver qué robot de Google está rastreando qué archivos y cuándo accedió a ellos.
Pensamientos finales
La web es un lugar grande y desordenado. Googlebot tiene que navegar por todas las diferentes configuraciones, junto con los tiempos de inactividad y las restricciones, para recopilar los datos que Google necesita para que funcione su motor de búsqueda.
Un dato divertido para concluir es que Googlebot generalmente se representa como un robot y se lo conoce como «Googlebot». También hay una mascota araña que se llama «Crawley».
¿Todavía tienes preguntas? Hágamelo saber en Twitter.