¿Qué es Googlebot y cómo funciona?

Googlebot es el rastreador web utilizado por Google para recopilar la información necesaria y crear un índice de búsqueda de la web. Googlebot tiene rastreadores móviles y de escritorio, así como rastreadores especializados para noticias, imágenes y videos.

Hay más rastreadores que usa Google para tareas específicas, y cada rastreador se identificará con una cadena de texto diferente llamada «agente de usuario». Googlebot es perenne, lo que significa que ve los sitios web como lo harían los usuarios en el navegador Chrome más reciente.

Googlebot se ejecuta en miles de máquinas. Determinan qué tan rápido y qué rastrear en los sitios web. Pero ralentizarán su rastreo para no abrumar a los sitios web.

Veamos su proceso para construir un índice de la web.

Cómo Googlebot rastrea e indexa la web

Google ha compartido algunas versiones de su tubería en el pasado. El siguiente es el más reciente.

Diagrama de flujo que muestra cómo Google construye su índice de búsqueda

Google comienza con una lista de URL que recopila de varias fuentes, como páginas, mapas de sitios, fuentes RSS y URL enviadas en Google Search Console o la API de indexación. Prioriza lo que quiere rastrear, obtiene las páginas y almacena copias de las páginas.

Estas páginas se procesan para encontrar más enlaces, incluidos enlaces a cosas como solicitudes de API, JavaScript y CSS que Google necesita para mostrar una página. Todas estas solicitudes adicionales se rastrean y almacenan en caché (almacenadas). Google utiliza un servicio de representación que utiliza estos recursos almacenados en caché para ver páginas de forma similar a como lo haría un usuario.

Procesa esto nuevamente y busca cualquier cambio en la página o nuevos enlaces. El contenido de las páginas representadas es lo que se almacena y se puede buscar en el índice de Google. Todos los enlaces nuevos encontrados vuelven al depósito de URL para que se rastreen.

Tenemos más detalles sobre este proceso en nuestro artículo sobre cómo funcionan los motores de búsqueda.

Cómo controlar el robot de Google

Google le brinda algunas formas de controlar lo que se rastrea e indexa.

Maneras de controlar el rastreo

Maneras de controlar la indexación

Eliminar tu contenido – Si elimina una página, entonces no hay nada que indexar. La desventaja de esto es que nadie más puede acceder a él tampoco.
Restringir el acceso al contenido – Google no inicia sesión en los sitios web, por lo que cualquier tipo de autenticación o protección con contraseña evitará que vea el contenido.
Sin índice – Un noindex en la etiqueta de meta robots le dice a los motores de búsqueda que no indexen su página.
Herramienta de eliminación de URL – El nombre de esta herramienta de Google es un poco engañoso, ya que la forma en que funciona oculta temporalmente el contenido. Google seguirá viendo y rastreando este contenido, pero las páginas no aparecerán en los resultados de búsqueda.
Robots.txt (Solo imágenes) – Bloquear el rastreo de Googlebot Image significa que sus imágenes no se indexarán.

Si no está seguro de qué control de indexación debe usar, consulte nuestro diagrama de flujo en nuestra publicación sobre la eliminación de URL de la búsqueda de Google.

¿Es realmente Googlebot?

Muchas herramientas de SEO y algunos bots maliciosos pretenderán ser Googlebot. Esto puede permitirles acceder a sitios web que intentan bloquearlos.

En el pasado, necesitaba ejecutar una búsqueda de DNS para verificar Googlebot. Pero recientemente, Google lo hizo aún más fácil y proporcionó una lista de direcciones IP públicas que puede usar para verificar que las solicitudes provienen de Google. Puede comparar esto con los datos en los registros de su servidor.

También tiene acceso a un informe de «Estadísticas de rastreo» en Google Search Console. Si vas a Ajustes > Estadísticas de rastreo, el informe contiene mucha información sobre cómo Google rastrea su sitio web. Puede ver qué robot de Google está rastreando qué archivos y cuándo accedió a ellos.

Gráfico de líneas que muestra las estadísticas de rastreo. El resumen de los datos clave está arriba

Pensamientos finales

La web es un lugar grande y desordenado. Googlebot tiene que navegar por todas las diferentes configuraciones, junto con los tiempos de inactividad y las restricciones, para recopilar los datos que Google necesita para que funcione su motor de búsqueda.

Un dato divertido para concluir es que Googlebot generalmente se representa como un robot y se lo conoce como «Googlebot». También hay una mascota araña que se llama «Crawley».

¿Todavía tienes preguntas? Hágamelo saber en Twitter.

Versión en Inglés

¿Qué es Googlebot y cómo funciona?

Esteban Prieto

Related Posts

Nadie ha pedido una X TV. Elon Musk se ha empeñado en lanzarla igualmente

Lo que los especialistas en marketing deben saber sobre la prohibición de TikTok

Crear experiencias excepcionales para los clientes con IA y agilidad: una guía de cinco pasos

Google aplaza la eliminación de las cookies de terceros (otra vez) por falta de tiempo

HubSpot lanza un nuevo Content Hub impulsado por genAI

Premium Content

Nuevas imágenes de ‘Furiosa’: todos los caminos conducen a Anya Taylor-Joy

Mientras los miedos se apoderan de Afganistán, cientos de miles huyen

Fósil de 240 millones de años de una criatura parecida a una salamandra con ‘dientes retorcidos’ desenterrado en las rocas para la pared del jardín

Red de Noticias

Es De Latino News

Acerca de EDL

Welcome Back!

Retrieve your password

¿Qué es Googlebot y cómo funciona?

Cómo Googlebot rastrea e indexa la web

Cómo controlar el robot de Google

Maneras de controlar el rastreo

Maneras de controlar la indexación

¿Es realmente Googlebot?

Pensamientos finales

Related Posts

Premium Content

Browse by Tags

Red de Noticias

Es De Latino News

Acerca de EDL

Welcome Back!

Retrieve your password