El archivo robots.txt ayuda a los principales motores de búsqueda a comprender dónde pueden acceder en su sitio web.
Pero, si bien los principales motores de búsqueda admiten el archivo robots.txt, es posible que no todos se adhieran a las reglas de la misma manera.
A continuación, analicemos qué es un archivo robots.txt y cómo puede usarlo.
¿Qué es un archivo robots.txt?
Todos los días, hay visitas a su sitio web de bots, también conocidos como robots o arañas. Los motores de búsqueda como Google, Yahoo y Bing envían estos bots a su sitio para que su contenido se pueda rastrear e indexar y aparecer en los resultados de búsqueda.
Los bots son algo bueno, pero hay algunos casos en los que no desea que el bot corra por su sitio web rastreando e indexando todo. Ahí es donde entra el archivo robots.txt.
Al agregar ciertas directivas a un archivo robots.txt, está indicando a los bots que rastreen solo las páginas que desea rastrear.
Sin embargo, es importante comprender que no todos los bots se adhieren a las reglas que usted escribe en su archivo robots.txt. Google, por ejemplo, no escuchará ninguna directiva que coloque en el archivo sobre la frecuencia de rastreo.
¿Necesita un archivo robots.txt?
No, no se requiere un archivo robots.txt para un sitio web.
Si un bot llega a su sitio web y no tiene uno, simplemente rastreará su sitio web y las páginas de índice como lo haría normalmente.
Un archivo robot.txt solo es necesario si desea tener más control sobre lo que se está rastreando.
Algunos beneficios de tener uno incluyen:
- Ayude a administrar las sobrecargas del servidor
- Evite el desperdicio de rastreo por parte de los bots que visitan páginas que no desea que visiten
- Mantener ciertas carpetas o subdominios privados
¿Puede un archivo robots.txt evitar la indexación de contenido?
No, no puede evitar que el contenido se indexe y se muestre en los resultados de búsqueda con un archivo robots.txt.
No todos los robots seguirán las instrucciones de la misma manera, por lo que algunos pueden indexar el contenido que configuró para que no se rastree o indexe.
Además, si el contenido que está tratando de evitar que se muestre en los resultados de búsqueda tiene enlaces externos, eso también hará que los motores de búsqueda lo indexen.
La única forma de asegurarse de que su contenido no esté indexado es agregar una metaetiqueta noindex a la página. Esta línea de código se ve así e irá en el html de su página.
Es importante tener en cuenta que si desea que los motores de búsqueda no indexen una página, deberá permitir que la página se rastree en robots.txt.
¿Dónde se encuentra el archivo robots.txt?
El archivo robots.txt siempre se ubicará en el dominio raíz de un sitio web. Como ejemplo, puede encontrar nuestro propio archivo en https://www.hubspot.com/robots.txt.
En la mayoría de los sitios web, debería poder acceder al archivo real para poder editarlo en un FTP o accediendo al Administrador de archivos en el CPanel de su host.
En algunas plataformas CMS puede encontrar el archivo directamente en su área administrativa. HubSpot, por ejemplo, facilita la personalización de su archivo robots.txt desde su cuenta.
Si está en WordPress, se puede acceder al archivo robots.txt en la carpeta public_html de su sitio web.
WordPress incluye un archivo robots.txt por defecto con una nueva instalación que incluirá lo siguiente:
Agente de usuario: *
No permitir: / wp-admin /
No permitir: / wp-includes /
Lo anterior les dice a todos los bots que rastreen todas las partes del sitio web excepto cualquier cosa que se encuentre debajo de los directorios / wp-admin / o / wp-includes /.
Pero es posible que desee crear un archivo más sólido. Vamos a mostrarte cómo, a continuación.
Usos de un archivo Robots.txt
Puede haber muchas razones por las que desea personalizar su archivo robots.txt, desde controlar el presupuesto de rastreo hasta bloquear secciones de un sitio web para que no se rastreen e indexen. Exploremos algunas razones para usar un archivo robots.txt ahora.
1. Bloquear todos los rastreadores
Bloquear a todos los rastreadores para que no accedan a su sitio no es algo que le gustaría hacer en un sitio web activo, pero es una excelente opción para un sitio web de desarrollo. Cuando bloquee los rastreadores, evitará que sus páginas se muestren en los motores de búsqueda, lo cual es bueno si sus páginas aún no están listas para su visualización.
2. No permitir que se rastreen determinadas páginas
Una de las formas más comunes y útiles de usar su archivo robots.txt es limitar el acceso de los bots del motor de búsqueda a partes de su sitio web. Esto puede ayudarlo a maximizar su presupuesto de rastreo y evitar que las páginas no deseadas terminen en los resultados de búsqueda.
Es importante tener en cuenta que el hecho de que le haya dicho a un bot que no rastree una página no significa que no se indexará.. Si no desea que aparezca una página en los resultados de búsqueda, debe agregar una metaetiqueta noindex a la página.
Ejemplos de directivas de archivo Robots.txt
El archivo robots.txt se compone de bloques de líneas de directivas. Cada directiva comenzará con un agente de usuario, y luego las reglas para ese agente de usuario se colocarán debajo.
Cuando un motor de búsqueda específico aterriza en su sitio web, buscará el agente de usuario que le corresponda y leerá el bloque que se refiere a él.
Hay varias directivas que puede utilizar en su archivo. Analicemos esos ahora.
1. Usuario-Agente
El comando de agente de usuario le permite apuntar a ciertos bots o arañas para dirigir. Por ejemplo, si solo desea apuntar a Bing o Google, esta es la directiva que usaría.
Si bien hay cientos de agentes de usuario, a continuación se muestran ejemplos de algunas de las opciones de agente de usuario más comunes.
Usuario-agente: Googlebot
Usuario-agente: Googlebot-Image
Usuario-agente: Googlebot-Mobile
Usuario-agente: Googlebot-News
Usuario-agente: Bingbot
Usuario-agente: Baiduspider
Agente de usuario: msnbot
Usuario-agente: slurp (Yahoo)
Agente de usuario: Yandex
Es importante tener en cuenta que los agentes de usuario distinguen entre mayúsculas y minúsculas, así que asegúrese de ingresarlos correctamente.
Agente de usuario comodín
El agente de usuario comodín se indica con un
asterisco y le permite aplicar fácilmente una directiva a todos los agentes de usuario que existen. Entonces, si desea que se aplique una regla específica a cada bot, puede usar este agente de usuario.
Agente de usuario: *
Los agentes de usuario solo seguirán las reglas que más se les apliquen.
2. No permitir
La directiva de rechazo le dice a los motores de búsqueda que no rastreen o accedan a ciertas páginas o directorios en un sitio web.
A continuación, se muestran varios ejemplos de cómo puede utilizar la directiva disallow.
Bloquear el acceso a una carpeta específica
En este ejemplo, les estamos diciendo a todos los bots que no rastreen nada en el directorio / portfolio de nuestro sitio web.
Agente de usuario: *
No permitir: / portfolio
Si solo queremos que Bing no rastree ese directorio, lo agregaríamos así, en su lugar:
Usuario-agente: Bingbot
No permitir: / portfolio
Bloquear PDF u otros tipos de archivos
Si no desea que su PDF u otros tipos de archivos sean rastreados, entonces la siguiente directiva debería ayudar. Les estamos diciendo a todos los bots que no queremos que se rastreen archivos PDF. El $ al final le dice al motor de búsqueda que es el final de la URL. Entonces, si tengo un archivo pdf enmywebsite.com/site/myimportantinfo.pdf ,
los motores de búsqueda no accederán a él.
Agente de usuario: *
No permitir: * .pdf $
Para archivos de PowerPoint, puede usar:
Agente de usuario: *
No permitir: * .ppt $
Una mejor opción podría ser crear una carpeta para su PDF u otros archivos y luego no permitir que los rastreadores lo rastreen y no indexar todo el directorio con una metaetiqueta.
Bloquear el acceso a todo el sitio web
Particularmente útil si tiene un sitio web de desarrollo o carpetas de prueba, esta directiva le dice a todos los bots que no rastreen su sitio en absoluto. Es importante recordar eliminar esto cuando establezca su sitio en vivo, o tendrá problemas de indexación.
Agente de usuario: *
El * (asterisco) que ve arriba es lo que llamamos una expresión «comodín». Cuando usamos un asterisco, estamos dando a entender que las reglas siguientes deben aplicarse a todos los agentes de usuario.
3. Permitir La directiva allow puede ayudarlo a especificar ciertas páginas o directorios que hacer
quieren que los bots accedan y rastreen. Esta puede ser una regla de anulación de la opción de no permitir, que se ve arriba.
En el siguiente ejemplo, le decimos al robot de Google que no queremos que se rastree el directorio de la cartera, pero sí queremos que se acceda y se rastree un elemento específico de la cartera:
Usuario-agente: Googlebot
No permitir: / portfolio
Permitir: / portfolio / crawlableportfolio
4. Mapa del sitio
Incluir la ubicación de su mapa del sitio en su archivo puede facilitar que los rastreadores de los motores de búsqueda rastreen su mapa del sitio.
Si envía sus mapas del sitio directamente a las herramientas para webmasters de cada motor de búsqueda, no es necesario agregarlos a su archivo robots.txt. mapa del sitio:
https://yourwebsite.com/sitemap.xml
5. Retraso de rastreo
La demora en el rastreo puede indicarle a un bot que disminuya la velocidad al rastrear su sitio web para que su servidor no se abrume. El siguiente ejemplo de directiva le pide a Yandex que espere 10 segundos después de cada acción de rastreo que realiza en el sitio web.
Agente de usuario: Yandex
Retraso de rastreo: 10
Esta es una directiva con la que debe tener cuidado. En un sitio web muy grande, puede minimizar en gran medida la cantidad de URL rastreadas cada día, lo que sería contraproducente. Sin embargo, esto puede ser útil en sitios web más pequeños, donde los bots visitan demasiado. Nota: el retraso de rastreo esno es compatible con Google o Baidu . Si desea pedirles a sus rastreadores que ralenticen el rastreo de su sitio web, deberá hacerlo.a través de sus herramientas
.
¿Qué son las expresiones regulares y los comodines?
La coincidencia de patrones es una forma más avanzada de controlar la forma en que un bot rastrea su sitio web con el uso de caracteres.
Hay dos expresiones que son comunes y son utilizadas tanto por Bing como por Google. Estas directivas pueden resultar especialmente útiles en sitios web de comercio electrónico. Asterisco:
* se trata como un comodín y puede representar cualquier secuencia de caracteres Signo de dólar:
$ se usa para designar el final de una URL
Un buen ejemplo del uso del comodín * es el escenario en el que desea evitar que los motores de búsqueda rastreen páginas que puedan tener un signo de interrogación. El siguiente código le dice a todos los bots que ignoren el rastreo de cualquier URL que tenga un signo de interrogación.
Agente de usuario: *
No permitir: / *?
Cómo crear o editar un archivo Robots.txt
- Si no tiene un archivo robots.txt existente en su servidor, puede agregar uno fácilmente con los pasos a continuación.
- Abra su editor de texto preferido para iniciar un nuevo documento. Los editores comunes que pueden existir en su computadora son el Bloc de notas, TextEdit o Microsoft Word.
- Agregue las directivas que le gustaría incluir en el documento.
- Guarde el archivo con el nombre de «robots.txt»
- Pruebe su archivo como se muestra en la siguiente sección
Sube tu archivo .txt a tu servidor con un FTP o en tu CPanel. Cómo lo cargue dependerá del tipo de sitio web que tenga.
En WordPress puede usar complementos como Yoast, All In One SEO, Rank Math para generar y editar su archivo.
También puede usar una herramienta generadora de robots.txt para ayudarlo a preparar una que podría ayudar a minimizar los errores.
Cómo probar un archivo Robots.txt
Antes de publicar el código del archivo robots.txt que creó, querrá ejecutarlo a través de un probador para asegurarse de que sea válido. Esto ayudará a evitar problemas con directivas incorrectas que puedan haberse agregado.
La herramienta de prueba de robots.txt solo está disponible en la versión anterior de Google Search Console. Si su sitio web no está conectado a Google Search Console, deberá hacerlo primero.
Visite la página de asistencia de Google y luego haga clic en el botón «abrir probador de robots.txt». Seleccione la propiedad que le gustaría probar y luego lo llevará a una pantalla, como la que se muestra a continuación.
el probador de robots.txt en el servicio de asistencia de Google
Paquete de inicio de SEO