El estado actual del PageRank de Google y cómo evolucionó

PageRank (PR) es un algoritmo que mejora la calidad de los resultados de búsqueda mediante el uso de enlaces para medir la importancia de una página. Considera los enlaces como votos, con la suposición subyacente de que es probable que las páginas más importantes reciban más enlaces.

PageRank fue creado por los cofundadores de Google Sergey Brin y Larry Page en 1997 cuando estaban en la Universidad de Stanford, y el nombre es una referencia tanto a Larry Page como al término «página web».

En muchos sentidos, es similar a una métrica llamada «factor de impacto» para revistas, donde más citado = más importante. Difiere un poco en que PageRank considera algunos votos más importantes que otros.

Mediante el uso de enlaces junto con el contenido para clasificar las páginas, los resultados de Google fueron mejores que los de la competencia. Los enlaces se convirtieron en la moneda de la web.

¿Quieres saber más sobre el PageRank? Sumerjámonos.

Google todavía usa PageRank

En términos de SEO moderno, PageRank es uno de los algoritmos que comprende Experiencia Experiencia Autoridad Confiabilidad (EEAT).

Los algoritmos de Google identifican señales sobre las páginas que se correlacionan con la confiabilidad y la autoridad. La más conocida de estas señales es PageRank, que utiliza enlaces en la web para comprender la autoridad.

Fuente: Cómo Google combate la desinformación

También hemos recibido la confirmación de representantes de Google como Gary Illyesquien dijo que Google todavía usa PageRank y que los enlaces se usan para EAT (ahora EEAT).

Cuando realicé un estudio para medir el impacto de los enlaces y eliminé efectivamente los enlaces usando la herramienta de desautorización, la caída fue obvia. Los enlaces siguen siendo importantes para las clasificaciones.

Impacto en el tráfico cuando los enlaces son desautorizados

PageRank también ha sido un factor confirmado en lo que respecta al presupuesto de rastreo. Tiene sentido que Google quiera rastrear páginas importantes con más frecuencia.

Matemáticas divertidas, por qué la fórmula de PageRank estaba equivocada

Dato loco: la fórmula publicada en el artículo original de PageRank era incorrecta. Veamos por qué.

PageRank se describió en el documento original como una distribución de probabilidad, o la probabilidad de que usted esté en una página determinada de la web. Esto significa que si sumas el PageRank de cada página en la web, deberías obtener un total de 1.

Aquí está la fórmula completa de PageRank del artículo original publicado en 1997:

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Simplificado un poco y asumiendo que el factor de amortiguación (d) es 0.85 como lo mencionó Google en el documento (explicaré cuál es el factor de amortiguación en breve), es:

PageRank de una página = 0,15 + 0,85 (una parte del PageRank de cada página de enlace se divide en sus enlaces salientes)

En el documento, decían que la suma del PageRank de cada página debería ser igual a 1. Pero eso no es posible si usa la fórmula del documento. Cada página tendría un PageRank mínimo de 0,15 (1-d). Solo unas pocas páginas pondrían el total en más de 1. No puede tener una probabilidad mayor al 100%. ¡Algo está mal!

La fórmula en realidad debería dividir eso (1-d) por la cantidad de páginas en Internet para que funcione como se describe. Sería:

PageRank de una página = (0,15/número de páginas en Internet) + 0,85 (una parte del PageRank de cada página de enlace se divide en sus enlaces salientes)

Todavía es complicado, así que veamos si puedo explicarlo con algunas imágenes.

1. A una página se le otorga una puntuación de PageRank inicial basada en los enlaces que apuntan a ella. Digamos que tengo cinco páginas sin enlaces. Cada uno obtiene un PageRank de (1/5) o 0,2.

2. Esta puntuación luego se distribuye a otras páginas a través de los enlaces en la página. Si agrego algunos enlaces a las cinco páginas anteriores y calculo el nuevo PageRank para cada una, termino con esto:

Notarás que las puntuaciones están favoreciendo a las páginas con más enlaces a ellas.

3. Este cálculo se repite a medida que Google rastrea la web. Si vuelvo a calcular el PageRank (llamado iteración), verá que las puntuaciones cambian. Son las mismas páginas con los mismos enlaces, pero el PageRank base de cada página ha cambiado, por lo que el PageRank resultante es diferente.

La fórmula PageRank también tiene el llamado «factor de amortiguamiento», la «d» en la fórmula, que simula la probabilidad de que un usuario aleatorio continúe haciendo clic en los enlaces mientras navega por la web.

Piénselo de esta manera: la probabilidad de que haga clic en un enlace en la primera página que visite es razonablemente alta. Pero la probabilidad de que luego haga clic en un enlace en la página siguiente es ligeramente menor, y así sucesivamente.

Si una página sólida se vincula directamente a otra página, transmitirá mucho valor. Si el enlace está a cuatro clics de distancia, el valor transferido desde esa página sólida será mucho menor debido al factor de amortiguamiento.

La primera patente de PageRank se presentó el 9 de enero de 1998. Se tituló «Método para clasificar nodos en una base de datos vinculada». Esta patente venció el 9 de enero de 2018 y no fue renovada.

Google hizo público el PageRank por primera vez cuando se lanzó Google Directory el 15 de marzo de 2000. Esta era una versión del Open Directory Project pero ordenada por PageRank. El directorio se cerró el 25 de julio de 2011.

Fue el 11 de diciembre de 2000, cuando Google lanzó PageRank en la barra de herramientas de Google, que era la versión que obsesionaba a la mayoría de los SEO.

Así se veía cuando se incluyó PageRank en la barra de herramientas de Google.

PageRank en la barra de herramientas se actualizó por última vez el 6 de diciembre de 2013 y finalmente se eliminó el 7 de marzo de 2016.

El PageRank que se muestra en la barra de herramientas era un poco diferente. Usó un sistema de numeración simple del 0 al 10 para representar el PageRank. Pero PageRank en sí mismo es una escala logarítmica en la que lograr cada número más alto se vuelve cada vez más difícil.

PageRank incluso llegó a Google Sitemaps (ahora conocido como Google Search Console) el 17 de noviembre de 2005. Se mostró en categorías de alto, medio, bajo o N/A. Esta función se eliminó el 15 de octubre de 2009.

enlace no deseado

A lo largo de los años, ha habido muchas formas diferentes en que los SEO han abusado del sistema en la búsqueda de más PageRank y mejores clasificaciones. Google tiene una lista completa de esquemas de enlaces que incluyen:

  • Comprar o vender enlaces: intercambiar enlaces por dinero, bienes, productos o servicios.
  • Intercambios excesivos de enlaces.
  • Uso de software para crear enlaces automáticamente.
  • Requerir enlaces como parte de los términos de servicio, contrato u otro acuerdo.
  • Anuncios de texto que no usan atributos nofollow o patrocinados.
  • Publirreportajes o publicidad nativa que incluye enlaces que pasan el crédito de clasificación.
  • Artículos, publicaciones de invitados o blogs con enlaces de texto de anclaje optimizados.
  • Directorios de baja calidad o enlaces de marcadores sociales.
  • Vínculos ricos en palabras clave, ocultos o de baja calidad incrustados en widgets que se colocan en otros sitios web.
  • Enlaces ampliamente distribuidos en pies de página o plantillas. Por ejemplo, codificar un enlace a su sitio web en el tema WP que vende o regala de forma gratuita.
  • Comentarios del foro con enlaces optimizados en el post o firma.

Los sistemas para combatir el spam de enlaces han evolucionado a lo largo de los años. Veamos algunas de las principales actualizaciones.

No seguir

El 18 de enero de 2005, Google anunció que se había asociado con otros motores de búsqueda importantes para introducir el atributo rel=“nofollow”. Alentó a los usuarios a agregar el atributo nofollow a los comentarios del blog, trackbacks y listas de referencias para ayudar a combatir el spam.

Aquí hay un extracto de la declaración oficial de Google sobre la introducción de nofollow:

Si es un bloguero (o un lector de blogs), está terriblemente familiarizado con las personas que intentan mejorar la clasificación de sus propios sitios web en los motores de búsqueda al enviar comentarios de blog vinculados como «Visite mi sitio de productos farmacéuticos de descuento». Esto se llama spam de comentarios, tampoco nos gusta, y hemos estado probando una nueva etiqueta que lo bloquea. De ahora en adelante, cuando Google vea el atributo (rel=“nofollow”) en los hipervínculos, esos enlaces no recibirán ningún crédito cuando clasifiquemos los sitios web en nuestros resultados de búsqueda.

Casi todos los sistemas modernos usan el atributo nofollow en los enlaces de comentarios de blogs.

Los SEO incluso comenzaron a abusar de nofollow, porque, por supuesto, lo hicimos. Nofollow se usó para esculpir PageRank, donde las personas no seguirían algunos enlaces en sus páginas para fortalecer otros enlaces. Google finalmente cambió el sistema para evitar este abuso.

En 2009, Matt Cutts de Google confirmó que esto ya no funcionaría y que el PageRank se distribuiría a través de los enlaces incluso si estuviera presente un atributo de nofollow (pero solo pasaría a través del enlace seguido).

Google agregó un par de atributos de enlace más que son versiones más específicas del atributo nofollow el 10 de septiembre de 2019. Estos incluyeron rel=“ugc” destinado a identificar contenido generado por el usuario y rel=“patrocinado” destinado a identificar enlaces que fueron pagados o afiliado.

Algoritmos dirigidos al spam de enlaces

A medida que los SEO encontraron nuevas formas de jugar con los enlaces, Google trabajó en nuevos algoritmos para detectar este spam.

Cuando se lanzó el algoritmo Penguin original el 24 de abril de 2012, perjudicó a muchos sitios web y propietarios de sitios web. Google les dio a los propietarios de sitios una forma de recuperarse ese mismo año al presentar la herramienta de desautorización el 16 de octubre de 2012.

Cuando Penguin 4.0 se lanzó el 23 de septiembre de 2016, trajo un cambio bienvenido en la forma en que Google manejó el spam de enlaces. En lugar de dañar los sitios web, comenzó a devaluar los enlaces de spam. Esto también significó que la mayoría de los sitios ya no necesitaban usar la herramienta de desautorización.

Google lanzó su primera actualización de spam de enlaces el 26 de julio de 2021. Esto evolucionó recientemente y una actualización de spam de enlaces el 14 de diciembre de 2022 anunció el uso de un sistema de detección basado en inteligencia artificial llamado SpamBrain para neutralizar el valor de los enlaces no naturales.

La versión original de PageRank no se ha utilizado desde 2006, según un ex empleado de Google. El empleado dijo que fue reemplazado por otro algoritmo que requiere menos recursos.

Lo reemplazaron en 2006 con un algoritmo que brinda resultados aproximadamente similares pero es significativamente más rápido de calcular. El algoritmo de reemplazo es el número que se informó en la barra de herramientas y lo que Google afirma como PageRank (incluso tiene un nombre similar, por lo que la afirmación de Google no es técnicamente incorrecta). Ambos algoritmos son O(N log N) pero el reemplazo tiene una constante mucho más pequeña en el factor log N, porque elimina la necesidad de iterar hasta que el algoritmo converja. Eso es bastante importante ya que la web creció de ~1-10M páginas a 150B+.

¿Recuerdas esas iteraciones y cómo el PageRank siguió cambiando con cada iteración? Parece que Google simplificó ese sistema.

¿Qué más ha cambiado?

Algunos enlaces valen más que otros

En lugar de dividir el PageRank por igual entre todos los enlaces de una página, algunos enlaces se valoran más que otros. Existe la especulación de las patentes de que Google cambió de un modelo de navegador aleatorio (donde un usuario puede ir a cualquier enlace) a un modelo de navegador razonable (donde es más probable que se haga clic en algunos enlaces que en otros, por lo que tienen más peso).

Algunos enlaces son ignorados

Se han implementado varios sistemas para ignorar el valor de ciertos enlaces. Ya hemos hablado de algunos de ellos, entre ellos:

  • Nofollow, UGC y atributos patrocinados.
  • Algoritmo Penguin de Google.
  • La herramienta de desautorización.
  • Enlace actualizaciones de spam.

Google tampoco contará ningún enlace en páginas bloqueadas por robots.txt. No podrá rastrear estas páginas para ver ninguno de los enlaces. Es probable que este sistema estuviera en vigor desde el principio.

Algunos enlaces están consolidados

Google tiene un sistema de canonicalización que lo ayuda a determinar qué versión de una página debe indexarse ​​y a consolidar las señales de las páginas duplicadas en esa versión principal.

Los elementos de enlace canónico se introdujeron el 12 de febrero de 2009 y permiten a los usuarios especificar su versión preferida.

Originalmente, se decía que los redireccionamientos pasaban la misma cantidad de PageRank que un enlace. Pero en algún momento, este sistema cambió y actualmente no se pierde ningún PageRank.

Aún se desconoce un poco

Cuando las páginas están marcadas como noindex, no sabemos exactamente cómo Google trata los enlaces. Incluso los empleados de Google tienen declaraciones contradictorias.

Según John Mueller, las páginas marcadas como noindex eventualmente serán tratadas como noindex, nofollow. Esto significa que los enlaces eventualmente dejan de pasar cualquier valor.

Según Gary, Googlebot descubrirá y seguirá los enlaces siempre que una página todavía tenga enlaces a ella.

Estos no son necesariamente…



Versión en Inglés

Salir de la versión móvil