La predicción de calidad en Google Search
SEO

La predicción de calidad y su importancia en el rastreo de dominios y páginas web

Esta semana, el equipo de Google lanzó un nuevo episodio de su podcast Search Off the Record, en el que tocaron diversos temas, entre ellos, la predicción de calidad en Google Search, y su importancia en el rastreo de dominios y páginas web.

Me sorprendió mucho escuchar a Gary Illyes hablar de algo llamado Crawl Scheduler, que se traduciría a algo como “Programador de rastreo”, y de su funcionamiento para “predecir” la calidad de una página web, y, con ello, decidir si una página será rastreada e, incluso, indexada.

El beneficio de la duda de Googlebot a los sitios web

Todo comienza con una pregunta del conocidísimo (al menos en el mundo SEO) John Mueller: ¿Qué rol desempeña la calidad de una página en el rastreo de la misma?

A esta interrogante, Gary responde que, si por ejemplo, se trata de un sitio nuevo que solo cuenta con la página principal o homepage, Googlebot usualmente le dará el beneficio de la duda

Deja en claro, además, que este tipo de páginas por lo general reciben esta clase de atención, ya que al no contar con demasiada información al respecto, se rastrea sin ningún tipo de prejuicio, tendencia o parcialidad.

El Crawl Scheduler y la predicción de calidad

Aquí es donde comienza lo bueno, Gary continúa con el ejemplo de este sitio nuevo, y añade que, si por ejemplo, este sitio añade una nueva página y Googlebot la descubre, ya sea por rastreo o mediante Sitemap, entonces da inicio un proceso interesante.

Lo que pasa, es que al descubrirse esta nueva página, lo que hace el algoritmo de Google, es regresar a la homepage, revisarla y, entonces, se lleva a cabo una predicción sobre la calidad de la nueva página.

Si la predicción resulta positiva, entonces la decisión del algoritmo se inclinará por rastrear y, posiblemente, indexar la nueva página. De lo contrario, no valdría la pena gastar recursos en rastrear una página que podría no valer la pena.

Aquí hay que recordar que existe algo llamado Crawl Budget, y que se refiere al presupuesto que Google asigna al rastrea de cada uno de los dominios existentes en la web. Así, habrá sitios que tengan asignados un presupuesto algo, gracias a su autoridad y reconocimiento, y habrá otros a los que se les asigne un presupuesto pequeño, en relación directa a su importancia.

Este es el trabajo del Crawl Scheduler, que trata de hacer predicciones sobre qué rastrear (y cuando) de todos los sitios existentes en Internet, y que, además, hace predicciones basándose en la calidad específica de las páginas de un dominio dado.

Predicción de calidad para el rastreo de páginas web.

Calidad y otros factores que afectan el rastreo y la indexación

Además de lo anterior, el Crawl Scheduler tiene la tarea de priorizar el orden en el que deberá de rastrear un determinado número de URLs.

Gary nuevamente pone un ejemplo bastante ilustrativo, y comenta que, si sabemos que debemos de rastrear 1,000 URLs de un sitio dado, entonces trataremos de crear una lista ordenada para efectuar dicho rastreo. Y el orden será la prioridad, o importancia, de las URLs, basada en la predicción de calidad hecha por el algoritmo.

De esta manera, las URLs que se encuentren en la parte superior de la lista, serán aquellas que sean las más importantes (las de mayor calidad) de ese sitio o dominio. Y conforme se vaya descendiendo en dicha lista, las URLs tendrán menor importancia. Todo esto, claro, basados en la predicción de calidad hecha por el algoritmo.

Luego entonces ¿Cuáles serían las URLs de menor importancia? Pues aquellas que no cambien frecuentemente (como las páginas legales), que tengan poco contenido o, simplemente, que sean de menor calidad.

La predicción de calidad por encima de todo

Para terminar, Gary Illyes menciona que a pesar de que hay varios indicadores que ayudan al algoritmo a definir si hará un rastreo y, posteriormente, una indexación, el criterio más importante y el que está por encima de todo es… Sí, adivinaste: la calidad del contenido.

Por ello, es importante, al menos para los criterios de rastreo e indexación de Google, contar con contenido de calidad, con el fin de aumentar las posibilidades de que nuestros sitios sean rastreados e indexados… Y bueno, ya ni hablemos de rankear alto en la SERP (Search Engine Results Page) de Google, que es un tema muy distinto, aunque relacionado.

Conclusión

He de confesar que este tema de la predicción de la calidad era algo que, aunque intuía, realmente desconocía hasta el día de hoy.

No obstante, tiene todo el sentido del mundo, especialmente cuando sabemos que existe un Crawl Budget, y que este presupuesto no es infinito y que debe repartirse entre los billones de dominios que existen en toda la Internet (¿o el Internet?).

De esta manera, los sistemas de Google se aseguran de hacer eficientes los procesos de rastreo, al ahorrar no solo tiempo, sino también dinero (¿o pensabas que no costaba dinero el rastreo de la web?).

Finalmente, también nos da a los profesionales del SEO, así como a los generadores de contenido, pautas más claras que seguir para aumentar las posibilidades de que nuestro contenido sea rastreado e indexado y, con ello, tener mejores oportunidades de aparecer en buenas posiciones en la SERP.

—-

¿Quieres revisar esta información de primera mano porque temes que mi interpretación sea errónea, esté tergiversada o por simple desconfianza? Consulta The effect of quality on Search.

Para más temas y textos sobre SEO, asegúrate de darte un vuelta por la sección SEO de mi blog.

De igual manera, puedes echarme un tuit “post” en X visitando mi perfil.

Preguntas frecuentes sobre La predicción de calidad y el rastreo de páginas web

¿Qué es el Crawl Scheduler y cómo afecta a la predicción de calidad en Google Search?

El Crawl Scheduler es un sistema de Google encargado de programar el rastreo de páginas web. Afecta la predicción de calidad al evaluar y predecir la calidad de nuevas páginas web descubiertas. Si la predicción es positiva, Googlebot rastreará e indexará la página; de lo contrario, se ahorrarán recursos evitando rastrear páginas de baja calidad.

¿Qué factores determinan la prioridad de rastreo de URLs por parte del Crawl Scheduler?

El Crawl Scheduler prioriza el rastreo de URLs basándose en la predicción de calidad hecha por el algoritmo. Las URLs más importantes y de mayor calidad se encuentran en la parte superior de la lista, mientras que las de menor importancia incluyen páginas estáticas, con poco contenido o baja calidad.

¿Cuál es el factor más importante para el rastreo e indexación de Google, según Gary Illyes?

El factor más importante para el rastreo e indexación en Google es la calidad del contenido. Aunque existen otros indicadores, la calidad del contenido es primordial para aumentar las posibilidades de que una página web sea rastreada e indexada en el motor de búsqueda, y posteriormente pueda tener un buen posicionamiento en la SERP de Google.

Historiador, fotógrafo y analista SEO. Escribo también sobre videojuegos y me considero un divulgador del turismo y la cultura de Teziutlán (Puebla).

Deja un comentario