GPTBot de OpenAI
SEO

OpenAI da a conocer su GPTBot: ¿Bloquearlo o permitirle acceso a nuestra web?

OpenAI, la empresa creadora de ChatGPT, el más famoso y usado de los Large Language Models, ha dado a conocer GPTBot, su «araña» de rastreo que se encargará (o se encarga, ya desde hace días o meses), de explorar la web en busca de información para usar y entrenar las herramientas de Inteligencia Artificial de OpenAI.

¿Qué es GPTBot?

El rastreador web de OpenAI, también conocido como GPTBot, es una herramienta desarrollada por OpenAI con el objetivo de recopilar información de sitios web y proporcionar datos relevantes a los usuarios.

Este rastreador web utiliza una cadena de user-agent específica para identificarse cuando accede a las páginas, de forma que los servidores web puedan distinguirlo de otros bots o visitantes.

GPTBot fue creado con tecnología de inteligencia artificial y puede navegar por internet de manera autónoma. Su capacidad para analizar y comprender el contenido de las páginas web le permite extraer información relevante, como texto, imágenes y enlaces.

¿Cómo identificar a GPTBot?

Como ya lo indiqué, este bot rastreador se puede identificar, como todos los bots, por su user-agent y la cadena completa, que dejo aquí abajo. Esta información fue proveída por la misma OpenAI en el blog ya citado.

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Funcionamiento del GPTBot

OpenAI ha estado, desde el lanzamiento de ChatGPT, en el ojo del huracán debido a la manera en que ha obtenido toda la información necesaria para entrenar sus modelos de Inteligencia Artificial.

Tanto así, que sitios como Reddit y Twitter (ahora X), tuvieron que establecer límites a la cantidad de publicaciones que un usuario podía ver en determinado periodo de tiempo, con el fin de detener los rastreadores de IA, que se alimentaban de esa información y usarla para entrenar los famosos LLM’s (Large Language Models).

De igual manera, se han dado casos de personas que han acusado a OpenAI y a otras empresas de Inteligencia Artificial, de usar sus contenidos (texto, imágenes, audio, video, etc.), para generar nuevos contenidos. ¿El problema? La herramienta no da créditos y las empresas no compensan a los creadores originales.

Refinamiento del funcionamiento de GPTBot

Durante las semanas y meses anteriores a la fecha en que escribo este texto (mediados de agosto de 2023), era común que los rastreadores de OpenAI escanearan las webs sin restricción alguna.

Es decir, podían ignorar los famosos paywalls y acceder a contenido restringido, así como a información personal y confidencial, y presentarlo en las respuestas de ChatGPT.

Con el lanzamiento de GPTBot, este tipo de problemas serán, de acuerdo a OpenAI, cosa del pasado. Pues aunque el bot seguirá teniendo acceso a esa información, ahora podrá identificarla y organizarla correctamente, para no hacer uso de ella en sus herramientas de IA.

¿Qué pasa si permites a GPTBot que rastree tu sitio?

De acuerdo al mismo OpenAI, permitir que GPTBot rastree tu sitio, ayudará a las herramientas de Inteligencia Artificial a mejorar y ser más exactas. Nada más. Ni crédito ni nada.

¿Cómo evitar que GPTBot rastree tu sitio?

De manera sencilla y como lo harías con cualquier otro rastreador (cuyo nombre conozcas). Sólo tienes que añadir el nombre del bot y la directiva para no permitir el rastreo, en tu archivo Robots.txt. Quedaría de la siguiente manera:

User-agent: GPTBot
Disallow: /

Personalizar el acceso de GPTBot a tu sitio

Si decides que quieres permitirle el acceso, sólo tendrás que colocar lo siguiente en tus Robots.txt:

User-agent: GPTBot
Allow: /

También puedes querer permitirle el acceso sólo a ciertas zonas de tu web, pero a otras no, para lo cual tendrías que hacerlo de la manera siguiente:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Yo bloquearé el GPTBot… ¿Y tú?

En lo personal, no veo beneficio alguno en permitir que el bot de OpenAI rastree mi sitio personal, los de mis proyectos ni los de mis clientes.

Algunos de estos últimos tienen en sus sitios web información que, si bien no es confidencial ni sensible, sí es valiosa para cierto tipo de usuarios.

Por lo anterior, planeo bloquear el acceso de GPTBot de los sitios de mis proyectos, y recomendaré a mis clientes hacer lo propio en sus sitios web.

Además de ello, seguramente el rastreo consume recursos de disco en los servidores que alojan las páginas web… Así que no, gracias pero no, GPTBot.

Preguntas frecuentes sobre GPTBot

¿Qué es GPTBot?

El rastreador web de OpenAI, también conocido como GPTBot, es una herramienta desarrollada para recopilar información de sitios web y proporcionar datos relevantes a los usuarios utilizando inteligencia artificial.

¿Cómo se identifica GPTBot en los sitios web?

GPTBot se puede identificar por su user-agent, que es “GPTBot”, y su cadena completa. Esto permite a los servidores web distinguirlo de otros bots o visitantes.

¿Cómo ha evolucionado el funcionamiento del GPTBot para abordar problemas de acceso a contenido restringido?

Anteriormente, los rastreadores de OpenAI podían acceder a contenido restringido sin limitaciones. Con el lanzamiento de GPTBot, la herramienta ha sido refinada para identificar y organizar adecuadamente la información, evitando utilizar contenido restringido en sus herramientas de IA.

¿Cómo puedo permitir o bloquear el acceso de GPTBot a mi sitio web?

Para bloquear el acceso: Agrega las siguientes líneas en tu archivo “robots.txt”:
User-agent: GPTBot Disallow: /
Para permitir el acceso: Agrega las siguientes líneas en tu archivo “robots.txt”:
User-agent: GPTBot Allow: /
También puedes personalizar el acceso permitiendo solo a ciertas zonas de tu sitio mientras restringes otras.


Si te interesó esta entrada, te invito a leer más sobre SEO, Inteligencia Artificial y tecnología en mi blog. De igual manera, te comparto algunos textos que podrían gustarte:

Historiador, fotógrafo y analista SEO. Escribo también sobre videojuegos y me considero un divulgador del turismo y la cultura de Teziutlán (Puebla).

Deja un comentario