Mediante el fichero robots.txt de cualquier web publicada en Internet, podemos restringir dónde tienen acceso los robots que se encargar de rastrear las webs. Esto es útil para impedir que Google indexe mi web o para que aparezca en otros buscadores o directorios que no nos interesen.
Es algo sencillo que está implementado en millones de sitios. Pero ahora, con la llega de las nuevas Inteligencias Artificiales, surgen nuevos retos. La inteligencia de estos motores se basa en el tratamiento y entendimiento de todo el contenido de internet. Así que, si tienes una web expuesta a Internet, lo más probable es que haya sido utilizada para entrenar los modelos de las IAs.
Por cualquier razón, puede que no te interese que la información de tu web se utilice para estos fines, restándote visitas ya que las IAs como ChatGPT o Bing ya se encargan de ofrecer las respuestas sin necesidad de que el usuario haga una búsqueda más manual. Vamos a ver cómo bloquear que las inteligencias artificiales indexen tu web.
Con toda la cantidad de aplicaciones basadas en Inteligencia Artificial que están apareciendo, es complicado bloquear a todas, pero vamos a ver algunos de los principales agentes que podemos bloquear para que no se nutran de nuestro contenido.
Bloquear CCBot
No funciona con todos los modelos de entrenamiento, está configuración está basada en varios modelos LLM (Large Language Model) utilizando Common Crawl. Puede cambiar en el futuro, así que conviene revisarla de vez en cuando.
User-agent: CCBot
Disallow: /
Bloquear GPTBot
Este ejemplo está basado en OpenAI’s Web Crawler y no funciona en todos los modelos de entrenamiento, pero sí que nos protegeremos de los principales.
User-agent: GPTBot
Disallow: /
Bloquear ChatGPT-User
Este agente sólo es usado por los plugins de ChatGPT que acceden a Internet (live query), pero no es el agente usado para entrenar los modelos.
Debido al desarrollo constante de nuevos plugins, puede variar en el futuro o aparecer nuevos agentes.
User-agent: ChatGPT-User
Disallow: /