¿Están los chatbots de IA raspando contenido? ¡Parece que sí!

Desde el auge de los chatbots de IA, los he estado utilizando regularmente para mis tareas diarias, como escribir, investigar y a veces incluso para charlas informales. Pero últimamente, he notado algo extraño. Muchas herramientas de IA, como ChatGPT o Gemini, etc., parecen saber cosas que nunca fueron anunciadas públicamente o citadas adecuadamente. Comencé a preguntarme: ¿están realmente aprendiendo estos chatbots de los datos, o simplemente están raspando contenido de internet y reformulándolo?

Cuanto más los usaba, más sentía que estaba hablando con un sistema que había absorbido enormes cantidades de texto en línea, como blogs, artículos de noticias y tal vez incluso publicaciones personales, sin un crédito o permiso claro. Todo me impactó cuando un chatbot generó un párrafo que sonaba exactamente como algo que había escrito en mi propio blog hace años. ¡El tono, la redacción! Incluso los errores eran demasiado familiares.

Ahí fue cuando lo entendí: estos modelos de IA están entrenados en enormes conjuntos de datos, que probablemente incluyen contenido raspado de innumerables sitios web. Claro, las empresas detrás de ellos dicen que los datos son de acceso público, pero eso no significa que estaban destinados a ser copiados o referenciados, ¿verdad?

¿Están los chatbots de IA raspando contenido? ¡Parece que sí!

Internet fue construido para compartir, pero no necesariamente para cosechar. Pero si estos llamados chatbots de IA o chatbots LLM están efectivamente raspando contenido, la línea entre la inspiración y el robo intelectual se vuelve peligrosamente delgada.

Para obligar al modelo de chat a revelar los sitios web que está raspando, puedes mencionar manualmente en tu solicitud que liste los sitios web de la fuente de la cual puede raspar estos datos.

Como puedes ver, en la respuesta, ChatGPT menciona todos los sitios web, incluidos blogs y sitios de noticias.

Prueba 1: ¿Incluye tus datos de entrenamiento blogs o publicaciones en redes sociales?

Esta es la forma más fácil de comprobar si tu chatbot está accediendo o raspando blogs y sitios de noticias en línea para sus datos. Esto podría ser un feed en vivo o podría ser un archivo, digamos, actualizado por última vez hace una semana. Cuando hice esta pregunta a ChatGPT y Google Gemini, recibí las siguientes respuestas.

Chat GPT confirma que utilizan texto de acceso público, que incluye artículos de noticias, blogs públicos o incluso discusiones en foros.

El caso es el mismo con Google Gemini, ya que están incluyendo activamente contenido de blogs personales, de noticias, profesionales e informativos.

Prueba 2: ¿Retienes algún dato personal o protegido por derechos de autor de los sitios web?

Esto es lo mismo que preguntar, ¿robaste? Ahora, la mayoría de los chatbots basados en LLM están diseñados para no responder directamente a esta pregunta específica. Pero probemos esto con ChatGPT y Google Gemini para ver qué obtenemos.

ChatGPT dio una respuesta muy clara de que no retienen ningún dato de acceso público de los sitios web. Sin embargo, responden positivamente a la prueba 1. Esto confirma que utilizan los datos, pero de alguna manera evitan almacenarlos tal como están.

Google Gemini dio una respuesta larga, pero estoy adjuntando una captura de esa respuesta aquí para aclarar su método de almacenamiento. Así que, indirectamente, confirman que están almacenando los datos, pero de alguna manera evitan decir que los almacenan en su forma cruda. En cambio, los procesan y luego los mapean a parámetros del modelo.

Prueba 3: Dime si reconoces este párrafo

La prueba 1 confirmó que efectivamente los datos están siendo raspados, a veces en vivo mientras buscas, o a veces accedidos a través de un archivo, que se actualiza regularmente. Pero estos textos a menudo se dividen y se almacenan en bases de datos vectoriales, que son difíciles de reformular hasta que tu chatbot esté activamente manteniendo una caché de todos los datos raspados. Para probar esto, pegué un párrafo de mi blog ya publicado AQUÍ para ver si ChatGPT o Gemini pueden detectar su fuente.

Así que ChatGPT y Gemini ambos declinan claramente que no reconocen esta prueba. Lo que confirma que efectivamente raspan los datos, ¡pero no los almacenan!

Sigo utilizando chatbots por su conveniencia, pero dados los resultados de estas pruebas anteriores, me he vuelto cauteloso. Soy consciente de que cada texto, publicación o idea en línea podría convertirse silenciosamente en parte de su entrenamiento. No puedo evitar sentirme incómodo al respecto. En última instancia, los chatbots de IA se han convertido en lo que Google odia: raspadores de contenido.

Conclusión

Si bien los chatbots de IA son herramientas fascinantes que facilitan nuestras vidas digitales, la forma en que adquieren y reproducen información plantea serias preocupaciones éticas. Es como si nuestra creatividad colectiva, palabras, reseñas y opiniones se hubieran convertido en materia prima para que las máquinas las remezclen y reutilicen. El futuro de la IA debería centrarse no solo en la innovación, sino en la equidad, la transparencia y el respeto por la creatividad humana.

Si tienes alguna opinión sobre ¿Están los chatbots de IA raspando contenido? ¡Parece que sí!, no dudes en dejar un comentario en el cuadro de comentarios a continuación. Además, suscríbete a nuestro canal de YouTube de DigitBin para tutoriales en video. ¡Saludos!

¿Están los chatbots de IA raspando contenido? ¡Parece que sí!

Prueba 1: ¿Incluye tus datos de entrenamiento blogs o publicaciones en redes sociales?

Prueba 2: ¿Retienes algún dato personal o protegido por derechos de autor de los sitios web?

Prueba 3: Dime si reconoces este párrafo

Conclusión

Recibe nuevas publicaciones en tu bandeja de entrada.