Os chatbots de IA estão raspando conteúdo? Parece que sim!

Desde o boom dos chatbots de IA, tenho usado regularmente para minhas tarefas diárias, como escrever, pesquisar e, às vezes, até mesmo para conversas casuais. Mas ultimamente, notei algo estranho. Muitas ferramentas de IA, como ChatGPT ou Gemini, etc., parecem saber coisas que nunca foram anunciadas publicamente ou devidamente citadas. Comecei a me perguntar: esses chatbots realmente estão aprendendo com dados ou estão simplesmente raspando conteúdo da internet e reformulando-o?

Quanto mais os usava, mais parecia que estava conversando com um sistema que havia absorvido enormes quantidades de texto online, como blogs, artigos de notícias e talvez até postagens pessoais, sem crédito ou permissão claros. Tudo isso me atingiu quando um chatbot gerou um parágrafo que soava exatamente como algo que eu havia escrito em meu próprio blog anos atrás. O tom, a formulação! Até os erros eram muito familiares.

Foi então que percebi: Esses modelos de IA são treinados em enormes conjuntos de dados, que provavelmente incluem conteúdo raspado de inúmeros sites. Claro, as empresas por trás deles dizem que os dados estão disponíveis publicamente, mas isso não significa que deveriam ser copiados ou referenciados, significa?

Os chatbots de IA estão raspando conteúdo? Parece que sim!

A internet foi construída para compartilhar, mas não necessariamente para colher. Mas se esses chamados chatbots de IA ou chatbots LLM estão realmente raspando conteúdo, a linha entre inspiração e roubo intelectual se torna perigosamente fina.

Para forçar o modelo de chat a listar os sites que está raspando, você pode mencionar manualmente em seu prompt para listar os sites na fonte de onde pode raspar esses dados.

Como você pode ver, na resposta, o ChatGPT menciona todos os sites, incluindo blogs e sites de notícias.

Teste 1: Seus dados de treinamento incluem blogs ou postagens em redes sociais?

Esta é a maneira mais fácil de verificar se seu chatbot está acessando ou raspando blogs online e sites de notícias para seus dados. Isso pode ser um feed ao vivo ou pode ser um arquivo, digamos, atualizado pela última vez há uma semana. Quando fiz essa pergunta ao ChatGPT e ao Google Gemini, recebi as seguintes respostas.

O Chat GPT confirma que eles usam texto disponível publicamente, que inclui artigos de notícias, blogs públicos ou até mesmo discussões em fóruns.

O caso é o mesmo com o Google Gemini, pois eles estão ativamente incluindo conteúdo de blogs pessoais, de notícias, profissionais e informativos.

Teste 2: Você retém algum dado pessoal ou protegido por direitos autorais de sites?

Isso é o mesmo que perguntar: Você roubou? Agora, a maioria dos chatbots baseados em LLM são projetados para não responder a essa pergunta específica diretamente. Mas vamos testar isso com o ChatGPT e o Google Gemini para ver o que obtemos.

O ChatGPT deu uma resposta muito clara de que não retém nenhum dado disponível publicamente de sites. No entanto, eles respondem positivamente ao caso de teste 1. Isso confirma que eles usam os dados, mas de alguma forma evitam armazená-los como estão.

O Google Gemini deu uma resposta longa, mas estou anexando um instantâneo dessa resposta aqui para esclarecer seu método de armazenamento. Assim, indiretamente, eles confirmam que estão armazenando os dados, mas de alguma forma evitam dizer que os armazenam em sua forma bruta. Em vez disso, eles os processam e, em seguida, os mapeiam para parâmetros do modelo.

Teste 3: Diga-me se você reconhece este parágrafo

O Teste 1 confirmou que, de fato, os dados estão sendo raspados, às vezes ao vivo enquanto você pesquisa, ou às vezes acessados via um arquivo, que é atualizado regularmente. Mas esses textos são frequentemente fragmentados e armazenados em bancos de dados vetoriais, que são difíceis de reformular até que seu chatbot esteja ativamente mantendo um cache de todos os dados raspados. Para testar isso, colei um parágrafo do meu blog já publicado AQUI para ver se o ChatGPT ou o Gemini conseguem detectar sua fonte.

Então, o ChatGPT e o Gemini ambos claramente declinam que não reconhecem este teste. O que confirma que eles realmente raspam os dados, mas não os armazenam!

Eu ainda uso chatbots por causa de sua conveniência, mas, dados os resultados desses casos de teste acima, fiquei cauteloso. Estou ciente de que cada texto, postagem ou ideia online pode silenciosamente se tornar parte de seu treinamento. Não posso deixar de me sentir inquieto com isso. No final, os chatbots de IA se tornaram o que o Google odeia: raspadores de conteúdo.

Conclusão

Embora os chatbots de IA sejam ferramentas fascinantes que tornam nossas vidas digitais mais fáceis, a maneira como adquirem e reproduzem informações levanta sérias preocupações éticas. É como se nossa criatividade coletiva, palavras, avaliações e opiniões se tornassem matéria-prima para máquinas remixarem e reutilizarem. O futuro da IA deve se concentrar não apenas na inovação, mas na justiça, transparência e respeito pela criatividade humana.

Se você tiver alguma opinião sobre Os chatbots de IA estão raspando conteúdo? Parece que sim!, sinta-se à vontade para deixar um comentário abaixo. Além disso, inscreva-se em nosso canal do YouTube DigitBin para tutoriais em vídeo. Saúde!

Os chatbots de IA estão raspando conteúdo? Parece que sim!

Teste 1: Seus dados de treinamento incluem blogs ou postagens em redes sociais?

Teste 2: Você retém algum dado pessoal ou protegido por direitos autorais de sites?

Teste 3: Diga-me se você reconhece este parágrafo

Conclusão

Receba novas postagens na sua caixa de entrada