AI 챗봇이 콘텐츠를 긁어모으고 있나요? 그렇게 보입니다!

AI 챗봇의 붐 이후로, 나는 글쓰기, 연구, 때때로 캐주얼한 채팅과 같은 일상적인 작업을 위해 그들을 정기적으로 사용해 왔습니다. 하지만 최근에 이상한 점을 발견했습니다. ChatGPT나 Gemini와 같은 많은 AI 도구들이 공개적으로 발표되지 않았거나 적절하게 인용되지 않은 정보들을 알고 있는 것처럼 보입니다. 나는 궁금해지기 시작했습니다: 이 챗봇들이 정말 데이터를 학습하고 있는 것인지, 아니면 단순히 인터넷에서 콘텐츠를 긁어모아 재구성하고 있는 것인지?

사용할수록, 나는 온라인 블로그, 뉴스 기사, 그리고 아마도 개인 게시물과 같은 방대한 양의 온라인 텍스트를 흡수한 시스템과 대화하고 있는 것 같은 느낌이 들었습니다. 명확한 크레딧이나 허가 없이 말이죠. 한 챗봇이 내가 몇 년 전에 내 블로그에 쓴 것과 정확히 같은 문단을 생성했을 때 모든 것이 명확해졌습니다. 어조, 문구! 심지어 실수조차도 너무 익숙했습니다.

그때 나는 깨달았습니다: 이 AI 모델들은 아마도 수많은 웹사이트에서 긁어모은 콘텐츠를 포함한 방대한 데이터셋으로 훈련되고 있습니다. 물론, 그 뒤에 있는 회사들은 데이터가 공개적으로 사용 가능하다고 말하지만, 그렇다고 해서 그것이 복사되거나 참조되도록 의도된 것이라고는 할 수 없지 않나요?

AI 챗봇이 콘텐츠를 긁어모으고 있나요? 그렇게 보입니다!

인터넷은 공유를 위해 만들어졌지만, 반드시 수확을 위해서만은 아닙니다. 그러나 이른바 AI 챗봇이나 LLM 챗봇이 실제로 콘텐츠를 긁어모으고 있다면, 영감과 지적 도용 사이의 경계가 위험할 정도로 얇아집니다.

챗 모델이 긁어모으고 있는 웹사이트를 출력하도록 강제하려면, 이 데이터를 긁어올 수 있는 출처의 웹사이트를 나열하라고 프롬프트에 수동으로 언급할 수 있습니다.

보시다시피, 응답에서 ChatGPT는 블로그와 뉴스 웹사이트를 포함한 모든 웹사이트를 언급합니다.

테스트 1: 당신의 훈련 데이터에 블로그나 소셜 미디어 게시물이 포함되어 있나요?

이것은 당신의 챗봇이 온라인 블로그와 뉴스 웹사이트에 접근하거나 긁어모으고 있는지 확인하는 가장 쉬운 방법입니다. 이는 실시간 피드일 수도 있고, 예를 들어 일주일 전에 마지막으로 새로 고침된 아카이브일 수도 있습니다. 이 질문을 ChatGPT와 Google Gemini에 물었을 때, 다음과 같은 응답을 받았습니다.

Chat GPT는 그들이 뉴스 기사, 공개 블로그 또는 포럼 토론을 포함한 공개적으로 사용 가능한 텍스트를 사용한다고 확인합니다.

Google Gimini도 마찬가지로 개인, 뉴스, 전문 및 정보 블로그의 콘텐츠를 적극적으로 포함하고 있습니다.

테스트 2: 웹사이트에서 개인적이거나 저작권이 있는 데이터를 보유하고 있나요?

이는 “당신은 도둑인가요?”라고 묻는 것과 같습니다. 현재 대부분의 LLM 기반 챗봇은 이 특정 질문에 직접적으로 대답하지 않도록 설계되어 있습니다. 하지만 ChatGPT와 Google Gemini로 이 테스트를 해보겠습니다.

ChatGPT는 그들이 웹사이트에서 공개적으로 사용 가능한 데이터를 보유하지 않는다는 매우 명확한 응답을 주었습니다. 그러나 그들은 테스트 케이스 1에 긍정적으로 응답합니다. 이는 그들이 데이터를 사용하고 있다는 것을 확인하지만, 어떤 식으로든 그것을 그대로 저장하지는 않는다는 것을 피합니다.

Google Gimini는 긴 응답을 주었지만, 그들의 저장 방법을 명확히 하기 위해 그 응답의 스냅샷을 첨부합니다. 따라서 간접적으로 그들은 데이터를 저장하고 있다고 확인하지만, 그것을 원시 형태로 저장한다고 말하는 것을 피합니다. 대신, 그들은 데이터를 처리한 후 모델 매개변수에 매핑합니다.

테스트 3: 이 문단을 인식하는지 말해보세요

테스트 1은 실제로 데이터가 긁어모아지고 있다는 것을 확인했습니다. 때때로 검색할 때 실시간으로, 또는 때때로 정기적으로 업데이트되는 아카이브를 통해 접근됩니다. 그러나 이러한 텍스트는 종종 청크로 나뉘어 벡터 데이터베이스에 저장되며, 챗봇이 긁어모은 모든 데이터를 적극적으로 캐시하지 않는 한 다시 재구성하기 어렵습니다. 이를 테스트하기 위해, 나는 이미 게시된 내 블로그의 한 문단을 여기에 붙여넣어 ChatGPT나 Gemini가 그 출처를 감지할 수 있는지 확인했습니다.

그래서 ChatGPT와 Gemini 모두 이 테스트를 인식하지 못한다고 명확히 거부합니다. 이는 그들이 데이터를 긁어모으고 있지만 저장하지 않는다는 것을 확인합니다!

나는 여전히 챗봇의 편리함 때문에 사용하지만, 위의 테스트 결과를 고려할 때 조심스러워졌습니다. 나는 온라인의 모든 텍스트, 게시물 또는 아이디어가 조용히 그들의 훈련의 일부가 될 수 있다는 것을 알고 있습니다. 나는 그것에 대해 불안함을 느끼지 않을 수 없습니다. 궁극적으로, AI 챗봇은 구글이 싫어하는 것이 되어버렸습니다: 콘텐츠 긁어모으는 도구들입니다.

결론

AI 챗봇은 우리의 디지털 삶을 더 쉽게 만들어주는 매력적인 도구이지만, 그들이 정보를 획득하고 재생산하는 방식은 심각한 윤리적 문제를 제기합니다. 마치 우리의 집단적 창의성, 단어, 리뷰 및 의견이 기계가 리믹스하고 재사용할 원자재가 된 것처럼 보입니다. AI의 미래는 혁신뿐만 아니라 공정성, 투명성 및 인간 창의성에 대한 존중에 초점을 맞추어야 합니다.

AI 챗봇이 콘텐츠를 긁어모으고 있나요? 그렇게 보입니다!에 대한 생각이 있으시다면 아래 댓글란에 자유롭게 남겨주세요. 또한, 비디오 튜토리얼을 위해 우리의 DigitBin YouTube 채널을 구독해 주세요. 감사합니다!

AI 챗봇이 콘텐츠를 긁어모으고 있나요? 그렇게 보입니다!

테스트 1: 당신의 훈련 데이터에 블로그나 소셜 미디어 게시물이 포함되어 있나요?

테스트 2: 웹사이트에서 개인적이거나 저작권이 있는 데이터를 보유하고 있나요?

테스트 3: 이 문단을 인식하는지 말해보세요

결론

새 게시물을 받은 편지함에서 받기