AIチャットボットはコンテンツをスクレイピングしているのか？そう見える！

AIチャットボットのブーム以来、私は日常のタスク、例えば執筆、リサーチ、時にはカジュアルなチャットなどに定期的に利用しています。しかし最近、奇妙なことに気づきました。ChatGPTやGeminiなどの多くのAIツールは、決して公に発表されていないことや適切に引用されていないことを知っているようです。私は疑問に思い始めました：これらのチャットボットは本当にデータから学んでいるのか、それとも単にインターネット全体からコンテンツをスクレイピングして再表現しているだけなのか？

使えば使うほど、私はオンラインブログ、ニュース記事、さらには個人の投稿など、大量のオンラインテキストを吸収したシステムと話しているように感じました。明確なクレジットや許可なしに。それは、あるチャットボットが私が数年前に自分のブログに書いた内容とまったく同じような段落を生成したときに気づきました。トーン、フレーズ！間違いさえも非常に馴染み深いものでした。

そのとき、私は気づきました：これらのAIモデルは、無数のウェブサイトからスクレイピングされたコンテンツを含む巨大なデータセットで訓練されています。確かに、それらの背後にいる企業はデータが公に利用可能であると言っていますが、それはコピーされたり参照されたりすることを意図していたわけではありませんよね？

AIチャットボットはコンテンツをスクレイピングしているのか？そう見える！

インターネットは共有のために構築されましたが、必ずしも収穫のためではありません。しかし、これらのいわゆるAIチャットボットやLLMチャットボットが本当にコンテンツをスクレイピングしているのなら、インスピレーションと知的盗用の境界線は危険なほど薄くなります。

チャットモデルにスクレイピングしているウェブサイトを吐き出させるために、プロンプトで手動でデータをスクレイピングできるソースのウェブサイトをリストするように言及することができます。

ご覧のとおり、ChatGPTは応答の中で、ブログやニュースウェブサイトを含むすべてのウェブサイトを言及しています。

テスト1：あなたのトレーニングデータにはブログやソーシャルメディアの投稿が含まれていますか？

これは、あなたのチャットボットがオンラインブログやニュースウェブサイトからデータにアクセスまたはスクレイピングしているかどうかを確認する最も簡単な方法です。これはライブフィードであるか、たとえば、1週間前に最後に更新されたアーカイブである可能性があります。この質問をChatGPTとGoogle Geminiに尋ねたところ、以下のような回答を得ました。

Chat GPTは、ニュース記事、公共のブログ、さらにはフォーラムの議論を含む公に利用可能なテキストを使用していることを確認しました。

Google Giminiも同様で、個人、ニュース、専門的、情報的なブログからのコンテンツを積極的に含めています。

テスト2：ウェブサイトから個人情報や著作権データを保持していますか？

これは、「あなたは盗んだのか？」と尋ねるのと同じです。現在、ほとんどのLLMベースのチャットボットは、この特定の質問に直接答えないように設計されています。しかし、ChatGPTとGoogle Geminiでこれをテストしてみましょう。

ChatGPTは、ウェブサイトから公に利用可能なデータを保持していないという非常に明確な回答をしました。ただし、テストケース1には肯定的に応答します。これは、彼らがデータを使用していることを確認しますが、何らかの形でそれをそのまま保存することを回避しています。

Google Giminiは長い回答をしましたが、彼らの保存方法を明確にするために、その回答のスナップショットをここに添付します。したがって、間接的に、彼らはデータを保存していることを確認しますが、生の形で保存しているとは言いません。代わりに、彼らはそれを処理し、モデルパラメータにマッピングします。

テスト3：この段落を認識しているか教えてください

テスト1は、確かにデータがスクレイピングされていることを確認しました。時には検索中にライブで、または時には定期的に更新されるアーカイブを介してアクセスされます。しかし、これらのテキストはしばしばチャンク化され、ベクターデータベースに保存されており、チャットボットがすべてのスクレイピングされたデータのキャッシュを積極的に保持していない限り、再表現するのは難しいです。これをテストするために、私は自分の既に公開されたブログから段落をここに貼り付けて、ChatGPTやGeminiがそのソースを検出できるかどうかを確認しました。

したがって、ChatGPTとGeminiの両方は、このテストを認識しないと明確に否定します。これは、彼らがデータをスクレイピングしていることを確認しますが、保存していないことを示しています！

私はその便利さからチャットボットを使い続けていますが、上記のテストケースの結果を考えると、私は慎重になっています。私は、オンラインのすべてのテキスト、投稿、アイデアが静かに彼らのトレーニングの一部になる可能性があることを認識しています。それについて不安を感じずにはいられません。最終的に、AIチャットボットはGoogleが嫌うものになりました：コンテンツスクレイパー

結論

AIチャットボットは私たちのデジタルライフを便利にする魅力的なツールですが、彼らが情報を取得し再生産する方法は深刻な倫理的懸念を引き起こします。私たちの集団的な創造性、言葉、レビュー、意見が機械がリミックスして再利用するための原材料になってしまったかのようです。AIの未来は、革新だけでなく、公平性、透明性、人間の創造性への敬意にも焦点を当てるべきです。

AIチャットボットはコンテンツをスクレイピングしているのか？そう見える！についてのご意見があれば、下のコメントボックスにお気軽にお寄せください。また、動画チュートリアルのために私たちのDigitBin YouTubeチャンネルを購読してください。乾杯！

AIチャットボットはコンテンツをスクレイピングしているのか？そう見える！

テスト1：あなたのトレーニングデータにはブログやソーシャルメディアの投稿が含まれていますか？

テスト2：ウェブサイトから個人情報や著作権データを保持していますか？

テスト3：この段落を認識しているか教えてください

結論

新しい投稿を受信箱で受け取る