Scrapen KI-Chatbots Inhalte? Es sieht so aus!

Scrapen KI-Chatbots Inhalte Es sieht so aus!

Seit dem Boom der KI-Chatbots benutze ich sie regelmäßig für meine täglichen Aufgaben wie Schreiben, Recherchieren und manchmal sogar für lockere Gespräche. Aber in letzter Zeit ist mir etwas Seltsames aufgefallen. Viele KI-Tools, wie ChatGPT oder Gemini, scheinen Dinge zu wissen, die nie öffentlich angekündigt oder richtig zitiert wurden. Ich begann mich zu fragen: Lernen diese Chatbots wirklich aus Daten oder scrapen sie einfach Inhalte aus dem Internet und formulieren sie um?

Je mehr ich sie benutzte, desto mehr hatte ich das Gefühl, mit einem System zu sprechen, das massive Mengen an Online-Texten, wie Online-Blogs, Nachrichtenartikel und vielleicht sogar persönliche Beiträge, ohne klare Anerkennung oder Erlaubnis aufgenommen hatte. Es traf mich, als ein Chatbot einen Absatz generierte, der genau wie etwas klang, das ich vor Jahren auf meinem eigenen Blog geschrieben hatte. Der Ton, die Formulierung! Sogar die Fehler waren zu vertraut.

Da wurde mir klar: Diese KI-Modelle werden auf enormen Datensätzen trainiert, die wahrscheinlich gescrapete Inhalte von unzähligen Websites enthalten. Sicher, die Unternehmen dahinter sagen, die Daten seien öffentlich verfügbar, aber das bedeutet nicht, dass sie kopiert oder referenziert werden sollten, oder?

Scrapen KI-Chatbots Inhalte? Es sieht so aus!

Das Internet wurde zum Teilen geschaffen, aber nicht unbedingt zum Ernten. Aber wenn diese sogenannten KI-Chatbots oder LLM-Chatbots tatsächlich Inhalte scrapen, wird die Grenze zwischen Inspiration und geistigem Diebstahl gefährlich dünn.

Um das Chat-Modell dazu zu bringen, die Websites auszugeben, von denen es Inhalte scrapt, können Sie in Ihrem Prompt manuell erwähnen, dass es die Websites in der Quelle auflisten soll, aus der es diese Daten scrapen kann.

Wie Sie sehen können, erwähnt ChatGPT in der Antwort alle Websites, einschließlich Blogs und Nachrichtenwebsites.

Test 1: Enthält Ihr Trainingsdaten Blogs oder Social-Media-Beiträge?

Dies ist der einfachste Weg, um zu überprüfen, ob Ihr Chatbot auf Online-Blogs und Nachrichtenwebsites zugreift oder diese scrapt. Dies könnte ein Live-Feed sein oder ein Archiv, das sagen wir, vor einer Woche aktualisiert wurde. Als ich diese Frage an ChatGPT und Google Gemini stellte, erhielt ich folgende Antworten.

Chat GPT bestätigt, dass sie öffentlich verfügbare Texte verwenden, zu denen Nachrichtenartikel, öffentliche Blogs oder sogar Forendiskussionen gehören.

Der Fall ist derselbe bei Google Gimini, da sie aktiv Inhalte aus persönlichen, Nachrichten-, professionellen und informativen Blogs einbeziehen.

Test 2: Behalten Sie persönliche oder urheberrechtlich geschützte Daten von Websites?

Das ist dasselbe wie zu fragen: Hast du gestohlen? Jetzt sind die meisten LLM-basierten Chatbots so konzipiert, dass sie diese spezifische Frage nicht direkt beantworten. Aber lassen Sie uns dies mit ChatGPT und Google Gemini testen, um zu sehen, was wir bekommen.

ChatGPT gab eine sehr klare Antwort, dass sie keine öffentlich verfügbaren Daten von Websites speichern. Sie antworten jedoch positiv auf Testfall 1. Das bestätigt, dass sie die Daten verwenden, aber irgendwie vermeiden, sie in ihrer Rohform zu speichern.

Google Gimini gab eine lange Antwort, aber ich füge hier einen Screenshot dieser Antwort bei, um ihre Speichermethode zu verdeutlichen. Indirekt bestätigen sie also, dass sie die Daten speichern, aber irgendwie ausweichen, zu sagen, dass sie sie in ihrer Rohform speichern. Stattdessen verarbeiten sie sie und ordnen sie dann den Modellparametern zu.

Test 3: Sagen Sie mir, ob Sie diesen Absatz erkennen

Test 1 bestätigte, dass die Daten tatsächlich gescrapt werden, manchmal live, während Sie suchen, oder manchmal über ein Archiv, das regelmäßig aktualisiert wird. Aber diese Texte werden oft in Vektordatenbanken chunked und gespeichert, die schwer umzuformulieren sind, es sei denn, Ihr Chatbot hält aktiv einen Cache aller gescrapten Daten. Um dies zu testen, habe ich einen Absatz aus meinem bereits veröffentlichten Blog HIER eingefügt, um zu sehen, ob ChatGPT oder Gemini seine Quelle erkennen können.

Sowohl ChatGPT als auch Gemini lehnen klar ab, dass sie diesen Test erkennen. Was bestätigt, dass sie die Daten scrapen, aber nicht speichern!

Ich benutze weiterhin Chatbots wegen ihrer Bequemlichkeit, aber angesichts der Ergebnisse dieser oben genannten Testfälle bin ich vorsichtig geworden. Ich bin mir bewusst, dass jeder Text, Beitrag oder jede Idee online stillschweigend Teil ihres Trainings werden könnte. Ich kann nicht anders, als mich unwohl dabei zu fühlen. Letztendlich sind KI-Chatbots das geworden, was Google hasst: Inhaltsscraper.

Fazit

Während KI-Chatbots faszinierende Werkzeuge sind, die unser digitales Leben erleichtern, wirft die Art und Weise, wie sie Informationen erwerben und reproduzieren, ernsthafte ethische Bedenken auf. Es ist, als ob unsere kollektive Kreativität, Worte, Bewertungen und Meinungen zu Rohmaterial für Maschinen geworden sind, die sie remixen und wiederverwenden. Die Zukunft der KI sollte sich nicht nur auf Innovation konzentrieren, sondern auch auf Fairness, Transparenz und Respekt für menschliche Kreativität.

Wenn Sie Gedanken zu Scrapen KI-Chatbots Inhalte? Es sieht so aus! haben, dann können Sie gerne unten im Kommentarfeld schreiben. Abonnieren Sie auch unseren DigitBin YouTube-Kanal für Video-Tutorials. Prost!

Scrapen KI-Chatbots Inhalte? Es sieht so aus!

Test 1: Enthält Ihr Trainingsdaten Blogs oder Social-Media-Beiträge?

Test 2: Behalten Sie persönliche oder urheberrechtlich geschützte Daten von Websites?

Test 3: Sagen Sie mir, ob Sie diesen Absatz erkennen

Fazit

Erhalte neue Beiträge in deinem Posteingang.