I chatbot AI stanno estraendo contenuti? Sembra di sì!

I chatbot AI stanno estraendo contenuti Sembra di sì!

Dal boom dei chatbot AI, li ho utilizzati regolarmente per le mie attività quotidiane come scrivere, ricercare e talvolta anche per chiacchierare casualmente. Ma ultimamente, ho notato qualcosa di strano. Molti strumenti AI, come ChatGPT o Gemini, ecc., sembrano sapere cose che non sono mai state annunciate pubblicamente o correttamente citate. Ho iniziato a chiedermi: questi chatbot stanno davvero imparando dai dati, o stanno semplicemente estraendo contenuti da internet e riformulandoli?

Più li usavo, più sembrava di parlare con un sistema che aveva assorbito enormi quantità di testo online, come blog, articoli di notizie e forse anche post personali, senza chiara attribuzione o permesso. Tutto è diventato chiaro quando un chatbot ha generato un paragrafo che suonava esattamente come qualcosa che avevo scritto sul mio blog anni fa. Il tono, la formulazione! Anche gli errori erano troppo familiari.

È stato allora che ho capito: questi modelli AI sono addestrati su enormi dataset, che probabilmente includono contenuti estratti da innumerevoli siti web. Certo, le aziende dietro di loro dicono che i dati sono disponibili pubblicamente, ma ciò non significa che fossero destinati a essere copiati o citati, vero?

I chatbot AI stanno estraendo contenuti? Sembra di sì!

Internet è stato costruito per condividere, ma non necessariamente per raccogliere. Ma se questi cosiddetti chatbot AI o chatbot LLM stanno effettivamente estraendo contenuti, la linea tra ispirazione e furto intellettuale diventa pericolosamente sottile.

Per costringere il modello di chat a rivelare i siti web da cui sta estraendo, puoi menzionare manualmente nel tuo prompt di elencare i siti web nella fonte da cui puoi estrarre questi dati.

Come puoi vedere, nella risposta, ChatGPT menziona tutti i siti web, inclusi blog e siti di notizie.

Test 1: I tuoi dati di addestramento includono blog o post sui social media?

Questo è il modo più semplice per verificare se il tuo chatbot sta accedendo o estraendo blog online e siti di notizie per i suoi dati. Questo potrebbe essere un feed live o potrebbe essere un archivio, ad esempio, aggiornato l’ultima volta una settimana fa. Quando ho posto questa domanda a ChatGPT e Google Gemini, ho ricevuto le seguenti risposte.

Chat GPT conferma che utilizzano testi disponibili pubblicamente, che includono articoli di notizie, blog pubblici o anche discussioni nei forum.

Il caso è lo stesso con Google Gemini, poiché stanno attivamente includendo contenuti da blog personali, di notizie, professionali e informativi.

Test 2: Conservi dati personali o protetti da copyright dai siti web?

Questo è lo stesso che chiedere, Hai rubato? Ora, la maggior parte dei chatbot basati su LLM sono progettati per non rispondere direttamente a questa domanda specifica. Ma testiamo questo con ChatGPT e Google Gemini per vedere cosa otteniamo.

ChatGPT ha dato una risposta molto chiara che non conservano alcun dato disponibile pubblicamente dai siti web. Tuttavia, rispondono positivamente al caso di test 1. Questo conferma che utilizzano i dati, ma in qualche modo evitano di dire che li memorizzano così com’è.

Google Gemini ha dato una lunga risposta, ma allego uno screenshot di quella risposta qui per chiarire il loro metodo di memorizzazione. Quindi, indirettamente, confermano che stanno memorizzando i dati, ma in qualche modo evitano di dire che li memorizzano nella loro forma grezza. Invece, li elaborano, quindi li mappano ai parametri del modello.

Test 3: Dimmi se riconosci questo paragrafo

Il Test 1 ha confermato che i dati vengono effettivamente estratti, a volte in tempo reale mentre cerchi, o a volte accessibili tramite un archivio, che si aggiorna regolarmente. Ma questi testi sono spesso suddivisi e memorizzati in database vettoriali, che sono difficili da riformulare fino a quando il tuo chatbot non mantiene attivamente una cache di tutti i dati estratti. Per testarlo, ho incollato un paragrafo dal mio blog già pubblicato QUI per vedere se ChatGPT o Gemini possono rilevarne la fonte.

Quindi ChatGPT e Gemini rifiutano chiaramente di riconoscere questo test. Questo conferma che estraggono i dati, ma non li memorizzano!

Continuo a usare i chatbot per la loro comodità, ma date le risposte di questi casi di test sopra, sono diventato cauto. Sono consapevole che ogni testo, post o idea online potrebbe silenziosamente diventare parte del loro addestramento. Non posso fare a meno di sentirmi a disagio al riguardo. In definitiva, i chatbot AI sono diventati ciò che Google odia: estrattori di contenuti.

Conclusione

Sebbene i chatbot AI siano strumenti affascinanti che rendono più facile la nostra vita digitale, il modo in cui acquisiscono e riproducono informazioni solleva gravi preoccupazioni etiche. È come se la nostra creatività collettiva, parole, recensioni e opinioni fossero diventate materia prima per le macchine da remixare e riutilizzare. Il futuro dell’AI dovrebbe concentrarsi non solo sull’innovazione, ma anche sulla giustizia, la trasparenza e il rispetto per la creatività umana.

Se hai qualche pensiero su I chatbot AI stanno estraendo contenuti? Sembra di sì!, sentiti libero di lasciare un commento qui sotto. Inoltre, ti preghiamo di iscriverti al nostro canale YouTube di DigitBin per video tutorial. Saluti!

I chatbot AI stanno estraendo contenuti? Sembra di sì!

Test 1: I tuoi dati di addestramento includono blog o post sui social media?

Test 2: Conservi dati personali o protetti da copyright dai siti web?

Test 3: Dimmi se riconosci questo paragrafo

Conclusione

Ricevi i nuovi post nella tua casella di posta.