Les chatbots IA volent-ils du contenu ? On dirait bien !

Les chatbots IA volent-ils du contenu On dirait bien !

Depuis l’essor des chatbots IA, je les utilise régulièrement pour mes tâches quotidiennes telles que l’écriture, la recherche, et parfois même pour discuter de manière informelle. Mais dernièrement, j’ai remarqué quelque chose d’étrange. De nombreux outils IA, tels que ChatGPT ou Gemini, etc., semblent savoir des choses qui n’ont jamais été annoncées publiquement ou correctement citées. J’ai commencé à me demander : ces chatbots apprennent-ils vraiment à partir de données, ou se contentent-ils de voler du contenu sur Internet et de le reformuler ?

Plus je les utilisais, plus j’avais l’impression de parler à un système qui avait absorbé d’énormes quantités de texte en ligne, comme des blogs, des articles de presse, et peut-être même des publications personnelles, sans crédit ni permission clairs. Tout m’est apparu lorsque l’un des chatbots a généré un paragraphe qui ressemblait exactement à quelque chose que j’avais écrit sur mon propre blog il y a des années. Le ton, la formulation ! Même les erreurs étaient trop familières.

C’est à ce moment-là que j’ai compris : ces modèles IA sont formés sur d’énormes ensembles de données, qui incluent probablement du contenu volé sur d’innombrables sites web. Bien sûr, les entreprises qui les soutiennent affirment que les données sont disponibles publiquement, mais cela ne signifie pas qu’elles étaient destinées à être copiées ou référencées, n’est-ce pas ?

Les chatbots IA volent-ils du contenu ? On dirait bien !

Internet a été construit pour le partage, mais pas nécessairement pour la récolte. Mais si ces soi-disant chatbots IA ou chatbots LLM volent effectivement du contenu, la frontière entre inspiration et vol intellectuel devient dangereusement mince.

Pour forcer le modèle de chat à cracher les sites web qu’il vole, vous pouvez mentionner manuellement dans votre invite de lister les sites web dans la source à partir de laquelle vous pouvez voler ces données.

Comme vous pouvez le voir, dans la réponse, ChatGPT mentionne tous les sites web, y compris les blogs et les sites d’actualités.

Test 1 : Vos données d’entraînement incluent-elles des blogs ou des publications sur les réseaux sociaux ?

C’est le moyen le plus simple de vérifier si votre chatbot accède ou vole des blogs en ligne et des sites d’actualités pour ses données. Cela pourrait être un flux en direct ou pourrait être une archive, disons, mise à jour pour la dernière fois il y a une semaine. Lorsque j’ai posé cette question à ChatGPT et Google Gemini, j’ai reçu les réponses suivantes.

Chat GPT confirme qu’ils utilisent du texte disponible publiquement, qui inclut des articles de presse, des blogs publics, ou même des discussions sur des forums.

Le cas est le même avec Google Gimini, car ils incluent activement du contenu provenant de blogs personnels, d’actualités, professionnels et informatifs.

Test 2 : Conservez-vous des données personnelles ou protégées par des droits d’auteur provenant de sites web ?

C’est la même chose que de demander, Avez-vous volé ? Maintenant, la plupart des chatbots basés sur LLM sont conçus pour ne pas répondre directement à cette question spécifique. Mais testons cela avec ChatGPT et Google Gemini pour voir ce que nous obtenons.

ChatGPT a donné une réponse très claire qu’ils ne conservent aucune donnée disponible publiquement provenant de sites web. Cependant, ils répondent positivement au test 1. Cela confirme qu’ils utilisent les données, mais évitent d’une certaine manière de dire qu’ils les conservent telles quelles.

Google Gimini a donné une longue réponse, mais je joins un aperçu de cette réponse ici pour clarifier leur méthode de stockage. Donc, indirectement, ils confirment qu’ils stockent les données, mais évitent d’une certaine manière de dire qu’ils les conservent sous leur forme brute. Au lieu de cela, ils les traitent, puis les cartographient aux paramètres du modèle.

Test 3 : Dites-moi si vous reconnaissez ce paragraphe

Le test 1 a confirmé que les données sont effectivement volées, parfois en direct pendant que vous recherchez, ou parfois accessibles via une archive, qui se met à jour régulièrement. Mais ces textes sont souvent fragmentés et stockés dans des bases de données vectorielles, ce qui est difficile à reformuler tant que votre chatbot ne conserve pas activement un cache de toutes les données volées. Pour tester cela, j’ai collé un paragraphe de mon blog déjà publié ICI pour voir si ChatGPT ou Gemini peuvent détecter sa source.

Ainsi, ChatGPT et Gemini déclinent clairement qu’ils ne reconnaissent pas ce test. Ce qui confirme qu’ils volent les données, mais ne les stockent pas !

J’utilise toujours des chatbots en raison de leur commodité, mais étant donné les résultats de ces tests ci-dessus, je suis devenu prudent. Je suis conscient que chaque texte, publication ou idée en ligne pourrait silencieusement devenir partie de leur formation. Je ne peux m’empêcher de me sentir mal à l’aise à ce sujet. En fin de compte, les chatbots IA sont devenus ce que Google déteste : des voleurs de contenu.

Conclusion

Bien que les chatbots IA soient des outils fascinants qui facilitent notre vie numérique, la manière dont ils acquièrent et reproduisent des informations soulève de sérieuses préoccupations éthiques. C’est comme si notre créativité collective, nos mots, nos critiques et nos opinions étaient devenus des matières premières pour que les machines les remixent et les réutilisent. L’avenir de l’IA devrait se concentrer non seulement sur l’innovation, mais aussi sur l’équité, la transparence et le respect de la créativité humaine.

Si vous avez des réflexions sur Les chatbots IA volent-ils du contenu ? On dirait bien !, n’hésitez pas à les partager dans la boîte de commentaires ci-dessous. De plus, veuillez vous abonner à notre chaîne YouTube DigitBin pour des tutoriels vidéo. À bientôt !

Les chatbots IA volent-ils du contenu ? On dirait bien !

Test 1 : Vos données d’entraînement incluent-elles des blogs ou des publications sur les réseaux sociaux ?

Test 2 : Conservez-vous des données personnelles ou protégées par des droits d’auteur provenant de sites web ?

Test 3 : Dites-moi si vous reconnaissez ce paragraphe

Conclusion

Recevez de nouveaux articles dans votre boîte de réception.