Скребут ли AI-чатботы контент? Похоже, что да!

С момента появления AI-чатботов я регулярно использую их для своих повседневных задач, таких как написание, исследование и иногда даже для непринужденного общения. Но в последнее время я заметил что-то странное. Многие AI-инструменты, такие как ChatGPT или Gemini и т.д., похоже, знают вещи, которые никогда не были публично объявлены или должным образом процитированы. Я начал задумываться: действительно ли эти чатботы учатся на данных или они просто скребут контент с интернета и перефразируют его?

Чем больше я их использовал, тем больше мне казалось, что я разговариваю с системой, которая впитала огромные объемы онлайн-текста, таких как блоги, новостные статьи и, возможно, даже личные посты, без четкого указания источника или разрешения. Это осознание пришло ко мне, когда один чатбот сгенерировал абзац, который звучал точно так же, как что-то, что я написал на своем блоге много лет назад. Тон, формулировка! Даже ошибки были слишком знакомыми.

Вот тогда мне стало ясно: эти AI-модели обучаются на огромных наборах данных, которые, вероятно, включают скребленный контент с бесчисленных веб-сайтов. Конечно, компании, стоящие за ними, говорят, что данные доступны публично, но это не значит, что они предназначены для копирования или ссылки, верно?

Скребут ли AI-чатботы контент? Похоже, что да!

Интернет был создан для обмена, но не обязательно для сбора. Но если эти так называемые AI-чатботы или LLM-чатботы действительно скребут контент, то грань между вдохновением и интеллектуальной кражей становится опасно тонкой.

Чтобы заставить чат-модель выдать веб-сайты, с которых она скребет, вы можете вручную упомянуть в своем запросе, чтобы она перечислила веб-сайты в источнике, откуда вы можете скребсти эти данные.

Как вы можете видеть, в ответе ChatGPT упоминает все веб-сайты, включая блоги и новостные сайты.

Тест 1: Включают ли ваши обучающие данные блоги или посты в социальных сетях?

Это самый простой способ проверить, получает ли ваш чатбот доступ к онлайн-блогам и новостным сайтам для своих данных. Это может быть прямой поток или архив, скажем, обновленный неделю назад. Когда я задал этот вопрос ChatGPT и Google Gemini, я получил следующие ответы.

Chat GPT подтверждает, что они действительно используют публично доступный текст, который включает новостные статьи, публичные блоги или даже обсуждения на форумах.

Ситуация такая же и с Google Gemini, так как они активно включают контент из личных, новостных, профессиональных и информационных блогов.

Тест 2: Сохраняете ли вы какие-либо личные или защищенные авторским правом данные с веб-сайтов?

Это то же самое, что спросить: “Вы украли?” Теперь большинство чатботов на основе LLM разработаны так, чтобы не отвечать на этот конкретный вопрос напрямую. Но давайте протестируем это с ChatGPT и Google Gemini, чтобы увидеть, что мы получим.

ChatGPT дал очень четкий ответ, что они не сохраняют никаких публично доступных данных с веб-сайтов. Однако они положительно отвечают на тестовый случай 1. Это подтверждает, что они используют данные, но как-то уклоняются от хранения их в исходном виде.

Google Gemini дал длинный ответ, но я прикрепляю снимок этого ответа здесь, чтобы прояснить их метод хранения. Таким образом, косвенно они подтверждают, что хранят данные, но как-то уклоняются от утверждения, что хранят их в сыром виде. Вместо этого они обрабатывают их, а затем сопоставляют с параметрами модели.

Тест 3: Скажите мне, если вы распознаете этот абзац

Тест 1 подтвердил, что данные действительно скребутся, иногда в реальном времени, когда вы ищете, или иногда получаются через архив, который регулярно обновляется. Но эти тексты часто разбиваются на части и хранятся в векторных базах данных, которые трудно перефразировать, пока ваш чатбот активно не сохраняет кэш всех скребленных данных. Чтобы протестировать это, я вставил абзац из своего уже опубликованного блога ЗДЕСЬ, чтобы увидеть, может ли ChatGPT или Gemini обнаружить его источник.

Таким образом, ChatGPT и Gemini оба явно отказываются признавать этот тест. Это подтверждает, что они действительно скребут данные, но не хранят их!

Я все еще использую чатботы из-за их удобства, но, учитывая результаты этих тестов выше, я стал осторожнее. Я осознаю, что каждый текст, пост или идея в интернете могут тихо стать частью их обучения. Я не могу не чувствовать себя неуютно по этому поводу. В конечном итоге AI-чатботы стали тем, что ненавидит Google: скребки контента.

Заключение

Хотя AI-чатботы являются увлекательными инструментами, которые упрощают нашу цифровую жизнь, способ, которым они получают и воспроизводят информацию, вызывает серьезные этические вопросы. Кажется, что наше коллективное творчество, слова, отзывы и мнения стали сырьем для машин, которые их перерабатывают и повторно используют. Будущее AI должно сосредоточиться не только на инновациях, но и на справедливости, прозрачности и уважении к человеческому творчеству.

Если у вас есть мысли по поводу Скребут ли AI-чатботы контент? Похоже, что да!, не стесняйтесь оставлять комментарии ниже. Также, пожалуйста, подпишитесь на наш канал DigitBin на YouTube для видеоуроков. Удачи!

Скребут ли AI-чатботы контент? Похоже, что да!

Тест 1: Включают ли ваши обучающие данные блоги или посты в социальных сетях?

Тест 2: Сохраняете ли вы какие-либо личные или защищенные авторским правом данные с веб-сайтов?

Тест 3: Скажите мне, если вы распознаете этот абзац

Заключение

Get new posts in your inbox