OpenAI запустив GPTBot, новий веб-сканер для вдосконалення майбутніх моделей штучного інтелекту, таких як GPT-4 та GPT-5. Цей бот призначений для:
- автоматичного сканування даних з усього інтернету;
- використання знань для своїх функцій AI (наприклад, ChatGPT);
- надання згенерованих AI відповідей на запитання (або промптів).
Як працює GPTBot
Ця система, яку можна впізнати за наступним маркером агента користувача та повним рядком агента користувача, шукає в Інтернеті дані, які можуть підвищити точність, можливості та безпеку технології ШІ.
Що таке GPTBot. GPTBot — веб-сканер OpenAI. OpenAI використовує його для сканування інтернету, використання знань для своїх функцій AI (наприклад, ChatGPT) та надання згенерованих AI відповідей на запитання (або промптів).
Useragent. Маркер агента користувача GPTBot — «GPTBot». Його повний рядок агента користувача: «Mozilla/5.0 AppleWebKit/537.36 (KHTML, як Gecko; сумісний; GPTBot/1.0; +https://openai.com/gptbot)».
Повідомляється, що він має суворо відфільтрувати будь-які джерела, обмежені платним доступом, джерела, які порушують політику OpenAI, або джерела, які збирають особисту інформацію.
Використання GPTBot потенційно може значно покращити моделі ШІ. Дозволяючи йому доступ до сайту, ви робите внесок у цей пул даних, тим самим покращуючи загальну екосистему ШІ. Але й відмовити боту у доступі можна.
robots.txt. Ви можете використовувати robots.txt, щоб заблокувати доступ GPTBot до вашого сайту або його частин. Щоб заборонити GPTBot доступ до вашого сайту, ви можете додати GPTBot до robots.txt свого сайту:
User-agent: GPTBot
Disallow: /
Щоб надати GPTBot доступ лише до частин вашого сайту, ви можете додати маркер GPTBot до robots.txt вашого сайту таким чином:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Документація GPTBot можна прочитати на GPTBot.
Діапазони IP-адрес GPTBot. OpenAI також опублікував діапазони IP-адрес, які використовує GPTBot. У ньому зазначено лише одне, але цілком ймовірно, що з часом вони додадуть більше.
Правові та етичні проблеми
Останні новини OpenAI викликали дискусію на Hacker News щодо етики та законності використання зібраних веб-даних для навчання власних систем ШІ.
GPTBot ідентифікує себе, щоб веб-адміністратори могли заблокувати його через robots.txt, але деякі стверджують, що дозволити це не має ніякої користі, на відміну від пошукових систем, які спрямовують трафік. Серйозне занепокоєння викликає використання вмісту, захищеного авторським правом, без зазначення авторства. ChatGPT наразі не посилається на джерела.
Є також питання щодо того, як GPTBot поводиться з ліцензійними зображеннями, відео, музикою та іншими медіа, знайденими на сайтах. Якщо ці матеріали будуть використані в навчанні моделі, це може бути порушенням авторських прав. Деякі експерти вважають, що дані, згенеровані краулером, можуть погіршити моделі, якщо вміст, написаний ШІ, буде використаний у навчанні.
І навпаки, дехто вважає, що OpenAI має право вільно використовувати загальнодоступні веб-дані, порівнюючи його з людиною, яка навчається на онлайн-контенті. Однак інші стверджують, що OpenAI повинен ділитися прибутком, якщо він монетизує веб-дані з комерційною метою.
Загалом, GPTBot відкрив складні дебати навколо права власності, добросовісного використання та стимулів для творців контенту. Хоча дотримання robots.txt є правильним кроком, прозорості все ще бракує. Технологічна спільнота ставить собі питання, як будуть використовуватися їхні дані в умовах швидкого розвитку продуктів штучного інтелекту.
Висновок. Ви можете заборонити GPTBot сканувати ваш сайт, якщо ви не хочете, щоб OpenAI будь-яким чином використовував ваш вміст. Це той самий протокол, який ви використовували б для блокування GoogleBot, BingBot або інших веб-сканерів. Ці компанії також шукають альтернативу robots.txt для цих цілей.