Организация экономического сотрудничества и развития подготовила доклад «Intellectual property issues in artificial intelligence trained on scraped data», который освещает одну из самых острых тем в технологическом мире — конфликты между развитием ИИ и правами интеллектуальной собственности.
Основной фокус сделан на так называемом data scraping — автоматическом сборе данных с сайтов и платформ. Объёмы данных, используемых для обучения ИИ, растут стремительно.
Но если часть датасетов собирается из открытых или лицензированных источников, то другая часть — с помощью парсинга контента, зачастую без согласия правообладателей. Это порождает правовые, этические и экономические споры.
Документ подчёркивает, что scraping может нарушать авторские права, права на базы данных, товарные знаки, коммерческую тайну, а также права на изображение и голос. При этом каждый юрисдикционный контекст имеет свои тонкости: от доктрины fair use в США до режима TDM в ЕС и Японии.
Особое внимание в докладе уделено правовым исключениям. В частности, в «Приложении А» приведён сравнительный обзор исключений из авторского права в разных странах. Эти нормы определяют — может ли использование защищённого контента быть законным без согласия автора.
В докладе признаётся, что scraping, несмотря на риски, стал ключевым способом пополнения обучающих выборок. Особенно это актуально в контексте генеративного ИИ, который требует огромных корпусов разнообразного контента для качественного функционирования.
Авторы подчёркивают, что понятие scraping до сих пор не имеет унифицированного определения. В отчёте предложена рабочая дефиниция: автоматический сбор данных с сайтов и баз, зачастую без согласования с их владельцами. Это может включать web crawling, screen scraping и другие методы.
Среди предложенных решений — разработка добровольного кодекса поведения для разработчиков ИИ, стандартизация технических инструментов защиты прав, а также продвижение договорных моделей, регулирующих использование данных. Акцент сделан на многостороннем подходе с участием всех заинтересованных сторон.
Технические инструменты, по мнению ОЭСР, могут играть ключевую роль: фильтры, отслеживание лицензий, автоматизация оплаты — всё это поможет снизить риски и повысить прозрачность. Но без регуляторного участия такие инструменты останутся фрагментированными.
Контракты и лицензионные соглашения становятся важным элементом регулирования. Однако даже они не решают всех проблем: например, моральные права авторов в ряде стран неотчуждаемы и не могут быть обойдены договором, даже при формальном согласии.
Доклад затрагивает и тему ответственности. Кто несёт её, если ИИ выдал результат, нарушающий авторские права? Разработчик модели? Аггрегатор данных? Или пользователь? Эти вопросы пока остаются без окончательного ответа.
Прозрачность — ещё один острый вопрос. По данным Stanford CRFM, большинство разработчиков ИИ не раскрывают, из каких источников взяты данные. Это затрудняет проверку на соответствие лицензиям и законам, и усиливает тревогу среди правообладателей.
Доклад завершается обзором политических инициатив — от добровольных кодексов до национальных регуляторных актов. Явного консенсуса нет, но ясно одно: будущее ИИ зависит не только от вычислительной мощности, но и от способности согласовать технологии с правами человека и законами.