Доклад ОЭСР: «Искусственный интеллект против авторского права: где проходит граница?» - Центр цифровых прав

Организация экономического сотрудничества и развития подготовила доклад «Intellectual property issues in artificial intelligence trained on scraped data», который освещает одну из самых острых тем в технологическом мире — конфликты между развитием ИИ и правами интеллектуальной собственности.

Основной фокус сделан на так называемом data scraping — автоматическом сборе данных с сайтов и платформ. Объёмы данных, используемых для обучения ИИ, растут стремительно.

Но если часть датасетов собирается из открытых или лицензированных источников, то другая часть — с помощью парсинга контента, зачастую без согласия правообладателей. Это порождает правовые, этические и экономические споры.

Документ подчёркивает, что scraping может нарушать авторские права, права на базы данных, товарные знаки, коммерческую тайну, а также права на изображение и голос. При этом каждый юрисдикционный контекст имеет свои тонкости: от доктрины fair use в США до режима TDM в ЕС и Японии.

Особое внимание в докладе уделено правовым исключениям. В частности, в «Приложении А» приведён сравнительный обзор исключений из авторского права в разных странах. Эти нормы определяют — может ли использование защищённого контента быть законным без согласия автора.

В докладе признаётся, что scraping, несмотря на риски, стал ключевым способом пополнения обучающих выборок. Особенно это актуально в контексте генеративного ИИ, который требует огромных корпусов разнообразного контента для качественного функционирования.

Авторы подчёркивают, что понятие scraping до сих пор не имеет унифицированного определения. В отчёте предложена рабочая дефиниция: автоматический сбор данных с сайтов и баз, зачастую без согласования с их владельцами. Это может включать web crawling, screen scraping и другие методы.

Среди предложенных решений — разработка добровольного кодекса поведения для разработчиков ИИ, стандартизация технических инструментов защиты прав, а также продвижение договорных моделей, регулирующих использование данных. Акцент сделан на многостороннем подходе с участием всех заинтересованных сторон.

Технические инструменты, по мнению ОЭСР, могут играть ключевую роль: фильтры, отслеживание лицензий, автоматизация оплаты — всё это поможет снизить риски и повысить прозрачность. Но без регуляторного участия такие инструменты останутся фрагментированными.

Контракты и лицензионные соглашения становятся важным элементом регулирования. Однако даже они не решают всех проблем: например, моральные права авторов в ряде стран неотчуждаемы и не могут быть обойдены договором, даже при формальном согласии.

Доклад затрагивает и тему ответственности. Кто несёт её, если ИИ выдал результат, нарушающий авторские права? Разработчик модели? Аггрегатор данных? Или пользователь? Эти вопросы пока остаются без окончательного ответа.

Прозрачность — ещё один острый вопрос. По данным Stanford CRFM, большинство разработчиков ИИ не раскрывают, из каких источников взяты данные. Это затрудняет проверку на соответствие лицензиям и законам, и усиливает тревогу среди правообладателей.

Доклад завершается обзором политических инициатив — от добровольных кодексов до национальных регуляторных актов. Явного консенсуса нет, но ясно одно: будущее ИИ зависит не только от вычислительной мощности, но и от способности согласовать технологии с правами человека и законами.