ФУНКЦИОНИРУЕТ ПРИ ФИНАНСОВОЙ ПОДДЕРЖКЕ МИНИСТЕРСТВА ЦИФРОВОГО РАЗВИТИЯ, СВЯЗИ И МАССОВЫХ КОММУНИКАЦИЙ РОССИЙСКОЙ ФЕДЕРАЦИИ

Как будет работать книжная индустрия с приходом ИИ?

Первые ласточки нового нейробизнеса уже вовсю летают по рынку. Приглядевшись к ним, можно выделить как минимум четыре интересных вида

Интерпретация сетью Кандинский 3.1 фразы 'Первые ласточки нового нейробизнеса уже вовсю летают по рынку'
Интерпретация сетью Кандинский 3.1 фразы 'Первые ласточки нового нейробизнеса уже вовсю летают по рынку'

Текст: Марианна Смирнова (канд. философ. наук)

В этом году на ярмарке Non/fiction нам наглядно показали, что искусственный интеллект вполне может писать книги. И, немного поразмыслив, мы даже поняли, какие именно типы писателей могут быть вскоре замещены нейросетями. Остался ещё один большой вопрос: как будет работать книжная индустрия в условиях такой замены?

Выступавшие на Non/fiction эксперты утверждали, что книжный рынок в целом не готов к технологическому чуду. Прежде всего – в юридическом отношении. Но первые ласточки нового нейробизнеса уже вовсю летают по рынку. Приглядевшись к ним, можно выделить как минимум четыре интересных сценария.

1. Антиплагиат

Компания Amazon начала борьбу с «книжным ИИ» задолго до появления Больших Болтливых Бабуль (Large Language Models – LLM). Дело в том, что программы, которые создают «новые» книги из чужих бестселлеров, давно используются для обмана пользователей Amazon. Этот мошеннический бизнес – близкий родственник поисковой оптимизации (SEO). Вы ищете что-то в Гугле или Яндексе и в первых строчках выдачи по вашему запросу вдруг оказывается посторонний сайт, заполненный каким-то бредом. Это означает, что создатели сайта обманули поисковик и заманили вас туда, где вам покажут кучу рекламы или еще каким-нибудь образом монетизируют ваше внимание.

В случае с электронными книгами монетизация работает еще быстрее. Сразу после выхода очередного бестселлера скамеры автоматически перерабатывают текст чужой книги, генерируя «краткий пересказ», «авторскую биографию» или еще какую-нибудь ИИ-производную от оригинала. Иногда это вообще выглядит как новая книга популярного автора (которой он не писал).

С развитием технологий машинного обучения такие подделки стали появляться на Amazon буквально на следующий день после публикации оригиналов. Невнимательный читатель при поиске оригинального бестселлера легко ошибается – и покупает фейк. Естественно, на Amazon посыпались требования разобраться с фальшивками, нарушающими авторские права. В итоге площадка ввела ряд ограничений: от самопубликующихся авторов требуют указывать, была ли книга сгенерирована с помощью ИИ. Параллельно компания стала выявлять и удалять из магазина скрытых репликантов, создающих ИИ-подделки на основе чужих произведений.

Насколько успешно идёт эта борьба, сказать сложно: Amazon не публикует статистику по этому вопросу. Между тем, на YouTube полно пособий по обходу фильтров Amazon. В целом, рекомендации сводятся к тому, что нейротекст надо немного подредактировать вручную – и тогда фильтр вас пропустит.

Можно также предположить, что LLM последнего поколения усложняют фильтрам задачу, доводя «степень перемешивания» чужих текстов до такого уровня, когда оригинал уже просто не считывается. Но, кажется, в этом случае вопрос о нарушении авторских прав снимается сам собой (по крайней мере, в современной трактовке).

2. Робот-издатель

Американская гильдия сценаристов (WGA) подошла к проблеме ИИ-замещения более радикально: в 2023 году они устроили полугодовую забастовку, требуя, среди прочего, запретить использование ИИ для создания сценариев, поскольку это грозит потерей рабочих мест. Результатом забастовки стало обещание голливудских студий не принимать сценарии, сгенерированные нейросетями.

Но это ограничение совершенно не мешает сделать нейросеть надсмотрщиком над людьми. Самый известный пример такого симбиоза – Netflix. В нулевых он прославился своим рекомендательным сервисом на основе коллаборативной фильтрации. В зависимости от своих предпочтений пользователь попадает в один из нескольких тысяч потребительских кластеров – групп людей с похожими вкусами. Система знает, какие микрожанры кино (всего их около 30 тыс.) предпочитает данная группа. На этом и строятся дальнейшие рекомендации.

В следующем десятилетии Netflix пошел дальше: компания стала производить собственные фильмы на основе собранной статистики пользовательских предпочтений. Первый уровень указаний, которые искусственный интеллект стал раздавать своим «подчиненным», – самые востребованные жанры и темы для съемки. Второй шаг – это анализ написанных людьми сценариев по ряду параметров (сложность диалогов, развитие персонажей). Проще говоря, машина читает ваш текст – и предсказывает, насколько он будет успешен, сравнивая с базой хорошо зарекомендовавших себя сценариев.

Ясно, что точно так же нейросеть может вычислять и наиболее востребованный состав героев, и наиболее популярные локации, и даже отдельные повороты сюжета. Насколько далеко это зашло в Netflix, неизвестно. Компания вряд ли будет афишировать такие технологии, опасаясь новых забастовок. Но, наверное, каждый любитель сериалов сможет навскидку назвать парочку свежих тайтлов, вызывающих ощущение, что сценаристов держит в плену местный Скайнет и бьет током за каждое отступление от алгоритма.

Внедрить такую систему контроля в книжных издательствах даже проще, чем в киноиндустрии. Если бы мы снимали голливудскую антиутопию, то где-нибудь в недрах мрачного здания издательства на северо-западе Москвы сидели бы порабощённые писатели и ваяли бестселлеры под бдительным руководством ИИ. Реальность выглядит куда веселей, но под яркой оберткой – все та же склонность бизнеса слепо доверять алгоритмам. Избежать этого, не выпадая из мейнстрима, не удастся.

3. Мастера зачинов

У этого персонажа, видимо, самый древний прообраз. Басе, Исса, Бусон – всем же известно, кто они такие? Однако немногие помнят, что трехстишья хокку изначально являлись не самостоятельными стихами, а зачинами для коллективной поэтической игры рэнга. Своего рода японское буриме, в котором играющие по очереди пишут новые строфы.

И здесь очень важна первая строфа-зачин. Хороший мастер хокку писал первое трехстишие так, чтобы намекнуть на место встречи, а заодно и воздать должное хозяину дома, где проходит игра, а также задать общее настроение для всей последующей цепочки, и в то же время дать возможность для свободного полета ассоциаций, на которых стоится продолжение. В общем, это были мастера художественных промптов.

Сейчас в магазинах электронных книг и на сайтах самиздата читателям дают возможность прочесть ознакомительный фрагмент, то есть начало книги. После увлекательного зачина читатель, конечно же, бежит покупать книгу (если она уже закончена) или бросает автору донат (в надежде на интересное продолжение). Такая экономика ведёт к логичному для авторов выводу: самой крутой частью произведения должен быть именно зачин. А дальше можно писать левой ногой, или с помощью армии литературных негров, или... с помощью LLM, конечно же.

Во-первых, нейросеть, в отличие от левой ноги, никогда не устает, зато обладает очень большим потенциалом в плане разнообразия генерируемых текстов. Мы видели примеры, когда добавление в промт одного-единственного слова кардинально меняет качество итогового текста. Во-вторых, общение с ИИ может перейти на сторону читателя; как в случае с японской игрой рэнга, главной художественной работой мастера здесь будет именно зачин. Получив его, читатель может сам себе генерировать развитие истории, меняя и сеттинги, и стили, и развязки.

Только не путайте «мастера зачинов» с «промт-инженером». Сейчас на каждом углу кричат, что промт-инженер – это профессия будущего, хотя правильнее было бы назвать это всеобщим навыком будущего. Ибо через 10 лет абстрактный «промт-инженер» будет никому не нужен, точно так же, как «уверенный пользователь PC» (модный скилл, который очень любили указывать в резюме прошлого века). А нужны будут, как обычно, эксперты в конкретных областях – но с навыками использования ИИ. Именно это подразумевается под «мастером зачинов»: одного умения бросать запросы в нейронку тут явно недостаточно. Что нужно еще? Оставим это в качестве темы для ваших размышлений.

4. Отравители нейронок

Наверное, вы уже подумали: да неужели в будущем совсем не останется настоящих писателей? Конечно, останутся! Так и видим эти экологически чистые деревни где-нибудь в сибирской глубинке. Там запрещены все гаджеты, там люди живут «реальной жизнью», а интернет используется только для решения бытовых задач, вроде заказа бумаги для авторов, которые на этой бумаге будут писать ручками. Может быть, даже перьевыми.

Если отбросить шутки, то да – авторы не хотят отдавать свои тексты на произвол нейросетей. Но этого не так-то просто добиться.

Юридический подход пока не слишком эффективен: в июне этого года сразу два американских суда оправдали компании, использующие авторские книги для обучения своих ML-моделей – которые, в свою очередь, используются для генерации «оригинальных» произведений. Правда, если в первом случае суд счел это «добросовестным использованием», то во втором судья все же признал: ИИ-переработка чужой книги с последующей продажей получившегося текста – это действительно граничит с нарушением авторского права. Другое дело, что в данном кейсе авторы-истцы не предоставили явных доказательств (то есть не показали суду готовую книгу-производную, которая уже пошла в продажу). Тем не менее, в обоих случаях авторы не смогли запретить нейросетям использовать свои тексты.

Зато художники уже придумали, как защищать свои творения, не дожидаясь судов. При публикации картинок в Сети они накладывают на электронное изображение специальный фильтр, типа Nightshade или PhotoGuard. Человеческий глаз не видит этих дополнительных пискелей. А вот ИИ – видит. Для него на картинке изображен не котик, а ужасная кракозябра. Обучающаяся на таких изображениях нейросеть в лучшем случае не станет их использовать, а в худшем – использует и начнет неистово глючить. Отравилась, дорогая? А сама виновата: нечего воровать чужое творчество.

Мы не будем детально рассказывать, как устроена аналогичная отрава для текстовых нейронок. Хотя идея понятна: помимо текста, видимого человеком, в электронный файл можно включить много данных, которые видны только машине. Да и в видимый текст можно напихать изрядное количество «водяных знаков».

Будут ли использовать такую защиту массовые сервисы или только отдельные сообщества неолуддитов – покажет время. Но уже ясно, что закончилась пора беспечного кормления машин чистыми и оригинальными текстами. Замусоривание данных, скорее всего, станет главной причиной «второй зимы искусственного интеллекта». Так что если вы ещё не успели перебраться в экологически чистые сибирские деревни и вовремя заточить свои карандаши – мы не виноваты, мы вас предупреждали.