САЙТ ГОДЛИТЕРАТУРЫ.РФ ФУНКЦИОНИРУЕТ ПРИ ФИНАНСОВОЙ ПОДДЕРЖКЕ МИНИСТЕРСТВА ЦИФРОВОГО РАЗВИТИЯ.

Повесть о корове Муму. Лингвист рассказал об ошибках в сгенерированных нейросетью текстах

Лингвист Тельпов: "Галлюцинации" — главный бич языка текстов, созданных ИИ

Текст: Елена Кухтенкова/РГ

Как искусственный интеллект манипулирует фактами и почему Алеша Попович вместо того, чтобы защищать Киев от врагов, поехал на море, рассказал "РГ" доцент Государственного института русского языка имени А.С. Пушкина Роман Тельпов.

Роман Евгеньевич, на только что завершившемся V Костомаровском форуме много говорили об ошибках искусственного интеллекта и даже о "галлюцинациях" нейросетей. Объясните, почему такое случается?

Роман Тельпов: Действительно "галлюцинации" или искажения содержания в больших языковых моделях - главный бич языка текстов, созданных искусственным интеллектом. Галлюцинации бывают разных типов. Например, когда смешиваются факты из нескольких разных источников. Вот классический пример. Пользователь задает нейросети вопрос: "О чем сказка "Маша и Медведь"?" В ответ она начинает рассказывать, что сказка повествует о девочке Маше, которая дружит с Медведем и переживает всевозможные приключения. Это, конечно, не вполне верно, ведь речь идет не о сказке (там девочки с медведями не дружат), а о мультфильме. То есть ИИ путает эти моменты. Машина предоставляет и соединяет всю имеющуюся информацию.

Но это совсем невинная ошибка…

Роман Тельпов: А вот недавно был совсем курьезный случай: студенты начали мне рассказывать о былинах и трех богатырях. И иностранный студент заявил, что Алеша Попович мечтает поехать отдохнуть на юг. Нейросеть задействовала в ответе мультфильм "О трех богатырях". Отсюда и такой "креативный" сюжет.

Второй тип ошибок носит свободно-ассоциативный характер. То есть, когда возникают ассоциации со словами, которые заложены, например, в ролике. Мне самому ChatGPT на вопрос, о чем говорится в повести Ивана Тургенева "Муму", рассказал о корове по имени Муму.

А про "Собачье сердце" был сгенерирован ответ: это повесть о молодом писателе по имени Шариков, которому пересаживают собачье сердце…То есть нейросеть строит ответ, исключительно получая информацию от свободных ассоциаций, которые вводятся в запросе.

А есть ли какие-то признаки, по которым можно узнать, что текст создан нейросетью? Как поймать студента на том, что доклад или реферат сделала машина?

Роман Тельпов: ИИ любит собирать, любит все структурировать, поэтому предпочитает слова: "во-первых", "во-вторых", "в начале", "в середине". Вообще черта нейросети - это высокая структурированность информации. И факты ИИ стремится свести к каким-то определенным типам. Отсюда возникает и третий тип ошибок - типологические.

Проиллюстрировать это можно таким примером. Студентам даю задание: создать путеводитель по одной из областей или описать местные достопримечательности какого-то города. Если они используют зарубежную нейросеть, может быть путаница. Окажется, что в Воронеже расположен Мамаев курган и КАМАЗ. Это реальные встречавшиеся мне примеры ошибок.

Иногда ИИ дает какие-то типовые названия, скажем, сообщает, что главной достопримечательностью является некий краеведческий музей. Нейросеть знает, что в городе должен быть музей, храм, памятник боевой славы. И создает устойчивый набор: церковь Успенская, Рождественская, Никольская, не разбираясь, а есть ли такие в городе. Иногда угадывает. Но еще сильнее ошибается в тех случаях, когда речь идет уже не об областном центре, а, например, о районном.

Вот здесь наблюдается полное и свободное манипулирование фактами. Хотя внешний текст выглядит вполне приемлемым, вполне привычным, приличным, производит впечатление хорошо написанного, но если в него вчитаться, если задуматься, попытаться проверить эту информацию, то там можно найти явные фактические ошибки.

То есть пока не стоит торопиться доверять нейросетям?

Роман Тельпов: Да, доверять им нельзя именно в передаче фактической информации. Но есть у ИИ и большие плюсы, например, нейросеть может достаточно успешно рассуждать на какие-то абстрактные темы. Скажем, почему важно быть учителем и в чем его высокое предназначение.

Иностранный студент учится в вашем вузе. Чем ему поможет, а может быть, помешает искусственный интеллект в изучении русского языка?

Роман Тельпов: Может быть, на начальном уровне изучения, когда нужно быстро создать адаптированные тексты, искусственный интеллект и пригодится, но, конечно же, для более глубокого изучения языка понадобятся оригинальные и аутентичные. Мы с коллегами отмечаем поверхностность текстов, созданных искусственным интеллектом, там нет глубокого проникновения в культуру народа.

Стоит ли изучающему русский язык проверять значение слова в нейросети?

Роман Тельпов: Не думаю. Для этого есть электронные словари русского языка, есть достаточно широкий круг источников, Национальный корпус русского языка, которые больше доверия вызывают.

Нейросети сейчас научились исправлять ошибки и орфографические, и грамматические. Как вы считаете, не приведет ли это в будущем к безграмотности, если ИИ возьмет задачу писать грамотно на себя?

Роман Тельпов: Давно есть редакторы, которые выделяют неправильно написанные или кажущиеся им подозрительными слова, выражения. Даже могут исправлять, ставить большие буквы вместо маленьких, расставлять запятые. Но грамотные люди как были востребованы, так и остаются.

А могут ли нейросети вытеснить филологов, лингвистов, журналистов?

Роман Тельпов: Нет, конечно. Ценность и профессионализм редакторов, тех, кто сможет проводить экспертизу сгенерированных текстов, только увеличится. Уже существуют и бурно развиваются такие области филологии, как лингвистика текста, автороведение, стилеметрия, которые занимаются выявлением особенностей авторского текста, чтобы понять, кто перед тобой, человек или машина.

Мне кажется, значимость нейросетей несколько преувеличена. Круговорот текстов существовал всегда. Любая древняя рукописная книга - это чаще всего заимствование из какого-то предшествующего текста. Немного измененный, немного доработанный, отредактированный, но используемый снова и снова. Мы очень удивимся, если проанализируем святые для нас имена или произведения. Окажется, что многие из них являются переводами с иностранного языка, переложениями тех, кто писал прежде.

Как и для журналиста любая статья, любая заметка нередко начинается с пресс-релиза. Получается, сначала пресс-релиз, потом правка, и у нас есть что-то новое. По такому же принципу и действует нейросеть. Она, конечно, сохраняет много времени, помогает избавиться от страха чистого листа, вычленяет большие базы данных, анализирует их, но это всего лишь особым образом настроенный способ поиска.