Как компьютер читателя заменил

Компьютерная-лингвистика

Текст: Наталья Лебедева

Фото: с сайта postnauka.ru

Человечество научилось анализировать огромные объемы данных, проводить виртуальные исследования и строить прогнозы на будущее. Без быстрого современного компьютера невозможно представить себе работы физика, астронома, биолога или генетика. А может ли компьютер найти в художественном тексте то, чего не видит человек? О будущем цифровых исследований в литературе в своей лекции для проекта «Постнаука» рассказывает кандидат филологических наук, доцент факультета гуманитарных наук НИУ ВШЭ Борис Орехов.

«Наука прежде всего старается упростить свой объект, расчленить его на некоторое количество параметров и сделать их численными, а потом посчитать их с помощью компьютера, потому что компьютер ничего больше не умеет делать, кроме как считать, — рассказывает Борис Орехов. — Трудность цифрового изучения литературы в том, что не очень понятно, как литературное произведение можно формализовать, ведь с формализации и начинается любая естественная наука».

Физикам, например, в этом плане повезло больше. Они берут какой-то объект, будь то звезда или планета, и начинают за ним наблюдать, отслеживать, как меняются вполне конкретные параметры. А вот с литературой все оказывается гораздо сложнее.

«Мы не знаем точно, что мы можем упростить без потери содержания произведения и что мы можем перевести в число, а что нет. И это действительно очень большая трудность», — отмечает Орехов.

Он напомнил, что попытки формально описать литературные произведения предпринимались не раз.

В 1920-е годы отчасти решением именно этой проблемы занимался литературный формализм. Особенно преуспели российские ученые. Они, в частности, выяснили, что

лучше всего формализуются фольклорные произведения.

Помните знаменитый труд Владимира Проппа «Морфология волшебной сказки»? Так вот его приемы попытались применить и к литературным авторским произведениям. Но попытка не очень удалась, преодолеть естественное многообразие авторской литературы так и не смогли.

Следующая попытка, по словам Орехова, была предпринята в 1960-е годы, когда ученые снова стали искать возможности формализации литературных произведений, поиск каких-то схем, структур.

«Это вообще время успехов естественных наук, в то время появились компьютеры, — рассказывает ученый. — Значительных успехов на этом пути добиться все-таки не удалось — по многим причинам, часть из которых уже исчезла с небосклона к нашему времени. Среди них те же самые вычислительные мощности компьютера, которые значительно возросли с этого времени, и просто-напросто в электронном доступе появилось достаточно много текстов, которые можно попробовать анализировать автоматически».

Сейчас, уверен Орехов, мы переживаем ренессанс этого направления исследований, но сложности никуда не делись:

«Что же мы можем перевести в число, а что не можем? Филологи ищут в произведении какие-то смыслы, но их очень трудно переписать в число, сделать каким-то числовым параметром. А то, с чем может иметь дело компьютер, — это чаще всего какие-то атомарные факты, например слова. Слова подсчитать мы как будто бы можем, и, если мы возьмем какой-нибудь корпус художественных текстов, мы можем поискать те тенденции, которые есть в словах, которыми реализуются некоторые художественные смыслы в произведении».

В последнее время

появляются исследования, пытающиеся, например, определить, чем сентименталистский роман отличается от подобных ему произведений своего времени, но несентименталистских.

Появились даже методы компьютерной лингвистики, которые позволяют подсчитать, насколько один текст похож на другой. Можно даже проанализировать, какие слова выделяют особенное содержание, имеющее отношение к стилю.

Но возможности компьютерного анализа только этим не ограничиваются. Филологам очень хочется, используя новые технологии, найти в тексте то, что обычно остается незамеченным при традиционном пристальном чтении.

«Филологи умеют читать тексты внимательно — это называется медленное чтение (или close reading).

А что же будет, если мы соберем все романы XIX века и попробуем извлечь из них какие-то тенденции и закономерности?

— предполагает Борис Орехов. — Недавно как раз по-русски вышла книга под названием «Дальнее чтение» — это перевод книги Франко Моретти, которая называется Distant Reading. Хотя мне кажется, что более правильный перевод здесь был бы не «Дальнее чтение», как решили переводчики, а «Отвлеченное чтение». То есть мы отвлекаемся от текста и пытаемся извлечь из него какую-то информацию, может быть, не всегда тривиальную, и посмотреть ее на большом объеме данных».

Результаты могут поразить даже профессиональных филологов. Например, может выясниться, что персонажи определенного рода, которые типологически объединяются в какие-то группы, могут употреблять глаголы одного типа в своей речи, а персонажи другого рода изъясняются как-то иначе. Хотя вроде бы все это написано одним и тем же автором, одним и тем же человеком, и настолько сильно эта речь отличаться не должна.

«Компьютерная лингвистика позволяет нам классифицировать персонажей по их речи.

Это именно то, что трудно сделать в процессе медленного чтения, особенно если роман большого объема», — резюмирует лектор.

Большой прорыв уже сделан и в попытке объяснить компьютеру смысл текста. Так, компьютер уже понимает, где пролегает разница между одной темой и другой, например между темами природы и любви.

Но пока имеющиеся цифровые технологии не могут дотянуться до того, что важно литературоведам, — это вопросы смысла, вопросы, связанные с высшими материями, высшими функциями нервной системы.

«Наверное, чем дальше будет развиваться машинное обучение, так называемое depp learning, нейронные сети, тем ближе мы будем к пониманию того, как текст производит впечатление на человека, когда возникает напряжение, когда, наоборот, у человека теряется внимание к тексту и он задумывается о чем-то другом. Мы наконец-то можем объяснить компьютеру, как иметь дело с теми основными, почти рефлекторными вещами, связанными с чтением увлекательных произведений», — говорит Орехов.

Источник: postnauka.ru

#образование #русский язык

Как компьютер читателя заменил

Способен ли компьютерный «мозг» понять Толстого и Булгакова?

лучше всего формализуются фольклорные произведения.

А что же будет, если мы соберем все романы XIX века и попробуем извлечь из них какие-то тенденции и закономерности?

«Компьютерная лингвистика позволяет нам классифицировать персонажей по их речи.