Как хорошо компьютеры умеют читать книги?

Вычислительные инструменты могут анализировать эмоциональные аспекты книг, но неправильно говорить, что они разбираются в литературе.

Отвечать на вопрос, используя определенный алгоритм, вовсе не означает, понимать суть вопроса и контекст. Собственно, об эксперименте с китайской комнатой я уже писала. А тут вышла интересная статья в The Atlantic о результате эксперемента по анализу английской биллитристики. Там и художественные произведения, и словари, и сборники всяческие. Если кратко, то далее вы узнаете:

Что хотели? Получить какие-нибудь статистические данные по тому, что пишут авторы. Исследовали характер и эмоциональную окраску в том числе.
Что в итоге? Какие-то данные получили. Но при более детальном рассмотрении оказалось, что данные эти, скажем так, с человеческой точки зрения весьма странные и не релевантные тем методам, и тем результатам, которые получаются у ученых, занимающихся тем же.

Алгоритм поправили, в итоге в плане разбиения по тематикам результат тот же. Но вопрос, и что нам с этого? Так и не решон. Ибо человек не просто обобщает, но ищет что-то интересное, связывает это, возможно, даже с другими, не относящимися к литературе, явлениями.

Мое мнение:

1. Вообще сама затея изначально весьма странная. Уже давно посчитано, что существет 36 драматических ситуаций. Кто бы что не писал, ну не считая словарей, сюжеты в книге будут относиться к одной из 36ти.

2. Мне для одного проекта сейчас нужно сделать классификатор по результатам работы местных акул пера. И это не так то просто, даже с точки зрения формирования задачи для машины. Когда работаешь с текстами, может оказаться, что нашлось то, чего и не искал вовсе.

Итак, кому интересны подробности, ниже перевод статьи от проекта The Idealist:

Вместе со специалистами в области статистической физики, которые анализируют связи между персонажами в исландских сагах и компьютерными учёными, исследующими жизнь и смерть слов в английской беллетристике, команда математиков Университета Вермонт изучила более 1000 текстов чтобы понять возможно ли автоматически определить эмоциональные дуги книг. Результаты демонстрируют нечто интересное, не только о повествованиях, но и об использовании этого подхода для изучения литературы.

Исследователи Вермонта работали с тестовыми субъектами чтобы создать программу, способную определить эмоциональное значение слов — позитивное, негативное или нейтральное. Слово «террорист», к примеру, было обозначено как негативное в базе данных слов программы, в то время как «выигрыш» — позитивное. Затем они выбрали тексты из массивного волонтёрского проекта по оцифровке книг, известного как «Проект Гутенберг», репозитория текстов, представляющих общественное достояние. Наконец, исследователи запустили серию инструментов анализа чтобы определить форму эмоциональных дуг в текстах.

И в самом деле, согласно данным, опубликованным на ArXiv.org в июне 2016, некоторые паттерны повторялись снова и снова. Около 85 процентов работ, которые изучили учёные, можно разделить на 6 групп. Некоторые из групп были описаны красочными именами — такими как «Икар», в соответствии с эмоциональным типом повествования, который характеризуется взлётом, а затем падением; или «из грязи в князи» — для тех, которые начинаются с негатива, а потом идут вверх. Некоторые из самых скачиваемых работ в «Проекте Гутенберга» подошли под модель «Золушка», которая характеризуется ростом, падением и новым ростом. Можно сделать выводы о том, какой тип историй популярнее всего, или же о том, насколько мало истинное количество эмоциональных вариантов развития в человеческом повествовании.

Но внимательнее изучив книги, которые первоначально были включены в исследование, пришлось поставить под сомнение достоверность этих результатов. Для начала, анализ использовался не только в «Робинзоне Крузо» Дефо и «Рождественской песне в прозе» Диккенса, но и в таких книгах как «Заметки по сестринскому делу» и «История искусств для начинающих». Сборник сказок Ганса Христиана Андерсена был обработан как единый рассказ, а не серия повествований. Книгой, которая лучше всего подходит под дугу Икара, оказалась «196 сутр йоги». Другим странным моментом была дуга «Золушки» и наиболее подходящая ей книга: «Утешение философии» Боэция.

Результаты продемонстрировали одну из проблем автоматизированного анализа. Непросто взять большой обьём информации вроде общее количество книг «Проекта Гутенберга» и отфильтровать её чтобы получить ответы на требуемые вопросы. Эндрю Рейган, аспирант, который является ведущим автором исследования, охотно соглашается с тем, что анализируемые данные требуют дополнительной фильтрации. «Проект Гутенберг», в конце концов, содержит достаточно большое количество словарей и поэм, и даже текстов по проекту Человеческого генома, которые должны быть убраны из подборки.

Начиная с июня, когда данные впервые были опубликованы онлайн, Рейган получил множество советов и рекомендаций на тему того как лучше всего отфильтровать данные. К примеру, он узнал как получить доступ к классификации Библиотеки Конгресса для «Проекта Гутенберг». Это возымело эффект: «У меня получилось отобрать только полные работы по английской беллетристике» сказал он, так что его последняя, обновлённая версия исследования, которая была опубликована в сентябре, использует результаты этого труда.

Как это часто бывает, те же категории закрыли 85% историй. Но это говорит о том, что паттерны не являются исключительными для произведений художественной литературы, как можно было предположить, когда группа стала изучать исключительно беллетристику. Сложно сказать, как интерпретировать эти дуги не зная точно, почему они существуют, или то, что они могут представлять с точки зрения читателей.

В то же время Вермонтская группа работает над получением детальной информации о текстах, оцифрованных в Google Books, которые должны предоставить больше данных благодаря материалам, опубликованным в течение XX века в Соединённых штатах. Информация Google позволит сделать выборку книг за определённый период и сравнить их с книгами из этого же места в другое время, или из другого места и того же времени, чтобы определить какие интересные выводы можно сделать. И будущие результаты могут также наметить архетипические эмоциональные формы определённого жанра -детективного, например, или романтики.

В целом существует гораздо больший, всеобъемлющий вопрос. Удивительны ли сложности на этом пути? Может ли использование вычислительных машин, которые за сравнимое время способны обработать больший объём литературы, чем один человек в состоянии прочесть, помочь нам заметить вещи, которые мы бы никогда не заметили сами? Сложно сказать. Но когда вы думаете о времени, которое займёт прочтение каждого романа в «Проекте Гутенберг», а также о том сколько усилий и мастерства потребовалось бы для описания всех закономерностей, вы поймёте почему некоторые люди как минимум совершают попытку.

 

 

 

ЕЩЕ ПО ТЕМЕ