АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ТЕМАТИКИ БОЛЬШОГО НЕОБРАБОТАННОГО ТЕКСТОВОГО МАССИВА
А. В. Антонов
Корпорация «Галактика»
Е. С. Курзинер
Корпорация «Галактика»
Ключевые слова: большой текстовый массив, автоматическая обработка, статистический метод, информационный портрет, фон, значимые слова, значимые словосочетания, режим реального времени, скорочтение,
Представляемая нами поисково-аналитическая система позволяет работать с огромными базами данных в режиме реального времени, без предварительной обработки данных, без использования специальных тезаурусов и языковых алгоритмов. Разработанный нами статистический метод позволяет выделять характерные для выборки слова и словосочетания, основываясь на сравнении конкретной выборки с общим фоном базы. Выражаясь лингвистическими терминами, наша система показывает рематические единицы базы данных, которые являются тематическими для конкретной выборки. Это позволяет как осуществлять скорочтение, так и выделять актуальные для запроса темы. В данной статье рассматривается применение системы для литературоведческих целей.
- Введение. К вопросу о лексико-статистическом анализе текста
Традиционно лексико-статистический анализ текста сводится к определению частотности слов, и это, безусловно, дает четкую объективную характеристику текста. Но четкое перечисление составляющихтекста, с указанием частоты их встречаемости подобно каталогу картинной галереи без фотографий – каталогу, перечисляющему предметы, животных и людей, изображенных на картинах, с указанием их количества, с подробным перечислением и подсчетом деталей, например, смокингов, сюртуков, косовороток и т.д. и т.п. Все это объективно, правильно и информативно, но такие общие для совокупности картин подробности заслоняют их суть, которая не может выражаться абсолютной величиной; следовательно, такое «бухгалтерское» перечисление деталей уводит от понимания ценности картины, заключающейся, прежде всего, в уникальности каждой картины. Даже знаменитый «черный квадрат» Малевича знаменит именно тем, что посередине белого холста «покоится» (?) («находится» (?), «висит» (?), «есть» (?), «нарисована» (?)) правильная геометрическая фигура, и эта фигура в виде квадрата, и она черного цвета! Важна совокупность признаков, но именно этих признаков, потому что нигде (среди картин) такого нет(по крайней мере, не было!). Или, скажем, «Джоконда» - это не просто женский портрет на фоне пейзажа, это портрет женщины с «загадочным» лицом, а точнее, улыбкой.
Если говорить о текстах, а не о картинах, что, собственно, и является темой данной статьи, то читателя сначала интересует, О ЧЁМ текст (стоит ли его читать?), а потом – ЧТО интересного в нем. И даже если это интересное «растворено» в тексте, и даже если приятно «растворяться» в процессе чтения, то все равно в результате остается нечто, а не всё.
Поисково-аналитическая система «Галактика-Зум» работает именно как указка опытного экскурсовода, высвечивающая те составляющие картины (или текста), которые делают ее ценной для всей «галереи» (или библиотеки). Выражаясь лингвистическими терминами, данная система показывает рематические единицы базы данных, которые для конкретных документов этой базы являютсятематическими. Суть (и новизна) данного инструмента заключается в том, что на фоне некоторой совокупности текстов (базы данных) оценивается лексический состав полученной по запросу выборки.[1] То есть происходит не простое выстраивание слов (словосочетаний) выборки по частоте их встречаемости там, а отбор слов (словосочетаний), характеризующих отличие этой выборки от всего остального, имеющегося в базе[2].
Например, слово «любовь» в конкретных текстах очень часто обладает высокой частотностью, но высокая значимость у него может быть только при условии, что либо его частотность в рассматриваемой выборке еще выше, чем обычно, либо все другие слова в данной выборке употребляются с меньшей частотой. При этом какая-нибудь фамилия, встречающаяся только в данном тексте, будет иметь высокую значимость, и тем выше, чем меньше текстов будет в этой выборке и больше – в фоновой базе.
В связи с этим возникает сомнение: правильно ли значимость слова (словосочетания) понижать только потому, что оно значимо везде? Рассмотрим пример со словом «любовь». Если в исследуемой базе всепроизведения о любви – значит, все равно должно быть что-то другое достойное, чем эти тексты интересны и что отличает их друг от друга: именно это и будет достоянием, наиболее значимым словом. Если в исследуемой базе только часть произведений на данную тему, то это слово уже должно иметь высокую значимость, если именно эту выборку мы анализируем. И самый главный аргумент в пользу данного инструмента лексико-статистического анализа текста: этот инструмент определяет именно специфичность лексического содержания конкретной выборки текстов[3], он служит для обработки (своего родаскорочтения) большого текстового массива; это такой инструмент и служит он для таких целей.
Для каких целей нужно определение подобной специфичности? Что представленный инструмент может дать, в частности, для литературоведения? Очевидно, что с его помощью можно выделить характерные, ключевые для конкретного текста слова, словоформы, словосочетания.
Еще раз подчеркнем, что это инструмент, а не разум: выводы о результатах объективного исследования с помощью точного инструмента должен делать ученый, который так или иначе будет доказывать или опровергать свои субъективные ощущения. Интерпретация может быть разной, но она будет тем правильнее, чем больше будет материала для сравнения, потому что этот инструмент в основе своей имеет алгоритм сравнения – сравнения с базой данных – для выявления наиболее характерных для данной выборки слов (словосочетаний[4]).
- Исследование
2.1 Вопросы исследования
Попытавшись применить нашу систему для исследования художественных текстов, мы задались некоторыми литературоведческими вопросами: можно ли по значимым словам и словосочетаниям определить авторство, жанр, стиль писателя?
Для этого был проведен с помощью представляемой поисково-аналитической системы сравнительный анализ лексического состава и стилистических особенностей произведений Н.Гоголя, Л.Толстого, Ф.Достоевского, А.Чехова, М.Булгакова;
2.2. Результаты исследования лексического состава и стилистических особенностей произведений
Н.Гоголя, Л.Толстого, Ф.Достоевского, А.Чехова, М.Булгакова
2.2.1. Гоголь.
Приоритет: фамилии, отчества, профессии, ранги, национальности;
Есть ругательства («собачий сын», «чертов сын», «всякая дрянь»).
Эпитеты: табель о рангах (коллежский, куренной, статский), возрастной статус («старый козак», «старый тарас», «покойный дед»).
Глаголы: «оборотиться», «изволить», «позабыть», «признаваться», «нюхать», «вскрикнуть», «обступить», «понюхать», «изобразить», «уставить», «мелькать», «попадаться», «показываться», «напечатать», «прибавить», «почитать», «отзываться», «отворить», «отзывать» и т.д.
По отдельным произведениям:
«Вечера на хуторе…»: примерно так же, но акцент на возрастном статусе персонажей («покойный дед», «молодая жена», «старый человек»), на времени («каждый год», «прошлый год», «другой день», «другой раз»).
«Тарас Бульба»: практически совпадает с общей картиной по Гоголю.
«Ревизор»: в целом совпадает; очень «сюжетно-показательные» глаголы («изволить», «жаловать», «проезжать», «осмелиться», «берёт»). Но среди значимых нет ругательств:
вероятно, это объясняется социальным статусом персонажей конкретной пьесы.
«Мертвые души»: примерно совпадает с общей картиной, но акцент на социальном статусе («губернаторская дочка», «новый генерал», «херсонский помещик», «трактирный слуга»). В отличие от других произведений, присутствует автор («наш герой», «знакомый читатель»).
Посмотрим на информационные картины по жанрам.
В рассказах и повестях, как и в пьесе («Ревизор»), наиболее значима «табель о рангах» («коллежский асессор», «значительное лицо», «ваше превосходительство», «статский советник» и т.п.),
в «поэме» («Мертвые души») - и «лирические отступления» («в некотором роде», «сие слово»). Это по словосочетаниям; по словам практически не различаются: и там и там имена и звания – как и в целом у Гоголя.
Интерпретация: галерея мещанских портретов.
2.2.2. Л.Толстой.
Приоритет: фамилии, имена, отчества (вперемежку), титулы, внешность (части тела, лица), чувства, временная лексика..
Эпитеты: «ее/его», «это/то», «всякий», «нынешний», «весь», «общий», «свой», «другой».
Это подтверждается и по отдельному произведению (например, по «Анне Карениной» («ее/его», «свой», «это/то», «первый»), по «Детству» («мой», «это/то», «свой»), по «Хаджи Мурату» ( «его», «этот», «свой»).
Интересно, что в «Хаджи Мурате» вообще нет никаких значимых отдельных слов, кроме имен. В других же произведениях («Анна Каренина» и «Детство» среди отдельных значимых не имен собственных очень много «рефлексивной» лексики – оценочные наречия и абстрактные существительные, выражающие различные состояния. Эмпирически именно так и представляется Л.Толстой.
Интерпретация: философские размышления о людях.
2.2.3 Ф.Достоевский
Приоритеты: фамилии (достаточно вычурные), имена, отчества – много героев, и необычных; очень много слов и словосочетаний, характеризующих время («последний», «былой», «вчерашний», «третий день», «одно мгновение», «другой раз», «вечный муж», «минута», «время», «день»); заметна «раздражительная» лексика («вздор», «дескать», «низкий человек»).
Эпитеты: указательно-притяжательные местоимения, выполняющие как бы «приземляющую» функцию («этот господин», «другой день», «эта минута», «ваша мамаша», «ваша сестрица», «этот день», «нашострог», «наша камера», «своя каморка»…); отдающее тревогой прилагательное «последний» («последнее слово», «последнее время», «последняя степень»); «положительные» прилагательные («деловой человек», «приличный человек», «порядочный человек», «милостивый государь», «высшее общество», «ваше превосходительство», «этот господин») - выглядят подчеркнуто неестественно на фоне просторечных, пренебрежительных и «мрачных» слов («давеча», «воротиться», «мамаша», «девица», «сестрица», «подружка», «повеситься», «пьяный», «вскричать»).
Интерпретация: мрачный мир населяют жалкие люди, живущие в раздражении, неуважении, буре эмоций – поглощающие время и поглощенные им.
2.2.4. Чехов.
Приоритет. Очень много значимых слов и словосочетаний - титулы, место («правая дверь», «грязные обои»), время, точнее, «периодичность» («целый день», «всякий раз», «другой день»), отчества, фамилии;имена (– только женские!; «деноминация» мужчин?), описание внешности («большие глаза», «плачущий голос», «резиновые калоши»). Очень много значимых словосочетаний со словом «человек» («образованный человек», «добрый человек», «честный человек», «порядочный человек», «счастливый человек», «хороший человек», «умный человек»), при этом отдельно слова «человек» нет среди значимых! Видимо, подобные словосочетания характеризуют лейтмотив творчества Чехова: тема «положительного» человека – это одна из главных его тем.
Эпитеты: очень много эпитетов. Особых предпочтений не наблюдается, но наиболее частотные из значимых - «весь» («вся ночь», «все лето», «весь день», «весь вечер», «все тело», «вся душа», «вся дорога», «весь сад», «весь двор», «весь город») порядковые числительные, «такой» («такое выражение», «такой тон», «такое чувство», «такая жизнь», «такое слово», «такой вид»). Подобную «определенность» можно, конечно, по-разному интерпретировать, но что бы за ней ни стояло (желание быть понятым, или бескомпромиссность, или инерционность, или что-то другое) – она есть и на нее стоит обратить внимание.
Глаголы: «изволить», «уезжать», «заплакать», «стучать», «погодить», «умолять», «сконфузиться», «замучиться», «обнимать», «женить», «кушать», «сердиться», «презирать», «бормотать», «постареть», «отворять», «обедать», «помереть», «спиться», «надоесть», «влюбить», «напевать», «целоваться», «бранить» и т.д. Достаточно разнообразно, но, все же, на первом месте именно «изволить», достаточно значимы «погодить» и «сконфузиться» - тема «маленького чиновника». Интересно, что в пьесах (как совокупности) вообще отсутствуют значимые глаголы.
Интерпретация: жизнь обывателей, как калейдоскоп картинок, состоящий из деталей интерьера, одежды, внешности, - на фоне быстротекущего времени, что только подчеркивает однообразную суету жизни.
Чехов-драматург и Чехов-писатель («рассказчик») очень характерно различаются при сравнении отдельных значимых слов: в пьесах значимыми оказываются только имена и совсем нет глаголов, а в рассказах – пафосные слова (типа «преосвященный», «превосходительство»), «надменные» («изволить», «братец»), «простецкие» («Дмитрич», «Иваныч», «Андреич», «тетка») - то есть такие, совокупность которых и создает атмосферу мещанской пошлости.
«Вишневый сад» подтверждает это, «Три сестры» - исключение, подтверждающее правило: помимо имен, сравнительно значимыми оказываются глаголы «замучиться», «надоесть». В пьесах Чехова очень значим эпитет «мой» - монологичность.
2.2.5. М.Булгаков.
(в базе не было драматических произведений Булгакова)
Приоритет: одушевленные существительные (имена, фамилии, прозвища, «профессии»); встречаются и локативные существительные («театр», «больница», «варьете», «ялта», «приемная»); есть ругательства («дурная боль», «тот черт», «сукин сын», «этот негодяй», «чертова матерь»). Явно просматриваются 3 основные темы – медицина, литература и театр, «местоположение» (адреса). Главной характеристикой оказывается голос: «бабий», «дикий», «страшный», «сиплый», «тонкий», «чужой», «женский», «хриплый», «мужской». Почти нет значимых глаголов (разве что «тяпнуть» в «Собачьем сердце». Всё перемешано («священный нил» и «задняя лапа», «гипофиз» и «фить», «домком» и «гренада», «мессир» и «буфетчик», «гражданин» и «афраний», «лысая гора» и «садовая улица»).
Эпитеты: явное предпочтение «черного» («черная мазь», «черное окно», «черный снег», «черная мгла», «черный кот», «черная пасть», «черная магия», «черный маг», «черный ход», «черный волос», «черный глаз») и «белого» («белая марля», «белый халат», «белое пятно», «белый колпак», «белый плащ», «белое лицо»). В «Мастере и Маргарите» фоном проходит «черное» («черная магия», «черный кот», «черный маг»). Но при этом заметны и другие краски – «зеленая петлица», «желтое масло», «зеленая лампа», «красный луч», «розовая краска», «желтоватая кожа», «зеленый огонь», «золотая буква», «серый костюм».
Глаголы: «молвить», «лечить», «вскричать», «лечиться», «тяпнуть», «впрыснуть», «заведовать», «помещаться», «бормотать», «шепнуть», «выписать», «помещать», «резать», «помниться», «зарезать», «втирать», «помереть», «шептать», «ущемить», «потухать», «сыпать», «потухнуть», «помиловать», «прокричать», «утихнуть», «осведомиться», «щуриться», «загреметь», «лакировать» и т.п. Обозначены несколько нелепые действия, и очень много «голосовых» глаголов, и тоже не вполне нормальных.
Интерпретация: Основное действие – в мешанине и перемещении разных «типов», которые характеризуются, в основном, своими именами и рангами, то есть «неотъемлемыми» признаками, и специфическими голосами, создающими какофонию. При этом, несмотря на «золотые буквы» и «зеленые петлицы» (на вычурность), все достаточно просто (черное или белое).
2.2.6. Общее.
Из всего вышеизложенного видно, что практически у всех описанных авторов имеется обилие персонажей, обилие эпитетов и достаточно мало глаголов. Пожалуй, только у Гоголя глаголы заметны среди значимых слов. И то это глаголы, скорее «сублимирующие» действие. У Толстого тоже встречаются глаголы, но среди них тоже мало настоящих «деятельных» глаголов.
Ниже мы рассмотрим буквально общие слова и словосочетания.
«обыкновенно»: у Толстого – 90, у Чехова – 97, у Гоголя - 238;
Интересно, что ни у Булгакова, ни у Достоевского среди значимых нет этого слова, при этом у Достоевского есть «необыкновенный». Похоже, что это легко вписывается в общую картину, то есть ни того, ни другого «обыкновенное» не интересует: Булгакову оно не интересно, для Достоевского не существует.
«одно слово» (или «одним словом», что совсем не одно и то же): значимости примерно одинаковые: у Чехова – 61, у Гоголя и Булгакова – 30; у Толстого – 10; у Достоевского – 562,59 (– самое значимое словосочетание у него!). У Достоевского это словосочетание всегда «закругляет» сказанное.
«вся ночь»: у Гоголя – 5, у Чехова – 20; у Достоевского – 54.
У Толстого и Булгакова нет такого выражения среди значимых. Все-таки, «вся ночь» звучит трагично!
«Ваше превосходительство»: у Чехова и Гоголя примерно одинаковая значимость – 107 и 93, у Достоевского – 167, у Булгакова – нет совсем среди значимых.
Однако верхняя граница значимости у всех разная: у Толстого – порядка 8 тыс., у Гоголя – 3 тыс., у Чехова – 1,5 тыс, у Достоевского – 562 , у Булгакова – 2 тыс.
«Обыкновенно» - это вполне интеллигентное выражение для повествователя 19 века, «ваше превосходительство» - драматургическая (диалогическая) единица, повествующая о чиновническом обществе.
«Одно слово» у Толстого – это почти всегда буквально, чаще всего «ни одного слова», это нечто «душещипательное», «последняя соломинка». У Чехова – наиболее значимое и наиболее разнообразное употребление: и как вводное выражение, и отрицательно-усилительное «ни одного слова», и буквальное «одно слово». И то, что чаще именно вводное выражение, похоже, только доказывает его тезис – «краткость – сестра таланта». У Гоголя тоже встречаются разные варианты «одного слова» (в том числе и «только слова»), но чаще, как и у Чехова, - в виде вводного выражения, что опять же хорошо объяснимо: многословная характеристика у Гоголя всегда выливается в одно яркое имя.
«Иной раз» - это выражение очень драматично, оно повествует, это атрибут рассказа от первого лица – не как литературного, а как повествовательного жанра. По значимости: Гоголя – 28,0, у Чехова – 4,79, у Достоевского – 66,0. У Булгакова и Л.Толстого нет вообще. И это кажется очень характерным, так как Достоевский и Гоголь очень любят «рассказ в драме» - когда герои рассказывают сами, Чехов же, будучи гениальным рассказчиком, реже прибегает к «излияниям» своих героев.
2.4. Выводы
Ответим теперь на поставленные в начале исследования вопросы:
- Можно ли определить авторство?
Скорее, можно его предположить – и то при условии, что авторский стиль сохраняется от одного произведения к другому.
- Можно ли определить жанр?
Скорее, можно его подтвердить.
- Можно ли определить стиль?
Можно определить стилистические особенности: любит ли автор эпитеты и метафоры, какие предпочитает; количество персонажей, их характеристики (в том числе и по их именам, фамилиям, по профессиям, национальностям); эмоционально-модальные характеристики: отношение автора к действительности (рефлексия, ирония, критика и т.п.). И несколько более широко понимая стиль, можно определить философские приоритеты автора: оценка – констатация, негатив – позитив, обыденное - возвышенное, человек – вещь, время – пространство.
И в заключение постараемся ответить на главный вопрос нашей статьи: «Что представленный инструмент может дать, в частности, для литературоведения?».
- Как и любой инструмент, основанный на математических законах, представляемая поисково-аналитическая система помогает проверять эмпирические и субъективные ощущения, превращая их в теоретические и объективные выводы.
- Имея в основе алгоритм сравнения, именно для этих целей данная система наиболее приспособлена - для сравнения разных произведений одного автора и творчества разных авторов.
- Возможно использование системы для тематического резюмирования незнакомых текстов.
Automatic Data Themes Determination for Huge Raw Text Data
A.V. Antonov, E. Kurziner
Key words: huge text data, automated procession, statistical method, information portrait, background, significant words, key descriptors, real time processing, fast reading
Our Analytical Search Engine allows working with huge database in real time, immediately upon receiving data, without any special data processing and language algorithms or thesauruses. Our statistical method helps in extracting the characteristic themes of a sample against the background of the whole database. Using linguistic terms, we may say that this engine shows the database’s rhematic units which are thematic for concrete documents sample. This allows implementing fast reading and on adding new documents the themes and their order being changed expresses not only important but also actual lexical units. Our system can be also used for automatic summarization: the highest concentration of significant words will single out the sample text’s most successful informative unit and parallel to the process runs the sample’s thematic clusterization.
[1] Запрос может заключаться в выборе конкретных документов либо по каким-то словам (словосочетаниям; пока это только тип «прилагательное-существительное»), либо по автору, либо по другим, заранее выделенным параметрам (дата, источник и т.п).
[2] Формула вычисления значимости слова (словосочетания) представляет собой отношение частот встречаемости данного слова (словосочетания) в конкретной выборке и во всей базе.
[3] При этом параллельно существует и возможность просмотра частотных параметров слов выборки.
[4] В настоящее время пока реализован единственный тип словосочетаний – «прилагательное-существительное»