Proceedings 2001

Contents

Рыков В.В. (Москва)

 

РИТМИЧЕСКИЙ КРИТЕРИЙ ОСМЫСЛЕННОСТИ ТЕКСТА

 

 

В современных системах обработки текста зачастую приходится обрабатывать огромное количество текстов «вслепую», т.е. не представляя точно даже не тлько его содержание но и  местонахождение. Особенно массовой эта ситуация предстала с появлением сети Интернет. Более того, для эффективного решения многих задач стало существенно важно - какого рода текст подвергается программной обработке. Быстро вычисляемый критерий степени осмысленности словесного материала может существенно повысить эффективность и качество его обработки.

Осмысленный текст может стать бессмысленным в результате простейшей операции – перемешивании его слов. Многие показатели, отражающие его смысловое содержание могут остаться неизменными. Например, показатели, которые основаны на отборе значимых слов, которые служат потом поисковым образом этого текста при его индексировании программами-роботами современных поисковых систем. Эти показатели не зависят от порядка слов и они одинаково проиндексируют правительственный документ и бессмыслицу, подброшенную хакером. Поэтому нетрудно представить себе ситуации, где критерий осмысленности словесного материала может быть существенно важен.

Одним из таких критериев является классическое понятие ритма. Действительно, этот показатель существенно зависит от порядка следования слов. Можно даже сослаться на врожденное чувство ритма, присущее многим людям, дающее им дополнительную информацию для оценки окружающей их обстановки. Тем не менее, многие считают, что ритм – это качество, присущее только стихотворной речи. Это несмотря на то, что еще в древности концепция ритма прозаической речи была описана вполне полно и логично Цицероном (Цицерон, 1956).

Строго говоря, понятие ритма прозы характеризуется несколькими существенными признаками. Или, другими словами, ритм прозаической речи проявляет себя в трех аспектах (Baum, 1952):

1)                      В разделении и организации составных частей текста , выражающих отдельные идеи, мысли и чувства, которые автор хочет передать читателю (слушателю).

2)                      В оформлении этих частей по правилам языка.

3)                      В искусстве соединения речевых компонентов в ритмически единое целое.

Однако долгое время не удавалось оценить эту категорию в численной форме. Впервые численная индексация ритма прозаической речи была применена при исследовании авторства библейских текстов (Radday, 1972). Опишем кратко этот алгоритм на примере стандартного текста из Брауновского корпуса. Основная идея алгоритма восходит к классическому пониманию ритма прозы как сложного чередования римтически однородных речевых отрезков, образующих сложную ритмическую структуру.

В нашем случае это будут последовательности слов с одинаковым числом слогов, содержащих в себе элементы ритма. Число слогов нетрудно посчитать при помощи компьютера. Получится следующая картина следующих друг за другом ритмических пакетов (рядом поставлено число слогов для каждого слова).

THE 2

FULTON 2 COUNTY 2

GRAND 1

JURY 2 …

PRIMARY 3 ELECTION 3

PRODUCED 2 …

Для оценки этой ритмической картины вычислялись два показателя, позволяющие представить ритм каждого текста в виде точки на плоскости. Оба эти показателя вычисляют энтропию распределения в каждом тексте двух объектов. Первый показатель (РС) – распределение слов в тексте по числу в них слогов (т.е. сколько в тексте слов длиной 1,2,3 и т.д.). Другой показатель (РП)  оценивает такое же распределение по длине ритмических пакетов – т.е. сколько в тексте ритмических пакетов длиной в 1,2,3 и т.д. слов (Рыков, 1984). В указанной работе подробно описывается алгоритм построения этих показателей.

 

 

                               Рис.1

 

Ясно, что первый показатель не зависит от последовательности слов в тексте, а второй зависит и эту последовательность оценивает. В приведенном примере мы видим два ритмических пакета из двух слов, остальные – однословные ритмические пакеты. Эти показатели позволили разделить некоторые библейские тексты на ритмически однородные части, тем самым подтвердив предположение о том, что у них разные авторы.

Вычисления таких показателей для стандартных текстов массовой печатной продукции англоязычной печатной прозы, собранных в Брауновском корпусе текстов, дали достаточно показательный результат, представленный на Рис.1. Показатель РС отложен на оси абсцисс, показатель РП – на оси ординат.

Прежде всего, хорошо видно, что тексты разных жанров образуют компактные группы, что само по себе может служить различительным признаком для идентификации различных текстовых жанров. Однако более значимым является другой результат. Ясно видно, что тексты разных жанров вытянуты вдоль одной прямой. Каждый текст на этой прямой представлен точкой с двумя координатами, образованными двумя показателями ритма следования слов в тексте. Ясно, что если проделать с текстом, упоминавшуюся уже выше мысленную операцию – перемешать в нем слова, то один показатель (РС) останется неизменным, т.к. распределение слов текста по длине останется тем же. Другой же показатель (РП) изменится, т.к. изменится картина распределения ритмических пакетов. Но осмысленный текст – это, как правило, только одна уникальная последовательность слов. И она отражена численным значением показателя ритма, лежащим на прямой. Можно эту прямую (разную для разных языков) назвать «прямой осмысленности текста». Такое уникальное расположение двух ритмических показателей, можно считать грубым статистическим критерием его осмысленности.

При этом не следует предполагать, что любой текст будет расположен на этой прямой. Речь идет прежде всего о массовой печатной прозе – газетных репортажах, детективах и т.п. Эти тексты проходят через жесткую редактуру, их авторы знают о ритмических (и не только ритмических) нормах своего жанра. Можно найти примеры текстов художественной прозы, демонстрирующих уникальные образцы прозаической речи, не подчиняющихся обнаруженной закономерности, что не может служить доказательством отсутствия обнаруженной статистической зависимости.

Можно считать, что получено статистическое подтверждение тезиса, сформулированного еще в древности о неразрывной и жесткой связи смысла и ритма в прозаической речи, о ритмическом единстве прозаического текста, а также о социально закрепленных в жанрах печатной прозы типовых ритмических структур, в которых освоены и закреплены эти связи.

 

 

  1. Рыков В.В. Лингвистическое исследование Брауновского корпуса // Риторика и стиль. - Москва: МГУ, 1984. - С. 102-121.
  2. Цицерон М.Т. Об ораторе // Три трактата об ораторском искусстве. – М., 1956.
  3. Baum P.F. The other Harmony of Prose. – Durham: Duke University Press, 1952.
  4. Radday Y.T. Isaiah and the Computer: A Preliminary Report // Computers and the Humanities. – 1970. – V.5. – N. 2. – P.65-73.
  5. Rykov, V.V. Menzerath Law for Printed  Speech // QUALICO-94.  2nd  International Conference on Qualitative Linguistics. - Moscow: Moscow State University, 1994- P.199-200.