КОРПУС ТЕКСТОВ КАК РЕАЛИЗАЦИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОЙ ПАРАДИГМЫ
В. В. Рыков
Московский Физико-Технический Институт
Ключевые слова: корпусная лингвистика, объектно-ориентированное программи-рование, репрезентативность
Проблема репрезентативности используемого корпуса данных является весьма актуальной для любого лингвистического исследования. Это существенно важно как для теоретических изысканий, так и задач прикладной лингвистики – например для отладки и совершенствования алгоритмов обработки текстовой информации. Репрезентативность как доказанное качество, присущее сконструированному корпусу текстов определяет достоверность полученных на нем результатов. Проблему можно рассматривать как проблему адекватного отражения, адаптации или интеграции больших массивов текстов или некоторых иных фрагментов речевой деятельности в существенно меньший по объему корпус текстов. Для решения этой проблемы предлагается модель (парадигма) объектно-ориентированного программирования. Предлагаются для применения такие классические методы ООП как наследование, полиморфизм, инкапсуляция и другие.
Анализ этой проблемы показал, что деятельность по составлению или компиляции корпуса текстов чрезвычайно разнообразна и, следовательно, довольно неоднородна. Во-первых, это определяется разнообразием задач, стоящих перед составителем корпуса. Во-вторых, мы наблюдаем здесь обычную полисемию термина - в данном случае термина «корпус текстов».
Или, другими словами, корпус текстов – родовое понятие множества довольно разнообразных объектов. Зачастую эти объекты связывает только общее родовое имя. Корпусная лингвистика оперирует с некоторым достаточно четко определенным подмножестом этого разнообразного семейства [3]. В корпусной лингвистике принято определение корпуса, основывающееся на четырех признаках [6]. Этими основными содержательными признаками, которые определяют специфику этого своеобразного рода словесного единства являются следующие: 1) расположение корпуса на машинном носителе, 2) стандартизованное представление словесного материала на этом машинном носителе, позволяющем применять стандартные программы его обработки, 3) конечный размер, 4) репрезентативность как результат особой процедуры отбора.
В соответствии с этим построим ход дальнейших рассуждений. Достаточно ясно, что первые три признака определяют некоторый набор текстов, расположенный на машинном носителе и представленный в виде, удобном для программной обработки. Последний признак, определяющий корпус, есть признак репрезентативности. Корпус должен с максимальной объективностью представить разнообразие изучаемого явления, и дать в то же время объективную картину бытования этого явления в речевой практике носителей данного языка [4,6].
Это единственный нетривиальный признак корпуса, в отличие от первых трех. Именно это свойство, по замыслу основоположников корпусной лингвистики превращает набор текстов на машинном носителе в уникальное словесное единство – корпус текстов [6]. Это свойство корпуса настолько важно, что иногда говорят о репрезентативности как о результате процесса самоорганизации корпуса, рассматриваемого, безусловно, как метафора [5]. Тогда, по идее, лежащей в основании корпусной лингвистики, корпус текстов отразит объективную картину речевой деятельности независимо от воли его создателя.
Однако, проблема состоит в том, что в речевая действительность чрезвычайно разнообразна, представлена в разных фактурах (устная, письменная, печатная речь и т.д.). Разнообразие зафиксированных в ней лингвистических явлений просто необозримо. В 60-е годы первые корпусы текстов претендовали на то, что они универсальные, то есть отражают статистически корректно всю картину бытования данного языка или некоторый представительный ее фрагмент [6]. Например, Брауновский корпус текстов был создан для отражения печатной речи США 60-х годов с удовлетворительной для того времени степенью репрезентативности.
Но сейчас (например, в профессиональной дискуссионной конференции в Интернете) свободно обсуждаются такие корпуса текстов, как корпус пословиц или корпус английских текстов, предназначенных для отладки систем машинного перевода. В качестве примера можно упомянуть также корпус политических метафор [1]. Очевидно, что здесь критерий отбора текстов для своего корпуса его создатель задает сам, исходя из целей своей практической или научной деятельности. В этом случае критерием репрезентативности для него будет служить требование максимально объективно представить в создаваемом корпусе бытование интересующего его явления. Представим, что мы скомпилировали корпус английских пословиц, максимально репрезентативно отражающий их употребление в речевой практике носителей английского языка определенного времени и географического региона. Будет ли этот корпус репрезентативен для изучения английской политической метафоры? И наоборот?
Из вышесказанного можно видеть, что проблема методологии достижения репрезентативности корпуса текстов является актуальной и недостаточно разработанной [6]. Также можно утверждать, что критерии отбора текстов в корпус и оценки его репрезентативности распадаются на два класса. В первый класс войдут корпусы текстов, созданные по критериям, преследующим цель отразить в себе объективную картину речевой деятельности, существующей не зависимо от исследователя. В другой класс войдут корпусы, построенные ad hoc, для отражения, как уже говорилось, некоторого интересующего явления или для конкретного вида деятельности (корпус пословиц, газетных заголовков, политических метафор, переводов). Методологии построения первого класса корпусов так или иначе строятся на основе принципа дедукции – реализации проблемы корректоности движения от общего (объективно существующей речевой практики носителей языка) к отражающей это общее частному корпусу текстов. Методологии построения второго класса корпусов текстов, как представляется, должны заниматься проблемой корректности отражения частного, единичного лингвистического феномена в корпусе текстов, призванным отразить в себе этот феномен [3]. Теория и практика утверждают, что оба эти подхода тем не менее редко применяются в чистом виде, а, как правило, присутствует некоторая их комбинация.
Можно сказать, что объективная реальность состоит в следующем. Практика показывает, что корпусная лингвистика оперирует как минимум с двумя разными типами объектов (корпусов текстов). Один тип корпуса текстов имеет целью отразить бытование некоторого лингвистического или культурного феномена в общественной речевой практике – например корпус пословиц или корпус политических метафор в газетной речи. Другой тип корпуса универсален – он ставит перед собой задачу отразить в себе все многообразие речевой деятельности или некоторого рода словесности (например, печатную или устную речь).
В обоих случаях мы зачастую можем говорить пока о репрезентативности только как о статистической оценке результата такого отражения в корпусе текстов. Однако статистические критерии оценки здесь не всегда являются единственными или определяющими. Ведь корпус выступает как некоторый объект, призванный послужить моделью некоторой внешней по отношению к нему реальности. Методология конструирования такого объекта как корпус, зачастую должна зависеть от типа корпуса.
Подходящая методология может служить основой для корректного решения проблемы репрезентативности. Тогда можно говорить и о стратегиях достижения репрезентативности. Например, говорят о пропорциональных, а также о классификационных стратегиях [1]. Основанная на правильной парадигме стратегия может послужить не только эффективным инструментом для конструирования корпуса текстов и послужить основой для построения методологии оценки его репрезентативности.
Одним из примеров альтернативной методологии, достаточно подробно разработанной в деталях и широко опробованной на практике может служить парадигма объектно-ориентированного программирования (ООП). Классические методы ООП – наследование, полиморфизм, инкапсуляция и другие [2]. Могут быть применены в практике конструирования новых корпусов текстов и для правильной оценки и описания соотношения между существующими корпусами. За недостатком места проиллюстрируем этот подход на прмере парадигмы наследования. Наследование (inheritance) - это процесс, посредством которого один объект может приобретать свойства другого. Основная стратегия построения универсального корпуса текстов (так называемая пропорциональная стратегия), заключающаяся в пропорциональном сужении предметной области (речевой деятельности) может быть описана как стратегия наследования. Брауновский корпус, построенный на основе такой методологии послужил своеобразным образцом (классом) при создании сначала полностью аналогичных ему корпусов – объектов (LOB корпус и т.д.).
Литература
- Баранов А.Н. Проблема репрезентативности корпуса данных (на примере политической метафорики) // Труды Международного семинара Диалог ‘2001 по компьютерной лингвистике и ее приложениям. – Аксаково, 2001 г.
- Буч Г. Объектно-ориентированный анализ и проектирование. С примерами приложений на С++. – М.:, 1999 г.
- Клименко С.В., Рыков В.В. Логические индукция и дедукция как принципы отражения предметной области в корпусе текстов // Труды Международного семинара Диалог ‘2001 по компьютерной лингвистике и ее приложениям. – Аксаково, 2001 г.
- Рыков В.В. Корпус текстов как отражение состояния русского языка // Труды Международного конгресса "Русский язык: исторические судьбы и современность" . – Москва: МГУ, 2001 г.
- Holmes-Higgin P., Ahmad K. Assembling and Viewing a Corpus of Texts: Self-organisation, Logical Deduction and Spreading Activation as Metaphors // Euralex’96 Proceedings. – Stockholm, 1996.
- McEnery T., Wilson A. Corpus Linguistics. – Edinburgh: Edinburgh University Press, 1999.
Text Corpus Design as Application of Object Oriented Paradigm
Vladimir Vasil’evich Rykov
Key words: corpus linguistics, object-oriented programming, representativeness
The application and development of current IT software or NLP research requires large amounts of specific linguistic resources (LR). Mostly they are called text corpora. However existing text corpora sometimes are compiled either for specific tasks (FAQ corpus, corpus of proverbs or corpus of newspaper political metaphors) or to reflect the public speech activity in general or its specific fragment (printed prosaic speech). It seems that they are two distinct types of corpora or distinct objects with different design criteria.The large scale and sometimes the heterogeneity of LR for the corpus design and other reasons are orientative towards the complexity of the problem of corpus design and corpus representativeness. The suitable representation techniques or methodology captures selective textual information from the LR and reflects it in the text corpus. In order to put it into practice a variety of methods for acquisition, adaptation and integration of LR have been proposed in the NLP research area since the 60's. Still it goes without saying that the quality of many IT applications or NLP research activities largely depend on the representativeness of the used corpora. In both types of corpora the evaluation of representativeness is not the statistical problem only. It hardly depends on the corpus design criteria and methodology. So – we can and must treat the target text corpus as a specific object. It should reflect in its properties the required qualities of outer textual data. There are well known and widely used set of procedures of proper object construction in modern programming. Its name is Object Oriented Programming (OOP) methodology. It includes such a logical design procedures as encapsulation, inheritance, polymorphism et al. These design methods can be used for desired or specific text corpora compilation. Really - objects (and hence corpora) come into existence as a result of calls to certain methods and routines that create them. Each object (corpus) in the universe has a unique identity, an encapsulated state, and a set of methods that can be called to interact with it. These topics are under discussion.