Proceedings 2001

Contents

Модель сегментации русского предложения

 

Кобзарева Т.Ю., Лахути Д.Г., Ножов И.М.

 

 

 

 

Предлагаемая система является продолжением  разработки системы автоматического поверхностно-синтаксического анализа русского предложения, начатой еще в 1971 г. в Информэлектро в секторе (затем отделе) Д.Г.Лахути группой лингвистов под руководством Г.А.Лесскиса. В ней используется морфологический анализ, первая версия которого была создана Н.А.Еськовой и который позже был значительно перестроен соответственно нуждам системы и  дополнен несловарным морфанализом по концам слов, обеспечившим возможность работы на “открытом словаре”.

Работа представляет собой развитие “древнего”, возникшего на заре прикладной лингвистики, направления работ, где ad hok строились алгоритмы анализа предложения. Эта система, изначально в некотором смысле такая же “адхоковая”, предполагает возможность работы с естественными текстами на РЯ и, помимо стратегии алгоритмических решений, подтверждающих в ходе реализации как лингвистическую, так и прикладную эффективность, имплицитно содержит элементы грамматики комбинаторных возможностей поверхностно-синтаксических структур, значимые для решения проблем этого уровня анализа.

Очевидно, что максимально десемантикализованный синтаксический анализ текста, облегчающий пополнение словарей и увеличивающий быстродействие систем, не просто сохраняет свой прикладной интерес. Если задачу автоматического морфологического анализа  в принципе (после появления словаря А.А. Зализняка) можно считать решенной,  поверхностно-синтаксические проблемы  чаще решают по-прежнему ad hoc в рамках  разного рода  глубинно-синтаксических и семантических исследований, предполагающих компьютерную реализацию (ср. Леонтьева 1996).

           Компьютеризация культуры в целом порождает необходимость искать оптимальных решений прикладных лингвистических задач. Задача описания линейной структуры  предложения (и - на следующем этапе - текста), лежащая на стыке  морфологии и синтаксиса, остается практически нетронутой, хотя возникающие здесь проблемы (как, например, проблема синтаксических неоднозначностей - Иорданская 1967 или проблема проективности - Шрейдер 1971 и, в частности, сочинительной проективности - Падучева 1971, Падучева 1974) обсуждались уже несколько десятилетий назад.

Предлагаемая работа рассматривает эту задачу как отдельную область исследования  и ставит целью понять, сколь далеко можно продвинуться в поверхностно-синтаксическом анализе без обращения к семантике (по крайней мере, к лексической), т.е. используя для анализа морфологические и линейно-комбинаторные характеристики текста.

Лексическая семантика и глубинный синтаксис при верификации своих построений оперируют, как правило, простыми предложениями (или нехитрыми по линейной структуре сложными, манифестирующими определенные семантические феномены). При анализе естественного текста мы имеем дело с предложением (S) - цепочкой символов письменного языка, которая в общем виде представляет имплицитно заданный линейным порядком слов и знаков препинания граф сегментов (фрагментов), где каждый сегмент является некоторой “трансформацией” простого предложения, поверхностно-синтаксические параметры которой обусловлены смысловыми связями элементарных ситуаций,  презентируемыми данной поверхностно-синтаксической структурой.

Именно в силу этого система сегментации S как отдельный модуль (аналогично модулю морфологического анализа), кроме того, что она может быть использована при создании  текстовых ИПС, интерфейсов баз данных, автоматического реферирования, машинного перевода и т. д., может обеспечить оптимальные условия перехода к следующему - глубинно-синтаксическому - уровню анализа предложений естественного текста.

“Костяк” S составляет простое S или цепочка “сочиненных” простых S - b-сегментов. В каждое простое S могут быть “вклинены” разного рода придаточные S и обособленные обороты - a-сегменты. В свою очередь в a-сегменты могут быть вставлены другие a-сегменты. Явление “вставлений”, хорошо известное на уровне внутрисегментных связей (Хомский 1972), порождает в цепочке сегментов S разрывы b- и a-сегментов. Например, в S с одним простым (по школьной терминологии - главным)   Мать, когда мальчик, выйдя во двор, где стояла машина, к которой было необходимо, как он понимал, подойти, споткнулся и упал в сугроб, наметенный за ночь, выбежала ему помочь. разорваны три сегмента из шести: один b-сегмент и два a-сегмента.

Собственно сегментации предшествует этап предсинтаксического преобразования результатов морфологического анализа - алгоритмы, снимающие по контексту разного рода омонимию словоформ, а также обрабатывающие знаки препинания, отличные от запятых. В него входят:

  1. алгоритмы формирования грамматических образов словосочетаний, синтаксически функционирующих как единое целое: сложных предлогов, вводных конструкций, чисел, цифро-буквенных комплексов и т.д. (по сравнению с ним vs. такому сравнению; он, мол, считает vs. длинный мол; двести рублей vs. двести первый номер и т.д.) и
  2. алгоритмы анализа узуальной омонимии, возникающей при субстантивации (все встали vs. все ученики; рабочие завода vs. рабочие дни) и всех видов “частичной” омонимии или омографии - результатов частичного совпадения парадигм разных лексем  (солнце село vs. в село приехали; за рядом стульев vs. сидел рядом;  ядовитоусмехнулся vs. это растение ядовито; начатая уже работа vs. уже, чем  и т.д.).

В настоящее время ведется разработка универсального модуля предсинтаксиса, использование которого создаст необходимые предпосылки для работы на естественных текстах, то есть для практического применения системы, которая в настоящее время может рассматриваться лишь как экспериментальная.

Высокая информативность порядка слов и семантикализованность употребления знаков препинания и союзов в РЯ позволяет получить весьма  значимые результаты практически без использования семантики, что, в частности, значительно облегчает пополнение словаря. Кроме морфологических характеристик, используются:

а) элементарная грамматическая (не лексикализованная) модель управления, различающая сильное, альтернативное сильное (при полисемии) и несильное индивидуальное управление: аналогично тому, как в обычных  морфологических словарях дается информация о переходности, т.е. о способности управлять винительным падежом, мы задаем управление и другими падежами, инфинитивом, предлогом и подчинительным союзом;  

б) некоторые простейшие семантические классы, релевантные для поверхностно-синтаксического уровня (предметы одушевленные и неодушевленные, вещества, параметры, единицы измерения, качественные прилагательные и некоторые классы относительных прилагательных, градуальные наречия и т.д.).

В системе различаются два вида элементов S: операторы, к которым относим знаки препинания (в настоящий момент - запятые) и союзы (не подчинительные) vs. все остальные “слова” (единицы, параметры которых сформированы морфологическим и предсинтаксическим анализом).

Используются два вида отношений между словами\сегментами: подчинение - R vs. сочинение - С.

 Задача сегментации операционально решается как задача определения функций операторов.  При этом различаем две функции: функцию членения (“быть левой и\или правой) границей сегмента”)  и функцию сочинения слов.

Существенную роль играют ситуации с функциональной неоднозначностью операторов, порождающей варианты сегментации, и ситуации характерной для РЯ возможности бифункциональности операторов (когда оператор одновременно является границей одного сегмента и сочиняет слова в другом).

Например, в предложении Он постоянно видел отца, красящего забор соседа, старый дом и сарай  первая запятая (зпт) может интерпретироваться 1) как левая граница причастного оборота красящего забор соседа... и при этом вторая зпт - а) как бифункциональный оператор: правая граница причастного оборота и оператор сочинения словотца и дом  или б) как оператор сочинения слов забор  и дом; если же первая зпт понимается 2) как оператор сочинения  отца и соседа, то вторая зпт однозначно понимается как оператор сочинения слов соседа  и дом.

В результате получаем 3 способа сегментации данного S:  1) всё S - один сегмент с цепочкой сочиненных  отца,...соседа,...дом и сарай;  2) два сегмента: простое предложение с сочиненной конструкцией отца, ...дом и сарай, разорванное вложением причастного оборота: Он постоянно видел отца, красящего забор соседа, старый дом и сарай. и 3) два сегмента, где в причастном обороте - цепочка сочиненных: Он постоянно видел отца, красящего забор соседа, старый дом и сарай.

Предложение Рядом с домом, на берегу, под горой,  росли кусты  можно понять 1) рядом с домом и на берегу, а именно под горой ( первая зпт сочиняет, а вторая - левая граница уточняющего оборота), где уточняющий оборот под горой  можно отнести а) ко всей сочиненной группе или б) только к последнему ее члену или 2) рядом с домом, а именно на берегу, а именно под горой, где и первая и вторая зпт - левые границы уточняющих оборотов на берегу и под горой. Т.о. возникают два варианта членения на сегменты и 3 интерпретации их связей: функция первой зпт неоднозначна, а при интерпретации ее как оператора сочинения возникает неоднозначность связи.

       Оба примера представляют случаи истинной неоднозначности (когда действительно существуют более одного правильного варианта понимания предложения и, соответственно, сегментации),  разрешение которой определяется часто экстра-лингвистическим контекстом. Кроме истинных, при анализе возникают синтаксически истинные, но семантически ложные неоднозначности (в частности, порождаемые неоднозначностями при анализе сочинения), разрешить которые не представляется возможным на нашем уровне анализа. 

         Таким образом, многие сложности анализа связаны с неограниченно сложной иерархией структуры вставлений, порождающих разрывы и увеличивающие вероятность появления неоднозначностей сегментации.

   ( Вставления  весьма распространены в текстах любых жанров: Когда, сжигая синеву, багряный день растет… (И.Анненский), ...прости того, кто, будучи ленив в пророчествах, воспользовался штампом, хотя бы этот век свой удлинив пульсирующим, тикающим ямбом. (И.Бродский),  Встреча с кумовьями, давно не видевшимися,выгнала на время из головы...(Н.В.Гоголь), Однако эти же гвардейцы, которые пьянствовали по кабакам и не знали, как расплатиться с долгами, став графами, князьями и получив огромные имения, сделались довольно заметными людьми в русской истории (Ю.М.Лотман))

          Эффективность работы алгоритма определяется двумя факторами: логикой (стратегией) алгоритма и “грамматикой” - имплицитно заданными в алгоритме минимальными контекстными условиями - линейно-комбинаторными ситуациями S, определяющими принятие решения. При сохранении стратегии анализа  возможности алгоритма могут возрастать за счет совершенствования грамматики - углубления понимания возможностей линейной структуры S в РЯ[1].   

          В настоящее время реализована значительная часть алгоритмов сегментации:

  1. два взаимодействующие алгоритма, начинающие сегментацию и чрезвычайно значимые далее (в частности, при определении левой границы А*-оборота[2] и для анализа сочинения), строящие синтагматические связи и определяющие тем самым проективные фрагменты, не вычленяемые знаками препинания: а) анализ PRN - предложных групп с вложениями между предлогом и существительным-слугою, возможными при появлении прилагательного\причастия - слуги N, (в стоящей на покрытом только вчера клеенкой столе пепельнице) и б) анализ NRA - необособленных согласованных определений с любым количеством параллельных вставлений любой глубины, как, например, привязанный рваной и выпачканной краской веревкой к стоящему около висящей на стене на прикрепленном проволокой крюке старой вешалки дубовому шкафу портрет (такое маловероятно, однако в современной прозе примерно 4% всех необособленных согласованных определений имеют вложения).

Уже в этих алгоритмах нам приходится работать с иерархией вложений (здесь синтагматических).  При работе со структурами с вложениями весьма эффективен принцип движения по S справа налево.  При таком направлении движения мы начинаем анализ с самого глубокого вложения и, определив границы соответствующего проективного отрезка, можем анализировать “опоясывающую” его конструкцию, игнорируя факт существования проанализированного вложения.

П. алгоритм  определения левых границ a-сегментов: придаточных предложений, деепричастных оборотов, обособленных согласованных определений, с вершиной - прилагательным\причастием (А*-оборотов), обособленных предложных оборотов;

Ш. алгоритм поиска правых границ a-сегментов с восстановлением их целостности, использующий как подпрограмму алгоритм анализа сочинения слов.

Логика и грамматика алгоритмов анализа a-сегментов.

Алгоритм  определения левых границ a-сегментов

Всё S делится на отрезки по запятым. a-отрезок, левая граница которого - безусловная левая граница a-сегмента (опорный элемент анализа a-сегмента) определяется по наличию в отрезке “сегментообразующего” слова: подчинительного союза, деепричастия, полного причастия\прилагательного, оставшегося после анализа NRA без хозяина (с обращением к подпрограмме - алгоритму анализа левой границы А*-оборота, снимающего функциональную неоднозначность  “левая граница a-сегмента vs. оператор сочинения”), предлога, требующего обособления. a-отрезки на этом этапе - еще не сегменты, но безусловные “начала” a-сегментов. Все остальные отрезки объявляются b-отрезками.

Алгоритм поиска правых границ и восстановления разорванных a-сегментов.

Логика поиска правой границы a-сегмента.

При анализе a-сегментов мы имеем дело со структурами с вложениями, как и при анализе PRN и NRA,  и, соответственно,  двигаясь по S справа налево, обрабатываем поочередно каждый очередной a-отрезок.

Для очередного анализируемого k-ого a-отрезка, двигаясь от него слева направо, пытаемся максимально удлинить его (т.е. найти правую границу k-ого a-сегмента,минимальной компонентой которого является k-ый a-отрезок), присоединяя к нему, если это допускает грамматика линейной структуры S, b-отрезки, расположенные правееk-ого a-отрезка.

При этом возможны следующие ситуации.

  1. Правее k-ого a-отрезка в пределах S не $ b-отрезка ® a-отрезок объявляется a-сегментом.
  2. Непосредственно справа от a-отрезка $ b-отрезок.

В этой ситуации запятая - правая граница a-отрезка может (строго дизъюнктивно) быть правой границей сегмента или оператором сочинения.

Если нет грамматического запрета искать сочинение, подключается подпрограмма анализа сочинения и, если сочинение найдено, b-отрезок присоединяем к a-отрезку и возвращаемся к исходной ситуации с новым (удлинненным) k-ым  a-отрезком: правая граница b-отрезка становится правой границей анализируемого a-отрезка ( ...,позвонив матери, живущему за городом брату, ...).

Если поиск сочинения запрещен грамматикой (Когда, взрывая синеву, багряный день растет.. ) или сочинения нет ( Играя в футбол, мальчик, когда...), a-отрезок объявляется a-сегментом, и переходим к анализу следующего справа налево a-отрезка.

  1. Непосредственно справа от k-ого a-отрезка $ (k-1)-ый a-сегмент (уже проанализированный) и где-то правее $ b-отрезок. Это - случай потенциального разрыва k-ого (еще не построенного) a-сегмента одним или цепочкой a-сегментов, начинающейся с (k-1)-ого a-сегмента (все a-сегменты справа уже построены). Ближайший справа b-отрезок (“перепрыгиваем” все уже обработанные a-сегменты, находящиеся между k-ым a- и первым справа от него b-отрезком) рассматриваем как потенциальную составляющую k-ого a-сегмента. Если нет грамматического запрета на присоединение этого b-отрезка к k-ому a-сегменту и выполняется одно из грамматических условий присоединения,  b-отрезок присоединяется к a-отрезку и, возвращаясь к исходной ситуации, продолжаем анализировать уже удлиненный k-ый a-отрезок.

Грамматические условия присоединения.

      1) очевидная синтаксическая неполнота a-отрезка (Когда, сжигая синеву, багряный день растет...;...если он, так долго собираясь на эти занятия, не пришел,...)

      2) при работе подпрограммы анализа сочинения в k-ом a-отрезке + b-отрезке запятая - левая граница b-отрезка оказывается оператором сочинения слов (...,взяв куртку, которая, несмотря на все его старания, насквозь промокла, шляпу и зонтик,...)

      3) в  b-отрезке $ слово, способное по своим морфологическим признакам заполнить некоторую грамматическую валентность слова в a-отрезке ( ...,если бы он хотел, как казалось его друзьям, забывшим про странные эти обстоятельства, помочь матери,...).

Некоторые виды неоднозначности при определениии левой границы a -сегментов.

  1. Левая граница особленного согласованного определения vs. оператор сочинения

Он видел отца, работающего в саду соседа, брата и Ваню. Первая зпт неоднозначна: оператор сочинения vs. левая граница А*-оборота (соответственно  возникает  и неоднозначность функции второй зпт).  

  1. Приложение vs. член соч.констр.

Он заметил в зале своего друга, известного любителя живописи, двух студенток и сторожа. Первая зпт неоднозначна: оператор сочинения vs. левая граница приложения. (т.е. второй отрезок может быть понят как обособленное согласованное определение к именной группе своего друга или член сочиненной группы своего друга, известного любителя живописи, двух студенток и сторожа.).

  1. Уточняющий оборот vs. член сочиненной конструкции.

 Эта неоднозначность  в точности аналогична 2-ому типу. Пример Около леса, на крутом берегу, у дороги желтели одуванчики.  может быть проинтерпретирован как один сегмент с цепочкой сочиненных PRN или как сегмент, разорванный вложением уточняющего оборота.

  1. Приложение vs. обращение.

В примере Мой ребенок, милый мальчик, очень капризен. два сегмента, но милый мальчик может пониматься в прямой речи и как обращение к собеседнику (ср. Этот человек, мой дорогой читатель,...).Если же, например, фрагмент имеет вид  Мой ребенок, милый мальчик, всегда невыносимо капризный, заснул. интерпретация сегмента милый мальчик значима для графа связей сегментов.

Неоднозначности при определении правых границ a-сегментов.

Возможность неоднозначностей становится очевидной при переборе условий, по которым мы удлиняем (см. выше раздел “Грамматические условия присоединения”) a-сегмент, присоединяя к нему b-отрезок, оторванный вложением или непосредственно примыкающий.

Истинные (и соответственно - истинные на поверхностно-синтаксическом уровне) неоднозначности при соединении разорванных сегментов возможны для каждого вида условий присоединения (как по сочинению, так и по критерию неполноты  - очевидной или выявляющейся при проверке заполнения валентностей).

К ним относятся, в частности, неоднозначности при определении правой границы a-отрезков - придаточных предложений, проистекающие из неоднозначности при  поиске сочиненных групп.

Источник такой неоднозначности, например, - цепочка ... a-отрезок с Пред-n (придаточное S)...b-отрезок (k)  (ближайший справа от a-отрезка) с Пред(n+i) ...b-отрезок(k+1) с Пред(n+j).... Как уже говорилось, к моменту анализа очередного a-отрезка все a-отрезки правее него в S уже приобрели статус сегментов и их существование нас не занимает (т.е. между b-отрезками могут быть любые вложения).

При выполнении 3-х условий (1. Пред-n, Пред(n+i), Пред(n+j) согласованы, 2. в b-отрезках нет претендентов на роль подлежащего и 3. левее a-отрезка (в b- или a-отрезке)$ подлежащее, согласующееся с анализируемыми предикатами)  отрезок предложения ...(воспоминание, от которого) он вздрогнул. когда отец встал, взял чашку и налил в нее чая, открыл форточку и посмотрел на часы, может быть сегментирован  и соответственно разбит на сегменты следующими способами (причем эти интерпретациисинтаксически равноправны и без экстра-информации равно истинны):

  1. a-сегмент - когда отец встал и, соответственно, разорванный им b- или a-сегмент, его опоясывающий, -,взял чашку и налил в нее чая, открыл форточку и посмотрелна часы,...
  2. a-сегмент - когда отец встал, взял чашку и налил в нее чая, и, соответственно, разорванный им b-или a-сегмент, его опоясывающий, - ...он вздрогнул, открылфорточку и посмотрел на часы,...
  3. a-сегмент - когда отец встал. , взял чашку и налил в нее чая, открыл форточку и посмотрел на часы, и b-или a-сегмент (без разрыва) -...он вздрогнул, .

 Подобные ситуации могут возникать и при соединении разорванных сегментов по сочинению именных или предложных групп.

       После построения a-сегментов мы можем, временно исключив их из рассмотрения, перейти, с учетом разрывов, к анализу простых S, составляющих основу S в целом. Этот этап принципиально проще анализа вложений, хотя проблемы анализа сочинения на границах сегментов остаются и на этом этапе.    

       Существующая программная реализация анализа a-сегментов, несмотря на экспериментальный  характер системы, показывает и лингвистическую, и прикладную эффективность описанного подхода.

Основные принципы проектирования процедуры сегментации, основанной на данной модели:

  • Отказ от традиционного декартового произведения омонимов для построения синтаксических вариантов позволяет сократить число омонимичных структур предложения.
  • Каждый новый вариант синтаксической структуры возникает только при активизации в ходе анализа морфологического или синтаксического омонима с дублированием ранее построенных связей;
  • Любая синтагма, релевантная для некоторого подмножества синтаксических вариантов, строится анализом один раз.
  • В процессе анализа используется примитивная грамматическая модель управления, достаточная для установления синтаксических связей.
  • Построение каждой синтагмы представляет собой отдельный модуль итераций.
  • Построение a- и b-сегментов происходит рекурсивно.
  • Ключевую роль в сегментации предложения (выделение простых предложений в составе сложного, вычленение придаточных и оборотов с различными типами вершин) играет объединение разрывных отрезков, принадлежащих одному сегменту.
  • Разделение морфологической и синтаксической омонимии.
  • При активизации морфологического омонима в точке выбора порождается граф синтагм, соответствующий активизированному омониму.
  • При активизации синтаксического омонима в точке выбора порождается омонимичный граф сегментов.
  • В точке выбора, независимо от типа омонима, порожденный граф выделяется в отдельный поток, где дальнейший анализ начинается от текущего состояния графа в момент активизации омонима.
  • Потоки, каждый из которых анализирует один синтаксический граф, могут работать параллельно или последовательно.
  • Путем установления отношений между сегментами строится связный граф сегментов предложения. Результатом анализа является множество омонимичных графов синтаксических сегментов.
  • Каждый узел в графе сегментов представляет собой множество омонимичных графов словоформ, где синтагма – ребро графа.

 

Линейная структура предложения S естественного языка состоит из множества словоформ S = {W1, W2, …, Wn}, где  каждая словоформа представлена множеством морфологических омонимов Wi  = {H1, H2, …,Hm}, где Hi является вектором значений {часть речи, граммемы, примитивная модель управления}. Таким образом, предложение можно представить как упорядоченную цепочку элементов S = {E11, E12, … ,E1m, …, Enp}, где первый индекс элемента соответствует номеру словоформы в предложении, а второй – номеру морфологического омонима словоформы. Первоначальный этап синтаксической сегментации начинает работать с линейным представлением S. При построении синтагм и поиске предикатов происходит активизация омонимов, в результате чего возникают смешанные цепочки типа S’’ = {W1, E2j,W3, …, Enp}.  Существует динамически пополняемый список L = {S’’1, S’’2,…, S’’k}, активизация нового омонима является событием, которое вызывает пополнение списка. Каждый S’’i содержит минимальное число синтагм, необходимых для дальнейшей сегментации. Синтаксическая сегментация проводится для каждого элемента списка L, собирая разорванные вложениями a- и b- сегменты. Предложение представляется в виде графа, в узлах которого  находятся сегменты, а ребра являются связями между сегментами, такой граф можно представить как множество узлов ST = {Segm1, Segm2, …, Segmn}, где Segmi Ì S’’. Каждый S’’i из списка L преобразуется в множество графов S’’  Þ {ST1, ST2, …, STm}, множественность интерпретаций S’’ обусловлена возникновением синтаксической омонимии. После того, как проанализированы все элементы списка L, мы получаем множество всех возможных графов сегментов данного предложения M = {ST1, ST2, …, STq}, из которых в дальнейшем должны выбираться лучшие структуры. Множественность синтаксических интерпретаций зачастую определяется естественной смысловой омонимией в предложении, как это было показано на приведенных выше примерах. Уже на этой точке выбора отсекается часть активизированных морфологических омонимов. После завершения сегментации возможно проведение полного синтаксического анализа внутри простых синтаксических единиц, каковыми являются a- и b-сегменты.

            Активизация морфологического омонима, которая возникает в тех случаях, когда хотя бы один из омонимов словоформы H Î W не отвечает проверяемому условию или не способен образовать строящуюся синтагму, порождает отдельный граф, состоящий из узлов новой смешанной цепочки типа S’’. Интерпретация S’’  на уровне синтагм всегда однозначна. В точке выбора порожденный граф наследует текущее состояние своего родителя, копируя ранее построенные синтагмы. Новый граф выделяется в отдельный поток, где процедура анализа продолжается из точки выбора.

            Активизация синтаксического омонима возникает на этапе построения a- сегментов (объединения первоначальных отрезков, цепочек словоформ, полученных разбиением по знакам пунктуации). В точке выбора порождается граф сегментов типа ST, принадлежащий некоторой цепочке S’’,   что создает множественность интерпретаций для S’’ на уровне сегментов. Графы сегментов могут отличаться границами внутри узлов, типами узлов и межсегментными связями. Как и в случае морфологической омонимии, порожденный граф наследует текущее состояние своего родителя, копируя ранее построенные сегменты, и новый граф выделяется в отдельный поток.

            Таким образом, на анализ сегментации поступает множество словоформ типа S, которое преобразуется в ходе анализа в смешанную цепочку типа S’’ и, преобразуясь, порождает омонимичные структуры. Все потоки используют общую процедуру анализа. В зависимости от прикладной системы, использующей модель сегментации, потоки могут работать параллельно или последовательно.     

            Метод активизации омонимов и алгоритм синтаксической сегментации позволяют сократить число омонимичных структур предложения и избежать декартового произведения омонимов. Строящуюся структуру сегментов, без полного построения синтаксических связей, возможно использовать в задачах автоматического аннотирования текста, интеллектуального поиска и машинного перевода. 

Пример анализа:

Исходный текст:

Не заметив, что на мосту, где было совершенно темно, шоссе, давно требующее починки, о которой некому было позаботиться, размыто дождями, в этих местах почти не прекращающимися, покрыто выбоинами, заполненными, о чем было нетрудно догадаться, густой грязью, завалено мусором, велосипедист свалился в яму.

Результат анализа:


 

 

 Библиография.

Иорданская 1967: Иорданская Л.Н. Синтаксическая омонимия в РЯ (с точки зрения автоматического анализа и синтеза) // НТИ, 1967, № 5.

Леонтьева 1996: Леонтьева Н.Н. О предмете “прикладная лингвистика” // Московский лингвистический альманах “Спорное в лингвистике”. 1996. Вып.1.

Падучева 1971: Падучева Е.В. О порядке слов в предложениях с сочинением: сочинительная проективность // НТИ. Сер.2, 1971, № 3.

Падучева 1974: Падучева Е.В. О семантике синтаксиса. М., 1974.

Хомский 1972: Хомский Н. Аспекты теории синтаксиса. 1972.

Шрейдер 1964: Шрейдер Ю.А. Свойство проективности языка // НТИ, 1964, # 8.

 

 

[1] В настоящее время система не ставит задачи анализа эллипсисов.

[2] Определение А*-оборота см. ниже, в п. II.