Автоматический морфологический анализ русских словоформ с префиксальным отрицанием: несколько теоретических проблем
С.А.Крылов
- Одна из занятных проблем автоматического морфологического анализа (сокр. АМАн) текста на русском языке (сокр. РЯ) - словоформы с префиксальным отрицанием (сокр. СПО). Рассмотрим подробнее возникающие при этом проблемы и способы их решения. При этом интересующие нас проблемы касаются не только практических сторон АМАн, но и сопряженных с ними теоретических проблем, т. е. проблем интерпретации СПО в свете общих представлений о русской грамматической и лексической системе.
- Некоторые СПО (класс А) принято включать в словарный фонд (РЯ). В докомпьютерной лингвистике это означает, что такие СПО включаются в бумажный словарь, а в компьютерной - включаются в электронный словарь).
- Некоторые другие СПО (класс Б) принято трактовать как словоформы лексем с префиксальным отрицанием (ЛПО) - т. е. таких лексем, исходная словарная форма которых также представляет собой СПО. Такие СПО тривиальным образом возводятся к другим, исходным, СПО, включаемым в словарный фонд. В докомпьютерной лингвистике это означает, что ЛПО включается в бумажный словарь, а в компьютерной лингвистике - что ЛПО включается в электронный словарь.
- По морфологическому строению СПО первых двух классов (А и Б) разнообразны. Среди них можно выделить такие классы (при именах ЛПО приводится их частотный ранг[1]):
(а) слово-морфема (одноморфемное слово) не 3,
(б) несколько многоморфемных слов, в составе которых после префикса не- следует аккумулировавшая с ним корневая морфема ч- с экзистенциальным значением (та же, что в бытийном глаголе в форме презенса 3-го л. ед.ч.: есть): нет 51, нечего 1078, некогда 1819, нету 4276,
(в) несколько многоморфемных слов с местоименным значением, имеющих значение неопределённых кванторов: несколько 157, некоторый 260, нечто 1568, некий 4135,
(г) несколько многоморфемных слов с отрицательным значением, не имеющих, однако, однокоренных беспрефиксных антонимов с положительным значением: нельзя 224,необходимый 553, необходимо 719, неожиданно 1183, немножко 1533, непременно 1756, несомненно 1859, неожиданный 1962, несчастный 2541, неизбежно 3093,неизбежный 3357, ненавидеть 3358, неподалеку 4136, небрежно 4794, непримиримый 5146
(д) несколько опрощенных многоморфемных слов с сильной степенью морфемной идиоматизации: неужели 848, небось 3275,
(е) несколько суффиксальных дериватов от лексем с префиксальным отрицанием: необходимость 1230, недостаток 1281, независимость 1327, ненависть 3031,несчастье 3148, неприятность 4137, неизбежность 4795, неожиданность 4799, недоумение 5144,
(е) весьма много префиксальных дериватов от лексем (обычно прилагательных) с префиксальным отрицанием: небольшой 651, недавно 853, немного 945, немедленно 1135,несмотря 1163, невозможно 1202, немало 1377, непонятный 1690, нередко 1779, нехорошо 1910, непрерывный 2164, неизвестно 2180, неизвестный 2181,непосредственно 2383, невидимый 2454, невольно 2538, незаметно 2540, негромко 2636, непосредственный 2637, непрерывно 2695, независимый 2755, неправда 2798,незнакомый 2908, неловко 2957, невозможный 3030, недавний 3092, неподвижный 3094, нетрудно 3149, недалеко 3453, недостаточно 3523, немногие 3524, неприятный 3525,необыкновенный 3597, нелегко 3708, неведомый 3806, неудобно 3807, неплохо 3910, нерастворимый 4027, небывалый 4271, немалый 4273, неправильно 4274, неправильный 4275,недолго 4395, недоступный 4396, независимо 4397, неясный 4398, невиданный 4511, невысокий 4512, недостаточный 4513, незначительный 4514, необычный 4515,неподвижно 4516, неприятно 4665, нелегкий 4796, нелепый 4797, необычайный 4798, неплохой 4800, нетерпеливо 4801, неоднократно 4971, неловкий 5145,
- При АМАн СПО, относящиеся к классам А и Б, не представляют особого интереса, так как на выходе АМАн мы получаем словарное имя соответствующей лексемы с конкретизацией значений всех её словоизменительных характеристик (если набор таковых - непустой). Какую бы то ни было проблему такие слова могут составить лишь на одном из следующих этапов автоматического анализа текста (синтаксическом или семантическом).
- Предметом нашего рассмотрения будут, т. о., такие СПО, которые по той или иной причине не поддаются АМАн[2].
Вот их список, разбитый на части речи, а внутри них упорядоченый по частоте[3].
Прилагательные: невеликий 36; неформальный 20; неординарный 8; недешево 7; нетрадиционный 7; неперспективный 6; несильный 5; нестабильный 5; нестационарный 5; неактивный 4; неэффективный 4; незамшенный 3; немагнитный 3; немаленький 3; неравновесный 3; неспецифический 3; небоязливый 2; неведовский 2; невидный 2; негорючий 2; негустой 2; недемократичный 2; незлой 2; некапризный 2; нелетучий 2; нелинейный 2; неменьший 2; ненавязчивый 2; ненасильственный 2; неоригинальный 2; непарный 2; неподъемный 2; неполовой 2; непроизводственный 2; несладкий 2; неслучайный 2; несолидный 2; нетайный 2; нетоксичный 2; нешаблонный 2; неядерный 2; не-ньютоновский 1; неатомный 1; небиологический 1; неблизкий 1; небоязно 1; небыстрый 1; невербальный 1; неводоемкий 1; невозмутительный 1; негибкий 1; неглавный 1; негладкий 1; неготовый 1; негуманный 1; неденежный 1; недискретный 1; недлинный 1; недомашний 1; недостойный 1; нежадный 1; нежизнестойкий 1; незагорелый 1; незаемный 1; незападный 1; неизобретательный 1; неисключительный 1; неискристый 1; неклассический 1; некомплексный 1; неконечный 1; нелучший 1; немарксистский 1; нематериальность 1; неместный 1; немеханический 1; немужской 1; ненадоедливый 1; ненадоедный 1; ненарочно 1; ненатужный 1; ненефтяной 1; ненормативный 1; необъемный 1; неострый 1; непарадный 1; непатриотичный 1; непахучий 1; непервый 1; непереносной 1; неплодотворный 1; неполезный 1; непраздничный 1; непредвзятый 1; непринципиальный 1; неприторный 1; неприютный 1; непроблематичный 1; непроворный 1; непрофильный 1; неразъемный 1; нераскатистый 1; нереалистичный 1; неромантический 1; несельскохозяйственный 1; нестариковский 1; нестыдный 1; несуетливый 1; неталантливый 1; нетипичный 1; нетиповой 1; нетоварищеский 1; неторопкий 1; нетрафаретный 1; нетяжелый 1; неудалой 1; неудалый 1; неулыбчивый 1; неупругий 1; нехарактерный 1; нешумный 1; неэмпирический 1; неязыковой 1;
Причастия:
А. Пассивные:
А1. Пассивные перфектные: нерешенный 10; неочищенный 8; незаработанный 5; невысказанный 4; недостроенный 4; неразрушенный 4; нереализованный 4; невозобновляемый 3; невыдуманный 3; незамеченный 3; незанятый 3; незащищенный 3; неоконченный 3; неподготовленный 3; неприбранный 3; невыясненный 2; недоеденный 2; недоукомплектованный 2; незаряженный 2; неизбалованный 2; неиспользованный 2; ненамагниченный 2; необутый 2; неоседланный 2; непоколебленный 2; непредусмотренный 2; непроветренный 2; непропеченный 2; непрошенный 2; непуганый 2; нескошенный 2; неутоленный 2; неучтенный 2; нечищенный 2; неаргументированный 1; невенчанный 1; невозвращенный 1; невосстановленный 1; невостребованный 1; невспугнутый 1; невыбитый 1; невыключенный 1; невыкопанный 1; невыкошенный 1; невымытый 1; невыплаченный 1; невыполненный 1; невыученный 1; невыхоженный 1; недетерминированный 1; недоваренный 1; недогрызенный 1; недожеванный 1; недомытый 1; недоопределенный 1; недопетый 1; недописанный 1; недострелянный 1; недочитанный 1; незавязанный 1; незагруженный 1; незакрашенный 1; незакрепленный 1; незапущенный 1; незарытый 1; незастегнутый 1; незатемненный 1; незашифрованный 1; неизменяющийся 1; неизолированный 1; неизрасходованный 1; неизученный 1; неисповеданный 1; неистраченный 1; некодифицированный 1; немодифицированный 1; немятый 1; неназванный 1; ненасыщенный 1; ненормированный 1; необмятый 1; необследованный 1; необсужденный 1; необъявленный 1; неоплаченный 1; неопробованный 1; неороговевший 1; неосвобожденный 1; неоструганный 1; неостывший 1; неотделенный 1; неотрегулированный 1; неоформленный 1; неоштукатуренный 1; непогасший 1; неподчищенный 1; непоенный 1; непозабытый 1; непознанный 1; непойманный 1; непокоренный 1; неполяризованный 1; непотревоженный 1; непреодоленный 1; неприрученный 1; непришитый 1; непрожитый 1; непронумерованный 1; непроработанный 1; неразвязанный 1; неразделанный 1; неразмолотый 1; неразмотанный 1; неразряженный 1; неразъезженный 1; нераскрытый 1; нерассчитанный 1; нерасчлененный 1; несбалансированный 1; несгребенный 1; несмонтированный 1; несобранный 1; неспаренный 1; нестриженый 1; несъеденный 1; нетопленый 1; нетренированный 1; неуспокоенный 1; неустановленный 1; неутепленный 1; неуясненный 1; нецеленаправленный 1; нечесаный 1; нечитанный 1; неэкспонированный 1;
А2. Пассивные презентные: невозобновляемый 3; непробиваемый 2; невентилируемый 1; невспоминаемый 1; незамечаемый 1; неизбираемый 1; неизживаемый 1; неиспользуемый 1; немоделируемый 1; неопровергаемый 1; неохлаждаемый 1; непереходимый 1; непосещаемый 1; непрерываемый 1; непрошибаемый 1; нерегулируемый 1; неснашиваемый 1; несоотносимый 1; неучитываемый 1;
Б. Непассивные:
Б1. Непассивные презентные:
Б1а. Непассивные презентные “невозвратные”: недобавляющий 4; неработающий 3; нестихающий 2; несуществующий 2; недействующий 1; непонимающий 1; непотухающий 1; непрограммирующий 1; непроходящий 1; непрощающий 1; неразрушающий 1; нерассуждающий 1; неседеющий 1; нетающий 1; неузнающий 1; неумеющий 1; неутихающий 1; нецветущий 1;
Б1б. Непассивные презентные “возвратные”: негнущийся 5; неделящийся 1; неизменяющийся 1; неменяющийся 1; ненравящийся 1; неподдающийся 1; неподчиняющийся 1; непрекращающийся 1; непроявляющийся 1; нерассасывающийся 1; нерасстающийся 1; несмешивающийся 1; неуменьшающийся 1;
Б2. Непассивные претеритные:
Б2а. Непассивные претеритные “невозвратные”: недостигший 1; недотаявший 1; недрогнувший 1; незатянувшийся 1; неоправдавший 1; неороговевший 1; неостывший 1; непогасший 1; непросохший 1; неработавший 1; несуществовавший 1; неустаревший 1;
Б2б. Непассивные претеритные “возвратные”: незатянувшийся 1; ненародившийся 1; неотдышавшийся 1; неприсоединившийся 1; неразыгравшийся 1; несбывшийся 1; несдавшийся 1; неслившийся 1; несложившийся 1; несостоявшийся 1; неудавшийся 1;
Отадъективные существительные: неэффективность 5; неоднозначность 4; неготовность 3; нестабильность 2; недемократизм 1; недемократичность 1; неинтеллигентность 1; некритичность 1; нематериальность 1; неподвластность 1; непопулярность 1; непостепенность 1; непредвзятость 1; непростота 1; непрофессионализм 1; несимпатичность 1; неслучайность 1; несолидность 1; неспешность 1; неудачливость 1.
Отпричастные существительные: необремененность 3; неизученность 2; незанятость 1; незримость 1; неповторяемость 1; неприрученность 1; несжимаемость 1; неукомплектованность 1.
Отглагольные существительные: немилитаризация 3; недискриминация 2; неприсоединение 2; нераспространение 2; небоязнь 1; ненарушение 1; неполучение 1; непризнание 1; неприменение 1; непроизводство 1; неразмещение 1; несоблюдение 1; несохранение 1; несуществование 1; неудовлетворение 1;
Конкретные существительные: не-*Ленечка 1; нежена 1; неорганик 1; непедагог 1; неэкономист 1
Глаголы: недобрать 5; недорасти 1;
Деепричастия: невзирая 1;
Наречия: неоднажды 2; немимоходом 1; ненарочно 1;
Притяжательные личные местоимения: ненаш 1;
Словосочетания: не-совсем-нормальность-вечером ;
- Некоторые СПО вообще не имеют положительного коррелята. В принципе они распадаются на те же группы, что и примеры из пункта 6, но у них отсутствует положительный коррелят. К их числу относятся слова разных частей речи.
Прилагательные: невзрачненький 1; негаркий 1; неевклидовый 1; нежуючий 1; незауряднейший 1; неизмерный 1; неинфляционный 1; немостиковый 1; неослепный 1;неподвольный 1; неправдашний 1; неправоохранительный 1; непредполагаемо-иное 1;
Причастия: непредсказуемый 5; неостановимый 2; непроветриваемый 2; неформализованный 2; недовыгоревший 1; недокулаченный 1; недоокисленный 1; недопоставленный 1;недотраченный 1; незапланированный 1; непоборимый 1; непредполагаемо-иное 1; нетроганый 1; неудобозабываемый 1; неупорядоченный 1; неформализуемый 1
Отпричастные существительные: незащищенность 3; нерешенность 3; непредсказуемость 2; несбалансированность 2; невымышленность 1; невыполненность 1;необезличенность 1; необученность 1; неоправданность 1; неприбранность 1; неупотербимость 1;
Отпричастные существительные (конкретные): нержавейка 1;
Отадъективные существительные (абстрактные): нездешность 2; неординарность 2; недвижность 1; немилосердность 1; неудалость 1; неудобица 1; неудобье 1;неурядство 1;
Отадъективные существительные (конкретные): неформал 3; нелегал 1; нетерпеливец 1;
Отглагольные существительные (абстрактные): недогиб 1; недопоступление 1; неувязочка 1; неученье 1.
Отглагольные существительные (конкретные): неумеха 2; непроливашка 1;
Отсубстантивные существительные: недосчастье 1;
Глаголы: недопоставить 1; недопоставлять 1; неистовать 1; неймется 1;
- Традиционная трактовка СПО (в теоретических грамматиках) состоит в том, что они признаются словообразовательными дериватами своих беспрефиксных коррелятов с положительным значением (независимо от того, включаются ли эти беспрефиксные корреляты в словарь).
- Наряду с данной трактовкой существует и другая, не менее распространенная трактовка СПО - а именно, они признаются результатом применения особого орфографического правила к сочетанию отрицательной частицы не- с беспрефиксным коррелятом СПО. Фактически так делается в большинстве практических пособий по орфографии, где подобного рода явления принято рассматривать в составе раздела “правописание частицы не-”.
- Применительно к любому конкретному примеру трактовки 8 и 9 являются, по-видимому, несовместимыми. Встаёт проблема соотносительной оценки достоинств и недостатков этих двух трактовок.
Представляется, что словообразовательная трактовка хороша лишь там, где имеет место фразеологизация (лексикализация) СПО. Для словоформ классов А и Б она не вызывает возражений.
Однако признание некоторого значения словообразовательным (у некоторых лексем) вовсе не исключает признания того же значения формообразовательным (у других лексем). Так, русский творительный падеж - граммема формообразовательной категории, однако эта граммема вполне часто несет и словообразовательную функцию (ср.бегом, шагом, цугом, гуськом, вереницей, цепочкой, строем, толпой, голышом, молодцом и т. п.). Суффикс -щ-, образующий причастия от глагольных основ, несёт формообразовательную функцию, но в составе причастий типа фашиствующий, хулиганствующий суффикс -щ- совмещает формообразовательную нагрузку со словообразовательной (так как соответствующие глаголы РЯ не употребляются в личной форме и в инфинитиве). Поэтому интересно понять, не выступает ли отрицание в других случаях в формообразовательной функции.
С этой точки зрения представляют интерес примеры из пунктов 6 и 7. Наиболее многочисленную подгруппу здесь составляют прилагательные и причастия. Мысленный эксперимент позволяет продолжать соответствующие списки практически неограниченно. Что это - сверхпродуктивное словообразование? По признаку фразеологизации отрицание - не дериватема (кроме случаев типа А и Б). По признаку конкретности значения отрицание - не дериватема, по признаку ограниченной сочетаемости - тоже, по признаку нестандартности выражения - тоже; признак линейного расположения непоказателен. Признак изменения части речи (как характеристика дериватем) и признак синтаксической релевантности (как характеристика граммем) в принципе не обладают общезначимостью; можно заметить, что по первому из них отрицание - скорее граммема, а по второму - скорее не граммема.
Похоже, что в терминах И. А. Мельчука отрицание следовало бы трактовать как “квазиграммему”; интересно, что по класификации Мельчука “квазиграммемы” представляют собой как бы вырожденный случай граммем, не обладающих свойством грамматической обязательности; так же, как граммемы, квазиграмемы различают формы одного и того же слова, то есть принадлежат к словоизменению[4]. Похоже на то, что большинство грамматических значений в агглютинативных и изолирующих языках следовало бы в этом случает трактовать не как “граммемы” (в понимании Мельчука), а как “квазиграммемы”.
- Попытаемся обосновать другую трактовку СПО (неоструктуралистскую). В грамматической системе РЯ есть категория ‘положительности/отрицательности’. Она состоит из двух граммем: ‘положительность’ и ‘отрицательность’. Наряду с этим в русской грамматической системе есть категория ‘слитности/контрастивности’. Она приобретает значимость только при наличии у данного речевого отрезка граммемы ‘отрицательность’. У личных форм глагола противопоставление по ‘положительности/отрицательности’ выражается наличием/отсутствием частицы не-, а категория ‘слитности/контрастивности’ не выражена вовсе (т. е. в предикативной позиции эта оппозиция нейтрализована). Между тем у причастий имеет место смысловая оппозиция слитной и контрастивной форм (ср. незащищенный vs. не защищенный). Условия употребления граммем ‘слитность’ и ‘контрастивность’ - весьма тонкие и прихотливые. Они связаны с актуальным членением высказывания, с наличием у причастной формы подчинённых дополнений и т. п. Перечень таких факторов можно найти в практических пособиях по орфографии[5]. Так, в РЯ имеется правило орфографии, согласно которому морфема не пишется раздельно, если она входит в состав контрастивного оборота не...а...; оборота с отнюдь не...
- Принявши трактовку 11, можно с этой точки зрения рассмотреть приводимые примеры СПО.
Причастные СПО нефразеологичны и поэтому при наличии достаточных условий семантического контекста образуются без каких-либо лексических ограничений. Естественно включать их в глагольную парадигму, хотя в традиционной грамматике этого не делается. Заметим, что предикативные (краткие) прилагательные и причастия практически всегда находятся в семантическом контексте, навязывающем граммему ‘контрастивности’ (большей частью, это контекст рематичности), и потому пишутся раздельно; т. о., СПО не образуются. А атрибутивные (полные) формы прилагательных и причастий стоят в семантической позиции, благоприятствующей появлению граммемы ‘слитности’, и потому пишутся слитно.
- Каково сотношение аналитических и синтетических форм выражения отрицания?
В устной речи отрицание относится к промежуточному классу - к клитикам (акцентное слово менее синтетично, чем обычная флективная словоформа, но менее синтетично, нежели типичная аналитическая форма - сочетание знаменательной формы со строевой - например, с формой вспомогательного глагола).
С т. зр. порядка слов приглагольное и приадъективное отрицание неотделимо от отрицаемой формы и поэтому более синтетично, нежели присубстантивное отрицание, которое в РЯ ставится не всегда перед существительным (так, при отрицании предложной группы отрицательная частица ставится перед предлогом, а не перед существительным).
В письменной речи вопрос об аналитизме и синтетизме решается довольно просто: слитное написание отрицания считается синтетизмом, а раздельное - аналитизмом. Здесь, строго говоря, есть и промежуточный случай орфографического полусинтетизма - а именно, написание через дефис (в обследованном корпусе, например, встретились отрицание словосочетания не-совсем-нормальность-вечером и отрицание личного имени не‑Ленечка).
Но проблема синтетизма имеет не только синтагматический, но и парадигматический аспект. Синтетические и аналитические формы отрицания отчасти дополнительно распределены в парадигме. Отрицание выражается аналитически у личных форм глагола, а также у предикативных форм прилагательных и причастий, но может выражаться синтетически у атрибутивных форм прилагательных и причастий (при наличии граммемы слитности).
- В устной речи слитное не- и раздельное не произносятся одинаково. Т. о., в лице слитности/контрастивности мы сталкиваемся с экзотическим случаем такой грамматической категории РЯ, которая в устной речи отсутствует вовсе, а в письменной речи присутствует.
- К каким теоретическим трудностям ведёт принятие трактовки отрицательности/положительности как грамматической категории? Возможно возражение, основанное на убеждении в свойстве обязательности как непременном критерии грамматичности. На эти аргументы можно возразить следующее: 1) идея обязательности есть результат гипертрофированного представления о флективных языках как об эталоне для построения грамматической теории (отсюда термин “квазиграммема”); 2) во флективных языках есть элементы агглютинации, и их немало (ср. отрицание в РЯ); 3) непризнание СПО членами парадигмы[6] вело бы по сути к признанию невозможности их адекватного анализа вообще.
[1] Ðàíãè ñîîòâåòñòâóþò ×àñòîòíîìó ñëîâàðþ 1974 ã. Âûáîðîì äàííîãî ñëîâàðÿ îáúÿñíÿåòñÿ, â ÷àñòíîñòè, òðàêòîâêà àäâåðáèàëüíûõ ôîðì íà -î êàê íàðå÷èé (â ïðèâîäèìûõ ïðèìåðàõ).
[2] Ìàòåðèàëîì äëÿ ýêñïåðèìåíòàëüíîãî èññëåäîâàíèÿ ñëóæèëè òåêñòû, ïðåäîñòàâëåííûå Ìàøèííûì Ôîíäîì Ðß (ÈÐß ÐÀÍ). Òåñòèðîâàíèå ïðîâîäèëîñü ñ ïîìîùüþ ÑÓÁÄ STARLING (àâòîð - ÷ë.‑êîðð. ÐÀÍ Ñ. À. Ñòàðîñòèí) è ñ ïîìîùüþ ñèñòåìû ÎÐÔÎ (ôèðìû “Èíôîðìàòèê”).
[3]×àñòîòà ïðîñòàâëåíà íà îñíîâå àíàëèçà ò.í. Óïïñàëüñêîãî êîðïóñà ðóññêèõ òåêñòîâ, êîïèÿ êîòîðîãî ñîñòàâëÿåò ÷àñòü Ìàøèííîãî ôîíäà Ðß.
[4]Ñì.: Ìåëü÷óê È. À. Êóðñ îáùåé ìîðôîëîãèè. Òîì 1. Ââåäåíèå. ×àñòü 1. Ñëîâî. Ìîñêûâà - Âåíà, 1997, ñ. 287-288.
[5]Ñì.: Ðîçåíòàëü Ä. Ý. Ñïðàâî÷íèê ïî ïðàâîïèñàíèþ è ëèòåðàòóðíîé ïðàâêå. Ì.: Êíèãà, 1983, ñ. 64-73.