Сборник 2000

К вопросу об автоматизации литературно-научного редактирования

 

 

 

Е.И. Большакова, Н.Э. Васильева

Факультет  ВМиК  МГУ им. М.В.Ломоносова

bolsh@cs.msu.su

 

            Создание законченного произведения научной и технической прозы (статьи, монографии, информационного обзора, учебного пособия, справочника, отзыва и т.п.) представляет собой обычно сложный итеративный процесс. Существенную помощь автору часто оказывают его коллеги, рецензенты, корректор, научный и литературный редактор, читающие и оценивающие предварительные варианты текста. Опыт литературного редактора (имеющего, как правило, филологическое образование), особо полезен для авторов работ в негуманитарных областях науки. Этот опыт аккумулирует знания языковых средств функционального стиля научной речи, для которой характерно стремление к возможно более точному, и в то же время к возможно более экономному способу изложения, что позволяет адекватно и быстро воспринимать заложенную в тексте информацию. Именно редакторская правка позволяет избавиться от большей части стилистических и синтаксических ошибок, а также усилить стилевую однородность научного произведения, т.е. улучшить его качество [Сенкевич, 1984].

            Если ранее литературно-научной правке подвергалось большинство произведений, публиковавшихся в научно-технических издательствах и научных журналах (включая переводы с других языков), то теперь ситуация изменилась. Литературно-научные редакторы остались лишь в штатах крупных издательств, и вкупе со скромным уровнем грамотности (и литературной одаренности) выпускников вузов естественнонаучных и технических специальностей это ощутимо снизило в среднем качество публикуемых научно-технических произведений.

            Помощь литературно-научного редактора может быть полезна широкому кругу авторов произведений научной прозы, но особо она необходима неопытным авторам, например, студентам и аспирантам. К сожалению, грамотному написанию текстов рефератов, диссертаций, курсовых и дипломных работ нигде специально не учат, и умение писать складывается постепенно в результате ознакомления с образцами таких работ и собственной писательской практики.

            Наш опыт чтения и редактирования текстов студенческих и аспирантских работ показывает, что в них возможен очень широкий спектр погрешностей и ошибок, соответствующих различным уровням организации текста. Укажем здесь лишь наиболее встречаемые типы таких недостатков :

n   терминологические неувязки:  нарушение логики введения в текст и употребления в нем терминов (например, использование так называемых авторских, несловарных терминов без должного их определения), разнобой в использовании синонимов (дублетов) терминов, в том числе, грамматических синонимов (понятийный иконцептуальный, сцепление и сцепка);

n   стилистические ошибки в сочетании слов – терминологической лексики, терминологизированных словосочетаний общенаучной речи и стандартных речевых оборотов (клише): нарушение границ сочетаемости (затронуты отдельные стороны обучения вместо затронуты отдельные вопросы обучения, завершить задачу получения...вместо решить задачу или завершить получение...), нарушение норм согласования и управления входящих в словосочетание слов, отсутствие необходимого звена речевого клише (обращает внимание сходство... вместо обращает на  себя внимание сходство...);

n   громоздкость и многокомпонентность грамматической структуры предложений – большое количество придаточных конструкций, часто нанизываемых одна на другую, сложных однородных членов предложения, вложенных вставных конструкций, одинаковых падежных форм или синтаксических форм с одинаковым предлогом (при коррозии при необходимости включается прибор при помощи...);

n   неоднородность синтаксических конструкций в перечислениях и в рубриках, а также логическая неоднородность членов перечислений, например, однородных членов предложения (несоотносимость перечисляемых понятий: транслятор, интерпретатор и процессор либо трансляция и интерпретатор);

n   семантическая и синтаксическая неоднозначность: двусмысленность анафорических ссылок, неоднозначность синтаксической структуры всего предложения или его отдельных частей (возможно, из-за неудачного порядка слов в предложении), неоднозначность смысла слов и словосочетаний (недостаток машин – нехватка машин или же их дефект?);

n   слабая связность текста как на уровне предложений, так и на уровне абзацев и сложных синтаксических целых (сверхфразовых единств): несоотнесенность видо-временных форм сказуемого в рамках абзаца и сложного синтаксического целого, отсутствие связующих слов и словосочетаний, так называемых слов-скрепов (скрепляющих отдельные части высказывания и выражающих логические связи между ними: тем самым, следующим образом, ввиду того что и т.п.);

n   несоблюдение общепринятых правил (норм) оформления и изложения материала в текстах научных работ: правил цитирования, сокращения слов и словосочетаний, взаиморасположения разделов текста, использования цифровых обозначений, оформления иллюстративного материала и библиографии.

Рассмотренные типы погрешностей проистекают из недостаточного знакомства авторов с терминологической и общенаучной лексикой, стремления уложить в одно предложение ряд самостоятельных мыслей, неумения использовать слова-скрепы (наречия, союзы, местоимения, причастия и прилагательные) и синтаксические приемы логического членения текста (рубрикацию, вставные конструкции, композиционный стык предложений), плохого знания речевых клише разных жанров научной прозы – рецензии, аннотации, статьи и др.(например: наряду с этим затронуты также специальные аспекты...).

Определенную помощь при создании текстов научных работ могут оказать универсальные, т.е. не привязанные к определенному функциональному стилю прозы, жанру работы, предметной области коммерческие системы подготовки текстов – текстовые редакторы (MS Word), автокорректоры (ОРФО), издательские системы. Спектр возможностей этих систем постоянно расширяется: например, к проверке орфографии добавляется оценка синтаксической сложности предложений и текста в целом. Тем не менее эти возможности явно недостаточны для выявления и устранения описанных выше дефектов текста. Заметим попутно, что упомянутые оценки-выводы о сложности текста не всегда адекватны (средняя сложность предложений зависит от функционального стиля речи), способ получения этих оценок не комментируется, а в случае вывода о высокой сложности текста автору не дается никаких рекомендаций по его изменению.

Ясно, что необходимы специализированные компьютерные средства помощи авторам научно-технических текстов, которые хотя бы отчасти автоматизируют функции литературно-научного редактора. Задача разработки системы, моделирующей деятельность литературно-научного редактора в полном объеме в настоящий момент не осуществима, поскольку требует проведения всестороннего семантико-синтаксического и логического разбора текста. Однако, на наш взгляд, даже частичный семантико-синтаксический анализ текста мог бы позволить выявлять в ряде случаев ошибки и погрешности всех рассмотренных выше типов. Именно ориентация на определенный стиль речи, учет всех особенностей научной прозы – ее высокую стандартизированность и насыщенность терминами, семантическое обособление («остранение») терминов и общенаучных слов, преимущественно именной характер высказываний, десемантизация глагола и сужение его возможностей [Митрофанова, 1973] – может снизить сложность разработки нужного языкового процессора.

Одной из первых специализированных систем, связанных с затрагиваемой областью, была система ЛИНАР [Мальковский, 1991]. Она была предназначена для контроля качества русско-язычных научно-технических текстов – научных статей в тематических сборниках, технических заданий, отчетов по НИР и другой документации в узкой предметной области «Архитектура и программное обеспечение многопроцессорных вычислительных комплексов обработки результатов наблюдений». Использование семантического словаря (тезауруса), представляющего понятийную модель этой предметной области, и модуля синтаксического анализа, позволило реализовать в ЛИНАР выявление нескольких видов семантических противоречий (алогизмов) во фразах (например, программа написана на ассемблере вместо программа написана на языке ассемблера). Из других специфических проверок отметим выявление некоторых лексико-стилистических погрешностей (например, присутствие во фразе нескольких однокоренных слов), некоторых дефектов синтаксиса фразы (например, ее непроективность), поверхностный контроль композиции текста (наличие нужных разделов, порядок их следования). Существенная часть возможностей в системе ЛИНАР относилась к контролю орфографии, а это реализовано теперь во многих текстовых редакторах и автокорректорах. В отличие от последних ЛИНАР при выявлении многих ошибок могла выдать достаточно развернутую их диагностику и предложить вариант исправления, что позволяет усмотреть в ней зачаточную функцию обучения русскому языку [Мальковский, 1996].

Другой системой, разработанной в русле автоматизации функций научного редактора, является экспериментальная система КОНУТ (первая версия кратко описана в [Мальковский, 1997]), предназначенная для проверки правильности оформления текстов студенческих работ – рефератов, дипломных и курсовых работ. Проверки охватывают основные нормативные правила оформления и включают контроль титульного листа (присутствие обязательных элементов), заголовков разделов и подразделов текста и их нумерации, библиографии (как самого списка литературы, так и библиографических ссылок в тексте), а также аббревиатур (корректность их определения и применения). Кроме такого контроля система КОНУТ может провести анализ композиционной структуры текста и дать ее числовую оценку, учитывающую пропорциональность (соразмерность по длине) всех структурных единиц текста – предложений, абзацев и рубрик, разделов и подразделов и их заголовков. Система может вычислить также оценку сложности восприятия (потенциальным читателем) различных фрагментов текста, эта оценка зависит от длины фраз, количества в ней знаков препинания, длины абзацев и рубрик.

Важно, что система КОНУТ не только фиксирует ту или иную ошибку (или вычисляет оценку), но и может достаточно подробно прокомментировать суть нарушаемого правила (или способ вычисления оценки). Для этого была разработана специальная подсистема-справочник, в котором были собраны сведения о требованиях, предъявляемых к оформлению учебно-научных текстов рассматриваемых жанров. Справочник активно используется при контроле конкретного текста: при обнаружении ошибки дается отсылка к соответствующей его части, в то же время он допускает свободный просмотр студентом нужного ему информационного материала.

Таким образом, хотя в системе КОНУТ и отсутствует семантико-синтаксический контроль, в ней по сравнению с ЛИНАР усилена обучающая функция и реализован более широкий спектр формальных проверок, необходимых именно для текстов учебных работ. Формальными их можно назвать потому, что они не затрагивают смысла анализируемых и исправляемых конструкций.

Опыт разработки двух рассмотренных специализированных систем контроля текста позволил сделать ряд следующих выводов относительно функциональных возможностей и принципов организации будущих систем подобного типа.

            Системы литературно-научного редактирования неизбежно останутся автоматизированными, так как, во-первых, очень часто можно утверждать о наличии стилистической ошибки в тексте лишь с некоторой степенью уверенности, а во-вторых, способ исправления ошибки никогда не должен навязываться автору, система может лишь предложить несколько возможных способов ее устранения (этот принцип соблюдается и человеком-редактором).

            Справочно-обучающую функцию таких систем следует признать хотя и подчиненной главной функции контроля научного текста и исправления его недостатков, но тоже немаловажной. Полезность справочной подсистемы очевидна в случае пользователей-студентов, но время от времени справочник может оказаться необходимым и авторам с большим опытом. Существенно, что даже при ограниченном наборе предлагаемых автору проверок текста диапазон включенных в систему знаний о нормах и особенностях функционального стиля научной речи может быть шире, чем знания, требуемые для осуществления этих проверок. Например, кроме словаря устойчивых словосочетаний общенаучной лексики и развернутой номенклатуры слов-скрепов в подсистему может быть включен словарь паронимов, а также дано описание (с примерами применения) различных способов правильного введения новых терминов в текст. Для каждого специфического жанра научной прозы – рецензии, аннотации, реферата и автореферата – в справочнике может быть описана типичная структура (фрейм) текста [Николаев, 1998 ; Севбо, 1989] и набор соответствующих речевых клише [Демидова, 1991].

            Спектр возможных проверок и оценок текста достаточно широк уже в системах ЛИНАР и КОНУТ, поэтому представляется разумным не навязывать пользователю сразу все возможные проверки (это замедлило бы работу с системой и затруднило бы анализ полученных результатов), а дать возможность автору определять нужный ему набор проверок и оценок для каждого исследуемого фрагмента текста. Такая особенность интерфейса с системой определяет основной принцип построения ее программного обеспечения: оно должно быть реализовано как набор программ одноаспектных проверок/оценок текста. Каждая одноаспектная проверка – это проверка одного определенного свойства (характеристики) текста, например, анализ использования аббревиатур. Данный технологический принцип был успешно опробован в системах ЛИНАР и КОНУТ, и он дает возможность постепенного расширения возможностей системы.

            В заключение остановимся на направлениях дальнейшего развития рассмотренных систем. Одно из них – последовательное наращивание мощности системы КОНУТ, и в очередную версию этой системы будут включены новые виды формальных проверок текста, не в полной мере реализованные в универсальных редакторах и системах подготовки текста, например, контроль записи словесно-цифровых обозначений, порядковых и количественных сложносоставных числительных, проверка сокращений (не только общепринятых), включающая орфографию сложносокращенных слов и графических сокращений (изд-во – издательство, ю.-в. – юго-восточный).

            Но более важна концентрация усилий на автоматизации тех видов проверок, которые никак не представлены в универсальных системах. Поэтому независимо от совершенствования системы КОНУТ начата разработка программно-информационных средств анализа терминологического состава текста, которые позволят обнаруживать некоторые логико-стилистические ошибки в употреблении терминов и терминологизированных словосочетаний (см. первые два рассмотренные типа недостатков текстов). Ядром этих средств являются тезаурус терминов, словарь устойчивых глагольно-именных словосочетаний фиксированной предметной области, а также словарь общенаучных фразеологизмов. Кроме основных парадигматических отношений между терминами-понятиями тезаурус предположительно будет включать текстовые определения терминов и контекстные ограничения на их употребление [Никитина, 1978]. Построение тезауруса ведется для разделов двух предметных областей: «Информатика и вычислительная техника» и «Компьютерная лингвистика».

 

 

ЛИТЕРАТУРА

 

Демидова А.К. Пособие по русскому языку. Научный стиль речи. Оформление       научной работы. М., Русский язык, 1991.

Митрофанова О.Д. Язык научно-технической литературы. М., Издательство МГУ,             1973.

Мальковский М.Г., Большакова Е.И., Волкова И.А. и др. Эксперименты с системой          ЛИНАР // Труды машинного фонда русского языка, Т.1 . М., 1991, с. 51-71.

Мальковский М.Г., Большакова Е.И., Волкова И.А. ЛИНАР как система, обучающая         русскому языку // Вестник Московского Университета. Сер. 15, 1996, №4, с. 57-59.

Мальковский М.Г., Большакова Е.И. Интеллектуальная система контроля качества            научно-технического текста // Интеллектуальные системы, 1997, Т.2, Вып. 1-4.

Никитина С.Е. Тезаурус по теоретической и прикладной лингвистике. М., Наука, 1978.

Николаев А.М. Описание семантики научного текста с позиций теории речевых актов      (на материале рецензии на научно-техническую работу) // НТИ. Сер. 2, 1998, №7,        с. 35-41.

Пшеничная Л.Э., Коренга О.Н. Научный термин в словаре и тексте // НТИ. Сер.2.             1991, №12, с. 2-7.

Севбо И.П. Сквозной анализ как шаг к структурированию текста // НТИ. Сер. 2. 1989,      №2, с. 2-9.

Сенкевич М.П. Стилистика научной речи и литературное редактирование научных           произведений.  М., Высшая школа, 1984.