Proceedings 2002

Contents

ПРИНЦИПЫ ПОСТРОЕНИЯ КУРСА
“КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА”
ДЛЯ ЕСТЕСТВЕННОНАУЧНЫХ И ТЕХНИЧЕСКИХ СПЕЦИАЛЬНОСТЕЙ

Б.Ю. Городецкий

Московский государственный лингвистический университет

mglu@online.ru

 

Ключевые слова: компьютерная лингвистика, интеллектуальные системы, лингвистическое обеспечение, моделирование языка, лингвистический процессор, автоматическая обработка текста, представление знаний, анализ текста, синтез текста, диалог


     Автору довелось подготовить и семь раз прочитать обязательный семестровый курс “Компьютерная лингвистика” для студентов четвертого курса факультета кибернетики Московского государственного технического университета (МИРЭА) в рамках учебного плана специализации “Интеллектуальные технологии и системы”. Программа курса, лекционные и методические материалы отражают отработанные в ходе преподавания  принципы базовой подготовки в области современной компьютерной лингвистики, ориентированные на специалистов в области естественных и технических наук. Все многообразие понятий и проблем такого базового курса можно систематизировать по следующим четырем темам:
1. Предмет и основные направления компьютерной лингвистики;
2. Фундаментальные принципы моделирования языка;
3. Типовые лингвистические компоненты интеллектуальных систем;
4. Лингвистическое обеспечение прикладных систем различного назначения.
Наряду с лекциями проводятся практические занятия (решение лингвистических задач) и лабораторные занятия (знакомство с новейшими прикладными компьютерными лингвистическими системами), а также выполняются курсовые проекты (разработка и программная реализация отдельных компонентов лингвистических процессоров в соответствии с заданными техническими требованиями). Современный специалист должен не только обладать лингвистической грамотностью, но и владеть основами лингвистического мышления, понимать существо как решенных, так и актуальных, но пока пока еще не решенных проблем компьютерной лингвистики. Важнейшим принципом работы в этой области является сочетание типового фундаментального моделирования отдельных языковых явлений с интегральным прикладным моделированием конкретной функциональной системы или технологической процедуры. Особое внимание должно уделяться семантическим метаязыкам и семантическим методам обработки текста. В докладе приводятся примеры оригинальных прикладных моделей, разработанных под руководством автора и используемых в качестве демонстрационного материала.
     Курс “Компьютерная лингвистика”, неоднократно читавшийся мною в МИРЭА для студентов, специализирующихся в области интеллектуальных технологий и систем, использует как классические работы, так и собственные теоретические и прикладные разработки автора, а также материалы последних российских и международных конференций. В  ходе практических занятий решаются специальные лингвистические задачи на основные механизмы языка. На лабораторных занятиях отрабатываются навыки использования имеющихся на сегодня прикладных лингвистических систем.Курсовой проект заключается в обосновании и программировании того или иного компонента лингвистического процессора.
     Сущность концепции курса заключается в следующем. Искусственный интелект формирует свой методологический базис из идей тех фундаментальных наук, которые способны дать конструктивное представление о когнитивной деятельности человека и о ее продукте - знании. Среди этих наук особое место занимает наука о языке - о языке как когнитивной структуре, о языке как когнитивной деятельности, о языке как совокупности текстов - когнитивных комплексов. И дело здесь не в амбициях лингвистов. Особая методологическая роль лингвистики вытекает не только из мирового опыта разработки интеллектуальных систем, но и из того общего положения, что естественный язык является объективно существующей универсальной когнитивной системой, он неотделим от человеческого сознания, на нем базируются все научные и технологические знания человечества, благодаря ему обеспечивается возможность интеллектуального взаимодействия людей в пространстве и во времени, именно он является по своей природе наиболее конструктивным образованием во всей духовной сфере человека, именно к нему сводимы все искусственные языки, создаваемые людьми для себя и для компьютеров. Именно поэтому представляется естественным, что другие науки, входящие в содружество "Искусственный Интелект", активно используют лингвистические идеи и методы.  И это, конечно, предъявляет высокие требования к науке о языке.
     Таким образом, решение неформализованных задач должно опираться на когнитивно-коммуникативную природу естественного языка, которая в уточненном виде может быть определена так: язык - это не столько "средство выражения" мыслей, сколько способ организации, представления и развития знаний. Можно различать три типа исследовательских ситуаций: (а) решение чисто лингвистических задач; (б) использование лингвистических методов для изучения и моделирования неязыковых явлений; (в) подлинно комплексные исследования с цементирующей ролью лингвистики.
     Лингвистический подход к рассматриваемой проблематике актуален во всех важнейших сферах нашей сегодняшней заботы: это практика, наука и образование в области искусственного интеллекта. 
А. Практика. Лингвистическое обеспечение искусственного интеллекта включает принципы и методы моделирования языковой способности человека (разработчика, эксперта, пользователя), а также сами модели тех или иных аспектов этой способности. Например, может идти речь о способности называть один и тот же объект с помощью нескольких синонимичных выражений, и тогда моделью этой способности будет специальный машинный словарь синонимов. Но существуют наиболее фундаментальные компоненты языковой способности человека: это механизмы понимания текста, вербализации замысла, управления диалогом, хранения знаний в семантической памяти. Разумеется, эти механизмы, в свою очередь, включают целый ряд компонентов и могут действовать в разных режимах. Соответственно, велико и число возможных моделей. Важнейший практический вывод состоит в том, что мощность конкретной системы искусственного интеллекта прямо и весьма существенно зависит от мощности ее лингвистического обеспечения, не говоря уже о таком параметре, как комфортность системы.
Возрастающая практическая значимость лингвистического обеспечения определяется такими причинами, как огромные объемы текстов на естественном языке, циркулирующих в информационных системах; необходимость использования новых стратегий обработки информации с учетом семантических законов обыденного языка; потребности в гибком и тесном симбиозе человека и компьютерной системы; вовлечение в обработку многообразных скрытых знаний, экспликация которых возможна (и удобна!) только на естественном языке.
     Практически все основные функции и действия, для которых предназначена экспертная система, имеют четкие корреляты в семантике естественного языка. К числу таких функций относятся: понимание, рассуждение, объяснение, предсказание, планирование, управление, совет, обучение, исправление, накопление и т.д. Следовательно, моделирование этих семантических процессов языка составляет естественный и важный компонент комплексного когнитивного моделирования деятельности эксперта. При этом особенности неформализованных задач теснейшим образом взаимосвязаны со свойствами общения на естественном языке: это и неполнота, и противоречивость, и обилие ошибок и т.д.
     Лингвистический подход должен учитываться при создании всех компонентов экспертной системы. Не говоря уже о собственно лингвистическом процессоре (воплощающем в себе модели понимания, модели вербализации и модели диалога). Так, для разработки базы данных важна номинативная семантика того подъязыка, который обслуживает фиксированную предметную область; для создания базы знаний - семантика рассуждений на естественном языке; для решателя задач - семантика коммуникативно-целевых типов общения; для приобретения знаний - организация семантической памяти и механизмы усвоения языка; для объяснения - структура и динамика объяснительного диалога. Лингвистические методы могут применяться на различных этапах разработки экспертной системы. Особо хочется обратить внимание на самый начальный этап - выявление знаний эксперта.
Б. Наука. Для научного обеспечения практики искусственного интеллекта необходимо теоретическое и экспериментальное исследование реальных свойств языка с точки зрения его коммуникативно-когнитивных потенций. Мы должны объяснить действие языка с учетом всех его неиэбежных внутренних противоречий, таких, как конечность словаря и бесконечность творческих потенций в освоении новых знаний, эксплицитность и одновременная имплицитность в передаче информации, объективность и субъективность содержания текста, информативность и избыточность языковых элементов, переводимость и непереводимость на другой язык и т.д.
     Фундаментальная наука должна вплотную заняться созданием специальных теорий, которые в настоящее время существуют в зачаточном состоянии либо отсутствуют вовсе. Прежде всего это когнитивная теория языка и коммуникативная теория языка. Учение о моделях языкового общения должно включать такие разделы, как теория и типология понимания, теория и типология вербализации, теория семантической памяти, типология коммуникативных актов (диалогов), теория коммуникативных неудач и надежности общения. Особый круг проблем образует семантика естественных и искусственных языков, включая методы построения языков представления знаний на основе преобразования семантических инвентарей естественного языка. Упомянутые проблемы требуют существенной перестройки здания науки о яэыке.
В. Образование. Необходимость расширения лингвистической грамотности связана с появлением новых видов массовой деятельности, предусматривающих умение составлять машинные словари, проводить семантический анализ текстов, налаживать диалог с компьютером. Лингвистическая культура должна стать частью общей культуры современного человека. Если в свое время важнейшим базисом общей культуры стала математика и логическим завершением этого этапа математизации стало внедрение во все сферы деятельности понятия "алгоритм", то нынешняя компьютерная революция требует подлинно научного и широкого освоения понятия "язык" в его современном понимании. Ведь, по существу, перспективные компьютерные проекты предусматривают овладение в первую очередь именно "языковой стихией". И в школе, в вузах предстоит перестроить теоретические основы знакомства с языком и с лингвистикой. Сегодняшний школьник не получает, по существу, никакого представления о современной лингвистике. Целью преподавания языковедения в вузах должно быть усвоение самого способа исследования семиотических явлений, а также методов их моделирования. 
     Ниже приводится текст программы курса “Компьютерная лингвистика” (за исключением списка литературы, который обновляется каждый семестр).

1. Предмет и основные направления компьютерной лингвистики

1.1. Искусственный интеллект и компьютерная лингвистика
Роль компьютерных моделей естественного языка в решении задач искусственного интеллекта. Перспективные стратегии обработки информации и место в них естественного языка. Использование знаний о естественном языке при создании различных компонентов интеллектуальной системы. Лингвистика и смежные научные дисциплины в составе комплексной теории искусственного интеллекта. Компьютерная грамотность и лингвистическое образование.
1.2. Исследовательское пространство компьютерной лингвистики
Языковая способность как важнейший компонент интеллектуальных способностей человека. Основные методологические уровни моделирования языковой способности: фундаментальное исследование языковых явлений, типовое когнитивно-алгоритмическое моделирование, лингвистическое обеспечение прикладных систем. Основные направления компьютерной лингвистики на каждом уровне моделирования. Мифы о языке и современные тенденции в развитии компьютерной лингвистики. Надежность, успешность, комфортность общения с ЭВМ на естественном языке и проблема коммуникативных неудач. Интегральные когнитивные модели: объединение знаний о языке, о мышлении, о поведении, о восприятии, о мире.

2. Фундаментальные принципы моделирования языка

2.1. Структурный, когнитивный и коммуникативный подходы к теории языка как методологическая основа компьютерной лингвистики
Естественный язык как семиотическаясистема. Естественные и искусственные языки.Функции языка в контексте интеллектуальной деятельности. Модели языка и модели человека. Язык и мышление. Язык и поведение.
2.2. Троякий аспект языковых явлений: языковая память, языковая деятельность, естественноязыковой текст
Соотношение понятий "язык вообще" и "конкретные языки". Трудности в определении границ конкретного языка (во времени, в пространстве, в стилистических и прочих разновидностях). Язык как система подъязыков. Три способа существования языка: языковая память (языковая структура), языковая деятельность (речевое общение), естественноязыковой текст (речевые произведения, дискурс). Противоречивые свойства (антиномии) языка. Объект и предмет лингвистики в целом и отдельных лингвистических дисциплин.
2.3. Структурно-семиотическое моделирование языковой памяти
Знаковые единицы языка. Означаемое, означающее, знаковая функция. План содержания и план выражения языка как относительно автономные структуры. Проблема произвольности и мотивированности языкового знака. Различные подходы к выделению единиц языка. Взаимодействие принципов дискретности и непрерывности. Нечеткость языковых единиц. Односторонние и двусторонние единицы языка. Роль языковых отношений в структурной организации языковой памяти. Синтагматические и парадигматические отношения (реляции и корреляции). Понятие уровней языковой структуры. Уровни фонем, слогов, морфем, словоформ, лексем, словосочетаний, предложений, связного текста. Словарь и грамматика как два универсальных типа лингвистических моделей.
Семантика языка: модели плана содержания. Семантические единицы и семантические отношения. Толкование как основной прием лингвистической семантики. Многообразие видов семантических единиц. Семантические реляции, роли, валентности, фреймы; семантические комплексы. Семантические корреляции; семантические поля; многозначность языкового знака. Тезаурус как модель семантической памяти.
2.4. Языковое общение и принципы его моделирования
Общение как совместная деятельность коммуникантов. Понятие коммуникативного акта и принципы его моделирования. Модель коммуниканта как когнитивного автомата. Фундаментальные процессы общения: понимание и вербализация. Роль обстоятельств общения. Практические и коммуникативные цели в общении. Типология коммуникативных актов; монологическое и диалогическое общение. Эффективность общения. Коммуникативные неудачи и их преодоление. Взаимосвязь структурного и деятельностного аспектов языка.
2.5. Естественноязыковые тексты и их модели
Текст как продукт и как средство коммуникативной деятельности. Типология текстов. Связность текста и ее проявления. Семантическая структура текстов разных типов. Формальные средства организации текстов разных типов. Вероятностно-статистические характеристики текста и его элементов. Высказывание и текст. Язык, подъязык и текст. Словарь и текст.
2.6. Методы моделирования языка
Виды лингвистических моделей: по охвату структуры языка (общие и частные); по охвату конкретных языков (универсальные и специфические); по гносеологическому статусу (модели языка, модели лингвистических знаний, модели деятельности лингвиста), по отражаемому аспекту языка (анализирующие, синтезирующие, порождающие и собственно структурные, или структурно-классификационные), по конечной целеустановке (теоретические, описательные и прикладные).
     Основные наборы уровневых моделей: фонологическая, морфологическая, синтаксическая, лексико-семантическая модели, а также другие наборы, как с более дробным, так и с более крупным подразделением структуры языка на уровни.
     Основные требования к лингвистическим моделям (полнота, простота, объяснительная сила, адекватность и др.). Описательная и прикладная эффективность разных способов моделирования. Логические средства моделирования языка. Понятие метаязыка. Лингвистические алгоритмы. Лингвистические исчисления. Методы представления структурных свойств языка: дистрибутивный, трансформационный, компонентный анализ.   Экспериментальные методы в лингвистике. Взаимодействие с другими науками; возникновение комплексных научных дисциплин (психолингвистика, социолингвистика, нейролингвистика, математическая лингвистика, лингвостатистика и др.). Компьютерное воплощение лингвистических моделей.

3. Типовые лингвистические компоненты интеллектуальных систем

3.1. Лингвистические процессоры и их архитектура
Лингвистический процессор как сложная автоматизированная система обработки текста (АСОТ). Обобщенная блок-схема АСОТ. Семантические метаязыки и представление знаний в лингвистических процессорах. Экспликационный семантический язык и информационный язык.
Анализаторы текста как модели различных видов понимания. Экспликационный и информационный анализ текста. Многоэтапность и многовариантность анализа. Морфологический, синтаксический и семантические этапы экспликационного анализа текста. Виды стандартных семантических алгоритмов.
Алгоритмы синтеза текста для вербализации заданного содержания. Семантические, морфологические, синтаксические проблемы синтеза.
Банки информации в составе АСОТ: машинные словари, базы данных и знаний. Виды машинных словарей. Структура информационного тезауруса. Диалогический компонент в АСОТ. Алгоритмы перевода с одного естественного языка на другой. Процедуры предупреждения, выявления и преодоления коммуникативных неудач.
3.2. Типология автоматизированных систем обработки текста
Принципы оптимизации процесса построения конкретной АСОТ. Модель ограниченного подъязыка естественного языка как обязательная основа действующей системы. Система требований к конкретной АСОТ и выбор ее архитектуры.
Параметры типологии лингвистических процессоров. Типовые модели лингвистических прцессоров монологического типа. Типовые модели лингвистических процессоров диалогического типа. Проблема соотношения грамматики и словаря (как способов организации знаний о языке) в составе конкретного лингвистического процессора.
3.3. Лингвистические факторы в информационно-логических компонентах искусственного интеллекта
Лингвистические методы выявления знаний эксперта. Лингвистические проблемы формирования базы данных. Лингвистические проблемы создания базы знаний. Лингвистические аспекты создания решателя задач. Лингвистические аспекты усвоения новых знаний. Лингвистические аспекты подсистемы объяснения.

4. Лингвистическое обеспечение прикладных систем различного назначения

4.1. Системы обработки монологических письменных текстов на естественном языке
Автоматическое аннотирование и индексирование научно-технической документации. Автоматическое реферирование. Анализ запросов пользователя на естественном языке к информационной системе. Контент-анализ текстов массовой коммуникации.
4.2. Системы диалога пользователя с компьютером на естественном языке
Естественноязыковой интеллектуальный интерфейс для общения с базой данных. Системы диалога машины с пользователем в процессе решения задач. Обучающие диалоговые системы.
4.3. Системы машинного перевода
Системы автоматического перевода. Системы автоматизированного перевода с предредактированием и постредактированием. Системы АРМов переводчика.
4.4. Системы наполнения баз данных и баз знаний на основе естественноязыковых источников
Автоматизированное ведение тезаурусов информационно-поисковых систем. Автоматическое извлечение знаний из текстов для экспертных систем.
4.6. Системы автоматизированного построения текстов на естественном языке
Системы выдачи информационных справок на естественном языке. Системы автоматизированного редактирования.
4.7. Системы интеллектуальных машинных словарей
Терминологические банки данных и инженерия знаний. Виды информации о термине.
4.8. Системы общения в режиме звучащей речи
Проблемы анализа звучащей речи и пути их решения. Роль семантических методов. Действующие системы синтеза звучащей речи.
4.9. Системы машинных фондов естественных языков и автоматизации лингвистических исследований
Проблемы формирования машинных текстовых фондов. Корпусная лингвистика. Проблемы формирования словарных фондов русского и иностранных языков. Проблемы формирования машинных грамматических фондов. Направления развития новых типов АРМ лингвиста.

THE STRUCTURE OF THE UNIVERSITY COURSE
ON COMPUTATIONAL LINGUISTICS
FOR  SCIENCE AND ENGINEERING STUDENTS

B.Y. Gorodetskiy


Key words: interdisciplinary education, course of Computational Linguistics

I have prepared and taught a course of Computational Linguistics at the Moscow Radio and Electronics University for the students of “Intellectual Technologies and Systems” de-partment. My experience suggests some general lines of this type of interdisciplinary edu-cation. The various problems and concepts of the field can be arranged within four basic thematic chapters:
1. The subject matter and main trends of contemporary computational linguistics.
2. The fundamental principles of modelling natural language.
3. The standard linguistic components of intellectual computer systems.
4. Designing linguistic knowledge sources and linguistic software for various practical applications.
To demonstrate the methodology of modern computational linguistics, I use some original semantic models implemented under my supervision.