Основы компьютерной лингвистики

Данный курс (32 часа) рассчитан на повышение осведомленности
специализирующихся в компьютерной лингвистике, которая к настоящему времени
сложилась как самостоятельная прикладная лингвистическая дисциплина. Специалист
по деловой прозе обязательно должен иметь дело с современными компьютерными
программами обработки естественно-языковых текстов, от простых программ типа
корректоров орфографии до сложных систем автоматической обработки текстов,
например, систем машинного перевода и автоматического информационного поиска,
экспертных систем и других прикладных программ, которые, с одной стороны,
моделируют искусственный интеллект в аспекте работы с обширными базами данных,
а, с другой, требуют обязательных знаний современных аспектов компьютерной
лингвистики, поскольку все эти системы базируются на естественном языке и на
алгоритмах обработки языковых сведений.

Предполагается, что студент знает основы языкознания и начала деловой прозы,
состав и структуру делового документа, а также один из иностранных языков.
Начальные разделы курса посвящены общей роли информатизации современного
общества, составу современных текстов с точки зрения лексики, преобладанию
информатических текстов в массовой коммуникации. Вводятся основные понятия
информатики и само представление об информатике как науке о наиболее общих
закономерностях построения и преобразования современной модели мира.

Лингвистические основы компьютерной лингвистики строятся по принципу
укрупнения рассматриваемых лингвистических единиц – части слова (автоматический
морфологический анализ и синтез), слово (лексический уровень языка в
автоматической обработке, лингвистический знак, денотативные аспекты слова),
словосочетание (основной носитель информации в компьютерной лингвистике),
предложение (способы изображения, представления и автоматического обнаружения
синтаксической структуры), текст (способы кодирования смыслового содержания
текста и автоматической его обработки).

Каждая единица названных уровней имеет свои особенности в информатике как с
точки зрения формы, так и в содержании. В последнем особое место занимают
способы инвентаризации экстралингвистических знаний и работы с ними в рамках
компьютерной лингвистики.

Особо рассматриваются основные проблемы практической компьютерной лингвистики
– машинный перевод, информационный поиск, экспертные системы, ведение деловой
документации. Предполагается, что студент имеет представление об основных
приемах работы с компьютером, поэтому собственно программирование в круг данного
курса не входит. Однако для освоения содержания курса не требуется каких-либо
глубоких знаний по программированию и навыков работы с компьютером.

Определенное внимание в курсе уделяется использованию формальных грамматик в
работе с лингвистическими данными разных уровней. При этом используются новые и
новейшие достижения отечественной и мировой науки, оглашенные на семинарах и
международных конференциях по проблеме. В качестве методической и теоретической
основы данного курса используются фундаментальные положения прикладной
филологии, разработанные на кафедре общего и сравнительно-исторического
языкознания филологического факультета МГУ, а также смежных наук
(культуроведения, теоретического и общего языкознания, терминоведения,
математической лингвистики, квантитативной и алгоритмической лингвистики,
машинного перевода и искусственного интеллекта и др.).

В программе, которая
приводится ниже, даются основные темы курса с указанием предполагаемого числа
часов, и основная литература, используемая в данном разделе. Предусматривается
также проведение спецсеминаров по теме и по отдельным разделам – практических
занятий в компьютерном классе.