Юрий Дереникович Апресян — академик РАН, гл. науч. сотр. лаборатории компьютерной лингвистики Института проблем передачи информации им. А. А. Харкевича Российской академии наук (ИППИ РАН). В отличие от предыдущих выпусков «Математических прогулок», вопросы, по просьбе профессора Апресяна, были составлены и заданы в письменном виде. Вопросы подготовили Михаил Гельфанд и Ирина Левонтина.
(Окончание. Начало в ТрВ-Наука № 223 от 28 февраля 2017 года)
О синтаксических структурах как об аксиомах в логических исчислениях и о месте российской лингвистики в общемировом контексте
— Чем объяснить влияние Хомского на развитие лингвистики? Насколько плодотворна его концепция и в чем она состоит? Есть ли в ней что-то полезное для современной лингвистики?
— Работа Ноама Хомского «Syntactic structures», известная также под именем «трансформационной грамматики», была опубликована в 1957 году и вышла в русском переводе в 1962-м. Это было время радикального преобразования традиционной лингвистической парадигмы, во многом стимулированного революцией в технологиях, в частности появлением компьютеров. Секрет влияния Хомского объясняется тем, что он появился в нужное время в нужном месте.
Надо сказать, что по образованию Н. Хомский не лингвист, а логик, и главные идеи «Синтаксических структур» выросли именно из этого источника. Он исходил из того, что в языке есть некоторый базис — конечный набор простейших синтаксических структур (как набор аксиом в логических исчислениях) и некоторые правила их преобразования — трансформации (как правила вывода в логических исчислениях). С помощью трансформаций из конечного набора простейших синтаксических структур порождается бесконечное множество более сложных структур. После заполнения узлов в исходных синтаксических структурах или в их трансформах конкретными словами получаются реальные предложения языка.
Хотя эти идеи сами по себе не кажутся мне ни особенно глубокими, ни — что гораздо важнее — адекватно описывающими синтаксис естественных языков или процесс порождения высказываний, нельзя не признать, что на синхроническую лингвистику они оказали большое и в целом плодотворное влияние. В частности, под воздействием этих идей расширился ее экспериментальный инструментарий, а сама она стала заметно строже.
Добавлю, что гораздо более глубокая модель «Смысл ↔ Текст» Игоря Мельчука, появившаяся на той же волне и приблизительно в то же самое время, оказала меньшее влияние на развитие мировой лингвистики именно потому, что возникла в другом месте.
— Мы обязательно хотели бы спросить о месте российской лингвистики в общемировом контексте. Дело в том, что сейчас, когда говорят о российской науке, вопрос часто ставят так: мол, насколько сильно мы отстаем от мирового уровня, есть ли у нас шанс догнать и т. д. Однако применительно к лингвистике всё, кажется, обстоит несколько иначе? По крайней мере, есть некоторые направления, где говорить об отставании не приходится. Или это не так?
— Я считаю, что более сильной лингвистики, чем наша, нет ни в одной другой стране. Достаточно назвать — без дальнейших комментариев — такие имена, как Вяч. Вс. Иванов и В. Н. Топоров; В. А. Дыбо и В. М. Иллич-Свитыч; А. А. Зализняк и И. А. Мельчук; Т. В. Булыгина и Е. В. Падучева; такие лингвистические школы, как этнолингвистическая школа Н. И. и С. М. Толстых, ностратическая школа С. А. Старостина, школа лексической типологии Е. В. Рахилиной, Московская типологическая
школа А. Е. Кибрика и В. А. Плунгяна, петербургская типологическая школа А. А. Холодовича и В. С. Храковского, Московская семантическая школа, Тартуская семиотическая школа Ю. М. Лотмана (последняя, правда, скорее общефилологическая, чем чисто лингвистическая); наконец, такие области лингвистики, как этимология, где, по-видимому, нескоро появятся фигуры масштаба О. Н. Трубачёва.
Жаль, что наша лингвистика не пользуется в мире влиянием, соответствующим ее силе. Причина, по-видимому, в том, что языком мировой науки безраздельно стал английский язык, а мы пишем свои работы в основном по-русски.
О модели «Смысл ↔ Текст»
— Одна из самых ярких страниц теоретической лингвистики второй половины ХХ века — это модель «Смысл ↔ Текст». Расскажите, пожалуйста, о ней немного. Развивается ли она как-то сейчас? Как сложилась научная судьба тех, кто когда-то начинал эту работу?
— Я разобью этот рассказ на два фрагмента: первое — строение и основные компоненты модели, второе — ее реализация в системе «ЭТАП».
— Итак, первое. Строение и основные компоненты модели.
— Модель «Смысл ↔ Текст» — это, по замыслу ее автора, многоуровневая система правил, взаимодействующих со словарями особого типа, с помощью которой смысл, заданный в виде сложного семантического графа, преобразуется в множество выражающих его, т. е. синонимичных друг другу текстов (реально — предложений), а текст (реально — предложение) — в множество его омонимичных прочтений в виде семантических графов. Воспроизведу два своих старых примера образца 1980 года на обе эти темы.
Первая тема. Пусть задан следующий смысл (в линейной форме, потому что здесь рисовать сложный граф было бы неуместно): Тот факт, что температура атмосферного воздуха стала меньше, чем была в какой-то недавний момент, был причиной того, что черепахи перестали жить. Ему соответствует большое множество синонимичных друг другу предложений русского языка, например Похолодание было причиной гибели черепах, Черепахи погибли из-за похолодания, Черепах погубило похолодание, К гибели черепах привело похолодание, Похолодание вызвало гибель черепах, Черепахи перемерли из-за похолодания и т. п. (Здесь опущены некоторые тонкости, связанные с так называемой коммуникативной структурой высказывания.)
Вторая тема — переход от текста к смыслу. Возьмем следующее предложение и посмотрим, какие «омонимичные» осмысления (прочтения) оно допускает: Сплочение рабочих бригад вызвало осуждение товарища Иванова. Во-первых, то, что бригады сплотились, могло вызвать осуждение чиновника Иванова. Во-вторых, то, что бригады сплотились, могло вызвать осуждение не самого этого чиновника, а какого-то его товарища. В-третьих, то, что кто-то осудил Иванова, могло — например, из солидарности с Ивановым — вызвать сплочение рабочих каких-то бригад. В-четвертых, то, что кто-то осудил не самого Иванова, а его товарища, могло вызвать сплочение рабочих каких-то бригад. И т. д. В свое время И. А. Мельчук и Л. Н. Иорданская проанализировали это предложение и получили для него 32 омонимичных прочтения.
Оба перехода — от смысла к тексту и от текста к смыслу — в модели И. А. Мельчука рассматриваются как многоступенчатые, или многоуровневые, преобразования. Ниже я коротко опишу только первый из них, т. е. переход от смысла к тексту.
Если отбросить некоторые тонкости, в модели «Смысл ↔ Текст» выделяются следующие уровни представления предложений: а) семантический (подлежащий выражению смысл имеет вид семантического графа); б) глубинно-синтаксический (дерево зависимостей, в котором пары узлов связаны одним из десятка универсальных синтаксических отношений, а в узлах стоят слова естественного языка или фиктивные слова-смыслы); в) поверхностно-синтаксический (дерево зависимостей, в котором пары узлов связаны одним из 50–60 специфичных для данного языка синтаксических отношений, а в узлах стоят только слова этого естественного языка); г) глубинно-морфологический (линейно упорядоченная последовательность слов с приписанными им грамматическими характеристиками); д) поверхностно-морфологический (та же самая последовательность, но с заменой наборов грамматических характеристик реальными окончаниями, т.е. реальное предложение естественного языка в орфографической записи).
В работах самого И. А. Мельчука была предложена общая идея модели «Смысл ↔ Текст» и разработаны некоторые ее фрагменты, в частности:
а) аппарат так называемых лексических функций (совместно с А. К. Жолковским) для представления некоторых семантических отношений между словами (синонимии, антонимии и т. п.) и их лексически ограниченной сочетаемости (мы говорим твердо знать и крепко спать, но не наоборот; оказывать давление и производить впечатление, но не наоборот);
б) модель синтаксиса английского языка (совместно с Н. В. Перцовым);
в) небольшой фрагмент модели синтаксиса русского языка (совместно с Л. Л. Иомдиным).
Кроме того, стоит отметить: г) новаторский «Толково-комбинаторный словарь», в 2016 году вышедший в Москве вторым изданием (скорее все-таки пилотный проект словаря, потому что он содержит всего 203 слова, описанных, правда, с беспрецедентной полнотой); его авторы — большой коллектив московских лингвистов под руководством И. А. Мельчука и А. К. Жолковского; д) четырехтомный «Dictionnaire explicatif et combinatoire du français contemporain» объемом приблизительно в 500 слов (Montréal, 1984–1999), созданный коллективом авторов под руководством И. А. Мельчука; и ряд других фрагментов, из которых нельзя не упомянуть классическое исследование И. А. Мельчука «Поверхностный синтаксис русских числовых выражений» (Wien, 1985 — Sonderband 16 «Венского славистического альманаха»).
— И второе. Реализация модели «Смысл ↔ Текст» в системе «ЭТАП».
— Однажды сформулированная, модель «Смысл ↔ Текст» стала жить собственной жизнью, может быть, не всегда согласованной с желаниями ее автора.
Наиболее полно модель «Смысл ↔ Текст» была реализована в системе «ЭТАП» — основном детище лаборатории компьютерной лингвистики ИППИ. Однако началась эта работа намного раньше — в отраслевом институте «Информэлектро» Министерства электротехнической промышленности СССР. С 1972 года в «Информэлектро» стала формироваться лингво-математическая группа. Земной поклон его тогдашнему директору Сергею Глебовичу Малинину, без колебаний это разрешившему, хотя группа состояла почти сплошь из «подписантов» (письма протеста по поводу судебных процессов над Ю. М. Даниэлем и А. Д. Синявским, А. И. Гинзбургом и Ю. В. Галансковым, письма в защиту А. Д. Сахарова и А. И. Солженицына) или этнически «неправильных» личностей.
Сначала сложилась лингвистическая группа (Ю. Д. Апресян, И. М. Богуславский, Л. Л. Иомдин, Л. П. Крысин, А. В. Лазурский, В. З. Санников), которой было поручено заниматься машинным переводом. Я бы хотел особо отметить роль двух участников этой работы — И. М. Богуславского, Л. Л. Иом-дина — в определении ее стратегии и разработке некоторых конкретных модулей, в частности модуля синтаксического анализа (Л. Л. Иомдин) и модулей преобразования синтаксической структуры входного предложения в синтаксическую структуру выходного (И. М. Богуславский).
Нам сразу стала ясна ключевая роль синтаксического компонента будущей системы, и мы начали горячо ее обсуждать. Лёня Иомдин, у которого уже был кое-какой опыт формального описания синтаксических структур (см. выше), предложил вести обсуждение предметно и использовал для этого переиначенную бунинскую фразу: «По осени в „Информэлектро“ потянулись первые подводы с мочеными яблоками». Обсуждения сопровождались взрывами такого гомерического хохота, что в какой-то момент они привлекли внимание Л. Л. Цинмана, уволенного за подписантство из Академии им. М. В. Фрунзе. Он был учеником академика П. С. Новикова и великолепно знал математическую логику. В какой-то момент он решил, что с нами стоит сотрудничать, и мы приобрели человека, без которого компьютерная реализация модели была бы невозможна.
Как было сказано выше, в основу нашей системы была положена теоретическая модель И. А. Мельчука, который приписывал ей два свойства. Во-первых, он считал ее формальной; во-вторых, он считал, что она точно моделирует языковую деятельность человека.
Она действительно была и до сих пор остается самой формальной моделью языка на «человеческом» уровне, но не на уровне общения с компьютером. До этого уровня ее довел Лёня Цинман. Он придумал формальный язык, на котором можно было записывать в доступном для компьютера виде правила синтаксического анализа предложений, и алгоритм синтаксического анализа фильтровального типа. С помощью этого алгоритма из первоначального — достаточно большого — набора гипотез о возможных синтаксических связях слов в предложении на основе различных критериев вычищались ложные гипотезы, пока не получалась (n — 1) гипотеза (в дереве из n слов должно быть на единицу меньше синтаксических связей между словами).
Весной 1975 года он принес в лабораторию первый подробный протокол получения синтаксической структуры предложения, состоявшего из двадцати слов. Распечатка протокола (listing) занимала пять огромных листов приблизительно в один квадратный метр каждый. Здесь я испытал, пользуясь модным словечком, экзистенциальное потрясение, потому что понял, что в моей голове процесс понимания предложения ни при каких обстоятельствах не может быть столь громоздким. Это компьютер понимает текст алгоритмически, — он не может понимать его иначе, а человек прибегает к какому-то подобию алгоритма только в трудных случаях.
В принципе, сказанное не отменяет того, что в достаточно большом числе случаев понимание и у человека носит логический характер: он понимает что-то, опираясь на свои прошлые знания, на те знания, которыми он располагает в момент размышления над чем-то или восприятия чего-то, и на знания о том, как предмет размышлений или восприятия может развиваться в дальнейшем.
Однако очень часто человек правильно понимает что-то при явном отсутствии некоторых необходимых условий для этого, т. е. интуитивно.
На эту мысль наводит сам язык — лучший проводник в дебрях человеческого сознания; конкретно я имею в виду такие слова, как интуиция, инсайт (от англ. insight), догадаться, отгадать, разгадать, угадать и т. п. Интересны также похожие по смыслу на догадаться, но конверсные ему синтаксически глаголы дойти, осенить и озарить в их метафорических значениях: Он догадался ↔ До него дошло, И тут его осенило <озарило>.
Из сказанного следует, что я не вижу оснований считать модель «Смысл ↔ Текст» точной моделью языковой деятельности человека.
Несмотря на это легкое расхождение с И. А. Мельчуком, моим очень близким другом и нашим общим учителем, я продолжаю считать его модель одним из самых замечательных достижений современной лингвистики.
— Как сложилась научная судьба тех, кто когда-то начинал эту работу?
— Полагаю, что здесь речь идет о научной судьбе моих друзей и товарищей по работе, названных выше: И. М. Богуславского, Л. Л. Иомдина, Л. П. Крысина, А. В. Лазурского, В. З. Санникова и Л. Л. Цинмана. Считаю, что хорошо сложилась. Они по-прежнему (кроме Л. П. Крысина, в начале перестройки ушедшего в Институт русского языка) работают в ИППИ и на жизнь не жалуются. Это сильные, яркие, творческие личности, умеющие великолепно работать и в большом коллективе, и в одиночку, что, по-моему, нетривиально. При этом И. М. Богуславский, Л. Л. Иомдин и В. З. Санников в своих исследованиях в области семантики и синтаксиса русского языка, выходящих далеко за пределы компьютерной лингвистики, получили результаты, которые можно смело назвать классическими.
О составлении словарей, московских лингвистических семинарах и лингвистах новой формации
— В свое время вместе с разработкой модели «Смысл ↔ Текст» создавался и знаменитый «Толково-комбинаторный словарь». А в последние десятилетия Вы также занимаетесь лексикографией (сейчас работаете над «Активным словарем русского языка», до этого — над «Новым объяснительным словарем синонимов» и т. д.) Тут есть какая-то закономерность? Кажется, что составление словаря — такая рутинная работа, почему же занятия теоретической семантикой подталкивают лингвиста к идее создать свой словарь?
— Я особой закономерности здесь не вижу. Мне в жизни выпала большая удача — заниматься тем, что так или иначе было мне интересно. И лексикографией я стал заниматься не одновременно с моделью «Смысл ↔ Текст», а значительно раньше, и даже раньше своего знакомства с И. А. Мельчуком (1960 год) — с 1958 года, когда я был приглашен И. Р. Гальпериным в авторский коллектив «Большого англо-русского словаря» (БАРС’а). Двум участникам коллектива (А. А. Санкину и мне) И. Р. Гальперин поручил написать инструкцию для составления его словарных статей.
Для этого пришлось надолго погрузиться в изучение опыта английской и американской лексикографии — я в течение целого года ежедневно просиживал в словарном отделе Ленинской библиотеки по десять-двенадцать часов. Затем началась работа большой группы авторов над самим словарем, растянувшаяся более чем на десятилетие; первое, двухтомное издание БАРС’а вышло в 1972 году.
В 1981 году мы приступили к работе над расширенной до трех томов версией этого словаря, известной как НБАРС («Новый большой англо-русский словарь»). На этот раз инструкцию писали три автора — Э. М. Медникова, А. В. Петрова и я. Я хотел бы особо отметить вклад Э. М. Медниковой и А. В. Петровой в формирование общей концепции словаря.
На последних этапах — после смерти И. Р. Гальперина в 1984 году и Э. М. Медниковой в 1989-м — издательство «Русский язык» пригласило меня на роль руководителя этой работы, а я, считая, что для ее завершения нужна новая кровь, попросил включиться в нее Л. Л. Иомдина. Он с удовольствием на это согласился и, кстати, написал для вводных материалов прекрасную статью под названием «Как пользоваться словарем».
НБАРС был опубликован в 1993–1994 годах, восемь раз переиздавался и доступен в электронном виде в составе ресурсов Multilex, Multitran и других электронных и онлайн-словарей. Скоро должно выйти исправленное и существенно дополненное издание словаря, соавторами которого являются В. Ю. Апресян и Б. Л. Иомдин — тоже новая кровь.
Кроме этого словаря я участвовал в качестве соавтора и руководителя в создании еще нескольких словарей. Упомяну «Англо-русский синонимический словарь» (М., 1979), «Русский глагол — венгерский глагол. Управление и сочетаемость» (совместно с Эрной Палл, Будапешт, 1982), «Новый объяснительный словарь синонимов русского языка» (М., 2004) и особенно дорогой для меня «Активный словарь русского языка», первые два тома которого вышли в 2014 году; сейчас сдан в печать третий том — до буквы «З» включительно.
Не стану говорить о лексикографических концепциях перечисленных словарей — если они интересны читателю, он найдет нужную информацию на этот счет во вводных материалах к ним.
И последнее: я не считаю составление словаря рутинной работой, потому что описание почти любого слова, особенно многозначного, таит в себе шанс на маленькое открытие. А тот тип лексикографического описания, который принят в «Активном словаре русского языка», с его установкой на создание «лексикографических портретов» (отражающих все личные особенности слова) одновременно с установкой на поиски «лексикографических типов» (классов слов с похожими свойствами), открывает для этого почти неограниченные возможности.
— Если посмотреть на список московских семинаров и конференций, на их программы, можно заметить, что в Москве чрезвычайно насыщенная лингвистическая жизнь. Тут, кстати, можно упомянуть и Ваш многолетний семинар по теоретической семантике в ИППИ РАН (кстати, сколько лет он уже продолжается и сколько в общей сложности семинаров прошло?)
— Наш семинар по теоретической семантике (были у него раньше и другие названия) существует с 1973 года, и начался он с большого курса лекций, прочитанных И. А. Мельчуком, из которого выросла его уже упоминавшаяся монография «Поверхностный синтаксис русских числовых выражений». Всего за более чем сорок лет работы семинара состоялось около 600 заседаний.
— А где кроме Москвы в России есть хорошие лингвистические школы, направления?
— Некоторые лингвистические школы были названы выше. Разумеется, школы, в том числе получившие мировое признание, существуют не только в Москве. Такова, например, уже упоминавшаяся Петербургская типологическая школа, Тартуская семиотическая школа Ю. М. Лотмана и ряд других.
— Любите ли Вы преподавать?
— В сущности, мой путь в лингвистике начался именно с преподавания. Я окончил Московский педагогический институт иностранных языков в 1953 году, тогда же поступил в аспирантуру, а в 1954 году был принят в штат преподавателей факультета английского языка. Преподавал в этом институте шесть лет — до перехода в сектор структурной лингвистики Института русского языка Академии наук СССР.
Структурная лингвистика в это время была очень популярна, и меня часто приглашали читать курсы лекций в университеты и педагогические институты Москвы, Киева, Минска, Кишинёва, Вильнюса и других столиц союзных республик, а также в Красноярск, Новосибирск, Тверь, Ярославль и другие города.
С конца 1960-х годов начался период долгой опалы. За подписание уже упоминавшихся писем протеста против политических судебных процессов конца 1960- х годов и писем в защиту А. Д. Сахарова и А. И. Солженицына я в 1972 году был уволен из Института русского языка. В это время почти не преподавал — мало кто отваживался пригласить меня. С началом перестройки возможность преподавать открылась снова, меня стали приглашать и за границу. Я читал большие (иногда даже семестровые) курсы лекций в Будапеште, Вене, Канберре, Лос-Анджелесе и других городах и столицах западного мира. Преподавание любил.
— Что надо преподавать будущим лингвистам?
— Современная лингвистика — настолько разветвленная научная дисциплина, что единого ответа здесь, по-моему, быть не может. Подозреваю, что с детальными ответами, ориентированными на специализацию будущего лингвиста, вполне справляются программы преподавания филологических факультетов наших лучших университетов.
Если же иметь в виду более частный вопрос — что нужно преподавать лингвистам новой формации, — то на него хорошо отвечают программы отделения теоретической и прикладной лингвистики филологического факультета МГУ имени Ломоносова, в составлении которых в свое время принимал деятельное участие Владимир Андреевич Успенский. Об их качестве я сужу по квалификации выпускников отделения, из которого вышла целая плеяда выдающихся ученых, проложивших новые пути во всех областях нашей науки. Насколько я знаю, хорошие программы подготовки лингвистов составлены и в Школе лингвистики (руководитель — Е. В. Рахилина) Высшей школы экономики.
Юрий Апресян
Вопросы подготовили Михаил Гельфанд и Ирина Левонтина
Я тоже участвовала в создании Нового большого англо-русского словаря. Студенткой подрабатывала у Э. Медниковой. Месяцами сидела в Иностранке и писала карточки (выписывала definitions из всевозможных огромных толковых словарей). Опыт очень пригодился в учебе и в работе.
Всё-таки Хомский по образованию лингвист. Так работа на соискание бакалавра искусств называлась «Морфофонемика современного иврита», и Словарь современных американских философов указывает, что в 1947 году он выбрал лингвистику в качестве основного направления под влиянием лингвиста З. Харриса.
Хотя та статья Хомского была, действительно, опубликована в журнале по математической логике.
В Штатах лингвистика per se раздраконена на части, может быть, под предлогом роста разделения труда. В департаменте лингвистики интересуются в основном математикой (такой, как грамматика Монтегю). В департаменте психологии делают работы по психолингвистике, в департаменте социологии — по социолингвистике и т.п. Общее языкознание, особенно семантику и синтаксис, преподают из департамента философии и логики чаще всего.
А какое отношение Эстонская Тартуская семиотическая школа Ю. М. Лотмана имеет к Вашей стране?
Вы в качестве «вашей страны» только бывший ссср рассмаириваете или бывшую империю Чингиз-Хана тоже?
Всё-таки представление смысла в виде графа — это как-то сомнительно. Если бы это было возможно, всё было бы гораздо проще. Но, как можно узнать из первой статьи, всё сложно.
Это было очень популярно в 1970-80-е — логическая парадигма программирования, Planner, Prolog и куча вариаций на тему. В начале, как это часто бывает, была эйфория — казалось, что вот-вот научимся формализовать тексты, а дальше останется дело техники — обработка графов. Много очень было энтузиазма по поводу ИИ, главным образом, экспертных систем, построенных на такой основе… Довольно быстро выяснилось, что, как это часто бывает, не так оно всё просто в реальном мире. Энтузиазм постепенно затухал, периодически слегка возобновляясь на фоне роста доступных вычислительных мощностей и объемов памяти…
Что значит сомнительно? Существует конечное число математических моделей, которые используются в представлении знаний. Графы — один из классов таких моделей. Представление текста в виде графа на некоторых уровнях описания (например синтаксическом) вполне разумно. Никто и не утверждает, что представление в виде графов позволяет полностью описывать смысл текста
В статье всё написано, прочтите ещё раз.
Я-то как раз читал