Юрий Апресян: «Интегральное описание языка я считаю сверхзадачей синхронической лингвистики»

28.02.2017 / № 223 / с. 6–7 / Юрий Апресян; Михаил Гельфанд, Ирина Левонтина / Математические прогулки / 1 Comment

Юрий Дереникович Апресян – академик РАН, гл. науч. сотр. лаборатории компьютерной лингвистики Института проблем передачи информации им. А. А. Харкевича Российской академии наук (ИППИ РАН). В отличие от предыдущих выпусков «Математических прогулок», вопросы, по просьбе профессора Апресяна, были составлены и заданы в письменном виде. Вопросы подготовили Михаил Гельфанд и Ирина Левонтина.

Вместо введения

— Юрий Дереникович, мы бы хотели начать с самых общих вопросов о лингвистике как науке. Ведь язык — невероятно сложный объект, очень трудный для исследования. Язык живет своей жизнью, похожей на жизнь природы, а в то же время он реализуется через речь людей. И в связи с этим первый вопрос: лингвистика — это естественная или гуманитарная наука?

— Лингвистика слишком неоднородна, чтобы на этот вопрос можно было дать однозначный ответ. Если считать эталоном естественной науки такую науку, утверждения которой могут быть проверены в экспериментах, то лингвистика скорее гуманитарная наука. «Скорее», потому что разные лингвистические дисциплины занимают разное место на этой шкале. Фонология или морфология, имеющие дело с конечным числом единиц, ближе к точным наукам. В качестве примера можно привести «Грамматический словарь русского языка» А. А. Зализняка, позволяющий построить по достаточно простым правилам все грамматические формы около 110 000 русских слов.

Бесконечность начинается в синтаксисе и приобретает еще большие масштабы в семантике. Даже по поводу числа и характера значений какой-нибудь грамматической формы существуют разногласия. Так, в академической «Грамматике русского языка» 1960 года форме творительного падежа при глаголе приписывается семь разных значений: орудия (резать ножом), производителя действия (изобретенный китайцами), содержания (интересоваться живописью), времени (уехать ранней весной), пути (идти лесом), способа (петь басом) и признака лица или предмета (назначить кого-либо ректором) .

В академической «Грамматике современного русского литературного языка» 1970 года не упоминается орудийное значение и значение содержания, но зато есть несколько других, отсутствующих в Грамматике-60: объектное (распоряжаться людьми), определительное (родиться счастливчиком), квантитативное (болтать часами). В классической книге А. М. Пешковского «Русский синтаксис в научном освещении» нет творительного квантитативного, но зато есть творительный усилительный (криком кричит) и творительный ограничения (окрепнуть духом).

Разногласия возрастают, когда мы переходим в область лексической семантики. Чтобы убедиться в этом, достаточно посмотреть, как разные толковые словари одного и того же языка описывают число, характер и ранжирование значений многозначных слов.

До сих пор речь шла о синхронической лингвистике. Диахроническая лингвистика, имеющая дело с историей языка и, по необходимости, с конечным, хотя в некоторых случаях и очень большим числом письменных памятников, ближе к естественным наукам.

Таково, в частности, сравнительно-историческое языкознание, — пожалуй, единственная лингвистическая дисциплина, которая в ряде случаев устанавливает законы развития своего объекта. Примером могут служить фонетические законы, по которым в ходе истории в определенное время и на определенном лингвистическом пространстве изменяются звуки языка. Назову один из них — передвижение согласных в германских языках, в результате которого индоевропейские глухие смычные звуки [p], [t] и [k], хорошо сохранившиеся, например, в латыни, переходили в спиранты [f], [θ] и [h] соответственно; сравните латинское pēs (нога, стопа)’ и английское foot; латинское trēs (три) и английское three; латинское cănis (собака) и английское hound.

Жан-Франсуа Шампольон. Портрет работы Леона Конье (1831), Лувр, Париж

В области диахронической лингвистики есть даже прецеденты того, что можно было бы назвать научными предсказаниями. Одно из самых знаменитых — дешифровка Жан-Франсуа Шампольоном в 1824 году египетского иероглифического письма. Правильность предложенной им модели была бесповоротно подтверждена в 1866 году, когда его последователь Карл Рихард Лепсиус нашел в Египте камень с текстом на трех языках (так называемый Канопский декрет) и, переведя египетский текст на греческий язык по методу Шампольона, получил перевод, совпавший с греческим текстом декрета.

Есть и другие факты такого рода, например сделанное «на кончике пера» открытие ларингальных звуков Фердинандом де Соссюром (оно коротко описано в моей книжке «Идеи и методы современной структурной лингвистики», и я не стану его здесь излагать).

— Имеют ли лингвистические построения соответствия (корреляты) в действительности?

— Если имеются в виду диахронические построения, то на этот вопрос я ответил выше. Если синхронические, то я буду отвечать на него в предположении, что под «действительностью» в данном случае понимается язык.

Здесь надо сделать еще одно допущение и считать, что всякий конкретный язык, т.е. способность производить тексты, выражающие нужный смысл, и понимать такие тексты, может быть задан в форме относительно полной грамматики и относительно полного словаря этого языка. Тогда косвенным свидетельством того, что «лингвистические построения имеют корреляты в действительности», является, например, возможность выучить новый для себя язык по этим двум документам и свободно заговорить на нем.

Я называю это свидетельство «косвенным», потому что глубоко убежден в том, что мы никогда не узнаем с достаточной степенью детальности, как работает мозг/сознание человека вообще и при усвоении языка в частности. Эта тема в другой связи обсуждается и несколько ниже.

«Я глубоко убежден в том, что мы никогда не узнаем с достаточной степенью детальности, как работает мозг/сознание человека вообще и при усвоении языка в частности»

— Уточняющий вопрос. Что значит, что одна лингвистическая теория лучше другой? Достаточно ли, чтобы лучшее описание было более простым, удобным, лаконичным и правильно предсказывало поведение объекта? Или всё же если самое простое описание противоречит интуиции и лингвисту кажется, что оно «не похоже» на описываемое языковое явление, то лингвиста такое описание не удовлетворит?

— По-моему, в современном лингвистическом дискурсе утверждение, что одна лингвистическая концепция лучше другой, ничего не значит, хотя в спекуляциях на этот счет недостатка нет. Сделаем заведомо фантастическое допущение, что уже согласованы критерии, по которым можно оценивать качество лингвистических теорий. Пусть, например, критерием будет отношение объемов лингвистических описаний (в печатных листах), составленных на основе теорий Т_i и Т_j, к одному и тому же объему описываемых языковых фактов в виде какого-то множества письменных текстов (тоже в печатных листах). Теория Т_i лучше теории Т_j, если эта дробь для нее меньше.

Насколько мне известно, ни такая, ни какая-либо другая работа ни для одного языка не проводилась. Реально, как мне кажется, какая-то лингвистическая теория предпочитается не на основе строгих критериев оценки и последующей отбраковки альтернативных теорий, а по другим, чисто человеческим основаниям: она ближе лингвисту территориально, он лучше ее знает, потому что знаком с ее автором и может обсуждать с ним неясные места, и т. п.

— Бывают ли в лингвистике проверяемые утверждения? Ведь неверифицируемые/нефальсифицируемые бывают? Не мешает ли последнее лингвистике быть наукой?

— Конечно, бывают. Таковы, например, фонетические законы, о которых говорилось выше. Правда, там речь шла о диахронии и о фонетических явлениях. Однако большинство «синхронических» грамматических правил тоже проверяемо, хотя и с оговорками.

Как известно каждому школьнику, в русском языке различаются качественные и относительные прилагательные. Например, бедный — качественное прилагательное, а каменный — относительное. Качественным прилагательным в грамматиках русского языка приписывается до шести свойств, из которых я упомяну четыре: а) у них есть полные и краткие формы (бедный — беден, бедна); б) они изменяются по степеням сравнения (бедный, беднее, беднейший); в) от них образуются наречия (жил бедно); г) от них образуются существительные со значением свойства или состояния (бедность). У относительных прилагательных нет ни одного из перечисленных свойств.

Пользуясь этими признаками, мы можем с большой долей уверенности устанавливать, является ли данное прилагательное относительным или качественным.

Но вот у Валерия Брюсова в стихотворении «Лестница» есть такие строки: «Всё каменней ступени, / Всё круче, круче всход». Относительное прилагательное он использует как качественное, метафорически, и это позволяет ему достичь большей выразительности.

Небольшое отступление. Всякая метафора — например, пряжа тумана, лысины булыжника, волна судьбы — является семантической ошибкой, или, другими словами, нарушением правил семантического согласования. Тем не менее речь лучших носителей языка пестрит такими ошибками, потому что они позволяют выражать мысль кратко и ярко.

Никто не сказал об этом лучше Бориса Пастернака: «Метафоризм — естественное следствие недолговечности человека и надолго задуманной огромности его задач. При этом несоответствии он вынужден смотреть на вещи по-орлиному зорко и объясняться мгновенными и сразу понятными озарениями. Это и есть поэзия. Метафоризм — стенография большой личности, скоропись ее духа». Обратите внимание на эффектные и глубокие метафоры самого Пастернака.

Возвращаясь к качественным и относительным прилагательным: в начале 1960-х годов в Институте русского языка Академии наук СССР было проведено исследование свойств качественности — относительности на большом массиве прилагательных и было обнаружено, что жесткой границы между ними нет. Есть плавная шкала перехода от прототипических качественных прилагательных (они обладают всеми шестью свойствами качественности) к прототипическим относительным прилагательным (у них нет ни одного такого свойства) через много промежуточных ступеней. Есть пятерки/четверки/тройки и т.п. свойств качественности, притом не обязательно одних и тех же у разных прилагательных.

На самом деле картина еще сложнее. Вполне качественное прилагательное может не обладать ни одним из его прототипических свойств, если оно развивается в структуре многозначности исходно относительного прилагательного. Возьмем прилагательные железный и стальной. В своих главных значениях (железная стружка, стальная дверь) это, конечно, относительные прилагательные. Но в значениях «крепкий» (железные мускулы, стальные мышцы) и «твердый» (железная дисциплина, стальная воля) они семантически становятся качественными прилагательными. Однако никаких формальных свойств качественных прилагательных (см. выше) они не приобретают. В частности, у них нет кратких форм (едва ли услышишь Его мышцы железны/стальны) , степеней сравнения (не говорят

А у них дисциплина еще железнее или Его воля еще стальнее) и т. п., при том что их синонимы крепкий и твердый обладают всеми свойствами качественных прилагательных.

Хотя, как показывают рассмотренные факты, между полярными явлениями в языке есть большая область промежуточных явлений, делающая переход от одного полюса к другому почти непрерывным, это никак не отменяет пользы выделения полюсов. Именно в этих прототипических точках проверяемость синхронических лингвистических утверждений достигает максимума.

О современном состоянии лингвистики, машинном переводе и системе «Этап»

— Что сейчас наиболее интересного делается в теоретической лингвистике?

— Всё зависит от того, как понимать теоретическую лингвистику. Если, например, фундаментальные исследования русского вида или лексической многозначности числить по ведомству теоретической лингвистики, то назвать хотя бы одну десятую интересных работ, посвященных только этим двум темам (на самом деле таких тем гораздо больше), в коротком ответе невозможно. Если же к теоретической лингвистике относить формальные системы типа грамматики Монтегю, то тут я должен признаться, что за этой областью не слежу, а то немногое, что я случайным образом знаю, кажется мне неприменимым в реальной работе с материалами естественных языков.

В связи с обсуждаемым вопросом следует упомянуть еще одно обстоятельство, которое привело к усовершенствованию методологии поиска научной истины и тем самым ускорило темпы развития теоретической лингвистики. В последние десятилетия прошлого века стала меняться эмпирическая база лингвистики. Появились большие электронные корпусы текстов, снабженные программами поиска нужной лингвисту информации, в частности Национальный корпус русского языка. Они на порядок сократили время сбора эмпирического материала, с одной стороны, и стали удобным полигоном для проверки фактической обоснованности теоретических гипотез, с другой.

— Еще вопрос — о связи теоретической лингвистики и автоматического перевода, вообще задач автоматической обработки текста. На начальном этапе казалось, что машинный перевод вырастет непосредственно из семантического представления. Но сейчас мы видим, что автоматическая обработка текста строится прежде всего на статистической обработке больших массивов текстов. Так что же, практические приложения теоретической семантики оказались более ограниченными, чем виделось вначале? Или у них есть перспектива?

— Цитирую преамбулу Вашего вопроса: «На начальном этапе казалось, что машинный перевод вырастет непосредственно из семантического представления».

Честно говоря, я не знаю, кому так казалось. Семантическое представление не может быть исходным пунктом машинного перевода по двум причинам. Во-первых, неясно, откуда оно возьмется. Во-вторых, до сих пор не существует формального семантического языка, на котором можно полностью отразить смысл произвольного предложения на естественном языке.

Тем не менее и в отсутствие семантического представления задача машинного перевода сводится к тому, чтобы каждому предложению языка-источника поставить в соответствие такое грамматически правильное предложение другого языка, в котором с достаточной полнотой сохраняется смысл исходного предложения. Когда мы начинали свою работу в этой области, мы исходили из того, что указанную задачу можно решить только на основе серьезной лингвистической теории.

В качестве такой теории мы выбрали модель «Смысл 1 Текст» И. А. Мельчука. Наш главный результат в области машинного перевода — система «ЭТАП» и, более конкретно, подсистемы перевода научно-технических текстов с английского языка на русский и с русского на английский.

Их основные лингвистические компоненты — полные формальные грамматики (морфология и синтаксис) английского и русского языков, формальные словари обоих языков объемом более 100 тыс. слов каждый и модули перехода от предложения входного языка к предложению выходного языка.

«В процессе разработки системы «ЭТАП» мы выработали новый тип лингвистического описания — так называемое интегральное описание языка»

В обеих подсистемах переход от исходного текста к его переводу происходит не на уровне семантического представления, а на уровне синтаксической структуры (дерева зависимостей) переводимого предложения. Полученное в результате синтаксического анализа дерево зависимостей входного предложения через ряд промежуточных шагов (снятие особенностей входного языка, собственно перевод, порождение особенностей выходного языка) преобразуется в дерево зависимостей выходного предложения; последнее с помощью ряда операций, «обратных» операциям синтаксического анализа, превращается в реальное предложение выходного языка.

Пример машинного перевода с английского языка на русский: In the early sixties, chromatography became an analytical tool (now the most highly used instrumental technique in the chemical laboratory) g В начале шестидесятых годов хроматография стала аналитическим инструментом (в настоящее время наиболее широко использованный инструментальный метод в химической лаборатории).

Пример машинного перевода с русского языка на английский: Несколько лет назад стали коммерчески доступны первые микропроцессорные схемы, что привело к созданию многочисленных вариантов машины ответа g Several years ago became commercially accessible the frst microprocessor chips, which has led to creation of numerous versions of a machine of answer.

Я намеренно привел примеры перевода, содержащие явные ошибки, зачем — станет ясно чуть ниже.

Когда появились статистические системы машинного перевода (упоминаемые и в вашем вопросе), оказалось, что они функционируют ничуть не хуже, чем наша «умная» система, а иногда дают и более правильные со всех точек зрения переводы.

В любом случае вне конкуренции остается перевод текстов профессиональными переводчиками.

Здесь я хотел бы вернуться к сделанному выше утверждению: мы никогда не узнаем с достаточной степенью детальности, как работает мозг/сознание человека. Если бы это знание было нам доступно, мы бы смогли сконструировать машинного переводчика, способного конкурировать с человеком.

Сказанное ни в коем случае не значит, что наши усилия были напрасны.

Во-первых, полученные результаты ценны сами по себе, в частности, потому, что могут указывать на ошибки в самой модели языка, положенной в основу системы машинного перевода.

Во-вторых, что гораздо важнее, в процессе разработки системы «ЭТАП» мы выработали новый тип лингвистического описания, который, как мне кажется, представляет общетеоретический интерес, — так называемое интегральное описание языка.

— Что это такое?

— Полное лингвистическое описание всякого конкретного языка состоит из двух основных компонентов — грамматики и словаря. В идеале эти два компонента должны быть полностью согласованы друг с другом по типам помещаемой в них информации и по формальным языкам ее записи — в противном случае они не смогут взаимодействовать друг с другом. Традиционные лингвистические описания этому естественному требованию не удовлетворяют.

Например, в грамматиках (в том числе в уже упоминавшейся академической «Грамматике русского языка» 1960 года) при описании сравнительной степени прилагательных не отмечается, что она имеет разные значения от разных семантических классов прилагательных.

В частности, сравнительная степень от прилагательных размера «пробегает» всю шкалу размера: предмет Х может быть больше или меньше предмета Y и в том случае, когда Y очень большой, и в том случае, когда он очень маленький. Между тем сравнительная степень от прилагательных цвета пробегает не всю цветовую гамму, т. е. позволяет сравнивать не любые цвета, а только оттенки одного и того же цвета: предмет X может быть краснее предмета Y только в том случае, если оба предмета красные.

Более того, даже в пределах одного и того же семантического класса прилагательных сравнительная степень может иметь разные значения. Так обстоит дело с антонимичными оценочными прилагательными типа умный — глупый. Человек X может быть умнее человека Y и в том случае, когда Y тоже умен, и в том случае, когда он глуп. Если же мы говорим, что X глупее Y-а, то обычно имеется в виду, что Y тоже глуп.

В свою очередь, в словаре даются чересчур общие грамматические пометы, не учитывающие грамматических особенностей слова в разных случаях его употребления даже в рамках одного и того же значения. Тому же прилагательному красный в его главном значении «цвета крови» словари приписывают краткие формы красен, красна и красно, но не сообщают точно, в каких случаях они возможны, а в каких — нет.

Например, во фрагменте словарной статьи Большого академического словаря русского языка (8-й том), посвященной главному значению этого прилагательного, фигурируют в качестве примеров словосочетания красная икра, красная медь, красное золото, красное вино, красный гриб и т.п. Ни в одном из этих словосочетаний сравнительная степень невозможна, потому что в них красный является, в сущности, относительным прилагательным. Однако в словаре это никак не оговаривается.

Интегральное описание языка я считаю сверхзадачей синхронической лингвистики. Мы в своей лингвистической работе, и в частности в рамках системы «ЭТАП», стремимся в максимальной степени следовать принципам интегрального описания, хотя, естественно, тоже не застрахованы от ошибок.

(Окончание следует)

Юрий Апресян
Вопросы подготовили Михаил Гельфанд и Ирина Левонтина

1 Comment

Синхронный перевод:

16.07.2020 в 1:30

Такой глубокий анализ больше необходим для машинного перевода и вряд ли станет применяться в обыденном устном переводе. Но это безусловно важно для решения каких-либо спорных моментов в лингвистике.

Ответить

Добавить комментарий Отменить ответ

Оценить:

Помощь «Троицкому варианту — Наука»

Юрий Апресян: «Интегральное описание языка я считаю сверхзадачей синхронической лингвистики»

Вместо введения

О современном состоянии лингвистики, машинном переводе и системе «Этап»

1 Comment

Добавить комментарий Отменить ответ

ТрВ № 5 (349) за 2022 г.: 10 фактов о Юрии Лотмане

10 фактов о Юрии Лотмане. К 100-летию со дня рождения

Работа помогает от уныния и стресса

Торова победа

Как Россия потеряла форум математики

Фиаско Роскосмоса

Литеры Z и V на страницах истории

Как рушится международное научное сотрудничество

При чем тут климат

Евгений Кунин: «Заявления российских госСМИ о биооружии на Украине не просто бред, а заведомая ложь»

Вся наша жизнь — задачи по оптимизации

Время вспахано плугом