Нельзя ли использовать тезаурусы в качестве языка-посредника при машинном переводе? Этой мыслью задались английские ученые Кембриджской лингвистической группы.
В 1959 году один из крупнейших авторитетов в области машинного перевода, Бар-Хиллел, заявил, что высококачественный перевод с помощью ЭВМ принципиально невозможен. Ибо в нашем языке есть такая многозначность слов, которую нельзя ликвидировать, не обращаясь к внешнему миру, к внеязыковой, или, как говорят ученые, экстралингвистической ситуации, машине недоступной. Бар-Хиллел привел образец подобного рода принципиально непереводимой фразы… И в том же году сотрудники Кембриджской группы добились правильного машинного перевода этой фразы!
Если все предыдущие работы по машинному переводу стремились игнорировать значение, полагая, что ЭВМ недоступно «понимание» смысла текста, то в работах Кембриджской группы акцент делался именно на перевод значения. Ведь его-то передача и является целью всякого перевода с языка на язык. Сделать же этот перевод по смыслу помог знаменитый тезаурус Роджета.
Перевод с помощью тезауруса происходит не так, как обычный человеческий или стандартный машинный перевод. Это перевод не отдельных слов или фраз. Переводятся целые абзацы. Вначале строится единая «формула смысла» данного абзаца, причем смысл фраз, входящих в него, кодируется номерами тезауруса. Затем для полученной «формулы» смысла находятся соответствующие «формулы смысла» того языка, на который переводится текст.
Работы подобного рода ведутся не только в Англии, но и в Италии, в Миланском центре кибернетики и лингвистики, а также в нашей стране. Несколько различаясь в деталях, методика везде едина: выявление своего рода «атомов смысла», семантических множителей, из которых слагается значение отдельных «молекул», слов языка.
Подобные семантические множители применялись, как вы помните, в информационном языке, созданном учеными из Кливленда (Кливлендский семантический код). Но там задача была проще: из набора элементарных понятий формировались более сложные термины. Речь шла именно о терминологии, а не о языке со всеми его оттенками смыслов и значений слов. Здесь же задача, так сказать, на порядок сложнее.
Кембриджская группа пользовалась тезаурусом Роджета. К глубокому сожалению, такого словаря для русского языка до сих пор никто не составил. Правда, сейчас в нашей стране создается не менее интересный словарь, значение которого для машинного перевода трудно переоценить.
Словарь этот — толково-комбинаторный. В нем приводятся все сочетания русских слов, смыслы которых образуют новый, невыводимый из их сложения смысл. Например, проливной дождь, грибной дождь, косой дождь, слепой дождь и т. д. Если в обычных словарях разъясняется смысл отдельного слова, то в новом словаре толкуются словосочетания.
Работа по созданию такого словаря требует очень много труда. Ведь число различных русских слов равно сотням тысяч. А сколько же различных словосочетаний, имеющих «третий смысл», может быть в нашем языке! Вероятно, их не меньше, а гораздо больше отдельных слов и достигает миллиона. Составление словаря продлится не один год, а то и не один десяток лет (в настоящее время удалось зафиксировать сочетания двухсот слов, так что вся работа еще впереди). Поэтому сейчас исследователи стремятся выявить наиболее общие смысловые множители русского языка. С их помощью они надеются определить своеобразную «геометрию смысла», законам которой подчиняется и наш язык, и, по всей видимости, любые другие языки, так как любое содержание, высказанное на одном языке, может быть передано средствами любого языка (опыт переводчиков убедительно это доказывает: стихи Пушкина понимает и «друг степей калмык», и финн, и эвенк, и граждане США, ФРГ, Мексики и т. д.).
Другие статьи:
О способностях к языку
Вплоть до тех пор, пока новый Кальман Кёньвеш со всей силой своего авторитета
не заявит, что никаких талантов и способностей к языку не существует, мы будем вновь
и вновь слышать замечания вроде:
...
Ромео и Джульетта (история болезни)
Предлагаемые размышления о шекспировской трагедии представляют собой очередную
попытку понять устройство прославленного сюжета, выявить его «нечитаемые», или не
вполне очевидные, структуры. Иначе ...