Как наполняют сокровищницу?

Как составляются тезаурусы?

Роджет ничего не знал и, разумеется, не мог знать, каких результатов достигнут науки, занимающиеся проблемой смысла, но он интуитивно понял основные принципы составления тезаурусов: сначала собираются слова из текстов или различных словарей. Затем слова эти выстраиваются по алфавиту, а после из них образуются определение группы, связанные по смыслу.

Какой может быть эта смысловая связь? Во-первых, одно и то же значение можно выразить с помощью разных слов или оборотов. Вполне понятно, что все синонимы будут объединены. Во-вторых, смыслы слов могут быть полностью противоположны (как антонимы типа холодный — горячий, мертвый — живой и т. п.) В-третьих, смысл одного слова может включать в себя смысл другого, или даже многих слов, например значение слова человек включает в себя наименования сотен различных национальностей нашей планеты. Смысловые связи между словами могут строиться по типу причина — следствие или часть — целое. Наконец значения слов между собой связаны самыми различными ассоциациями. Причем именно проблема ассоциаций является наиболее трудно разрешимой задачей при построении того или иного тезауруса.

Специалистам в данной области науки нетрудно выделить термины, которыми эта наука пользуется. Сложнее построить иерархию из слов-терминов по смыслу. Однако и эта задача разрешима логическим путем. Можно разграничить смысл слов и словосочетаний, которые образуют новые значения. Например, термины скорость бурения и бурение скоростное — это не синонимы, они имеют совершенно разные значения, так же как дюнный песок и песчаная дюна. Но специалисты по информатике с успехом ликвидируют подобного рода случаи (в первом случае бурение является аспектом, а во втором — атрибутом; в сочетании песчаная дюна песок — вещественная составляющая, а в сочетании дюнный песок — причина образования дюны).

С ассоциациями дело обстоит много сложней. Ибо здесь действуют законы не двузначной, а многозначной логики.

В тезаурусах группируются, например, понятия ранение — несчастные случаи — диагноз — медицина — патология — терапия или чернила — краски — печатание — письмо. Интуитивно нам понятно, что объединение этих слов оправдано. Но попробуйте-ка доказать его путем формальной логики, и вы убедитесь, что это далеко не так просто, как на первый взгляд кажется. А ведь такие связи существуют не только между обычными словами языка, но и научными терминами.

Еще в 1942 году американский исследователь А. Л. Болдуин попытался внести количественные меры в изучение смысловых связей между словами. Он подсчитал совместную встречаемость слов в письмах, написанных одной женщиной, и показал, что частоты их могут быть указателями настроений этой женщины, круга ее интересов и т. п. С тех пор предложено несколько десятков формул, по которым можно вычислять смысловые связи слов.

Применяются для выявления этих связей и электронные вычислительные машины.

Конечно, как замечает один из специалистов по информатике — Р. М. Нидхем, «нельзя ожидать, что в результате нескольких часов работы ЭВМ. будет получено нечто, что могло бы сразу же заменить интуицию и труд ученого (который все равно необходим при выборе единиц анализа и интерпретации результатов). На что мы можем надеяться — так это на то, что выявятся группы слов, ранее не замеченные, но потенциально возможные».

Тезаурусы составляются учеными в «союзе» с машиной.

Сначала группа специалистов подчеркивает термины в данной области знания. Затем тексты вводятся в ЭВМ, которая выдает эти слова в исходной форме, то есть в именительном падеже, единственном числе и т. п. Потом специалисты разбивают на участки смысловое «поле», внутри этих участков производят более мелкое деление, а полученную схему оформляют в виде анкеты.

Анкета заполняется специалистами по каждому термину, а затем она поступает в ЭВМ, которая объединяет все термины, имеющие одинаковые признаки. И, наконец, человек составляет из них тезаурус.

Другие статьи:

Грамматика – необходимая и достаточная
При изучении иностранных языков важно, а порой и практически необходимо знание терминов грамматики. Когда швед говорит, что он не знает шведской грамматики, то это обычно означает, что он не помни ...

Предисловие к русскому изданию
В наши дни повсюду задумываются над тем, как можно было бы быстро и эффективно преодолеть языковые барьеры. Свой посильный вклад в это дело постаралась внести и я. Возникает вопрос: могу ли я, ка ...