Связь техники, статистики и языкознания наметилась давно. Ведь даже на простой, но очень важный вопрос: как удобнее расположить клавиши на пишущей машинке? — нельзя ответить одному только технику или лингвисту. Нужно знать частоты употребления различных букв и сочетаний этих букв. Нужно знать конструкцию машинки (вот почему редкие буквы расположены на периферии, а частые — в центре клавиатуры, причем на основании статистики спарены т и ь, п и р и т. д.).
Изобретение телеграфа, телефона, других средств связи вызвало сближение инженерии, математики и лингвистики. Их союз помогает решать задачи кодирования слов и букв языка в электрические сигналы, сокращения «избыточных» частей текста при передаче телеграмм.
Однако подлинный союз техники, лингвистики и статистики в изучении языка начался с появлением электронных вычислительных машин. Если раньше необходимые подсчеты требовали многих лет труда и большого коллектива сотрудников, то теперь с помощью ЭВМ они могут быть произведены очень быстро и экономично.
Мы упоминали частотный словарь немецкого языка, составленный Кедингом на основании одиннадцати миллионов слов. Разумеется, один человек такую работу проделать не мог: не хватило бы всей его жизни. В составлении словаря Кедингу помогали сотрудники. Как вы думаете, сколько их было? Десяток, сотня, две сотни? Нет, гораздо больше — тысяча человек!
В течение нескольких лет вел кропотливую работу над составлением «Словаря языка Пушкина» коллектив сотрудников Института русского языка Академии наук СССР. Четверть века вели свою работу над частотным словарем английского языка Торндайк и Лордж…
В наши дни составление этих словарей поручено электронным вычислительным машинам. Именно они являются соавторами всех больших частотных словарей, появившихся в последние годы, включая «Частотный словарь русского языка».
С помощью ЭВМ в наши дни осуществляется издание монументального, в пятнадцати томах, словаря французского языка. Он охватывает почти шестьсот произведений авторов XVIII–XX столетий, общим объемом в семьдесят миллионов (!) слов. Каждому из семидесяти тысяч слов, вошедших в словарь, дается толкование, приводится общая частота его употребления, а также частоты, с которыми оно употреблялось в том или ином веке. Нет сомнения в том, что и для других языков появятся столь же нужные словари. Конечно, без машины составление их вряд ли было бы возможно: вспомните Кединга и его тысячу помощников.
ЭВМ помогают и в составлении частотных словарей отдельных «подъязыков», охватывающих ту или иную область науки и техники: электронику, терапию, строительные материалы, автомобилестроение, геологию нефти и газа и т. п. В нашей стране составлено более десятка таких словарей для английского, немецкого, французского и других языков. Осуществляет это важное и жизненно необходимое для практики дело группа «Статистика речи».
Правда, объем текстов, взятых для словаря, сравнительно невелик: выборка состоит, как правило, из двухсот тысяч слов. Но на это есть свои причины. Вы помните, что львиная доля текста покрывается самыми частыми словами, первой их тысячью. Вторая тысяча частых слов даст незначительный прирост, третья — еще меньший и т. д. Чем больший объем текста мы возьмем, тем больше разных слов в нем будет, но прирост этот будет замедляться. Вот что показывают расчеты. В словаре английского языка, составленном Г. Кучерой на основе машинной обработки миллиона слов, встретилось около пятидесяти тысяч различных слов. Если увеличить выборку в десять раз, то есть до десяти миллионов, число разных слов возросло бы не в десять, а примерно в два с половиной раза. Если довести выборку до ста миллионов слов, число разных слов увеличилось бы не в сто, а лишь в четыре раза.
Еще меньший прирост дают тексты по отдельным подъязыкам и областям знания. Вот какая картина рисуется нам, если мы попробуем применить ЭВМ для составления полного частотного словаря английских текстов по электронике. Двести тысяч слов, обработанных на машине, дали около десяти тысяч различных слов. Если увеличить выборку в пять раз, до миллиона слов, то число разных слов даже не удвоится. Увеличь мы выборку в пятьдесят раз, число разных слов возрастет только в три раза; увеличение в пятьсот раз, до ста миллионов слов, даст прирост в четыре раза. И если мы доведем выборку до фантастической величины в десять миллиардов, то есть в пятьдесят тысяч раз, то число разных слов возрастет лишь шестикратно. Наш словарь охватит лишь шестьдесят тысяч разных слов, между тем терминология электроники гораздо богаче, эти слова ее не исчерпывают, хотя мы обработали бы на ЭВМ около тридцати миллионов страниц текстов!
Другие статьи:
Как читать?
Поначалу особенно не размахиваясь, почти поверхностно, а затем уже придирчиво,
скрупулезно, добросовестно.
К начальной поверхностности я призываю в первую очередь моих коллег-мужчин, а
среди них ...
Какой язык изучать?
Выбор очень велик!
Если верить библейским сказаниям, то обстоятельства, породившие профессию лингвиста,
связаны со строительством Вавилонской башни, а точнее – со спором между богом и
человеком, ...