Счетчики






Яндекс.Метрика

Г.М. Кружков, М.Г. Кружков. «Словарь Шекспира: мифы и цифры»

Существует распространенное мнение о том, что словарь Шекспира необычайно обширен и значительно превосходит по объему словари современных ему писателей, а также большинства последующих. В работах так называемых антистрадфордианцев это мнение приводится как козырной довод в пользу авторства другого, более образованного, чем Шекспир, человека. Илья Гилилов, например, говорит об «огромном, ни с чем не сравнимом богатстве языка Шекспира»: «Его словарь насчитывает около 20 тысяч слов, то есть в два-три раза больше, чем у самых образованных его современников и даже писателей следующих поколений и веков...»1. Автор одной из последних книг на тему авторства Шекспира, знаменитый американский адвокат Бертрам Филдс, предлагая читателю свой обзор — якобы объективный, как состязательный судебный процесс, — тоже пишет об «ошеломительном» и «поразительном» словаре, «во много раз превосходящем язык других образованных людей той эпохи» и на этом основании предлагает гипотезу о двух (или более) авторах шекспировских пьес. Лексикон Шекспира, по его данным, около 21 тысячи слов2. Оба, и Гилилов, и Филдс, дают для словаря Марло и Мильтона цифры в два-три раза меньшие.

Оставим в стороне наивное до смешного допущение Филдса, что словарь двух авторов должен быть в два раза больше, чем словарь одного автора. Рассмотрим вопрос о богатстве словаря писателя по существу. Он не так элементарен, как кажется. Если просто подсчитать, сколько разных слов в произведениях того или иного писателя, легко обмануться или даже прийти к абсурдному выводу. Возьмем, например, произведения Катулла и Вергилия. Подсчет наверняка покажет, что у Катулла в его дошедшей до нас «маленькой книжке» слов в несколько раз меньше, чем у Вергилия в эпической «Энеиде». Говорит ли это о бедности словаря Катулла, его необразованности и так далее? Сделаем пример еще более выпуклым. Возьмем величайшую поэтессу античности Сафо. При «простом» подсчете окажется, что ее словарь в 10 или 20 раз меньше, чем у Вергилия — или даже, чем у любого плодовитого автора современных детективов!

Причина очевидна. Количество разных слов в тексте зависит от длины этого текста. Сафо, от которой остались только фрагменты, просто-напросто не успела предъявить нам свой словарный запас. Несомненно существует какой-то внутренний механизм языка, который постепенно, по мере говорения (писания), переводит из потенциального запаса в текст все больше и больше разных слов. Чем больше текста, тем больше будет «выдано» слов внутренним «казначеем» писателя. Поэтому для определения истинного богатства языка писателя необходимо учитывать длину текста, явленного нам для анализа. Количество разных слов в тексте N есть функция длины данного текста x.

Начнем со сравнительного небольшого текста (или фрагмента текста) писателя, определим, сколько в нем разных слов; затем увеличим объем текста и повторим вычисление. Так, по точкам, мы сможем построить функцию N (x), определяющую насколько щедр «внутренний казначей», с какой частотой он подбрасывает в актуальный текст новые слова из своего потенциального запаса. Эта N-функция и определяет богатство языка писателя, его разнообразие. Разумеется, сравнивать значения N-функции разных писателей разумно лишь при одинаковом значении аргумента x (т. е. при одинаковой длине текста).

Прежде, чем перейти к такому сравнению и изучению N-функции для разных авторов, следует сделать некоторые замечания о методе подсчета. Для простоты и наглядности результатов мы учитывали и подсчитывали в текстах не слова, а словоформы. Например, для существительных — не только именительный падеж единственного числа friend, но и родительный падеж friend's, и множественное число friends; в подсчете это разные слова. Для глаголов, наряду с формой инфинитива подсчитывались формы с глагольными окончаниями -s, -ing (герундий) и -ed (прошедшее время). Такой метод подсчета завышает истинные цифры; хотя и не так сильно, как было бы в языке флективного типа, вроде русского.

В английском языке это завышение не так сильно — не в разы, а на проценты. На сколько именно процентов, можно определить статистическими методами; по-видимому, при большой длине текста, это — константа, но нас сейчас нс интересует ее величина. В этой статье мы претендуем на получение не абсолютных, а относительных результатов: какой словарь больше, на сколько процентов.

Пусть число разных словоформ в тексте — N, а число разных слов M, тогда N и M будут связаны между собой постоянным коэффициентом w: N = w · M, все относительные, процентные соотношения между разными N будут теми же, что между разными M, коэффициент w сократится.

Метод подсчета «брутто» (всех словоформ) имеет то преимущество перед подсчетом «нетто» (т.е. чистых основных значений слов), что он во много раз быстрее, не требует специального анализа и легко поддается перепроверке другими исследователями. Его мы и будем употреблять. Следует только помнить, что он дает завышенные (но пропорционально завышенные для всех текстов и для всех авторов!) значения для величины словаря.

Суммарно в тридцати шести пьесах Шекспира от «Комедии ошибок» до «Бури» (выключая написанного коллективно «Генриха VIII») 861 104 словоформ, при этом разных словоформ 24 845.

Данные показывают, что Nsh(x) неуклонно растет и даже при х, близком к 900 тысячам слов не выказывает явных признаков приближения к какому-то пределу (асимптоте). Мы нашли, что скорость роста N-функции хорошо описывается функцией квадратного корня: Nsh(x) = ksh · √(x); где ksh = 26,65.

Именно коэффициент к определяет богатство языка писателя. Мы построили соответствующие графики для современников Шекспира драматургов Кристофера Марло (шесть пьес) и Бена Джонсона (восемь пьес). N-функции этих писателей тоже очень хорошо описываются формулой квадратного корня, но коэффициенты другие. Расчет дает следующие значения «коэффициентов разнообразия»: kmarlowe = 29,49; kjonson= 28,9.

Таким образом, число разных слов (лексикон) растет у Марло и у Джонсона не медленнее, а на десять процентов быстрее, чем у Шекспира. Потенциально язык этих драматургов — современников Шекспира — не беднее, а богаче, чем у Шекспира. Дело лишь в том, что литературное наследство Марло вчетверо меньше, чем у Шекспира. Но его внутренний «казначей слов» щедрее. Такая же примерно ситуация у Бена Джонсона, хотя мы исследовали не все его литературное наследство, которое по объему ближе к шекспировскому. Мы взяли лишь восемь его пьес, написанных без соавторства и доступных в современной, отредактированной орфографии. Их совокупная длина — 257 412 слов. Разных слов — 15 122. Это меньше, чем во всех пьесах Шекспира, но больше, чем в первых одиннадцати пьесах Шекспира (такой же совокупной длины) — 13 316.

Далее мы взяли для анализа произведения крупнейшего поэта XVII в. Джона Мильтона: пьесу-маску «Комус», поэмы «Потерянный Рай» (в 12 книгах), «Обретенный Рай» (в 4 книгах) и «Самсон-борец». Всего словоформ в этих четырех произведениях 116 850, разных словоформ — 13 215. Данные таблицы опять-таки отлично ложатся на функцию квадратного корня при значении: kmilton = 37,1.

Таким образом, словарь Мильтона оказался потенциально самым богатым (или разнообразным); он превосходит по этому показателю и Шекспира, и Марло, и Джонсона на целую треть. Хотелось бы подчеркнуть, что мы используем выражения типа «потенциально богаче» для научной аккуратности, памятуя, что актуальный лексикон Шекспира более двадцати тысяч. Можно было бы сказать и просто: «богаче», что вполне соответствует здравому смыслу. Разве мы не скажем, что у данного человека словарь богаче, если он в документе одинаковой длины употребляет намного больше разных слов, чем другой человек?

В качестве последнего опыта мы взяли Чарльза Диккенса. Основой нам послужили разбитые на главы два романа «Оливер Твист» и «Повесть о двух городах». Общая длина текста — 296 158 словоформ, разных словоформ — 14 207. График N-функции имеет такую же форму, как у Шекспира, Марло, Джонсона и Мильтона и хорошо аппроксимируется функцией: Ndickens(x) = kdickens · √(x); при kdickens = 26,31.

Коэффициент Диккенса практически тот же (всего на один процент ниже), чем у Шекспира. Насчет полноты статистики в данном случае скажем, что два романа Диккенса по объему соответствуют примерно тринадцати первым пьесам Шекспира (293 248 слов). Возможно — и желательны — дальнейшие подсчеты по Диккенсу и другим писателям, но вряд ли они дадут качественно иные результаты. Здесь мы сошлемся на мудрое слово самого Шекспира:

Мы видим жизни постепенный ход,
И это сходство будущего с прошлым
С успехом позволяет говорить
О вероятье будущих событий3.

В применении к математике, это высказывание можно рассматривать как утверждение о гладкости функций, описывающих статистически усредненную жизнь («постепенный ход»), и о применимости методов теории вероятности («вероятность... событий») при аппроксимации известных данных на неизвестную область.

Найденный нами эмпирический закон для N-функции можно вывести теоретически, если построить для нес дифференциальное уравнение. Рассмотрим, как растет N(x) при переходе от x к x + Δx. ΔN будет пропорционально Δx, умноженному на вероятность появления в тексте слов с номером от N до N + ΔN. Обозначим эту вероятность ƒ(N).

ΔN = Δx · ƒ(N).

Сделаем естественное допущение, что (при больших x и N) порядок появления нового слова соответствует порядку его расположения в списке частотности слов, иначе говоря, слова появляются по «рангу» их частотности. Тогда ƒ(N) есть частота встречаемости N-го слова в тексте. Согласно известному закону Ципфа, ƒ(N) = a · 1/N, где a есть некая эмпирическая постоянная величина.

Таким образом, мы приходим к дифференциальному уравнению: dN(x)/dx = а · 1/N(x).

Решением этого уравнения является функция квадратного корня: N(x) = 2a · √(x).

Таким образом, найденная нами эмпирически зависимость устанавливается теоретически — и оказывается простым следствием закона Ципфа. Между прочим, сам закон Ципфа был установлен в конце 1940-х годов его автором также эмпирически, и только позднее Б. Мандельбротом было предложено его математическое обоснование.

В заключение можно суммировать результаты нашей работы следующим образом.

Для каждого писателя существует особая функция (N-функция), описывающая возрастание его словаря (количества разных слов) в зависимости от объема написанного.

При средних значениях x (десятки и сотни тысяч слов) статистические данные показывают, что N-функция растет как квадратный корень: удваиваясь при четырехкратном увеличении длины текста.

Такой закон роста N-функции можно обосновать математически, при этом он оказывается следствием известного закона Ципфа для распределения частотности слов в тексте.

Богатство словаря писателя определяется «щедростью», с какой «внутренний казначей» подбрасывает в его речь новые слова из его потенциального запаса. Математически эта «щедрость» выражается величиной коэффициента k в формуле:

N(x) = k · √(хx).

Коэффициенты k для Шекспира и Диккенса примерно равны. Соответствующие коэффициенты для Кристофера Марло и Бена Джонсона на десять процентов выше, иначе говоря, их язык несколько богаче шекспировского (во всяком случае, не беднее). Этот факт маскируется тем обстоятельством, что литературное наследство Шекспира намного превосходит то, что осталось от большинства его современников-драматургов; отчасти это произошло благодаря выпуску полного собрания пьес Шекспира (так называемого«Фолио») вскоре после его смерти.

Не язык Шекспира, а язык Мильтона выделяется своим необычайным богатством — коэффициент kmilton на треть превосходит соответствующие значения для Шекспира, Марло и Джонсона.

Итак, распространенное мнение об исключительном богатстве словаря Шекспира оказывается мифом. Это, разумеется, нисколько не умаляет Шекспира, ибо величие писателя и обширность его словаря — совершенно разные вещи. Гений — будь то Шекспир, Гёте или Пушкин — велик высотой духа, силой воображения и универсальностью — величинами, которые невозможно измерить в цифрах.

Примечания

1. Гилилов И. Игра о Шекспире, или Тайна Великого Феникса. М., 1997. С. 102.

2. Fields B. Players: The Mysterious Identity of Mister Shakespeare. N.Y., 2006. P. 101, 273.

3. Шекспир У. Король Генрих IV. Ч. II. Акт 3, сц. 1 / Пер. Б. Пастернака.