ЛингвоАнализатор
ЛингвоАнализатор
Русская фантастика -- ЛингвоАнализатор -- Приём рукописей и файлов | Помощь | Комментарии | Статья | ЧаВО | Состав базы | История | Каталог | Помогите!

КРАТКАЯ ИСТОРИЯ РАЗРАБОТКИ МЕТОДИК ОПРЕДЕЛЕНИЯ АВТОРСКОГО СТИЛЯ


Д. ХМЕЛЁВ





Введение


Поскольку существующая литература по определению авторства издаётся мизерными тиражами, а последние работы в этом направлении распределены в специальных малотиражных научных журналах, здесь приводится краткий очерк, отражающий современное состояние дел в этой области. За основу взят обзор [1].

Прежде чем перейти к изложению истории вопроса уделим внимание используемой терминологии.
В специальных трудах по определению авторства используется более широкое понятие т.н. атрибуции текста , что означает соотнесение тексту соответствующих ему атрибутов, к которым причисляется не только имя создателя, но также жанр, время и место создания текста. Текст, авторство которого подлежит определению, обычно называют анонимным. Если автор ставит своё имя под чужим произведениям, говорят о плагиате. Иногда автор выпускает своё произведение в свет под псевдонимом. Такие тексты называют "псевдонимными". Существует огромное поле деятельности по атрибуции текстов во всех трёх случаях.

Среди широко известных примеров спорного авторства можно назвать хотя бы такой, активно обсуждавшийся в последние десятилетия как написан ли был роман-эпопея "Тихий Дон" Шолоховым или Шолоховым с использованием текстов другого автора (или других авторов), например, Крюкова.

Или, например, был ли "Роман с кокаином" написан Агеевым (личностью, никак себя более в литературном мире не проявившей) или, возможно, В.Набоковым.


Субъективно-атрибутивная методика


Непрофессионалу наиболее естественным путём выявления авторских особенностей представляется фиксация внешних деталей авторского стиля, присущих тому или иному человеку и, в частности, любимых слов, терминов, а также фразеологических оборотов и выражений. Эта методика иногда применяется и сегодня. Однако, выбор таких деталей неизбежно субъективен, и, кроме того, не гарантирует нас от ошибки в случае подражания, использующего именно внешние детали авторского языка. Кроме того, далеко не все авторы проявляют себя именно таким образом. Ведь гораздо чаще бывает так, что в языке автора нет ярко выраженных слов и оборотов, нет резко выделяющихся фразеологических штампов и т.д. В этом случае все надежды связываются с некоей информацией самого текста, который может дать сведения о политических, идейных, эстетических, религиозных и т.п. взглядах автора текста или какие-то сведения о его жизненном пути, деталях биографии и т.д. Иногда это действительно служит очень хорошим материалом для атрибуции текста. К сожалению, подобные сведения содержат далеко не все анонимные тексты. В случае же плагиата такие детали могут быть сознательно добавлены плагиатором.

Формально-количественные методы


Таким образом, единственный путь к плодотворной разработке проблем атрибуции сводится к выявлению подсознательных особенностей языка какого-либо автора. Такого рода особенности пытаются выявить путём применения нетрадиционных формально-количественных методов.

Первые пробные шаги на этом пути были предприняты ещё в начале XX века Н.А.Морозовым [2] (впрочем, подход Морозова весьма здраво критиковал Марков [3]). Наиболее чётко необходимость поисков новых путей и отказа от "субъективно-атрибутивной" практики стала ощущаться в 50--60-е гг. нашего века. В начале 60-х годов практически одновременно крупнейшие русские филологи В.В.Виноградов и Д.С.Лихачев отметили тенденцию угасания традиционной методики. В это время уже стали появляться первые работы развивающие квантитативное направление в изучении речи, стиля и языка. В 60--70-е годы постепенно стало нарастать число исследований, разрабатывавших методы статистики применительно к лексике, а также к грамматике.

В последнее время методы атрибуции, основанные на анализе синтаксических структур языка получили в литературе, пожалуй, наибольшее развитие. Автор [1] выделяет здесь два направления. Одно из них связано с построением и анализом графов синтаксических связей в рамках типических фраз и предложений (наиболее важными здесь являются работы И.П.Севбо [4]).

Во втором направлении делается упор на выявление той или иной закономерности во взаимосвязях между различного рода синтаксическими структурами. Здесь проблема состоит в том, что исследователи, которые работают в этом направлении, никак не могут найти какой-либо параметр или характеристику, явно характеризующую стиль автора. "В современной литературе посвящённой атрибуции анонимных и псевдонимных произведений, хотя и ставится задачи минимизации параметров, как материала для обработки и изучения, но практически все же преобладает (в наиболее удачных работах) тенденция к максимальному увеличению текстов и их параметров и характеристик. Причём наряду с параметрами высшего уровня (синтаксическими конструкциями) могут использоваться и параметры лексические, морфологические, грамматические и т.д.". [1,c.8]

С этой точки зрения особенно показательной работой этого плана является монография М.А.Марусенко об определении авторства целого ряда псевдонимных произведений, приписываемых раннему В.В.Маяковскому [5]. В этой работе использовано 56 основных параметров текста и сверх того столько же производных (агрегированных) показателей.

В 1984 году вышла работа группы норвежских и шведских учёных, посвящённая одной из острейших проблем литературоведения XX века, временами приобретавшей острополитический характер [6]. Речь идёт о многолетних периодических всплесках подозрений по поводу авторства великого произведения русской литературы XX в. --- "Тихого Дона". Книга [6] содержит целый ряд работ, формально обосновывающих авторство М.Шолохова и опровергающих всяческое отношение Ф.Крюкова к первым (как наиболее годным в предполагаемое сочинение Крюкова) частям "Тихого Дона". Авторы изучают распределение классов слов, использование каких-то сочетаний грамматических классов, длину предложения, длину слов, словарный профиль текста и т.н. насыщенность словаря. По множеству параметров они опять и опять подтверждают авторство Шолохова.


Отсутствие обоснования указанных методик


Несмотря на оптимизм указанных авторов, метание исследователей от одного параметра к другому (или даже полный перебор этих параметров) свидетельствует скорее о плачевном состоянии методик определения авторства, нежели о значительном успехе.

Общее слабое место указанных исследований состоит в том, что они никогда не проводились на массовом количестве авторов. Между тем, если методика претендует на объективность различения авторов, она должна быть проверена, по меньшей мере, на десятках авторов, и лишь после такого обоснования должна применяться для исследования случаев спорного авторства. В противном случае никакие аргументы об использовании "здравых предположений" не должны приниматься на веру.

Все методики, освещённые в [1], ограничивались небольшим количеством обрабатываемых авторов при переборе огромного количества параметров. В обзоре [1] упомянута лишь одна проверка используемых методик на двух (всего лишь!) авторах: М.Марусенко проверял свою методику на рассказах А.И.Куприна и И.А.Бунина. И, хотя все эти методики претендуют на здравость исходных предположений, очень рискованно полагаться на выводы.


Процент служебных слов как авторский инвариант


Подход работы [7] принципиально отличается от указанных выше. В качестве характеристики автора в работе [7] использована доля всех служебных слов (предлогов, союзов и частиц) в последовательном фрагменте из 16 тысяч словоупотреблений. Простота характеристики позволила провести объёмный статистический эксперимент на более чем 20 классических писателях. Было выявлено, что на протяжении всего периода творчества писателя доля служебных слов (два знака после запятой) остаётся постоянной.

В то же время эта доля значительно варьируется от писателя к писателю, принимая значения от 0.20 до 0.30. Это позволило авторам [7] серьёзно обосновать плагиат Шолохова, поскольку его авторский инвариант значительно отличается от значения найденного параметра на первых частях "Тихого Дона". Таким образом, исследование [7] позволяет высказать обоснованное суждение о том, что в первых частях своей своей эпопеи Шолохов "пользовался" некоторым "дополнительным источником", т.е., попросту осуществил плагиат, что и всплывает в результате подобного анализа. Другое дело, что было "источником": тексты Ф.Крюкова или тексты какого-либо ещё "соавтора" М.Шолохова.


Необходимость морфологического анализа


Во всех перечисленных работах по определению авторства исследователи ориентировались на синтаксические конструкции, игнорируя морфологические. Между тем, очень просто поставить эксперимент, который показывает, что частотный анализ хорошо различает фрагменты 5--6 эталонных авторов. Такая точность, по-видимому, связана с устойчивостью таких морфологических признаков как аффиксно-корневые конструкции (последовательности приставок, корней, суффиксов и окончаний). Тщательное исследование привело к методике определения авторства, опирающейся на математическую модель, в которой учтены такие формальные характеристики языка автора, как

а) число служебных слов (предлогов, союзов и частиц),
б) используемые морфемы (приставочные, корневые, суффиксальные, флективные) и их последовательности,
в) сложность используемых грамматических конструкций,
г) собственно словарь, используемый автором.

Каждый из параметров использован в модели ЛингвоАнализатора, позволяющей определять наиболее вероятное авторство. Модель прошла проверку на огромном материале (свыше 80-ти авторов с общим объёмом произведений 128 Мб) и доказала свою эффективность.

Автор признателен д.фил.н. А.А.Поликарпову за консультацию в составлении данного обзора.


Библиография


  1. От Нестора до Фонвизина. Новые методы определения авторства. М.: Издат. группа "Прогресс", 1994. В библиотеке электронного журнала Текстология.RU имеется из этого сборника приведена вторая глава, Математические методы и компьютер в задачах атрибуции текстов за авторством Л.И.Бородкина.
  2. Морозов Н.А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или иного неизвестного автора. Стилеметрический этюд. // Известия отд. русского языка и словесности Имп.Акад.наук, Т.XX, кн.4, 1915.
  3. Марков А.А. Об одном применении статистического метода. // Известия Имп.Акад.наук, серия VI, Т.X, N4, 1916, c.239.
  4. Севбо И.П. Графические представления синтаксических структур и стилистическая диагностика. Киев, 1981.
  5. Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами теории распознавания образов. Л., 1990.
  6. Хьетсо Г., Густавссон С., Бекман Б., Гил С. Кто написал "Тихий Дон"? (Проблема авторства "Тихого Дона") М., 1989 (Кjеtsаа J., Gustavsson S., Beckman В., Gil S. The Authorship of Тhe Quiet Don. Solum Forlag А. S.: Оslо. Нumaities Рrеss: Nеw Jersеу. 1984. Далее Хьетсо Г. и др. 1984).
  7. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Предисловие А.Т. Фоменко. // Фоменко А.Т. Новая хронология Греции: Античность в средневековье. Т. 2. М.: Изд-во МГУ, 1996, c.768-820.

Русская фантастика -- ЛингвоАнализатор -- Приём рукописей и файлов | Помощь | Комментарии | Статья | ЧаВО | Состав базы | История | Каталог | Помогите!
Rambler's Top100 Service  
©1999 Программа лингвоанализа, Дмитрий Хмелёв.
©1999--2002 Автор программы, редактор, Дмитрий Хмелёв.
©1999 Идеи, редактура, Дмитрий Ватолин.
©1999 Рисунки, Егор Славинский.
©1999-2000 Web-интерфейс, Павел Петриенко.
TopList

Версия: 2.02.00