Колонка редактора

Колонка редактора:

Поиск на Русской фантастике:

Лингвоанализатор

Года два назад один из моих МГУ-шных друзей Дмитрий Хмелев рассказал о своей весьма интересной разработке по определению авторства текстов. Сам Дмитрий весьма серьезно занимается матстатистикой, а самые лучшие разработки в этом направлении именно на статистические методы опираются. Работа велась не на пустом месте, т.е. были учтены предыдущие разработки (см. http://rusf.ru/books/analysis/history.htm ).

Дмитрию нужны были тексты для проверки вариантов метода, а я загорелся самой идеей. В результате характеристики работы программы замерялись на массиве текстов русских фантастов. Сначала программа "обучалась" по базе книг, а потом ей на вход выдавалась книга известного автора, но отсутствующая в базе. Автор угадывался точно более, чем в половине случаев для базы в 128 авторов (я лично, например, с такой точностью незнакомую книгу угадать не возьмусь :) ).

Результаты вдохновили! Программа совершенствовалась. Сначала удалось добиться узнавания автора с вероятностью 65%, потом - около 80%, и сейчас - под 90% - практически ТЕОРЕТИЧЕСКИЙ предел! Правда, это верно для узнавания автора (а не произведения!) и только для БОЛЬШИХ (>70Кб) текстов. Но все-таки достижения современной математики чувствуются.

Естественно, хотелось эту программу поместить в сети. Благо в базу мы выбрали 1357 книг 128 авторов, общим размером 180Мб, но в базе хранятся только интегральные характеристики текстов (поэтому программа и работает быстро). Поэтому на сервере база и программы заняли всего 6Мб. Работы над ними шли долго и трудно. Не хотела компилироваться программа, глючила статистика, не оставляли проблемы с разными кодировками закачиваемых текстов. Плюс ко всему автор программы в это время жил и работал в Англии, работая над статьями по статистике, т.е. ко всему прочему добавлялись еще и проблемы связи. :) Но в итоге год назад все заработало: http://www.rusf.ru/books/analysis/

Понятно, что программа никоим образом не анализирует идеи, фабулу и вообще содержание текста. Применяемая методика определения авторства опирается на математическую модель, в которой учтены такие формальные характеристики языка автора, как:

число служебных слов (предлогов, союзов и частиц);

используемые в словах морфемы (приставки, корни, суффиксы,окончания) и их последовательности;

сложность используемых грамматических конструкций;

собственно словарь, используемый автором.

Общая статистика сейчас такова

Угадано точно: 164

Угадан только автор: 83

Мимо: 458

Вроде как получается всего 53% попаданий по автору? Где же обещанные 90%? Все просто. Если начать смотреть статистику внимательно, становится видно, что в случаях "мимо" (результат = 3) анализатору подсовывали:

Пушкина, западных фантастов (Толкиен, Стрейтон), т.е. тексты, которые он не мог определить в принципе! Он их НЕ ЧИТАЛ! ;) Замечательно, что даже пара сетевых обозревателей с обидой написали, что программа Пушкина не узнает. Бедняги. Я понимаю, что пояснительные тексты никто не читает, но там же "РУССКАЯ ФАНТАСТИКА" написано по 2-3 раза на каждой странице и дано ФОНОМ страниц! Бывает. ;)

Второй по частоте случай - малый размер фрагмента (5-10-15Кб - этого мало для уверенного распознавания).

На вход программе подавались русские фантасты, которых не было в базе. Анализатор обучался на библиотеке сервера и Никитин, Фрай, Дивов и еще ряд авторов, не распространяющие или снявшие свои книги, в базу не попали. Своя сермяжная правда в этом тоже есть - откуда у читателей будут полные тексты книг, если автор против их распространения в сети?

Наконец, частенько люди просто не указывали автора. По-хорошему это не есть неправильное определение и надо будет переделать подсчет, но сейчас такие случаи считаются как "Мимо".

Вообще же забавно просто читать страницы со статистикой. :) Удивительно, что авторы женщины зачастую оказываются близки. Удивительно, кого только не предлагают для распознавания. Забавно, что последняя вещь Лукьяненко стабильно принимается за Олди. Но на этом история не закончилась.

Дальше - интереснее. Дмитрий показал известному академику Фоменко свою работу. По его словам, академик очень высоко оценил результат и тут же выдал CD-ROM с текстом Библии на нескольких языках. С заданием проанализировать тексты на взаимные корреляции.

Суть в чем? Библия состоит из 25 книг. И вопрос, который давно уже мучает ученых, - КЕМ и в какое время эти книги были написаны. Дело в том, что в общепринятой версии по поводу их происхождения при внимательном историческом анализе можно найти массу нестыковок... Часть текстов (например, греческий вариант) извлечь из хитрых форматов вообще не удалось, а разных английских переводов было вообще 4... В итоге получилось 9 вариантов на 6 языках.

После этого КАЖДАЯ книга была сравнена с КАЖДОЙ внутри одного перевода.

Результат поразил. ВО ВСЕХ переводах книги достаточно четко разделились на группы (один авторский стиль!), причем подтвердилась одна из версий последовательности написания текстов Библии. Можно спорить до хрипоты по методикам измерений, но результат статистически значим.

Также не так давно Дмитрием Хмелевым совместно с филологическим факультетом МГУ (там хорошо знают про его разработки) делалась экспертиза авторства текстов по заказу Московской Коллегии Адвокатов. (Случай явного плагиата при отсутствии формальных доказательств.)

Сейчас Дмитрием разработан новый вариант алгоритма, который определяет автора еще в несколько раз(!) точнее. Однако, и работает он во много раз медленнее, и сама программа в разы сложнее. Сейчас, после того, как "Русская фантастика" переехала на новый сервер, мы подумываем о том, чтобы реализовать новый алгоритм, но только, например, на первой десятке авторов, которых выдает первый (и быстрый) вариант. Даже такое "компромиссное" решение в разы улучшит характеристики Лингвоанализатора.

Статьи про Лингвоанализатор были в еженедельниках "Итоги" и "Компьютерра" (http://www.computerra.ru/offline/2000/338/3010/ - эту прочитать рекомендую)

Вывод: Удивительное - рядом и оно разрешено!

Написано как материал для журнала "Звездная дорога"

Искренне ваш,
Дмитрий Ватолин
главный редактор сервера "Русская фантастика"

Вверх

Колонка редактора =>

О "Русской Фантастике" =>

Оставьте Ваши замечания, предложения, мнения!
© Русская фантастика Гл. редактор. Дмитрий Ватолин 1997-2002, © Дизайн. Белоусов Павел 2002.
Верстка. Северов Вячеслав, Юрченко Алексей, Белоусов Павел 2002.