ЛингвоАнализатор
ЛингвоАнализатор
Русская фантастика -- ЛингвоАнализатор -- Приём рукописей и файлов | Помощь | Комментарии | Статья | ЧаВО | Состав базы | История | Каталог | Помогите!

Хронология проекта Лингвоанализатор

   Июль-октябрь 1998 Разработка методики.

   Апрель-май 1999 Подготовка русскоязычной публикации.

   Июнь 1999 Начало работы над программой.

   Июль 1999 перекомпиляция под UNIX.

   Август 1999 подготовка англоязычной публикации

   Август-октябрь 1999 оформление страницы


   6 сентября 1999 года. Первое упоминание в Сети о читателе фантастики (так называлась первая версия Лингвоанализатора). В так называемом Дневнике Провинциала, запись 31.

   19 октября 1999 года. Первое упоминание _адреса_ Лингвоанализатора в неком
Дневнике Провинциала, запись 50.

   Ноябрь-декабрь 1999 -январь 2000 безуспешное ожидание
человека, который займётся рекламой странички. Медленная стагнация.

   6 декабря. Регистрация в top.list.ru

   20 января 2000 старт без рекламы: официальное объявление на сервере Русской Фантастики.

   31 января 2000. Объявление в ЕЖЕ-листе

   2-4 февраля 2000. Дискуссия в Курилке ЛИТО
http://www.lito.spb.ru/archive/Feb2.html
http://www.lito.spb.ru/archive/Feb3.html
http://www.lito.spb.ru/archive/Feb4.html

   4 февраля 2000. Первое объявление постороннего человека:
http://www.enlight.ru/ib/news/

04/02/2000 05:10 Frog
Страничка посвящённая математическому анализу структуры текста. Проще говоря - определению автора по фрагменту его произведения. Небольшая цитата из описания: Программа никоим образом не анализирует идеи, фабулу и вообще содержание данного текста. Применяемая методика определения авторства опирается на математическую модель, в которой учтены такие формальные характеристики языка автора, как а) число служебных слов (предлогов, союзов и частиц), б) используемые в словах морфемы (приставки, корни, суффиксы,окончания) и их последовательности, в) сложность используемых грамматических конструкций, г) собственно словарь, используемый автором.

   7 февраля 2000. Макс Фрай обиделся за классиков, не включённых в базу, в своём ОБЗОРЕ ЛИТЕРАТУРНЫХ КОНКУРСОВ

http://www.guelman.ru/frei/arh-news.htm

   На этой Web-странице демонстрируются возможности математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем Интернета текста к одному из авторских эталонов, определённых заранее.
   Из рассылки Голой ЕЖЕ-Правды я узнал о существовании Лингвоанализатора. Игрушка, на первый взгляд, забавная. Впрочем, стоит взглянуть на список "авторских эталонов", чтобы волосы на спине зашевелились. Я не пожалел времени и провёл несколько экспериментов, результаты коих превосходят возможности человеческого воображения. Помещаю в окошко отрывок из "Вечеров на хуторе близ Диканьки" Гоголя. Лингвоанализатор задумывается на несколько секунд и выдаёт следующее: Интегральные характеристики предложенного текста, в принципе, равноудалены от всех авторских эталонов.
   Однако, среди всей совокупности авторских эталонов один автор, разумеется, оказывается в используемой метрике ближе всех остальных, и именно на этом основании можно утверждать, что автор данного текста, пишет как писатель Ник Перумов. Последнее справедливо со сравнительно небольшой вероятностью 25%. В сложившейся ситуации необходимо упомянуть также двух авторов, чьи эталоны следующие по близости к данному тексту: писатель Андрей Печенежский или соавторы Сергей Лукьяненко и Ник Перумов.
   Жмурясь от извращённого удовольствия, провожу следующий опыт. Копирую "Сон смешного человека" кисти Фёдор Михалыча, не побоюсь этого слова, Достоевского. ? можно утверждать, что автор данного текста, пишет как соавторы Ниэннах и Иллет. Последнее справедливо со сравнительно небольшой вероятностью 20%. Текст, если он действительно был создан этими писателями, похож на следующие их совместные произведения: 20% в соавторстве Ниэннах и Иллет Чёрная Книга Арды. В сложившейся ситуации необходимо упомянуть также двух авторов, чьи эталоны следующие по близости к данному тексту: писатель Сергей Казменко или писатель Елизавета Манова. Несмотря на то, что они оказались на втором и третьем местах, они также могли бы оказаться авторами предложенного текста.
   Ну и напоследок покусимся, пожалуй, на святое. Пушкин А.С. "Дубровский". Внесите тело. ? автор данного текста, пишет как писатель Василий Спринский?
   Все, выносите тело. Я умер.
   Впрочем, есть у Лингвоанализатора одно неоспоримое достоинство. Чаще всего в его "анализах" встречается фраза: "трудно утверждать что-либо определённое".

   8 февраля 2000. Оповещение о Лингвоанализаторе в Итогах.

[Итоги (журнал), N6 (6), 08 февраля 2000] "Читатель" фантастики

Совсем недавно в недрах сайта ?Русская фантастика? (www.rusf.ru), и без того заслуживающего горячих похвал за обширную и любопытную подборку текстов, а также за тщательное соблюдение авторских прав, появился новый неожиданный раздел. Страница ?Лингвоанализатора? была создана по просьбе хозяина Rusf.Ru Дмитрия Ватолина аспирантом кафедры теории вероятностей механико-математического факультета МГУ Дмитрием Хмелёвым. ?Лингвоанализатор? ? первая известная составителю Save As онлайновая программа, с достаточно большой уверенностью устанавливающая автора текста (как выражаются лингвисты, атрибутирующая текст). Подкованный читатель сразу возразит, что методы частотного анализа стары почти как мир и давно успешно применяются, в том числе и в компьютерной обработке текстовых массивов. Однако в данную математическую модель заложен анализ сразу целого ряда формальных признаков, сведённых в единую интегральную характеристику (которую автор, не поскупясь, нарёк относительной энтропией). Несмотря на излишне пышное название, анализатор в абсолютном большинстве случаев удачно определяет по тексту, точно не содержащемуся в его базе, известного ему по другим текстам писателя. В базе данных сейчас содержится 1357 произведений 128 писателей (преимущественно фантастов), на основании которых программа производит вычисление относительной энтропии анонимного текста.
   Впрочем, любой желающий может и сам произвести этот опыт ? анализатор примет ?на анализ? текст на странице http://www.rusf.ru/cgi-bin/fr.cgi, вся работа занимает несколько секунд. А вот составитель Save As, например, шесть раз подряд пытался ?подсунуть? системе разные тексты собственного изготовления ? и пять раз из шести они были приписаны одному и тому же постороннему писателю. Система, к сожалению, пока полагает, что на свете есть только те 128 писателей, что содержатся в её базе. Но, обратите внимание: меня программа принимала за одного и того же писателя, пусть и с не очень большой долей вероятности - на этом основании как раз можно судить об относительной корректности Лингвоанализатора. Странно, однако, что создателю не пришло в голову ввести в машину возможность ответить что-нибудь вроде "Этого писателя, по всей видимости, нет в моей базе".
Впрочем, днями я виделся с хозяином Rusf.Ru на ЕЖЕ-встрече в клубе ОГИ, и обратил его внимание на отсутствие этой фичи. Так что, может быть, к моменту вашего визита она и появится.

   14 февраля 2000. Интернет-обозрение nEtview. Екатеринбург. Номер 41.

http://netview.uralonline.ru:81/n041.asp

Забавная штука была анонсирована в ЕЖЕправде: лексический анализатор. На основе разных научных способов анализируется предлагаемый текст, после чего выдаётся справка: на какие тексты каких авторов (их в базе более 100) похож предложенный кусок. Однако самое забавное начинается, когда вы пытаетесь подсунуть машине тексты классиков: Гоголя, Пушкина, Толстого... Советую попробовать, чтобы увидеть результат.( PS. Аналогичный опыт был уже проведён Максом Фраем).

   16 февраля 2000. Проставлены ссылки на Лингвоанализатор из
Книжной Полки Русской Фантастики http://www.rusf.ru/books

   19 февраля 2000. Упоминание о Лингвоанализаторе в
http://www.rostov.ru/internet/news/
Полный текст: Intro
Отдых продолжается - новостей мало, сайтов новых тоже немного. От скуки послал свои произведения Лингвоанализатору, посмотреть, кто из писателей пишет так, как я. Оказалось, практически никто: какой-то Александр Лазаревич, да и то всего 37% совпадения. Ну и то - такие таланты редко появляются, практически никогда.


   21 февраля 2000. Лингвоанализатор замечен классиком. БНС скормил Лингвоанализатору несколько глав из своего нового романа. Правда, первые результаты не слишком обнадёжили: программа не угадала ничего. Однако, куски были небольшими, до 40 Кб. Может, потом станет лучше.

   21 февраля 2000. Рассылка рекламы про Лингвоанализатора по списку рассылки новостей русской фантастики. Полный текст анонса.


   12-17 марта 2000. Технические изменения.

   15 марта 2000. Статья в Компьютерре 9/2000 про ЛА.
Как определить писателя? (автор - Д.Хмелёв)
http://www.computerra.ru/offline/2000/338/3010/

   20 марта 2000. Нас показывают, как ссылку дня на сервере России-Он-Лайн
http://www.online.ru
См. также
http://www.glasnet.ru/coolink

   11 ноября 2000. Незначительные поправки на страничке. Убито несколько орфографических обишок. Вставлены уточненные ссылки по теме.

   15 ноября 2000. Устранение глюка с несогласованной кодировкой в результатах анализа текстов. Добавлен раздел со ссылками, имеющими отношение к Лингвоанализатору.

   27 января 2001. Оказывается, про нас была передача на Радио Свобода.

   24 октября 2001. Поправлен каталог, проведена ёжификация страничек (т.е., с согласии с орфографией русского языка проставлены буквы "ё" и "Ё"). Версия сменена на 2.02.00.

   25 мая 2002. Всему миру раскрыт большой секрет: формулы, по которым работает Лингвоанализатор: выложена моя статья Распознавание автора текста с использованием цепей А.А. Маркова.

Русская фантастика -- ЛингвоАнализатор -- Приём рукописей и файлов | Помощь | Комментарии | Статья | ЧаВО | Состав базы | История | Каталог | Помогите!
Rambler's Top100 Service  
©1999 Программа лингвоанализа, Дмитрий Хмелёв.
©1999--2002 Автор программы, редактор, Дмитрий Хмелёв.
©1999 Идеи, редактура, Дмитрий Ватолин.
©1999 Рисунки, Егор Славинский.
©1999-2000 Web-интерфейс, Павел Петриенко.
TopList

Версия: 2.02.00