Определение жанра и автора литературного произведения статистическими методами

В работе решается задача кластеризации литературных текстов по авторам и жанрам статистическими методами. Основным инструментом анализа являются функции распределения текста по буквам и буквосочетаниям, а также выборочные буквенные распределения, построенные по фрагментам текстов. Для набора текстов, объём наименьшего из которых достаточен для того, чтобы считать буквенное распределение каждого из них стационарным с ошибкой не более 3%, вычисляются расстояния между распределениями букв в пространстве суммируемых функций. Критерий кластеризации, основанный на близости между двухбуквенными распределениями текстов, позволяет правильно идентифицировать автора с ошибкой не более 5%, а жанр – с ошибкой не более 15%. Однобуквенные распределения дают ошибку 15% и 25% соответственно.
- Авторы:Ю. Н. Орлов, К. П. Осминин
- Серия: Прикладная информатика: Научные статьи
- Жанр:Компьютеры
- Страницы: 14
- Формат: fb2, epub, pdf, txt
Советуем прочитать похожую литературу

Будущее с 2017. Будущее наступает

Компьютер! Большой понятный самоучитель. Все подробно и «по полочкам»

Самоучитель работы на компьютере. Максимально просто и быстро

Революция в обучении иностранным языкам

Базовое продвижение сайтов (SEO). Основные 20% информации по работе...
