О поиске эквивалентных текстов

В статье описан подход к формированию поискового множества, используемого при определении эквивалентов текста. Задача такого вида возникает при поиске дубликатов текста, определении авторства и возможного плагиата, организации библиотечного поиска, а также при создании поисковых систем Интернета. В подходе, представленном в статье, учитывается ряд особенностей: частотность слов, пунктуация, морфемная структура слов, регистр букв и артефакты текста (специфические цифро-буквенные сочетания).
Разработанная программа протестирована на наборе данных, в число которых включены как оригиналы текстов, так и их специальным образом модифицированные варианты. В результате проведенного эксперимента определены слабые стороны подхода. Приведены варианты по улучшению разработанного программного средства и схема взаимодействия модулей разработанной программы после модификации.
- Серия: Прикладная информатика: Научные статьи
- Жанр:Компьютеры
- Страницы: 7
- Формат: fb2, epub, pdf, txt
Советуем прочитать похожую литературу

Будущее с 2017. Будущее наступает

Компьютер! Большой понятный самоучитель. Все подробно и «по полочкам»

Самоучитель работы на компьютере. Максимально просто и быстро

Революция в обучении иностранным языкам

Базовое продвижение сайтов (SEO). Основные 20% информации по работе...
