Удосконалений метод виявлення ключових слів у web-тексті
Тамара Савчук , Юрій ГоробецьУ роботі запропоновано удосконалення методу виявлення ключових слів і словосполучень у web-тексті. Розглянуто такі основні етапи формування множини ключових слів та словосполучень з метою знайти шляхи підвищення швидкодії індексації та реферування web-текстів, як токенізація вихідного тексту, виключення стоп-слів, відсікання основ і закінчень із тексту, формування ключових слів та словосполучень з вихідного тексту. Запропоноване удосконалення базується на використанні словника предметної області, складеного експертом. Словник формується з урахуванням частоти повторень ключових слів та словосполучень у web-тексті, що покращить їх релевантність. Було виконано порівняння якості виявлених ключових слів та словосполучень в україномовних та англомовних web-текстах системами «Експертні КС», «OpenCalais», «Extractor», а також системою, що базується на запропонованому методі з використанням словника, за такими метриками як повнота, точність та F-міра. Аналіз показав, що запропонований удосконалений метод виявлення ключових слів та словосполучень в україномовних і англомовних web-текстах, надасть можливість виявляти релевантні слова та словосполучення з підвищенням їх F-міри на 9.5%, а повноти та точності - на 15%