Удосконалений метод виявлення ключових слів у web-тексті

Тамара  Савчук; Юрій Горобець; Тамара  Савчук; Юрій Горобець

https://doi.org/10.31649/1999-9941-2018-43-3-43-47

Взято з Т.15, №3, 2018

Отримано 30.08.2018, Доопрацьовано 01.11.2018, Прийнято 06.12.2018

Удосконалений метод виявлення ключових слів у web-тексті

Тамара Савчук , Юрій Горобець

У роботі запропоновано удосконалення методу виявлення ключових слів і словосполучень у web-тексті. Розглянуто такі основні етапи формування множини ключових слів та словосполучень з метою знайти шляхи підвищення швидкодії індексації та реферування web-текстів, як токенізація вихідного тексту, виключення стоп-слів, відсікання основ і закінчень із тексту, формування ключових слів та словосполучень з вихідного тексту. Запропоноване удосконалення базується на використанні словника предметної області, складеного експертом. Словник формується з урахуванням частоти повторень ключових слів та словосполучень у web-тексті, що покращить їх релевантність. Було виконано порівняння якості виявлених ключових слів та словосполучень в україномовних та англомовних web-текстах системами «Експертні КС», «OpenCalais», «Extractor», а також системою, що базується на запропонованому методі з використанням словника, за такими метриками як повнота, точність та F-міра. Аналіз показав, що запропонований удосконалений метод виявлення ключових слів та словосполучень в україномовних і англомовних web-текстах, надасть можливість виявляти релевантні слова та словосполучення з підвищенням їх F-міри на 9.5%, а повноти та точності - на 15%

Natural Language Processing: Text Mining; Keywords Extraction; виявлення термінів; виявлення ключових слів; обробка природної мови; комп'ютерна лінгвістика

43-47

Savchuk , T., & Horobets , Yu. (2018). Improved method of extraction of keywords in the web-text. Information Technologies and Computer Engineering, 15(3), 43-47. https://doi.org/10.31649/1999-9941-2018-43-3-43-47

Використані джерела

Використані джерела в процесі публікації