• Тетяна Грязнухіна, Тетяна Любченко, Ірина Олександрук. Розроблення мовно–інформаційного інструментарію автоматизованого екстрагування з тексту семантичної й когнітивної інформації
https://doi.org/10.33190/0027-2833-330-2023-3-003
Тетяна ГРЯЗНУХІНА
Український мовно-інформаційний фонд НАН України
пр-т Голосіївський, 3, м. Київ, 03039, Україна
Електронна пошта: This email address is being protected from spambots. You need JavaScript enabled to view it.
https://orcid.org/0000-0002-8055-442X
Тетяна ЛЮБЧЕНКО
Український мовно-інформаційний фонд НАН України
пр-т Голосіївський, 3, м. Київ, 03039, Україна
Електронна пошта: This email address is being protected from spambots. You need JavaScript enabled to view it.
https://orcid.org/0000-0002-7390-0427
Ірина ОЛЕКСАНДРУК
Інститут мовознавства ім. О. О. Потебні НАН України
вул. Грушевського, 4, м. Київ, 01001, Україна
Електронна пошта: This email address is being protected from spambots. You need JavaScript enabled to view it.
https://orcid.org/0000-0003-2701-1714
У статті йдеться про роль семантичних досліджень для створення інтелектуальних систем автоматизованого опрацювання мовної інформації. Окреслено підхід до розроблення мовно-інформаційного інструментарію автоматизованого екстрагування з тексту семантичної і когнітивної інформації. Порушено питання підвищення ефективності якісного та швидкого опрацювання цифрової інформації, створення високоінтелектуальних швидкодіючих інформаційних систем.
Теоретичним підґрунтям дослідження є розроблена академіком В. А. Широковим лексикографічна теорія знакових семантичних систем і побудована в її межах теорія семантичних станів одиниць природної мови, яка ґрунтується на засадах лексичної семантики і орієнтована на використання комп’ютерних технологій у семантичних дослідженнях.
Джерельною базою дослідження обрано інтегровану лексикографічну систему, що створюється в Українському мовно-інформаційному фонді НАН України, ядерним компонентом якої є комп’ютерна версія «Словника української мови» у 20 томах, який є найбільш репрезентативним джерелом семантичної інформації, що забезпечує опис лексичного значення слова за багатьма параметрами із залученням прагматичного, конотативного, синтагматичного і лінгвістичного контекстів.
У дослідженні для побудови мовно-інформаційного інструментарію автоматичного розпізнання семантичної і когнітивної інформації в текстах, написаних природними мовами, застосовується формалізм теорії семантичних станів.
Запропонований семантичний класифікатор забезпечує експліцитне представлення екстрагованої з тексту інформації, що уможливлює подальше програмне її опрацювання завдяки уніфікованій інтерпретації операторів формули семантичного стану і результатів семантичної індексації тексту.
Декларується доцільність застосування розробленого мовно-інформаційного інструментарію для розв’язання таких важливих завдань комп’ютерної лінгвістики, як визначення формальних критеріїв розмежування лексичних омонімів і лексико-семантичних варіантів багатозначного слова, коректне встановлення структурних протиставлень «значення — відтінки», «лексема — лексико-семантичні варіанти» в тлумаченні значення останнього, завдання уніфікації опису лексичного значення слів одного семантичного поля.
Ключові слова: автоматичне опрацювання інформації, теорія знакових лексикографічних систем, інтегрована лексикографічна система, формула семантичного стану, семантична і когнітивна інформація.
The article deals with the role of semantic research for the creation of intelligent systems for automated processing of language information. An approach to the development of linguistic and informational tools for automated extraction of semantic and cognitive information from the text is outlined. The issue of increasing the efficiency of high-quality and fast processing of digital information, the creation of highly intelligent, fast-acting information systems was raised.
The theoretical basis of the research is the lexicographic theory of symbolic semantic systems developed by academician V. A. Shyrokov and the theory of semantic states of natural language units built within it, which is based on the principles of lexical semantics and is oriented towards the use of computer technologies in semantic research.
An integrated lexicographic system created in the Ukrainian Language and Information Fund of the National Academy of Sciences of Ukraine was selected as the source base of the study, the core component of which is the computer version of the «Dictionary of the Ukrainian Language» in 20 volumes, which is the most representative source of semantic information that provides a description of the lexical meaning of a word according to many parameters with the involvement of pragmatic, connotative, syntagmatic and linguistic contexts.
In the study, the formalism of the theory of semantic states is used to build a linguistic and informational toolkit for automatic recognition of semantic and cognitive information in texts written in natural languages.
The proposed semantic classifier provides an explicit presentation of the information extracted from the text, which enables its further software processing thanks to the unified interpretation of the operators of the semantic state formula and the results of the semantic indexing of the text.
The expediency of using the developed language and information toolkit for solving such important tasks of computer linguistics as determining formal criteria for distinguishing lexical homonyms and LSV of a polysemous word, correct establishment of structural contrasts «meaning — shades», «lexeme — lexical-semantic variants» in interpreting the meaning of the latter, the task of unifying the description of the lexical meaning of words of one semantic field.
Keywords: automatic information processing, theory of symbolic lexicographic systems, integrated lexicographic system, semantic state formula, semantic and cognitive information.


