HTML-content

0000-0000

3034-1558

Cifra. Информационные технологии и телекоммуникации

0000-0000

ООО Цифра

10.18454/itech.2024.2.3

Brief communication

Модели представления данных в системах автоматической обработки текстов

https://orcid.org/0009-0005-6940-8148

Пицхелаури

Софья Георгиевна

sofyauptuns@gmail.com 1 2

https://orcid.org/0009-0003-9413-5087

Токолова

Алина Алексадровна

tokolovaa@gmail.com

1МТС Диджитал2Московский авиационный институт

12 04 2024

2024

5 2 1 5 26 02 2024 13 03 2024

2022

This is an open-access article distributed under the terms of the Creative Commons Attribution 4.0 International License (CC-BY 4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. See http://creativecommons.org/licenses/by/4.0/.

В статье рассматриваются современные подходы к обработке текстовых данных. Представлены уникальные модели, включая универсальную центроидно-контекстную модель (ЦКМ) и позиционную концептуальную модель представления понятий. Идея ЦКМ состоит в создании новых классов слов, ориентированных на схожесть грамматических признаков слов и их синтаксических функций в предложении. Тогда как модели, положенные в основу концептуального анализа текстов, позволяют выявить текстовую понятийную систему и установить смысловые отношения между ее элементами. Выявление системы понятий производится точными и предиктивными методами. Точное выделение понятий производится по эталонным концептуальным словарям (ЭКС). Предиктивное выделение понятий осуществляется по словарю концептуальных шаблонов. Обсуждаются модели представления данных и извлечения признаков из текстовых объектов с применением упорядоченных последовательностей и вектор-функций.

автоматическая обработка текстов центроидно-контекстная модель фразеологический концептуальный анализ концептуальный анализ метод лингвистической аналогии

HTML-content

1. Введение

Проведенные исследования показали, что точные методы позволяют выявить понятийную систему научно-технических текстов по любой тематике на 70-85%, а предиктивные методы позволяют выявить оставшуюся часть (15-30%) с вероятностью 85-90% [2].

В настоящее время значительная часть разработчиков интеллектуальных систем обработки текстовых данных свои представления о технологиях искусственного интеллекта (ИИ) связывают с нейросетевым (НС) подходом. В основу НС подхода положена модель глубокого обучения, ориентированная на извлечение большого числа признаков из необработанных данных и решения сложных интеллектуальных задач [6]. Процессу автоматизированной обработки текстов (АОТ) предшествуют процессы обучения модели и проверки обученной модели. Для полноценного процесса обучения требуются размеченные данные больших объемов, при невозможности получения достаточных объемов данных полноценно обучить модель невозможно. Кроме того, в некоторых ситуациях возможны ограничения по использованию технологий НС [7].

Классический лингвистический подход, основанный на изучении грамматики и синтаксиса, часто представляет язык через универсальные правила, игнорируя индивидуальные особенности и разнообразие коммуникативных ситуаций. Он, таким образом, ограничивает понимание того, как язык используется на практике в различных контекстах. Большой проблемой в рамках этого подхода являлась проблема вариативности представления смыслового содержания текстовых конструкций. Традиционные лингвистические модели, которые опираются на жёсткие грамматические правила и ограниченные лексические ресурсы, сталкиваются с ограничениями в отображении всего богатства грамматических и семантических контекстов, которые могут присутствовать в тексте [10]. Одной из основных проблем таких моделей является их недостаточная гибкость, ограниченное пространство признаков и невозможность быстрой коррекции в случае несоответствия конкретным текстовым данным.

В последнее время наметился подход, базирующийся на теоретической концепции фразеологического концептуального анализа текста (ФКАТ) [1]. Этот подход в значительной мере является дальнейшим развитием традиционного лингвистического подхода.

2. Фразеологический концептуальный анализ текстов

Концепция ФКАТ базируется на уникальной машинной грамматике, традиционных лингвистических моделях дополненных рядом гибких динамических языковых моделей, в основу которых положены принципы и методы лингвистической аналогии [9], а также ориентацией на использование многомиллионных словарных ресурсов.

Основные положения концепции фразеологического концептуального анализа текстов:

• смысловое содержание текстов выражается с помощью единиц смысла;

• понятие – самая устойчивая единица смысла;

• объекты предложения обладают особыми признаками, выражающимися через предикатно-актантную структуру (ПАС) и набором отношений с другими объектами;

• сверхфразовые единства формируются из предложений и представляются в виде последовательностей предложений (связного текста).

Идея закладывать в модель флективных классов слов русского языка [1] строгое соответствие между их формой представления и грамматической информацией послужила основанием для созданияновых классов – тех, где слова имеют одинаковые наборы грамматических признаков, соответствующих их формам представления в сходных контекстах. Появление идеи формирования новых классов слов, ориентированных на схожесть грамматических признаков слов и схожесть их синтаксических функций в предложении, впервые было предложено в работах [1] и активно использовалась при составлении эталонных концептуальных словарей (ЭКС).

3. Позиционная концептуальная модель представления понятия

Модели, положенные в основу концептуального анализа текстов, позволяют выявить текстовую понятийную систему и установить смысловые отношения между ее элементами. Выявление системы понятий производится точными и предиктивными методами. Точное выделение понятий производится по ЭКС, включающего более двух млн. понятий. Предиктивное выделение понятий осуществляется по словарю концептуальных шаблонов, в котором в сжатом мнемоническом виде представлены обобщенные формы слов наименований понятий в их контекстном окружении.

В процессе концептуального анализа на основе данных, полученных с помощью морфологического и семантико-синтаксического анализа, из предложения выделяются смысловые конструкции с помощью эталонного концептуального словаря (в словарном концептуальном анализе) и шаблонов представления текстовой формы словосочетаний эталонного концептуального словаря (в предиктивном концептуальном анализе) [3], [4], [5].

Сначала предложение подается на обработку словарному концептуальному анализу. На вход словарному концептуальному анализу оно подается в виде множества слов [LATEX_FORMULA]Pred=\{word_i\}^{dimPred}_{i=1}[/LATEX_FORMULA].

[LATEX_FORMULA]fNS(word_i )=word.norm_i.[/LATEX_FORMULA]

Далее предложение разбивается на фрагменты [LATEX_FORMULA]\{word.frag.norm_i \}_{i=1}^k[/LATEX_FORMULA] с помощью функции:

[LATEX_FORMULA]Frag:Pred\rightarrow\{word.frag.norm_i \}_{i=1}^k,k\geq dimPred[/LATEX_FORMULA]

Разбиение на фрагменты реализуется по следующему правилу:

Здесь [LATEX_FORMULA]word.frag_i=[\cdot].[/LATEX_FORMULA]

Фрагмент [LATEX_FORMULA]word.frag_i[/LATEX_FORMULA] сравнивается с нормализованными понятиями из эталонного концептуального словаря (ЭКС), при совпадении он добавляется [LATEX_FORMULA]word.frag_i [/LATEX_FORMULA] во множество [LATEX_FORMULA]CONCEPT=\{concept_i \}_{i=1}^{dimConcept}[/LATEX_FORMULA] и ему в соответствие ставится совпавшее понятие из ЭКС.

При несовпадении исходное предложение в виде последовательности слов [LATEX_FORMULA]Pred=\{word_i \}_{i=1}^{dimPred}[/LATEX_FORMULA] подается на вход предиктивному концептуальному анализу.

Каждому [LATEX_FORMULA]word_i[/LATEX_FORMULA] ставится в соответствие набор признаков (определенных на этапе МА) [LATEX_FORMULA]p_i=\{Pb_i,Pa_i\}[/LATEX_FORMULA], [LATEX_FORMULA]\{OS_i,GK_i,GF_i \}⊂Pb_i∪Pa_i[/LATEX_FORMULA].

Полученная синтагма разбивается на фрагменты [LATEX_FORMULA]\{word.frag_i \}_{i=1}^k[/LATEX_FORMULA] с помощью функции:

[LATEX_FORMULA]Frag:Pred→\{word.frag_i \}_{i=1}^k,k≥dimPred.[/LATEX_FORMULA]

Разбиение на фрагменты происходит по следующему правилу:

Здесь [LATEX_FORMULA]word.frag_i=[\cdot][/LATEX_FORMULA].

Имеется множество шаблонов [LATEX_FORMULA]TEMP= \{t_i,…t_n \}[/LATEX_FORMULA], [LATEX_FORMULA]t_i=\{OS_i,GK_i,GF_i \}[/LATEX_FORMULA] представления текстовой формы словосочетаний ЭКС (форма каждого слов 4 сим.: OS(FK+OK)=2сим., GK=1 сим., GF=1 сим.).

Проверяем вхождение признаков [LATEX_FORMULA]p_i[/LATEX_FORMULA] в [LATEX_FORMULA]TEMP[/LATEX_FORMULA] для каждого набора фрагментов [LATEX_FORMULA]word.frag_i[/LATEX_FORMULA], если [LATEX_FORMULA]∃ j:p_i=t_j[/LATEX_FORMULA], то добавляем текстовое представление наименования понятия во множество [LATEX_FORMULA]CONCEPT=\{concept_i \}_{i=1}^{dimConcept }[/LATEX_FORMULA] и ставим ему в соответствие шаблон [LATEX_FORMULA]t_j[/LATEX_FORMULA].

Существует словарь стоп-слов [LATEX_FORMULA]STOP=\{stop_i\}_{i=1}^{dimSTOP}[/LATEX_FORMULA] (в нем содержатся служебные слова). Если [LATEX_FORMULA]concept_i∈STOP[/LATEX_FORMULA], то это понятие исключается из множества [LATEX_FORMULA]CONCEPT[/LATEX_FORMULA]:

[LATEX_FORMULA]CONCEPT=CONCEPT\textbackslash\{concept_i\}.[/LATEX_FORMULA]

4. Центроидно-контекстная модель представления данных

При создании технологий смысловой обработки текстов был разработан ряд моделей представления данных. Каждому уровню иерархии смысловых единиц текста соответствовала та модель, которая наиболее адекватно отображала понятийную систему признаков каждого текстового объекта. Но основной моделью, позволяющей реализовать возможность однозначного разрешения множества языковых ситуаций в их контекстных окружениях, является универсальная центроидно-контекстная модель (ЦКМ) [8].

На вход ЦКМ подается упорядоченное множество объектов [LATEX_FORMULA]Sem=\{s_i \}_{i=1}^n[/LATEX_FORMULA]. Каждому объекту ставится в соответствие элемент упорядоченного множества [LATEX_FORMULA]Pr=\{p_i \}_{i=1}^n,s_i↔p_i[/LATEX_FORMULA], где [LATEX_FORMULA]p_i[/LATEX_FORMULA] – свойства объекта. Задается радиус [LATEX_FORMULA]n[/LATEX_FORMULA], выбирается целевой объект (центроид) [LATEX_FORMULA]s_k[/LATEX_FORMULA], составляется позиционная модель, которая задается упорядоченной последовательностью:

[LATEX_FORMULA]PM=\{s_k,s_{k+1},s_{k-1},s_{k+2},s_{k-2},…,s_{k+n},s_{k-n} \}.[/LATEX_FORMULA]

К упорядоченной последовательности PM применяется вектор-функция fPR, которая каждому объекту из PM ставит в соответствие признаки из множества Pr:

[LATEX_FORMULA]\mathrm{fPR}\left(\mathrm{s}_{\mathrm{i}}\right)=\left\{\begin{array}{l} \mathrm{p}_{\mathrm{i}}, \mathrm{s}_{\mathrm{i}} \in \mathrm{Sem}, \\ \mathrm{p}_0, \mathrm{~s}_{\mathrm{i}} \notin \mathrm{Sem} . \end{array}\right.[/LATEX_FORMULA]

Здесь [LATEX_FORMULA]p_0[/LATEX_FORMULA] – фиктивный признак фиктивного элемента. В результате применения функции получается упорядоченная последовательность:

[LATEX_FORMULA]fPR(PM)=PMp=\{p_k,p_{k+1},p_{k-1},p_{k+2},p_{k-2},…,p_{k+n},p_{k-n} \}.[/LATEX_FORMULA]

Пусть существует функция [LATEX_FORMULA]fSim (similar function)[/LATEX_FORMULA], которая проверяет, насколько два вектора схожи между собой:

[LATEX_FORMULA]fSim(a,b)=i,\;если\; ∀k∈\{1,…,i\} a_k=b_k\; \text{и}\; a_{i+1}≠b_{i+1}.[/LATEX_FORMULA]

Задается порог совпадения начальной части модели [LATEX_FORMULA]bv[/LATEX_FORMULA] и во множестве [LATEX_FORMULA]MOD[/LATEX_FORMULA] шаблонов синтагм ЦКМ из словаря шаблонов ищется наиболее схожая структура в смысле максимума процента покрытия [LATEX_FORMULA]CovPer[/LATEX_FORMULA]:

[LATEX_FORMULA]\begin{gathered} \text { PMpMod }=\underset{\text { meMOD }}{\operatorname{argmax}} \operatorname{CovPer}(\mathrm{PMp}, \mathrm{m}) \\ =\left\{\begin{array}{c} 0 \%, \quad \mathrm{fSim}(\mathrm{PMp}, \mathrm{m})&lt;\mathrm{bv} \\ \frac{\mathrm{l}-\mathrm{fHam}(\mathrm{PMp}, \mathrm{m})}{\mathrm{l}} \cdot 100 \%, \quad \mathrm{fSim}(\mathrm{PMp}, \mathrm{m}) \geq \mathrm{bv} \end{array},\right. \\ \end{gathered}[/LATEX_FORMULA]

где [LATEX_FORMULA]fHam(\cdot,\cdot)[/LATEX_FORMULA] – функция, которая вычисляет расстояние Хэмминга (количество несовпадающих элементов), [LATEX_FORMULA]1=2n+1[/LATEX_FORMULA] – количество элементов синтагмы.

Множество MOD включает в себя шаблоны признаков ЦКМ из словаря шаблонов. Каждый элемент множества имеет признак, принимающий значение 0 или 1.

Пусть функция [LATEX_FORMULA]ftakePR[/LATEX_FORMULA] – функция взятия признака элемента [LATEX_FORMULA]m\in MOD[/LATEX_FORMULA].

В результате ЦКМ мы находим ответ на вопрос: является ли однозначное решение для анализируемой языковой ситуации именно таким, как описано в соответствующем словарном ресурсе. Этот ответ можно получить следующим образом:

[LATEX_FORMULA]\text { answer }= \begin{cases}\text { да, } &amp; \text { ftakePR }(\mathrm{PMpMod})=1, \\ \text { нет, } &amp; \text { ftakePR }(\mathrm{PMpMod})=0 .\end{cases}[/LATEX_FORMULA]

Представленная модель ЦКМ реализована в ряде процедур автоматической обработки текстов (АОТ), примером ее применения может служить процедура семантико-синтаксического анализа, в котором модель ЦКМ используется:

а) для разрешения омонимии словоформ по их контекстному окружению;

б) для установления границ простых предложений в составе сложного;

в) для определения элементов предикатно-актантной структуры;

г) для построения бинарных отношений между элементами каркаса предложения и элементами его синтаксических конструкций.

5. Заключение

В настоящей статье рассмотрены различные подходы к обработке текстовых данных, начиная от использования нейросетевых методов, завершая уникальными моделями, основанными на теоретической концепции фразеологического концептуального анализа текста (ФКАТ). Отмечается, что технологии искусственного интеллекта и классические лингвистические модели имеют свои ограничения и преимущества, которые могут быть учтены при разработке интеллектуальных систем обработки текстов.

Исследования, проведенные в данной области, отмечают, что точные и предиктивные методы выявления текстовой понятийной системы могут обеспечить высокий уровень точности в определении смысловых отношений между элементами текста. Это позволяет с достаточной вероятностью выделить как точные, так и предиктивные концептуальные связи, обогатив тем самым понимание содержания текстовых данных.

Таким образом, современные методы обработки текстовых данных продолжают эволюционировать, предоставляя более интеллектуальные и гибкие подходы к анализу языка, отражая его многообразие и контекстуальные особенности.

Additional File

The additional file for this article can be found as follows:

Online Supplementary Material

Further description of analytic pipeline and patient demographic information. DOI: https://doi.org/10.18454/itech.2024.2.3

Acknowledgements

Competing Interests

None

Белоногов Г.Г. Компьютерная лингвистика и перспективные информационные технологии. Теория и практика построения систем автоматической обработки текстовой информации / Г.Г. Белоногов, Ю.П. Калини, А.А. Хорошилов — Москва: Русский мир, 2004. — 246 с.

Колин К.К. Искусственный интеллект в технологиях машинного перевода / К.К. Колин, А.А. Хорошилов, Ю.В. Никитин и др. // Социальные новации и социальные науки. — 2021. — 2. — с. 64-72. — DOI: 10.31249/snsn/2021.02.05.

Хорошилов А.А. Автоматическое выявление и классификация информационных событий в текстах СМИ / А.А. Хорошилов, Р.Р. Мусабаев, Я.Д. Козловская и др. // Научно-техническая информация. Серия 2: Информационные процессы и системы. — 2020. — 7. — с. 27-38. — DOI: 10.36535/0548-0027-2020-07-4 .

Хорошилов А.А. Автоматическое создание формализованного представления смыслового содержания неструктурированных текстовых сообщений СМИ и социальных сетей / А.А. Хорошилов, Ю.В. Никитин, А.А. Хорошилов и др. // Системы высокой доступности. — 2014. — 3. — с. 36-51.

Хорошилов А.А. Определение тональности сообщений СМИ методом их концептуального анализа / А.А. Хорошилов, Я.Д. Козловская, Р.Р. Мусабаев и др. // Моделирование и анализ данных. — 2019. — 4. — с. 67-79.

Пекунов В.В. Извлечение информации из нейронных сетей прямого распространения в виде простых алгебраических моделей / В.В. Пекунов // Информационные технологии. — 2017. — 1. — с. 76-80.

Большакова Е.И. Автоматическая обработка текстов на естественном языке и анализ данных / Е.И. Большакова, К.В. Воронцов, Н.Э. Ефремова и др. — Москва: НИУ ВШЭ, 2017. — 269 с.

Хорошилов А.А. Контекстное разрешение омонимии на основе центроидно-контекстной модели / А.А. Хорошилов, Ю.В. Никитн, А.В. Кан и др. // Труды ИСП РАН. — 2022. — 5. — с. 171-182. — DOI: 10.15514/ISPRAS-2022-34(5)-11.

Аблов И.В. Средства машинной грамматики русского языка (по Г.Г. Белоногову) / И.В. Аблов, В.Н. Козичев, А.А. Хорошилов и др. // Научно-техническая информация. Серия 2: Информационные процессы и системы. — 2018. — 6. — с. 32-46.

Калини Ю.П. Современные технологии автоматизированной обработки текстовой информации / Ю.П. Калини, А. А. Хорошилов, А.А. Хорошилов // Системы высокой доступности. — 2015. — 2. — с. 19-34.