Data Representation Models in Automatic Text Processing Systems
Data Representation Models in Automatic Text Processing Systems
Abstract
The article examines modern approaches to textual data processing. Unique models are presented, including the universal centroid-context model (CCM) and the positional conceptual model of concept representation. The idea behind the CCM is to create new word classes centred on the similarity of words' grammatical properties and their syntactic functions in a sentence. Whereas the models underlying the conceptual analysis of texts allow to identify the textual conceptual system and to establish semantic relations between its elements. The identification of the concept system is done by exact and predictive methods. Precise selection of concepts is performed using reference conceptual dictionaries (RCD). Predictive concept extraction is done by conceptual pattern dictionary. Models of data representation and feature extraction from text objects using ordered sequences and vector functions are discussed.
1. Введение
Проведенные исследования показали, что точные методы позволяют выявить понятийную систему научно-технических текстов по любой тематике на 70-85%, а предиктивные методы позволяют выявить оставшуюся часть (15-30%) с вероятностью 85-90% .
В настоящее время значительная часть разработчиков интеллектуальных систем обработки текстовых данных свои представления о технологиях искусственного интеллекта (ИИ) связывают с нейросетевым (НС) подходом. В основу НС подхода положена модель глубокого обучения, ориентированная на извлечение большого числа признаков из необработанных данных и решения сложных интеллектуальных задач . Процессу автоматизированной обработки текстов (АОТ) предшествуют процессы обучения модели и проверки обученной модели. Для полноценного процесса обучения требуются размеченные данные больших объемов, при невозможности получения достаточных объемов данных полноценно обучить модель невозможно. Кроме того, в некоторых ситуациях возможны ограничения по использованию технологий НС .
Классический лингвистический подход, основанный на изучении грамматики и синтаксиса, часто представляет язык через универсальные правила, игнорируя индивидуальные особенности и разнообразие коммуникативных ситуаций. Он, таким образом, ограничивает понимание того, как язык используется на практике в различных контекстах. Большой проблемой в рамках этого подхода являлась проблема вариативности представления смыслового содержания текстовых конструкций. Традиционные лингвистические модели, которые опираются на жёсткие грамматические правила и ограниченные лексические ресурсы, сталкиваются с ограничениями в отображении всего богатства грамматических и семантических контекстов, которые могут присутствовать в тексте . Одной из основных проблем таких моделей является их недостаточная гибкость, ограниченное пространство признаков и невозможность быстрой коррекции в случае несоответствия конкретным текстовым данным.
В последнее время наметился подход, базирующийся на теоретической концепции фразеологического концептуального анализа текста (ФКАТ) . Этот подход в значительной мере является дальнейшим развитием традиционного лингвистического подхода.
2. Фразеологический концептуальный анализ текстов
Концепция ФКАТ базируется на уникальной машинной грамматике, традиционных лингвистических моделях дополненных рядом гибких динамических языковых моделей, в основу которых положены принципы и методы лингвистической аналогии , а также ориентацией на использование многомиллионных словарных ресурсов.
Основные положения концепции фразеологического концептуального анализа текстов:
• смысловое содержание текстов выражается с помощью единиц смысла;
• понятие – самая устойчивая единица смысла;
• объекты предложения обладают особыми признаками, выражающимися через предикатно-актантную структуру (ПАС) и набором отношений с другими объектами;
• сверхфразовые единства формируются из предложений и представляются в виде последовательностей предложений (связного текста).
Идея закладывать в модель флективных классов слов русского языка строгое соответствие между их формой представления и грамматической информацией послужила основанием для созданияновых классов – тех, где слова имеют одинаковые наборы грамматических признаков, соответствующих их формам представления в сходных контекстах. Появление идеи формирования новых классов слов, ориентированных на схожесть грамматических признаков слов и схожесть их синтаксических функций в предложении, впервые было предложено в работах и активно использовалась при составлении эталонных концептуальных словарей (ЭКС).
3. Позиционная концептуальная модель представления понятия
Модели, положенные в основу концептуального анализа текстов, позволяют выявить текстовую понятийную систему и установить смысловые отношения между ее элементами. Выявление системы понятий производится точными и предиктивными методами. Точное выделение понятий производится по ЭКС, включающего более двух млн. понятий. Предиктивное выделение понятий осуществляется по словарю концептуальных шаблонов, в котором в сжатом мнемоническом виде представлены обобщенные формы слов наименований понятий в их контекстном окружении.
В процессе концептуального анализа на основе данных, полученных с помощью морфологического и семантико-синтаксического анализа, из предложения выделяются смысловые конструкции с помощью эталонного концептуального словаря (в словарном концептуальном анализе) и шаблонов представления текстовой формы словосочетаний эталонного концептуального словаря (в предиктивном концептуальном анализе) , , .
Сначала предложение подается на обработку словарному концептуальному анализу. На вход словарному концептуальному анализу оно подается в виде множества слов .
Далее предложение разбивается на фрагменты с помощью функции:
Разбиение на фрагменты реализуется по следующему правилу:
Здесь
Фрагмент сравнивается с нормализованными понятиями из эталонного концептуального словаря (ЭКС), при совпадении он добавляется во множество и ему в соответствие ставится совпавшее понятие из ЭКС.
При несовпадении исходное предложение в виде последовательности слов подается на вход предиктивному концептуальному анализу.
Каждому ставится в соответствие набор признаков (определенных на этапе МА) , .
Полученная синтагма разбивается на фрагменты с помощью функции:
Разбиение на фрагменты происходит по следующему правилу:
Здесь .
Имеется множество шаблонов , представления текстовой формы словосочетаний ЭКС (форма каждого слов 4 сим.: OS(FK+OK)=2сим., GK=1 сим., GF=1 сим.).
Проверяем вхождение признаков в для каждого набора фрагментов , если , то добавляем текстовое представление наименования понятия во множество и ставим ему в соответствие шаблон .
Существует словарь стоп-слов (в нем содержатся служебные слова). Если , то это понятие исключается из множества :
4. Центроидно-контекстная модель представления данных
При создании технологий смысловой обработки текстов был разработан ряд моделей представления данных. Каждому уровню иерархии смысловых единиц текста соответствовала та модель, которая наиболее адекватно отображала понятийную систему признаков каждого текстового объекта. Но основной моделью, позволяющей реализовать возможность однозначного разрешения множества языковых ситуаций в их контекстных окружениях, является универсальная центроидно-контекстная модель (ЦКМ) .
На вход ЦКМ подается упорядоченное множество объектов . Каждому объекту ставится в соответствие элемент упорядоченного множества , где – свойства объекта. Задается радиус , выбирается целевой объект (центроид) , составляется позиционная модель, которая задается упорядоченной последовательностью:
К упорядоченной последовательности PM применяется вектор-функция fPR, которая каждому объекту из PM ставит в соответствие признаки из множества Pr:
Здесь – фиктивный признак фиктивного элемента. В результате применения функции получается упорядоченная последовательность:
Пусть существует функция , которая проверяет, насколько два вектора схожи между собой:
Задается порог совпадения начальной части модели и во множестве шаблонов синтагм ЦКМ из словаря шаблонов ищется наиболее схожая структура в смысле максимума процента покрытия :
где – функция, которая вычисляет расстояние Хэмминга (количество несовпадающих элементов), – количество элементов синтагмы.
Множество MOD включает в себя шаблоны признаков ЦКМ из словаря шаблонов. Каждый элемент множества имеет признак, принимающий значение 0 или 1.
Пусть функция – функция взятия признака элемента .
В результате ЦКМ мы находим ответ на вопрос: является ли однозначное решение для анализируемой языковой ситуации именно таким, как описано в соответствующем словарном ресурсе. Этот ответ можно получить следующим образом:
Представленная модель ЦКМ реализована в ряде процедур автоматической обработки текстов (АОТ), примером ее применения может служить процедура семантико-синтаксического анализа, в котором модель ЦКМ используется:
а) для разрешения омонимии словоформ по их контекстному окружению;
б) для установления границ простых предложений в составе сложного;
в) для определения элементов предикатно-актантной структуры;
г) для построения бинарных отношений между элементами каркаса предложения и элементами его синтаксических конструкций.
5. Заключение
В настоящей статье рассмотрены различные подходы к обработке текстовых данных, начиная от использования нейросетевых методов, завершая уникальными моделями, основанными на теоретической концепции фразеологического концептуального анализа текста (ФКАТ). Отмечается, что технологии искусственного интеллекта и классические лингвистические модели имеют свои ограничения и преимущества, которые могут быть учтены при разработке интеллектуальных систем обработки текстов.
Исследования, проведенные в данной области, отмечают, что точные и предиктивные методы выявления текстовой понятийной системы могут обеспечить высокий уровень точности в определении смысловых отношений между элементами текста. Это позволяет с достаточной вероятностью выделить как точные, так и предиктивные концептуальные связи, обогатив тем самым понимание содержания текстовых данных.
Таким образом, современные методы обработки текстовых данных продолжают эволюционировать, предоставляя более интеллектуальные и гибкие подходы к анализу языка, отражая его многообразие и контекстуальные особенности.