Средства лингвистической поддержки

При обработке полнотекстовых документов в системах текстового поиска приходится иметь дело со средствами обработки естественного языка. Эти средства представляют собой довольно сложный и важный функциональный компонент таких систем.

Средства обработки естественного языка в системах текстового поиска позволяют выделять из анализируемых текстовых документов и пользовательских запросов термы (слова, словосочетания или фразы) — носители их содержания, выявлять зависимости между этими термами, принимать во внимание их концептуальные связи в контексте данной предметной области, строить на этой основе представления документов, трансформировать поисковые запросы пользователей в удобную для реализации поиска форму, осуществлять расширение запросов для повышения полноты поиска.

Для выполнения указанных функций в большинстве систем рассматриваемого класса используются комплексы средств лингвистической поддержки. Такой комплекс может включать различные словари, тезаурусы, онтологические спецификации предметной области системы.

Системные словари. В системах текстового поиска, имеющих дело с обработкой естественного языка, могут поддерживаться словари общеязыковой лексики и лексики предметной области. Такие словари служат для морфологического анализа текста, для обеспечения отождествления слов в различных грамматических формах в процессе поиска, а также для построения некоторых видов представлений документов и запросов.

Тезаурусы. Важную роль в анализе и формировании формализованного представления текстовых документов играют специальные словари, называемые тезаурусами. Тезаурус — это словарь основных понятий языка, обозначаемых отдельными словами или словосочетаниями, с определенными семантическими связями между ними.

Тезаурус может быть общеязыковым (например, тезаурус русского языка) или ориентированным на какую-либо предметную область. Лексика тезауруса включает множество слов и/или множество фраз. Виды поддерживаемых семантических связей между ними могут быть зависимыми или независимыми от конкретной предметной области. Обычно такие связи определяют синонимы, омонимы, антонимы понятий языка, поддерживают между ними отношения вида «целое — часть», «род — вид», «используется для», «работает в» и т.д.

В настоящее время применяются два способа создания тезаурусов — ручной и автоматический. Тезаурус, созданный вручную, может быть универсальным, независимым от конкретной коллекции документов. Однако, к сожалению, разработка тезауруса вручную является весьма дорогостоящим, кропотливым и трудоемким делом, требующим значительного времени. Поэтому на практике часто используют автоматическое создание тезаурусов. Методы решения этой задачи начали разрабатываться еще в начале 60-х годов прошлого века. Автоматическое создание тезаурусов осуществляется обычно на основе заданных коллекций текстовых документов, поэтому такие тезаурусы предназначены для работы именно с этими коллекциями.

В системах, использующих тезаурус, он позволяет, например, при поиске по ключевым словам расширять запрос, включая в него синонимы первоначально заданных пользователем ключевых слов и обеспечивая тем самым более полный поиск. Могут быть отождествлены синонимы в документе и в запросе. Тезаурусы также часто используются в процессе ручного или автоматического индексирования документов.

Онтологии. Для адекватной интерпретации пользователем и/или системой содержания текстовых документов и поисковых запросов, представленных на естественном языке, система должна располагать контекстом, который определяет основные понятия предметной области и различного рода семантические связи между ними. Это описание не зависит от содержащихся в системных коллекциях конкретных документов и представляет собой спецификацию концептуализации предметной области системы. Выраженная явным образом такая спецификация называется онтологией предметной области. Онтологии получили в последние годы широкое распространение в разнообразных информационных системах, основанных на знаниях, в инженерии" знаний, в решении проблем семантической интеграции информационных ресурсов и т.д.

Онтология предметной области может поддерживаться в системе с различной степенью формализованности. В простейшем случае она представляется в виде некоторого вербального описания. Тогда она предназначена для использования человеком на стадии индексирования документов и при формулировке запросов. В более сложном случае онтология представляется в формализованном виде на языках представления знаний, допускающих логический вывод. Такие системы называют интеллектуальными.

Еще на ранней стадии развития систем текстового поиска начали использовать представление онтологии в форме иерархических классификаторов. Такие описания на каждом иерархическом уровне поддерживают отношение эквивалентности на множестве классифицируемых сущностей, обеспечивающее его разбиение на попарно непересекающиеся классы. При этом сущности соседних уровней иерархии обычно находятся в отношении «целое — часть» или «род — вид».

Другой неформальный способ описания онтологии, который довольно широко применяется в системах текстового поиска, — это представление ее в форме тезауруса предметной области системы.

Для формального описания онтологии в развитых системах используются языки логики первого порядка. Они допускают возможности логического вывода. Довольно широкое распространение получил для представления онтологии язык указанной категории KIF (Knowledge Interchange Format), разработанный в начале 1990-х годов в Лаборатории систем знаний (KSL) Стэнфордского университета.

Одной из последних разработок, посвященных созданию средств формального описания онтологии, является стандарт языка определения онтологии для информационных ресурсов Веб — Web Ontology Language. Работу над этим стандартом ведет Рабочая группа по онтологиям для Веб консорциума W3C. Указанный язык, несомненно, найдет применение в интеллектуальных системах поиска информационных ресурсов в среде Веб второго поколения.

<== предыдущая лекция	\|	следующая лекция ==>
Основные понятия. Лекция1. Основы технологии поиска в современных информационно-поисковых системах	\|	Модели поиска

Поделиться с друзьями:

Дата добавления: 2014-01-14; Просмотров: 486; Нарушение авторских прав?; Мы поможем в написании вашей работы!

Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет

studopedia.su - Студопедия (2013 - 2024) год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! Последнее добавление

Генерация страницы за: 0.014 сек.