что такое семантический поиск информации в библиотеке

Что такое семантический поиск информации в библиотеке

Факультет: Компьютерных наук и технологий (ФКНТ)
Кафедра: Автоматизированных систем управления (АСУ)
Специальность: Информационные управляющие системы (ИУС)
Тема выпускной работы: Разработка онтологической модели для семантического поиска информации в электронной библиотеке
Научный руководитель: Мартыненко Татьяна Владимировна

Современные средства поиска, каталогизации, описания текстов не удовлетворяют нарастающим потребностям пользователей. Требуется их развитие в направлении повышения эффективности поиска информации и упрощения взаимодействия с пользователем.

Возможным путем решения проблемы является создание технико-информационных средств описания смысла имеющихся текстов с возможностью дальнейшего осмысленного поиска в массиве текстовой информации. Причем большие и постоянно увеличивающиеся объемы текстовой информации требуют, чтобы такие средства работали в автоматическом режиме.

Смысл традиционно является субъективной характеристикой текста. Трудно выявить какие-либо математические методы описания смысловой нагруженности текста и отдельных его понятий. Поэтому выделение смысловых характеристик из реального текста на естественном языке является сложной задачей. Тем не менее исследования в этом направлении активно ведутся. Над решением названных проблемам работают многочисленные коллективы ученых и специалистов во всем мире, в частности, консорциум W3C, где реализуется концепция Семантического Web. Создается множество интеллектуальных поисковых систем таких как RetrievalWare, Nigma, Exactus, Sirius и др.

Не смотря на обилие поисковых интеллектуальных систем многие проблемы, связанные с поиском информации, остаются не решенными.

Целью данной работы является повышение эффективности поиска неструктурированной текстовой информации по запросу пользователя на естественном языке.

Разработан алгоритм для автоматизированного расширения онтологий семантическими образами текстов, позволяющий получать данные релевантные запросу пользователя.

Результаты работы будут использованы в электронной научной библиотеке кафедры АСУ.

Задача семантического поиска в электронной библиотеке является упрощенным аналогом поиска информации в Интернет, т. к. предполагается, что поиск будет осуществляться по запросу пользователя на естественном языке в аналогичной строке поиска.

На рис. 1 показана схема семантического поиска информации. Пользователь вводит запрос, который подвергается лингвистическому анализу, расширяется за счет использования синонимов, затем преобразовывается в ключевые слова и отправляется поисковой машине. Поисковая машина возвращает найденные документы, они также подвергаются лингвистическому разбору и формируются семантические образы документов. Образы документов сравниваются с образом запроса, делается вывод о релевантности каждого из документов и результаты анализа (документы, которые были признаны релевантными) предоставляются пользователю. Схема лингвистического анализа приведена на рисунке 1 [12].

что такое семантический поиск информации в библиотеке. ris1. что такое семантический поиск информации в библиотеке фото. что такое семантический поиск информации в библиотеке-ris1. картинка что такое семантический поиск информации в библиотеке. картинка ris1. Факультет: Компьютерных наук и технологий (ФКНТ) Кафедра: Автоматизированных систем управления (АСУ) Специальность: Информационные управляющие системы (ИУС) Тема выпускной работы: Разработка онтологической модели для семантического поиска информации в электронной библиотеке Научный руководитель: Мартыненко Татьяна Владимировна

Рис. 1 – Диаграмма потоков данных при поиске.

что такое семантический поиск информации в библиотеке. anim. что такое семантический поиск информации в библиотеке фото. что такое семантический поиск информации в библиотеке-anim. картинка что такое семантический поиск информации в библиотеке. картинка anim. Факультет: Компьютерных наук и технологий (ФКНТ) Кафедра: Автоматизированных систем управления (АСУ) Специальность: Информационные управляющие системы (ИУС) Тема выпускной работы: Разработка онтологической модели для семантического поиска информации в электронной библиотеке Научный руководитель: Мартыненко Татьяна Владимировна

Рис. 2 – Процесс создания онтологии (анимация: объем 47Кб, размер 534×321, количество кадров 4, задержка между кадрами 50мс, задержка между первым и последним кадром 100мс, количество циклов повторния 7)

Онтологические модели за время исследований в этой области претерпели значительное развитие. В настоящее время для создания и поддержки онтологий существует целый ряд инструментов, которые помимо общих функций редактирования и просмотра выполняют поддержку документирования онтологий, импорт и экспорт онтологий разных форматов и языков, поддержку графического редактирования, управление библиотеками онтологий и т.д [4].

Наиболее известные инструменты инженерии онтологий, их основные характеристики представлены в таблице 1 [3].

Таблица 1 – Инструменты инженерии онтологий

Название параметраOilEdOntoEditOntolinguaOntoSaurusProtégéWebODEWebOnto
Архитектура приложения3–х уровневая3–х уровневаяКлиент/серверКлиент/сервер3–х уровневаяn-уровневаяКлиент/сервер
Хранение онтологийфайлыфайлыфайлыфайлыфайлы, CУБДCУБДфайлы
Язык ПОJavaJavaLispLispJavaJavaJava + Lisp
Осн. язык представления знанияDAML+OILOXMLOntolinguaLOOMOKBCOCML
Интерфейс пользователяЛокк-ое приложениеЛокк-ое приложениеHTMLHTMLЛокк-ое приложениеHTML и апплетыАпплеты

Как уже говорилось выше, инструменты инженерии онтологий используют специализированные языки. Сегодня выделяют три основных класса языков описания онтологии, что показано на рис. 3:

Рис. 3 – Классификация форматов представления данных

На сегодняшний день редакторы онтологий, кроме своего языка, поддерживают импорт и экспорт данных различных форматов исходя из анализа их применения, следует, что наиболее часто используемым форматом представления данных является RDF(S). Язык RDF обладает рядом преимуществ: представляет данные в виде rdf-триплетов (сущность-объект-предикат), а rdf-схема представляется в виде ориентированного графа, что является удобной для восприятия формой представления данных [1].

Исходя из анализа основных параметров различных редакторов онтологий, наиболее приемлемым является редактор Protégé, именно он будет взят за основу в дальнейшей работе. Среди форматов представления данных, лидирующие позиции занял RDF(S), который будет использован для построения онтологии предметной области электронной библиотеки кафедры АСУ [1].

Семантическая обработка текста выполняется в три этапа: морфологический, синтаксический и собственно семантический анализ (рис. 4). Каждый этап выполняет отдельный анализатор со своими входными и выходными данными и собственными настройками.

что такое семантический поиск информации в библиотеке. ris3. что такое семантический поиск информации в библиотеке фото. что такое семантический поиск информации в библиотеке-ris3. картинка что такое семантический поиск информации в библиотеке. картинка ris3. Факультет: Компьютерных наук и технологий (ФКНТ) Кафедра: Автоматизированных систем управления (АСУ) Специальность: Информационные управляющие системы (ИУС) Тема выпускной работы: Разработка онтологической модели для семантического поиска информации в электронной библиотеке Научный руководитель: Мартыненко Татьяна Владимировна

Рисунок 4 – Схема лингвистического анализа

Ввиду сложности выполнения всех этапов в работе рассматриваться будет только блок морфологического анализа. Среди методов морфологического анализа, использующихся в лингвистических процессорах, можно выделить методы с декларативной и с процедурной ориентацией.

Основным недостатком декларативных методов является чрезмерно большой объем словаря. Достоинствами метода является простота (и, как следствие, высокая скорость) анализа, а также универсальность по отношению ко множеству всех возможных словоформ русского языка.

Для процедурных методов время анализа одного слова может быть существенно выше, но объем используемых словарей в небольших системах позволяет загружать словари целиком в оперативную память. Существенным недостатком процедурных методов является отсутствие универсальности. Каждый из данных подходов имеет свои преимущества и недостатки, поэтому в дальнейшей работе будет использоваться комбинация этих методов для сочетания преимуществ каждого из них.

В общем виде схема морфологической обработки текста показана на рисунке 5. Предварительно необходимо провести лексический анализ, т. е. проверить на допустимые символы. На вход лексического анализа подаются предложения из текста поочередно, а на выходе проверенный набор слов и знаков препинания.

что такое семантический поиск информации в библиотеке. ris4. что такое семантический поиск информации в библиотеке фото. что такое семантический поиск информации в библиотеке-ris4. картинка что такое семантический поиск информации в библиотеке. картинка ris4. Факультет: Компьютерных наук и технологий (ФКНТ) Кафедра: Автоматизированных систем управления (АСУ) Специальность: Информационные управляющие системы (ИУС) Тема выпускной работы: Разработка онтологической модели для семантического поиска информации в электронной библиотеке Научный руководитель: Мартыненко Татьяна Владимировна

Рисунок 5 – Морфологический разбор текста.

Потребность в онтологиях связана с невозможностью адекватной автоматической обработки естественно-языковых текстов существующими средствами. Поэтому, для качественной обработки текстов и поиска релевантной информации, необходимо иметь детальное описание проблемной области, с множеством логических связей, которые показывают соотношения между терминами области. Использование онтологий позволяет представить естественно-языковый текст в таком виде, что он становится пригодным для автоматической обработки.

В работе был проведен анализ существующих средств и методов построения онтологий. В ходе анализа было установлено, что существует множество инструментальных средств, для построения онтологий, однако не одно из них не позволяет автоматизировать этот процесс. Для построения онтологий существуют различные специализированные языки, которые в свою очередь используют различные модели представления знаний и основаны на различных логиках. В результате проведенного анализа были сформулированы задачи для дальнейшей работы, выбраны методы и алгоритмы для их реализации.

При написании данного автореферата магистерская работа еще не завершена. Дата окончательного завершения работы: декабрь 2011 г. Полный текст работы и материалы по теме могут быть получены у автора или его научного руководителя после указанной даты.

Источник

Семантический поиск: мифы и реальность

что такое семантический поиск информации в библиотеке. 51377cff89f811746b6a0ad2a6bd153c. что такое семантический поиск информации в библиотеке фото. что такое семантический поиск информации в библиотеке-51377cff89f811746b6a0ad2a6bd153c. картинка что такое семантический поиск информации в библиотеке. картинка 51377cff89f811746b6a0ad2a6bd153c. Факультет: Компьютерных наук и технологий (ФКНТ) Кафедра: Автоматизированных систем управления (АСУ) Специальность: Информационные управляющие системы (ИУС) Тема выпускной работы: Разработка онтологической модели для семантического поиска информации в электронной библиотеке Научный руководитель: Мартыненко Татьяна Владимировна
О семантическом поиске говорят уже на протяжении нескольких лет. Любая технология, которая сможет сместить Google с вершины, вызывает всеобщий интерес. Особенно если речь идет о долгожданной и часто обсуждаемой возможности семантического поиска. Однако нас ни столько интересует прогресс в этой области, сколько огорчает отсутствие реальных результатов проводимых исследований, ведь итоги поиска не так уж и сильно отличаются от итогов поиска Google. В чем же дело?

Например, при вводе в строку поиска «Столица Франции», оба метода дают один и то же правильный ответ: «Париж». Кроме того, большинство запросов, которые мы вбиваем в строку поиска в виде аббревиатур, дают те же результаты, если вводить термин полностью. Очевидно, что тут что-то не так. Всем известно, что семантические технологии способны на многое, но почему? И как они работают? Ознакомившись с этой статьей, вы узнаете, что на самом деле, мы просто-напросто задаем не те вопросы.

Ошибка заключается в том, что семантические поисковые системы, по сути, обладают аналогичной с Google строкой ввода, которая позволяет нам вводить запросы в свободной форме. Поэтому мы вводим запросы так, как привыкли – в простейшей форме. Мы никогда не будем вводить в строку поиска «Какой актер снимался в фильмах «Криминальное чтиво» и «Лихорадка субботним вечером»? или «Какие два сенатора США брали взятки от иностранных компаний?». Мы всегда вбиваем простые фразы, но сила семантического поиска не в этом. Чтобы понять, как все работает, предлагаем рассмотреть несколько технологий семантического поиска от Google, SearchMonkey, Powerset и Freebase.

Какую проблему мы пытаемся решить?

Первая сложность возникает, когда семантический поиск начинают считать решением всевозможных задач – от современной системы поиска, где доминирует Google, до задач, которые нельзя решить вычислительным путем. Все еще более усложняется тем, что в настоящее время есть лишь несколько областей знания, где семантический поиск действительно справляется лучше — это сложные запросы о выводах и рассуждениях о сложных системах данных.

что такое семантический поиск информации в библиотеке. image loader. что такое семантический поиск информации в библиотеке фото. что такое семантический поиск информации в библиотеке-image loader. картинка что такое семантический поиск информации в библиотеке. картинка image loader. Факультет: Компьютерных наук и технологий (ФКНТ) Кафедра: Автоматизированных систем управления (АСУ) Специальность: Информационные управляющие системы (ИУС) Тема выпускной работы: Разработка онтологической модели для семантического поиска информации в электронной библиотеке Научный руководитель: Мартыненко Татьяна Владимировна

Как видно из приведенных данных, Google легко справляется с основными видами запросов. К сожалению, автоматическая обработка естественного языка дает в этом лишь небольшое преимущество. Google даст верный ответ на вопрос о годе рождения Леонардо, не предоставляя никаких шансов усовершенствовать процесс поиска пониманием существительных и глаголов, которые вбивает пользователь в строку поиска.

Перед тем, как рассмотреть задачи, с которыми легко справляется семантический поиск, рассмотрим самые сложные задачи. Существуют требующие вычисления задачи, которые не имеют ничего общего с пониманием семантики слова. На ранней стадии существования Семантического Веба бытовало мнение, что с его помощью мы сможем решать даже сверхсложные задачи, но, к сожалению это не так. Есть пределы того, что мы можем вычислить, и есть класс задач с огромным числом возможных решений, и мы не можем волшебным способом решить эти задачи только потому, что представили информацию в RDF.

Но есть также и пласт задач, с которыми семантический веб справляется великолепно. Мы решали их при помощи тематической базы данных. Но не стоит забывать, что семантические технологии помогают нам отыскать тематическую информацию, рассредоточенную по всей сети – потому для нас нет ничего удивительного в том, что семантические поисковые системы превзойдут тематические запросы.

Обзор семантических поисковых систем

Суть семантического поиска не только в вопросах, задаваемых нами. По причине того, что веб – это набор неструктурированных HTML-страниц, в основе семантического поиска лежит еще и базовая информация. Самой четкой и понятной из всех мы нашли Freebase – семантическая база данных. Freebase работает не только через текстовый поиск, а что наиболее важно, и через — MQL (Metaweb Query Language). MQL это почти тот же JSON (текстовый формат обмена данными), но с более широкими возможностями. С его помощью вы можете составить любой запрос в Freebase и ответом будет тот же запрос, но уже со вставленными результатами поиска.

что такое семантический поиск информации в библиотеке. 9bb6a7f31c9bb09e5209e4de5ed91e0d. что такое семантический поиск информации в библиотеке фото. что такое семантический поиск информации в библиотеке-9bb6a7f31c9bb09e5209e4de5ed91e0d. картинка что такое семантический поиск информации в библиотеке. картинка 9bb6a7f31c9bb09e5209e4de5ed91e0d. Факультет: Компьютерных наук и технологий (ФКНТ) Кафедра: Автоматизированных систем управления (АСУ) Специальность: Информационные управляющие системы (ИУС) Тема выпускной работы: Разработка онтологической модели для семантического поиска информации в электронной библиотеке Научный руководитель: Мартыненко Татьяна Владимировна

Powerset, по сути, это тематическая база данных, которая работает с определенной структурированной информацией. С другой стороны есть Google, который в первую очередь ориентируется на статистическую частоту запросов и почти не принимает во внимание семантику. Вызывает интерес новая система SearchMonkey от Yahoo! Эта система ничего не добавляет к найденным результатам, но использует семантические аннотации для более полного, интерактивного и полезного пользовательского интерфейса.

Компании Hakia и Powerset явно работают с максимальной отдачей. Они пытаются создать подобные Freebase структуры, а потом по топовым результатам провести поиск на естественном языке. Отличие в том, что Hakia (как и другие) использует технологию для поиска по всей сети, а Powerset замкнул свой поиск на Wikipedia.

Что общего и где различия?

В связи с этим появляется вопрос: «Какие из этих технологий схожи, а какие кардинально отличаются?» Давайте начнем с простого. SearchMonkey ничем не отличается от Google и любой другой поисковой системы, т.к. суть у них одна, а разница присутствует лишь во внешнем виде. Сервис SearchMonkey хорош тем, что позволят издателям представить результаты поиска в наилучшем виде.

Что же касается Hakia, Powerset и Freebase, то тут ситуация иная. На первый взгляд они совершенно разные: Hakia в поиске использует весь веб, Powerset – лишь Wikipedia и Freebase, а Freebase обладает двумя поисковыми интерфейсами: поисковая строка и язык поиска. Но существует одна проблема: естественный язык не имеет ничего общего с репрезентативностью базовой информации.

Дело в том, что все технологии семантического поиска позволяют пользователям вбивать произвольные сложные вопросы, а затем интерпретируют их и применяют к имеющимся базам данных. Hakia, Powerset, Freebase такими базами являются, и все они обладают системой автоматической обработки естественного языка, которая «переводит» вопрос на стандартный запрос, понятный для базы.

Чтобы понять, как это все устроено, представьте Freebase и его язык поиска MQL. В отличие от естественного языка, который позволяет задать вопрос разными способами, MQL двусмысленности не предполагает. Этот JSON-подобный язык позволяет пользователям формулировать четкие запросы для поиска в базе Freebase. То, что Powerset позволяет строить вопросы на естественном языке, еще не значит, что Powerset не является базой данных. Powerset – это база, т.к. в ее основе лежит поисковая строка Freebase. Отличие Freebase от Powerset заключается в подходах к поиску и способам предоставления его результатов.

Назад в будущее: все дело в пользовательском интерфейсе

что такое семантический поиск информации в библиотеке. d3613937b50bfb27d8979d2cbda5b12a. что такое семантический поиск информации в библиотеке фото. что такое семантический поиск информации в библиотеке-d3613937b50bfb27d8979d2cbda5b12a. картинка что такое семантический поиск информации в библиотеке. картинка d3613937b50bfb27d8979d2cbda5b12a. Факультет: Компьютерных наук и технологий (ФКНТ) Кафедра: Автоматизированных систем управления (АСУ) Специальность: Информационные управляющие системы (ИУС) Тема выпускной работы: Разработка онтологической модели для семантического поиска информации в электронной библиотеке Научный руководитель: Мартыненко Татьяна Владимировна

Возможно, самым важным моментом в семантическом поиске является пользовательский интерфейс. В Powerset поняли, что в нем должна быть отражена семантика. После поиска в Powerset, контекстуальный гаджет, который знаком с семантикой результатов, поможет пользователю завершить весь процесс.

Слабым местом Powerset является интерфейс. Поисковая строка, с которой знакомы все, кто когда-либо что-то искал в сети, устарела. Слишком простой интерфейс Powerset и Hakia не приносит им пользы, но и не слишком отражается на Freebase, который не позиционирует себя, как поисковая система.

Вспомните недавний старт Powerset. Компания предоставила лучший способ для поиска в одном из самых мощных источников информации в сети — в Wikipedia. Но что говорят критики? Можно ли назвать эту систему главным конкурентом Google? Ответ однозначен — нет.

А что если на Powerset наложены некие ограничения по поиску? Что если вместо поисковой строки использовался другой интерфейс или компания сказала пользователям не искать то, что они легко могут найти в Google? Может, новые компании должны улучшить алгоритм поиска, который существует уже более 10 лет? В любом случае, любые идеи должны быть нацелены на то, чтобы решить задачи, которые не может на сегодняшний день решить Google.

Заключение

Семантический поиск – это технология будущего, поставившая перед собой слишком высокие цели. Все мы думали, что он поможет свергнуть Google и предоставить наиболее качественные результаты поиска. Оба эти утверждения оказались ложными. Правда в том, что семантический поиск — явление многофакторное, и он поможет нам решать те задачи, которые мы не можем решить сейчас: сложные, логически обоснованные запросы, которые сплошь и рядом встречаются в сети.

Для того, чтобы технологии семантического поиска заняли свою нишу на рынке, компаниям необходимо пересмотреть поставленные цели и улучшить пользовательский интерфейс. Поисковая строка не актуальна и сулит убытки, т.к. она ассоциируется с простыми вопросами, с которыми легко справляется Google. Разработчикам необходимо предложить совершенно новый интерфейс, чтобы пользователи смогли полностью ощутить всю мощь семантического поиска.

Источник

Proceedings 2001

Contents

О постановке проблемы семантического поиска научной информации в электронных библиотеках

Галина И.В., Зацман И.М.

В большинстве современных информационных технологий отсутствует концептуально единый семиотический подход к интеграции вербальной и невербальной информации в знаковой форме и ее семантического поиска. Существующие системы, как правило, не учитывают информационную потребность пользователя в поиске невербальных компонентов научного документа. Реализация такого поиска значительно повысила бы полноту и точность получаемых сведений. Семантический поиск семиотически разнородной научной информации (включая невербальную) в электронных библиотеках научных документов является новой задачей, которая пока остается нерешенной.

Проблема семантического поиска как по вербальным, так и по невербальным компонентам рассматривалась в работах 1. Исследование, проведенное Дж. Лемке [15], показывает, что в некоторых документах по геологии 90% научной информации приведено в иллюстрациях, диаграммах и т.п., а собственно текст иногда представляет собой подписи под «картинками» и краткие выводы.

Т. Миллер [17], сравнивая содержание научных документов (статей) с научно-популярной литературой, обосновывает важность визуальных коммуникативных компонентов научных документов. В результате проведенного им сравнения выясняется, что вес и роль невербальных компонентов в собственно научной литературе оказывается гораздо выше, чем в научно-популярной. Опираясь на мнение Т. Хакина [11], указывающего на некоторые аспекты конвенциональности научной коммуникации, он утверждает, что одно из соглашений ученых, представляющих разные научные дисциплины, касается размера, места, порядка и организации визуальных компонентов.

Научная статья часто строится вокруг визуальных компонентов, которые используются при доказательстве основательности выдвигаемых положений, а в научно-популярной литературе изображения чаще всего используются в качестве иллюстративного материала, а не доказательства. Миллер показывает, что извлечь полную и точную информацию из научного документа, можно только с учетом их невербальных (визуальных) компонентов.

Под семиотической модальностью Дж. Лемке [15] понимает функциональную категорию, выражающую разные виды отношений знаков в семиотическом пространстве научного текста, важнейшие из которых – топологические (зависимость значения научного концепта от его места в тексте: на листе, в таблице, диаграмме, экране компьютера и т.д.) и типологические (отнесенность к определенной семиотической системе: естественно-языковой, математической, структурно-химической, географической и т.д.).

Мультимодальная семиотическая система электронной библиотеки должна интегрировать знаковые системы основных семиотических модальностей (вербальных, математических, структурно-химических, биоинформационных, картографических и др.), используемых в электронных формах научных документов (статьях, монографиях, отчетах, диссертациях и т.д.) [3, 15].

В современной компьютерной текстологии наиболее развит классический лингвистический подход, задающий определенные формальные способы организации вербальных (лексических) компонентов текста, и концептуальные подходы к организации семантического поиска по вербальным компонентам.

Приоритет исследований лингвистической направленности в решении проблемы семантического поиска поддерживается известной точкой зрения, утверждающей, что вербальные знаковые системы можно считать первичными, а все другие семиотические системы по отношению к ним являются вторичными. Однако существует и другая точка зрения, что все богатство и разнообразие невербальной научной информации не может быть адекватно передано вербальными (лексическими) средствами [10, 12, 15, 17].

Согласно этой точки зрения сфера знаний, выражаемых вербально, и сфера знаний, выражаемых невербально, имеют область пересечения, причем большая часть невербальной информации находится вне зоны этого пересечения и, следовательно, не может быть адекватно выражена лексически. Эта область пересечения может рассматриваться как третья сфера знаний, которые могут быть представлены и в вербальной, и в невербальной форме [10].

Решение проблемы обработки интегрированных данных (вербальных и невербальных компонентов научных документов) и семантического поиска, охватывающее все три сферы представления знаний, до сих пор отсутствует. Это связано с тем, что для представления знаний в научных документах используется широкий по семиотической модальности спектр знаковых систем. Существующие подходы к этой проблеме ориентированы, как правило, на какую-то одну из перечисленных сфер представления знаний в рамках некоторой предметной области или проблемы.

3.1. В первой половине 90-х гг. развитие Интернет и появление медиатехнологий стимулировали разработку проектов, связанных с созданием единого подхода к обработке интегрированных данных, включая невербальные компоненты научных документов.

Одним из примеров является осуществляемый в Белоруссии (Яковишин В.С., Ярмош Н.А.) проект построения единой структуры внутреннего представления текстовой и чертежно-графической информации на основе семантического языка-посредника, порождаемого формальной грамматикой [6]. Основное внимание авторов проекта направлено на лексическую часть документов.

Другим примером может служить проект университета Карнеги-Меллон (США), где имеется крупная интерактивная цифровая видеобиблиотека [18]. Данным проектом предусмотрена разработка механизмов тематического поиска видеоизображений, звукозаписей и текстовых фрагментов на ЕЯ по единой технологии в оцифрованных массивах. В рамках этого проекта предусматривается создание инфраструктуры системы для многоуровневой интеграции разнородных данных.

Примеры этих проектов отражает актуальность решения проблемы создания единой технологии обработки интегрированных данных (включая невербальные компоненты); но предлагаемые концепции их решения делает проблематичным создание средств семантического поиска без разработки мультимодальных семиотических систем для знаковых представлений невербальной информации в электронных библиотеках.

3.2. Во второй половине 90-х гг. параллельно с традиционной задачей распознавания образов на первый план выходят проблемы семантического поиска визуальной информации, попытки обработки изображений на уровне ее содержательных аспектов. Работы по смысловому анализу визуальных компонентов (изображений) ведутся с использованием тезауруса кодов текстур и цветовых палитр изображений.

Например, в проекте NSF IRI-9704785 «An image thesaurus for content based search using texture and color», который выполняется в настоящее время в университете Калифорнии (Санта-Барбара), ставится задача поиска аэрофотоснимков по их содержательным аспектам. В качестве основы планируется использовать набор типовых текстур с учетом цветовой палитры. Каждой типовой текстуре соответствуют вычисляемые коды, которые группируются в иерархически построенном тезаурусе в соответствии с некоторым набором базовых свойств текстур. В этом проекте разработана система кодирования и тезаурус статистических кодов типовых текстур, который используется для решения задач поиска аэрофотоснимков. К настоящему времени существуют следующие основные компоненты системы: блок выделения характерных признаков текстуры; блок сегментирования и кластеризации изображений; блок адаптивной оценки изображений; модель тезауруса кодов текстур, предназначенная для их индексирования и поиска [16].

В работах Chang Shih-Fu, Smith John R и др. [8] исследуются возможности поиска информации в больших распределенных диалоговых системах на основе метаданных и метаописаний, включая Интернет. В рамках данного проекта создается система (WebSEEK), предназначенная для сбора в одно целое рассеянной по сети визуальной информации. В эту систему введены метаданные (вторичная информация), краткие резюме и указаны источники визуальной информации. Кроме того, используются ключевые слова из текста, индексирование вербального описания визуального содержания. На этой основе создаются средства поиска изображений по метаданным и метаописаниям.

Группой итальянских исследователей (Corridoni Jacopo M., Del Bimbo Alberto, Vicario Enrico [9]) создается система индексирования и поиска изображений на основе их цветовых атрибутов. Данная система поддерживает процедуры архивирования, формирования запросов и поиска изображений. При формировании запроса используется специальный визуальный пиктографический язык, описывающий цветовую палитру запрашиваемого объекта в соответствии с моделью цветовых сочетаний. Данная система может использоваться для формирования запросов при условии неопределенности или неполноты знаний об объекте поиска.

Проблемами организации поиска документов, состоящих из текстовых и графических коммуникативных компонентов, занимаются Jose Joemon и Harper David John [13]. Предлагается комплексный подход к разработке методики семантического поиска как по вербальным, так и по невербальным содержательным компонентам документа. Для проведения поиска по текстовой части применяются традиционные лингвистические методики, основанные на использовании ключевых слов и терминов; а для проведения поиска по графической части используются характерные признаки изображений в виде типов изо-объектов и их пространственного расположения, причем выделение этих признаков идет в полуавтоматическом диалоговом режиме. К настоящему моменту реализован комбинированный интерфейс, обеспечивающий поиск изо-объектов как по графическим признакам, так и по его текстовым описаниям.

Обзор перечисленных работ позволяет предположить, что необходима единая методика моделирования и семантического поиска разнородных по семиотическим модальностям компонентов полнотекстовых научных документов из разных областей знаний. Продвижение по этому пути позволит значительно расширить возможности технологий информационного поиска, включая решение проблемы семантического поиска по всем семантически значимым вербальным и невербальным компонентам научных документов.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *