Требования ипя

Классификационные информационно-поисковые языки

Информационно-поисковый язык (ИПЯ)представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса .

Основными элементами ИПЯ являются алфавит, лексика и грамматика.

Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ.

Лексика, или словарный состав, ИПЯ — совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ.

ГрамматикаИПЯ — совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис.

Можно указать следующие требования, которым должен удовлетворять ИПЯ:

· располагать лексико-грамматическими средствами для точного отображения темы документа и запроса;

· не содержать полисемии, синонимии и омонимии;

· отображать только объективные характеристики предметов и отношений между ними;

· быть удобным для алгоритмического сопоставления ПОД и ПОЗ.

Построение выражений ИПЯ требует решения по крайней мере двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений.

Выбор слов определяется их смыслом, обусловленным парадигматическими отношениями между предметами и явлениями, которые они определяют.

Парадигматические отношения— это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными словами. Перечислим некоторые парадигматические отношения:

· «вид—род», например, «шкаф—мебель». В данном случае понятие «шкаф» является видовым по отношению к понятию «мебель». Родовое понятие всегда включает в себя видовое;

· «часть—целое», например «лезвие—нож»;

· «причина—следствие», например, «лампа—свет»;

· «функциональное сходство», например, «лопата—экскаватор».

Естественный язык обладает высокой многозначностью. В ИПЯ недопустима многозначность. Поэтому здесь необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ.

Омонимия — это совпадение слов по написанию или звучанию и несовпадение по смыслу.

Полисемия слова состоит в том, что одно и то же слово выражает пучок родственных понятий. Например, слово «соль» обозначает вещество, а также понятие смысла. Оба значения близки по сути.

Синонимия — это совпадение слов по значению и несовпадение по написанию.

Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов.

Синтагматические отношения отношения слов при соединении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.

Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет семантическую силу ИПЯ.

Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т. е. при создании языка.

Посткоординируемые (дескрипторные) языки основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний естественного языка — ключевых слов и дескрипторов.

Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов.

Ключевые слова это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией.

К классификационным языкам относят:

· информационно-поисковый язык иерархического типа;

· информационно-поисковый язык фасетного типа;

Основными показателями эффективности функционирования ДИС являются полнота и точность информационного поиска .

Полнота информационного поиска R определяется отношением числа найденных релевантных документов A к общему числу релевантных документов С, имеющихся в системе:

Точность информационного поиска Р определяется отношением числа найденных релевантных документов А к общему числу документов L, выданных на запрос пользователя :

Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума К определяется отношением нерелевантных документов (L-A), выданных в ответе пользователю, к общему числу документов L, выданных на запрос пользователя :

Информационно-поисковые каталоги, основанные на классификации сведений по определенной предметной области, были первыми системами информационного поиска документов.

Классификация— это группировка объектов по признакам.

Первоначальные подходы к классификации тематики документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.

Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством рубрик, отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору определяются коды интересующих пользователя рубрик и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации.

При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические основы предметной области, выражаемые в родо-видовых отношениях основных категорий, понятий и классов.

Содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании

более общих рубрик, к которым относятся выделенные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.

Перечислительный и иерархический подходы к классификации используются в алфавитно-предметных каталогах библиотек. Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все возможные темы документов.

Фасетная классификация не связана подобными ограничениями. Ее идея состоит в том, что вся предметная область разбивается на ряд исходных рубрик — фасет — по семантическому принципу, отражающему специфику предметной области.

Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу.

Основное достоинство фасетной классификации заключается в возможности небольшим перечнем фасетных рубрик отразить большое количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.

В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются :

· словарь лексических единиц;

· правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ;

· правила построения ИПЯ.

Словари лексических единиц делятся на две группы:

· основные лексические словари, составляющие лексику ИПЯ;

· морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание .

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).

Тезаурус (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.

Наиболее важными парадигматическими отношениями ИПТ являются:

Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию.

Дата добавления: 2016-05-25 ; просмотров: 1145 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Информационно-поисковые языки;

ЛЕКЦИЯ 3

1) Информационно-поисковые языки (ИПЯ): понятие и структура.

2) Упорядочения лексических единиц ИПЯ.

3) Требования к ИПЯ

Вопрос 1. Информационно-поисковые языки: структура и требования. Наряду с многочисленными естественными языками в человеческом обществе получили большое распространение и различные искусственные языки. Они создаются людьми для решения каких-либо задач в области науки и техники (машинные языки), для общения между людьми (эсперанто, профессиональные диалекты). Среди искусственных языков особое значение занимают информационные языки.

Необходимость создания и использования информационных языков для обработки информации возникла и продолжает углубляться по мере совершенствования информационной технологии в обществе. Машинный язык — это искусственный, формальный язык, предназначенный для записи информации, хранящейся в запоминающем устройстве вычислительных машин, для описания программ (алгоритмов), указывающих очередность и последовательность выполнения команд по вводу данных из запоминающего устройства, переработке и преобразованию поступающей в машину информации.

Для поиска информации разрабатываются и широко применяются такие искусственные языки, как информационно-поисковые. Информационнопоисковый язык (ИПЯ) — искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.

Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней:

Элементы каждого уровня объединяются в синтагмы и парадигмы.

Фонетический уровень — это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.

Лексический уровеньили словарный запас — совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица — наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.

Вопрос 2. Упорядочение лексических единиц ИПЯ. Для упорядочения лексических единиц ИПЯ служат парадигматические отношения, которые фактически определяют и задают структуру языка.

Парадигматические отношения (аналитические) — это внетекстовые, объективно существующие смысловые отношения между лексическими единицами, которые устанавливаются и фиксируются в словаре языка, исходя из потребностей информационного поиска. Парадигматические отношения учитывают сходство или различие в объеме и содержании лексических единиц (понятий). Отношения делятся на: сильные (логические) и слабые (ассоциативные).

Объем понятия — множество предметов, отображенных в данном понятии. Например, «периодические издания» включает газеты, журналы. Количество предметов, входящих в объем, может быть конечным (части света), бесконечным (число), существуют единичные понятия (Луна).

Содержание понятия — это отраженная в сознании совокупность свойств, присущих каждому предмету, входящему в объем понятия.

К сильным (логическим) парадигматическим отношениям относятся:

· Эквивалентности (равнозначности) — отношения между понятиями, объемы которых совпадают, но в содержании имеются различия. Например, документ печатный — документ опубликованный; документ рукописный — документ неопубликованный.

· Подчинения — отношения между понятиями, когда объем одного или нескольких понятий входит в объем другого. Например, вторичные документы (род) включают аннотации, рефераты (виды).

· Соподчинения — между видовыми понятиями, в равной степени подчиненными одному родовому. Например, книга, брошюра, листовка — виды непериодических изданий.

· Перекрещивания — между понятиями, содержание которых различно, но объемы частично совпадают. Например, студенты и туристы, писатели и ученые.

· Противоположности — между соподчиненными понятиями, которые в своем содержании имеют несовместимые признаки, обуславливающие несовпадение объемов. Например, документы текстовые и документы машиночитаемые.

· Противоречия (контрадикторности) — между двумя соподчиненными понятиями, видовые признаки которых несовместимы, что обуславливает несовпадение объемов этих понятий. Эти понятия исключают друг друга. Например, документы первичные и документы вторичные.

Слабые (ассоциативные) парадигматические отношения выражают связи не между понятиями, а между самими предметами (технологические, причинно-следственные, системно-элементные). При создании ИПЯ целесообразно фиксировать следующие ассоциативные отношения:

· Целое — часть (Справочно-поисковый аппарат и каталоги, картотеки).

· Система — элемент (Архивная отрасль Беларуси и Национальный исторический архив).

· Отношения детерминации: причина — следствие (Старение публикаций и снижение спроса).

· Процесс — оборудование (Ксерокопирование и ксерокс).

· Процесс — материал (Ксерокопирование и бумага).

· Материал — изделие (Древесина и бумага).

· Изделие — процесс изготовления (Документ и документирование).

· Предмет — назначение (Магнитные диски и запись информации).

· Наука — объекты изучения (Информатика и информация).

· Наука — представители (Философия и Сократ).

Парадигматические отношения позволяют объединять лексические единицы ИПЯ в семантические группы — парадигмы, элементы которых обладают свойством взаимозаменяемости.

Кроме парадигматических отношений существуют синтагматические (синтаксические, грамматические, текстуальные) отношения, служащие для установления семантических связей между лексическими единицами. Речь идет о правилах образования и правилах интерпретации ИПЯ. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

Средства выражения синтагматических отношений называют грамматикой ИПЯ. ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов.

Одной из основных характеристик ИПЯ является семантическая сила — возможность передавать полно и точно содержание сообщений.

Вопрос 3. Требования к ИПЯ. При разработке конкретного ИПЯ учитываются:

— специфика отрасли или предмета, для которой этот язык создаётся,

— особенности текстов, образующих поисковый массив,

— характер информационных потребностей, для удовлетворения которых создается язык.

В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких языках выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного. В середине 20 в. в качестве ИПЯ широко применялись библиотечно-библиографические классификации и классификации дескрипторного типа).

Главная отличительная особенность ИПЯ — простота лексики и грамматики по сравнению с теми же элементами естественного языка. Требования, предъявляемые к ИПЯ: однозначность, точность и недвусмысленность семантики (каждая запись ИПЯ должна иметь точно определенное и одно-единственное значение); большая семантическая сила (словарь должен включать все термины, необходимые для индексирования документов и запросов); удобство для пользования; простота и немногочисленность грамматических средств.

КЛАССИФИКАЦИЯ ИНФОРМАЦИОННО-ПОИСКОВЫХ ЯЗЫКОВ

1) Типы и виды ИПЯ.

2) ИПЯ дескрипторного типа.

3) Методика построения и грамматика ИПЯ дескрипторного типа.

Вопрос 1. Типы и виды ИПЯ. В настоящее время существует множество типов и видов ИПЯ. Наиболее распространенными подходами к классификации ИПЯ являются: классификация Ф.Ланкастера, классификация ВИНИТИ, классификация ЛГИК им. Н.К.Крупской. Последняя классификация представляется наиболее логичной. В ее основу положены три видообразующих признака, учитывающих основные структурные элементы языка: лексику, парадигматику и синтагматику. К этим признакам относятся способ задания лексических единиц, способ кодирования (сочетания) лексических единиц и способ учета парадигматических отношений. Принимается во внимание и возможность автоматизированного поиска.

Читайте так же:  Имеет ли право банк продать мой долг

1) По способу задания лексических единиц: контролируемые и неконтролируемые. Контролируемые ИПЯ — языки, лексика которых задается заранее с помощью словарей и таблиц (УДК, ББК). Неконтролируемые ИПЯ — языки, лексика которых не задается словарем, а строится на основе выбора неограниченного множества терминов естественного языка из индексируемых сообщений.

2) По координации лексических единиц (способу записи): некоординируемые и координируемые. Некоординируемые ИПЯ — языки, не допускающие координации своих лексических единиц ни в процессе индексирования, ни в процессе поиска. Координируемые ИПЯ — языки, в которых лексические единицы координируются между собой или в процессе индексирования, или в процессе поиска. Различают Предкоординируемые и посткоординируемые ИПЯ. Предкоординируемые языки устанавливают порядок записи лексических единиц в процессе индексирования по заранее определенным правилам и предусматривается их жесткая последовательность. Как правило, используются в ручном поиске. Посткоординируемые ИПЯ — языки, в которых лексические единицы задаются в процессе индексирования и сочетаются между собой только в процессе поиска.

3) С учетом и без учета парадигматических отношений: иерархические, фасетные и неиерархические. Языки иерархической структуры представляют собой иерархическую классификацию — систему классов, по которым распределяются понятия на основании наиболее существенных признаков, присущих этим понятиям и отличающих их друг от друга. Класс — совокупность объектов, имеющих один или несколько общих содержательных признаков. Недостаток — невозможность организации внеиерархических связей (иерархическая модель данных — невозможность перекрестных запросов).

Пример иерархической классификации:

1.3.1. 2 Опубликованные

Языки фасетной структуры представляют собой фасетную классификацию — совокупность фасетов, следующих друг за другом в определенной последовательности. В основе построения такой классификации лежит индуктивный метод, который предполагает исследование отдельных предметов множества, нахождение в них общих существенных признаков и группировку на основе последних терминов, обозначающих эти понятия.

Пример фасетной классификации:

1 Документы по знаковой форме представления информации

2 Документы по способу распространения

3 Документы по периодичности изданий

Языки неиерархической структуры являются продуктом эмпирического подхода к построению ИПЯ. Такой подход предполагает создание языка на основе индексирования реальных текстов. Из содержания документа выбираются ключевые слова, которые преобразуются в лексические единицы ИПЯ (ТАСТ, алфавитно-предметная классификация).

К специальным неиерархическим ИПЯ с учетом сильных и слабых прардигматических отношений относится дескрипторный язык.

Вопрос 2. ИПЯ дескрипторного типа. Дескрипторные ИПЯ — искусственные информационные языки, появившиеся 1950-ых годах. Возможность и необходимость их создания были вызваны рядом объективных причин. В эти годы были разработаны первые механизированные системы поиска информации и предпринята попытка использования ЭВМ для решения разнообразных информационно-поисковых задач. Традиционные языки предкоординатного тиап не соответствовали требованиям механизированного, а в дальнейшем автоматизированного поиска информации. Интенсивный поиск новых семантических средств привел к созданию принципиально новых ИПЯ посткоординатного типа. Основы индексирования данных языков были заложены в работах М.Тауба и К.Муерса за рубежом и В.П.Черенина в СССР.

М.Тауб в 1951 году разработал ИПЯ унитермов, т.е. неформализованных единичных терминов, перечнем которых можно достаточно полно и точно передать содержание документа и запроса. Координация унитермов происходит в момент поиска сообщения после получения запроса. Однако этот язык не отвечал требованию однозначности. И нуждался в совершенствовании. В своем первоначальном виде ИПЯ унитермов не применяются. Зато широко распространился ИПЯ унитермов с искусственной грамматикой, который принято называть дескрипторным.

Понятие о дескрипторе ввел в информатику К.Муерс. (Дескриптор — позднелат. descriptor, от лат. describо — описываю). Он предложил уитывать синонимию в языке унитермов и применять лексикографический контроль за используемыми ключевыми словами, который заключался в их нормализации и полном устранении неоднозначности и многозначности. К.Муерс считал, что для контроля лексики должен составляться специальный дескрипторный словарь

Таким образом, дескрипторный язык — искусственный язык посткоординатного типа, построенный на безе формализованной лексики естественного языка. Для контроля лексики создается информационно-поисковый тезаурус (ИПТ) — контролируемый словарь лексических единиц дескрипторного языка, основанный на лексике одного естественного языка, отображающий семантические отношения между лексическими единицами и предназначенный для организации поиска информации путем индексирования документов и/или запросов. Каждый конкретный ИПЯ отражает систему понятий предметной области знания в виде структурированной совокупности терминов и является результатом серьезной и трудоемкой работы.

Вопрос 3. Методика построения и грамматика ИПЯ дескрипторного типа.Разработка ИПТ осуществляется на основе следующих этапов:

1) Определение тематического профиля ИПТ. Тематический профиль определяется путем анализа информационных потребностей специалистов отрасли.

2) Сбор лексики и формирование словника ключевых слов. Словник — исходный массив терминов, который потом подвергается семантической обработке в процессе дескрипторизации. Массив формируется путем извлечения первичных, а чаще вторичных документов и ключевых слов. Иногда используются справочная литература, опрос специалистов. Основная проблема на этом этапе формулировка ключевых слов. Служебные слова (предлоги, союзы, частицы) следует считать неключевыми; общие термины (метод, способ и т.п.) необходимо употреблять только в сочетании с другими словами, конкретизирующими их значение. Ключевыми словами могут быть словосочетания.

3) Построение словарных статей и формирование лексико-семантического указателя. Осуществляется дескрипторизация ключевых слов (для составления дескрипторного словаря) и установление прадигматических отношений между дескрипторами (для увеличения семантической силы языка). Устраняется неоднозначность ключевых слов путем снабжения соответствующими пояснениями — реляторами (ЗАПИСЬ – процесс, ЗАПИСЬ – предмет) Все слова группируются в классы эквивалентности: Безусловноэквивалентные (ОПУБЛИКОВАННЫЕ ДОКУМЕНТЫ = ПЕЧАТНАЯ ПРОДУКЦИЯ) и условно-эквивалентные (ТЕХНИЧЕСКИЕ СРЕДСТВА=АППАРАТУРА)

После этого производится выбор одного из слов в качестве дескриптора. Таким образом, дескриптор — лексическая единица ИПТ, под которой принято понимать нормализованное слово или словосочетание, выбранное из множества условно-эквивалентных ключевых слов для его обозначения. Свойства дескриптора:

§ Полнота выражения смыслового значения данного класса.

§ Краткость и понятность.

§ Частота встречаемости термина в текстах документов и запросов.

Аскриптор — лексическая единица ИПТ, входящая в класс эквивалентности данного дескриптора, которая при индексировании документов и запросов подлежит замене на дескриптор. Результат дескрипторизации: дескрипторный словарь – алфавитный перечень дескрипторов и аскрипторов. Например:

Статьи аскрипторов снабжаются отсылками на заменяющие их дескрипторы. Стандарт предлагает три типа отсылок:

1. Аскриптор – синоним дескриптора:

см ПЕРВИЧНЫЕ ДОКУМЕНТЫ

2. Аскриптор, заменяемый комбинацией дескрипторов (используй комбинацию):

исп к РУССКИЙ ЯЗЫК

3. Аскрипторы, заменяемые несовместимыми дескрипторами (используй альтернативу):

Далее устанавливаются парадигматические отношения. Данный процесс включает:

Логический анализ – сопоставление объемов понятий, представленных дескрипторами:

вр ОРГАНИЗАЦИОННО_РАСПОРЯДИТЕЛЬНАЯ ДОКУМЕНТАЦИЯ (выше род)

нв ПРИКАЗЫ ПО ЛИЧНОМУ СОСТАВУ (ниже вид)

Ассоциативный анализ – сопоставление признаков предметов, входящих в определенные понятия, представленные дескрипторами.

вц НАУНО-СПРАВОЧНЫЙ АППАРАТ (выше целое)

нч ОТДЕЛ (ниже часть)

Прагматический анализ – упорядочение структуры и состава словарной статьи дескриптора. Учитывает: область ИПТ, терминологические особенности отрасли знания

Структура дескрипторной статьи имеет вид:

Д – заглавный дескриптор;

Мс – множество аскрипторов, входящих в класс эквивалентности дескриптора;

Мв – множество вышестоящих дескрпиторов;

Мн – множество нижестоящих аскрипторов;

Ма – множество ассоциативных дескрпиторов.

Например для дескриптора:

с АРХИВНЫЕ СЛУЖБЫ

в ИНФОРМАЦИОННЫЕ СЛУЖБЫ

н НАЦИОНАЛЬНЫЙ АРХИВ

а СИСТЕМА АРХИВНОГО ОБСЛУЖИВАНИЯ

4) Разработка вспомогательных указателей. Наиболее распространены три типа указателей: систематический указатель дескрипторов тезауруса, указатель иерархических отношений и пермутационный указатель дескрипторов. Систематический указатель – алфавитный список дескрипторов (тематический, категориальный, смешанный). Указатель иерархических отношений — свод классификационных деревьев. Каждый дескриптор может входить при этом более чем в одно дерево. Пермутационный указатель — перечень списков, каждый их которых соответствует одному из знаменательных слов в составе лексической единицы. Предназначен для поиска лексической единицы по отдельным словам.

5) Оформление ИПТ.

6) Экспертиза и регистрация ИПТ.

Основным способом уменьшения информационного шума является введение в ИПЯ грамматических средств, которые позволяют точно и полно выражать синтагматические отношения. Грамматические средства делятся на:

— фрагментирующие. Для разделения поискового образа на части. К ним относятся указатели связи (буквы, цифры, знаки);

— смыслоразличительные. Для указания смысловой роли различительных слов внутри фрагмента поискового образа. К ним относятся указатели роли.

Информационно-поисковый язык информационных систем

Требования к информационно-поисковому языку (ИПЯ). Необходимость его создания и использования для обработки информации. Обобщенная структура тезауруса. Типы, виды и свойства ИПЯ. Классификационные и дескрипторные языки индексирования, их применение.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

по дисциплине: «Автоматизированные информационные системы»

на тему: «Информационно-поисковый язык информационных систем»

1. Информационно-поисковые языки

1.1 Структура и требования

1.2 Свойства инфомационно-поисковых языков

1.3 Основные информационно-поисковые языки

1.4 Типы и виды информационно-поисковых языков

1.5 Классификационные информационно-поисковые языки

1.6 Дескрипторные информационно-поисковые языки

2. Применение ИПЯ в различных поисковых системах

В современном мире огромную роль в жизни людей играет информация. Постоянная, регулярная работа с информацией в наше время стала неотъемлемой частью жизни каждого цивилизованного современного человека. Человеку, в силу своей профессии или увлечений часто сталкивающемуся с подбором и поиском какой-либо тематической информации, рано или поздно (с возрастанием ее объема) приходится применять некоторые принципы систематизации и классификации имеющихся данных, обеспечивающие более удобный и эффективный поиск. Так, в библиотеках составляют картотеку: сведения о книге по определенной схеме записываются на карточку, туда же помещается шифр — несколько букв и цифр, по которым можно определить местоположение книги (хранилище, стеллаж, полку); карточки расставляются в алфавитном или тематическом порядке. Применение ЭВМ дает более широкие возможности для работы с большими массивами информации. На данном этапе развития информационных систем весьма актуальны проблемы оптимизации информационно-поисковых механизмов, поисковых аппаратов, систем индексирования и обработки данных для увеличения эффективности работы пользователей и получения максимально релевантных результатов при работе с поисковыми системами.

Для общения человека с компьютером разрабатываются специальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального предварительного преобразования. В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.

Синонимы — слова, различающиеся по написанию, но совпадающие по смыслу (Казахстан, РК, Республика Казахстан). Омонимы — слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть — телеграфный, поисковый, к замку, к шкафу и т.д.). Полисемия — наличие у одного и того же слова нескольких разных, но связанных между собой значений (например: фамилия — как имя и фамилия как семья; индекс — как средство более быстрого поиска в БД и как код документа в ИПС). Избыточность естественного языка — наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением. Искусственный язык, как правило, разрабатывается на основе естественного языка. При этом устраняется многозначность слов естественного языка. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, которые называются информационно-поисковыми языками.

1. Информационно-поисковые языки

1.1 Структура и требования

Информационно-поисковые языки: структура и требования. Наряду с многочисленными естественными языками в человеческом обществе получили большое распространение и различные искусственные языки. Они создаются людьми для решения каких-либо задач в области науки и техники (машинные языки), для общения между людьми (эсперанто, профессиональные диалекты). Среди искусственных языков особое значение занимают информационные языки.

Необходимость создания и использования информационных языков для обработки информации возникла и продолжает углубляться по мере совершенствования информационной технологии в обществе. Машинный язык — это искусственный, формальный язык, предназначенный для записи информации, хранящейся в запоминающем устройстве вычислительных машин, для описания программ (алгоритмов), указывающих очередность и последовательность выполнения команд по вводу данных из запоминающего устройства, переработке и преобразованию поступающей в машину информации.

Для поиска информации разрабатываются и широко применяются такие искусственные языки, как информационно-поисковые. Информационно-поисковый язык (ИПЯ) — искусственная знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации.

Структура ИПЯ однотипна с формальной структурой информации и предполагает выделение следующих уровней:

Элементы каждого уровня объединяются в синтагмы и парадигмы.

Фонетический уровень — это алфавит (списка элементарных символов). В ИПЯ для этого применяют символы естественного языка: кириллица, латинский алфавит, арабские и римские цифры, знаки пунктуации.

Лексический уровень или словарный запас — совокупность всех употребляемых в ИПЯ лексических единиц. Лексическая единица — наименьшая осмысленная последовательность знаков, задаваемая при конструировании отдельных слов языка. Лексические единицы и образуют лексику языка.

Упорядочение лексических единиц ИПЯ. Для упорядочения лексических единиц ИПЯ служат парадигматические отношения, которые фактически определяют и задают структуру языка.

Автоматизированные информационные системы — системы для сбора, накопления, хранения, поиска, передачи, обработки информации с использованием вычислительной техники, компьютерных информационных сетей, средств и каналов связи.

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. На технологии гипертекста базируется самый известный сервис Internet World Wide Web (WWW).

Первоначальным направлением развития СУБД стала разработка и использование фактографических информационных систем, которые ориентированы на обработку структурированных данных. Были разработаны модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы языки запросов к БД.

Однако создание фактографических информационных систем требует предварительной структуризации данных, например, на основе таблиц. Она зачастую требует больших накладных расходов. Вместе с тем накапливаются большие объемы неструктурированной информации: в организационно-распорядительных документах или других текстовых источниках. Представление такой информации в фактографических системах зачастую экономически не оправдано. Теоретические исследования вопросов автоматизации обработки неструктурированной информации, начавшись еще в 50-х годах, пока не привели к созданию такой строгой, полной и технически реализуемой модели представления и обработки данных, как реляционная модель. Пока не разработаны стандартные информационно-поисковые языки (подобные SQL), которые можно было бы использовать для формализованного описания содержания документов и построения запросов.

Элементом данных в документальных Информационных Системах является документ (в фактографических информационных системах элементом является запись). Обычно под документом понимается текстовый файл. информационный поисковый язык дескрипторный

Читайте так же:  Арбитражные суды их система структура и полномочия

Основной задачей документальных информационных систем является хранение и предоставление пользователю документов, содержание которых соответствуют его информационным потребностям.

Документальная информационная система (ДИС) — единое хранилище документов с инструментарием поиска и выдачи, необходимых пользователю документов.

Поисковый характер документальных информационных систем (определил еще одно их название — информационно — поисковые системы (ИПС)).

Соответствие найденных документов информационным потребностям пользователя называется пертинентностью.

В зависимости от особенностей реализации хранилища документов и механизмов поиска, Документальную информационную систему можно разделить на две группы:

Ш системы на основе индексирования;

Ш семантически-навигационные системы.

Семантика (от греч. semantikos — обозначающий) — значения единиц языка.

В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа.

В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса — координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности, посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов.

На основе определенных критериев Документальной информационной системы осуществляет поиск и выдачу документов, поисковые образы которых соответствуют поисковым образам запроса пользователя.

Соответствие найденных документов запросу пользователя называется релевантностью.

Информационно-поисковая система для управленческих документов, как правило, требует разработки собственного информационно-поискового языка.

Информационно-поисковый язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса.

1.2 Свойства инфомационно-поисковых языков

Искусственный язык, как правило, разрабатывается на основе естественного языка. При этом устраняется многозначность слов естественного языка.

Информационно-поисковый язык состоит из алфавита, лексики и грамматики. Алфавит — система знаков, используемая для записи слов. В информационно-поисковых языках могут быть использованы: буквы латинского алфавита; кириллица; цифры; пунктуационные знаки. Лексика (словарный состав) — совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лексическая единица — слово или семантически неделимое словосочетание, выражающее какое-либо понятие. Грамматика — набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис. Морфология — правила построения и изменения слов. Синтаксис — правила построения и изменения соединения слов (построение фраз). Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения.

Эти отношения можно разделить на парадигматические и синтагматические.

Парадигматические отношения — логические отношения, существующие между лексическими единицами информационно-поискового языка независимо от контекста, в котором эти лексические единицы употребляются. Эти отношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Примеры парадигматических отношений: часть — целое (отдел — организация); род — вид (ценная бумага — акция); причина-следствие; функциональное сходство; ассоциации. Учет парадигматических отношений необходим для правильного выбора и точного употребления слов. Поэтому в семантически развитом информационно-поисковом языке должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске нормативных документов, касающихся термина «акция», для увеличения полноты поиска возможно указание термина «ценная бумага».

Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и предложения. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов. Таким образом, развитый информационно-поисковый язык должен обладать средствами отображения парадигматических и синтагматических отношений.

Для оценки сравнительной эффективности различных языков используется понятие семантическая сила языка.

Семантическая сила Информационного Поискового Языка характеризует смысловыразительные возможности ИПЯ и показывает, насколько информационно-поисковый язык уступает естественному языку. Семантическая сила тем больше, тем богаче словарный состав информационно-поискового языка и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений между словами.

Можно указать следующие требования, которым должен удовлетворять семантически развитый информационно-поисковый язык:

Ш располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;

Ш не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование;

Ш отображать только объективные характеристики предметов и отношений между ними;

Ш быть удобным для алгоритмического сопоставления (отождествления) поискового образа документа (ПОД) и поискового предписания (ПП).

Как правило, чем больше семантическая сила информационно-поискового языка, тем труднее с ним работать. Наиболее часто в качестве основания деления при классификации информационно-поисковые языки используют способ организации понятий.

По способу организации понятий различают:

Ш предкоординируемые (классификационные) информационные поисковые языки;

Ш посткоординируемые (дескрипторные) информационные поисковые языки.

Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка. Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т.е. классификация документа.

Посткоординируемые (дескрипторные языки) основаны на методе координатного индексирования. В посткоординируемых информационно-поисковых языках лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного информационно-поискового языка состоит из специальным образом, выбранных отдельных слов или словосочетаний естественного языка — ключевых слов и дескрипторов.

Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов.

Ключевые слова — это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией.

Назывные слова — слова, обозначающие вещи, явления, процессы, имена собственные (т.е. в качестве ключевого слова не может выступать предлог, союз и др.).

1.3 Основные информационно-поисковые языки

Информационно-поисковые каталоги, основанные на классификации сведений по определенной предметной области, были первыми системами информационного поиска документов.

Классификация — это группировка объектов по признакам.

По области или по сфере применения информационно-поисковых языков можно выделить:

Ш коммуникативные (общесистемные) информационно-поисковые языки — предназначенные для обеспечения взаимодействия между различными (информационными, библиотечными и др.) системами (в том числе распределенными по государственной, ведомственной или территориальной принадлежности);

Ш локальные (внутренние) информационно-поисковые языки — предназначенные для использования в рамках отдельной системы;

Ш внешние информационно-поисковые языки — используемые в других системах и предназначенные для взаимодействия только с ними.

Различают языки описания (декларативные языки), которые в свою очередь подразделяются на языки предкоординатные (классификационные) и посткоординатные (дескрипторные), а также процедурные языки — языки запросов и манипулирования данными.

1.4 Типы и виды информационно-поисковых языков

В настоящее время существует множество типов и видов ИПЯ. Наиболее распространенными подходами к классификации ИПЯ являются: классификация Ф. Ланкастера, классификация ВИНИТИ, классификация ЛГИК им. Н.К. Крупской. Последняя классификация представляется наиболее логичной. В ее основу положены три видообразующих признака, учитывающих основные структурные элементы языка: лексику, парадигматику и синтагматику. К этим признакам относятся способ задания лексических единиц, способ кодирования (сочетания) лексических единиц и способ учета парадигматических отношений. Принимается во внимание и возможность автоматизированного поиска.

Ш По способу задания лексических единиц: контролируемые и неконтролируемые. Контролируемые ИПЯ — языки, лексика которых задается заранее с помощью словарей и таблиц (УДК, ББК). Неконтролируемые ИПЯ — языки, лексика которых не задается словарем, а строится на основе выбора неограниченного множества терминов естественного языка из индексируемых сообщений.

Ш По координации лексических единиц (способу записи): некоординируемые и координируемые. Некоординируемые ИПЯ — языки, не допускающие координации своих лексических единиц ни в процессе индексирования, ни в процессе поиска. Координируемые ИПЯ — языки, в которых лексические единицы координируются между собой или в процессе индексирования, или в процессе поиска. Различают Предкоординируемые и посткоординируемые ИПЯ. Предкоординируемые языки устанавливают порядок записи лексических единиц в процессе индексирования по заранее определенным правилам, и предусматривается их жесткая последовательность. Как правило, используются в ручном поиске. Посткоординируемые ИПЯ — языки, в которых лексические единицы задаются в процессе индексирования и сочетаются между собой только в процессе поиска.

Ш С учетом и без учета парадигматических отношений: иерархические, фасетные и неиерархические. Языки иерархической структуры представляют собой иерархическую классификацию — систему классов, по которым распределяются понятия на основании наиболее существенных признаков, присущих этим понятиям и отличающих их друг от друга. Класс — совокупность объектов, имеющих один или несколько общих содержательных признаков. Недостаток — невозможность организации в неиерархических связей (иерархическая модель данных — невозможность перекрестных запросов). Языки фасетной структуры представляют собой фасетную классификацию — совокупность фасетов, следующих друг за другом в определенной последовательности. В основе построения такой классификации лежит индуктивный метод, который предполагает исследование отдельных предметов множества, нахождение в них общих существенных признаков и группировку на основе последних терминов, обозначающих эти понятия.

1.5 Классификационные информационно-поисковые языки

К классификационным языкам относят:

Ш информационно-поисковый язык иерархического типа;

Ш информационно-поисковый язык фасетного типа;

Ш алфавитно-предметную классификацию.

Иерархическая классификация — это перечислительная классификация (т.е. все возможные классы заранее перечислены), в которой каждый класс делится на подклассы. Термины в иерархической классификации расположены в порядке их перехода от общих понятий к частному. Классификация осуществляется в зависимости от выбранных оснований деления и порядка их следования. В иерархической классификации необходимо иметь отдельные исчерпывающие классы для всех возможных предметов, т.е. все возможные классы должны быть заранее перечислены, поэтому иерархическую классификацию и называют перечислительной.

Процедура построения информационно-поискового языка иерархического типа включает следующие этапы:

Ш Анализ предметной области, определение оснований деления (признаков классификации). В качестве признаков классификации выбирают такие, по которым имеет смысл производить поиск документов в данной предметной области.

Ш Установление, соподчиненное признаков. Соподчиненность может быть естественной или установленной.

Ш Формирование классов документов на основе выбранных признаков классификации. Получение иерархического дерева классов.

Ш Формирование индексов каждого класса.

Ш Составление классификационных таблиц и алфавитного указателя. В классификационной таблице классы упорядочены по индексу, а в алфавитном указателе — по алфавиту.

Индексирование с использованием информационно-поискового языка иерархического типа заключается в определении того, к какому классу относится описываемый объект, и в определении по классификационной таблице и алфавитному указателю индекса этого класса. Преимущество языков иерархического типа состоит в простоте индексирования и поиска.

Классификация наиболее эффективна в том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в течение времени не изменяется (т.е. предметы естественно находятся в жесткой иерархической соподчиненности). Например, классификация документов в организации, имеющей стабильную структуру.

Информационно-поисковый язык фасетного типа основаны на принципах многоаспектной классификации, в которой каждый конкретный класс строится при индексировании по определенным правилам из предварительно заданных категориальных классов — фасетов. В системах фасетной классификации не ставится задача перечислить все сложные классы. Такие системы предлагают составные элементы, из которых по фасетной формуле составляется индекс.

Процедура разработки информационно-поискового языка фасетного типа состоит из следующих этапов:

Ш Анализ предметной области, для которой составляется классификация. Выделение основных признаков классификации. Эти категории называются фасетами, которые при необходимости более детальной классификации могут делиться на субфасеты и т.д.

Ш Все возможные простые классы группируются по фасетам. Каждый простой класс фасета называется фокусом.

Ш Обозначение соответствующими шифрами фасетов и фокусов.

Ш Установление фиксированной последовательности фасетов в поисковом образе (фасетная формула).

Ш Составление алфавитного указателя фасет и фокусов.

Преимущество информационно-поискового языка фасетного типа по сравнению с ИПЯ иерархического типа состоит в том, что допускается многоаспектное индексирование, так как существует возможность строить классы из разных сочетаний фокусов и получать любые сочетания заранее выбранных характеристик объектов классификации. На практике иерархическая и фасетная классификация часто используются в сочетании. Например, УДК — универсальная десятичная классификация. Алфавитно-предметная классификация — система классов, каждый из которых соответствует определенной теме или одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов. Основной словарный состав (лексика) информационно-поискового языка состоит из упорядоченных по алфавиту множества слов, словосочетаний и фраз естественного языка.

Алфавитно-предметная классификация — это система классов, соответствующих определенной теме и расположенных в алфавитном порядке имен этих классов.

Алфавитно-предметная классификация содержит:

Ш предметный заголовок — слово, словосочетание или фраза ЕЯ, используемое для обозначения предмета или темы, заголовок может подразделяться на подзаголовки;

Ш предметный словник (лексический состав языка) — упорядоченное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификации;

Ш предметную рубрику — совокупность предметного заголовка с описанием адреса хранения документов, основная тема которых обозначается этим предметным заголовком.

Алфавитно-предметная классификация предназначена для построения каталогов для узко предметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библиографическое описание) документов, предмет которых обозначен данным заголовком.

Порядок составления алфавитно-предметной классификации:

Ш Анализ предметной области и выбор тем классификации.

Ш Устранение синонимии слов, словосочетаний и фраз, используемых в качестве предметного заголовка. В случае синонимии можно использовать систему ссылок.

Ш Выделение основных, ведущих слов в словосочетаниях и фразах, используемых в качестве предметных заголовков. Обозначение парадигматических связей между названиями предметов и тем. Эти связи обозначаются с помощью ссылок.

Алфавитно-предметная классификация используется главным образом для информационного поиска по отдельным предметам и темам. И применяется в качестве предметных указателей к каталогам документов.

Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любому, заранее не заданному сочетанию признаков.

1.6 Дескрипторные информационно-поисковые языки

Дескрипторные ИПЯ — искусственные информационные языки, появившиеся 1950-ых годах. Возможность и необходимость их создания были вызваны рядом объективных причин. В эти годы были разработаны первые механизированные системы поиска информации и предпринята попытка использования ЭВМ для решения разнообразных информационно-поисковых задач. Традиционные языки предкоординатного типа не соответствовали требованиям механизированного, а в дальнейшем автоматизированного поиска информации. Интенсивный поиск новых семантических средств привел к созданию принципиально новых ИПЯ посткоординатного типа. Основы индексирования данных языков были заложены в работах М. Тауба и К. Муерса за рубежом и В.П. Черенина в СССР.

Читайте так же:  Scanxl лицензия

М. Тауб в 1951 году разработал информационно-поисковый язык унитермов, т.е. неформализованных единичных терминов, перечнем которых можно достаточно полно и точно передать содержание документа и запроса. Координация унитермов происходит в момент поиска сообщения после получения запроса. Однако этот язык не отвечал требованию однозначности. И нуждался в совершенствовании. В своем первоначальном виде ИПЯ унитермов не применяются. Зато широко распространился информационно- поисковый язык унитермов с искусственной грамматикой, который принято называть дескрипторным.

Понятие о дескрипторе ввел в информатику К. Муерс. (Дескриптор — позднелат. descriptor, от лат. describо — описываю). Он предложил учитывать синонимию в языке унитермов и применять лексикографический контроль за используемыми ключевыми словами, который заключался в их нормализации и полном устранении неоднозначности и многозначности. К. Муерс считал, что для контроля лексики должен составляться специальный дескрипторный словарь.

В основе построения дескрипторных информационно-поисковых языков лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.

Основными элементами дескрипторных информационно-поисковых языков являются:

Ш словарь лексических единиц;

Ш правила применения информационно-поискового языка (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного языка на ИПЯ;

Ш правила построения ИПЯ.

Ш Словари лексических единиц делятся на две группы:

Ш основные лексические словари, составляющие лексику информационно-поискового языка;

Ш морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы.

Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть использованы: код, слово или словосочетание.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).

Тезаурус (от греч. «хранилище», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова — дескрипторы определенной предметной области, указаны их синонимы, установлены способы устранения синонимии, омонимии, полисемии, определены родовидовые и ассоциативные связи дескрипторов.

Наиболее важными парадигматическими отношениями информационно-поискового тезауруса являются:

Ш функциональное сходство.

Обобщенная структура информационно-поискового тезауруса включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию.

Словарная часть — алфавитный список дескрипторов с их словарными статьями.

Семантическая карта — система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.

Руководство по использованию информационно-поискового тезауруса содержит правила перевода ключевых слов и словосочетаний на информационно-поисковом языке, правила лексикографического контроля и редактирования поискового образа документа и поискового образа запроса, а также правила ведения информационно-поискового тезауруса.

Отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескриптивного подхода. Однако в процессе индексирования учитываются семантические отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию документа поисковый образ и повышает эффективность поиска документов.

В настоящее время происходит расширение сфер применения автоматических тезаурусов. При этом тезаурусы выступают составной частью современных систем подготовки текстов, осуществляя лингвистическую поддержку процесса подготовки и обработки текстов на естественном языке.

Среди наиболее перспективных направлений развития автоматических тезаурусов можно указать следующие:

Получение справки по используемому слову. Указав слово, в качестве ключа для запроса, пользователь в ответ получает соответствующий фрагмент словаря, содержащий лингвистическую информацию о данном слове. Например, автоматический тезаурус получает от пользователя некоторое существительное и в ответ выдает совокупность устойчиво сочетающихся с ним глаголов или все наиболее часто сопровождающие его определения. При этом автоматически выполняется процедура нормализации входного слова (т.е. приведение существительного к именительному падежу).

Контекстные замены по требованию пользователей. В данном случае тезаурус не только подбирает вместо одного словосочетания другое, которое пользователь счел более соответствующим контексту по смысловым или стилистическим соображениям, но и автоматически переоформляет параметры слов (например, род прилагательного) в соответствии с контекстом. Это означает, что синтаксические операции, производимые тезаурусом, существенно усложняются.

Автоматическая оценка стиля. Если слова и словосочетания в тезаурусе снабдить стилистическими пометками, то он может использоваться для стилистической оценки текста с выделением слов и словосочетаний, выпадающих, из общего стиля документа.

Методика построения и грамматика ИПЯ дескрипторного типа. Разработка ИПТ осуществляется на основе следующих этапов:

Ш Определение тематического профиля ИПТ. Тематический профиль определяется путем анализа информационных потребностей специалистов отрасли.

Ш Сбор лексики и формирование словника ключевых слов. Словник — исходный массив терминов, который потом подвергается семантической обработке в процессе дескрипторизации. Массив формируется путем извлечения первичных, а чаще вторичных документов и ключевых слов. Иногда используются справочная литература, опрос специалистов. Основная проблема на этом этапе формулировка ключевых слов. Служебные слова (предлоги, союзы, частицы) следует считать неключевыми; общие термины (метод, способ и т.п.) необходимо употреблять только в сочетании с другими словами, конкретизирующими их значение. Ключевыми словами могут быть словосочетания.

Ш Построение словарных статей и формирование лексико-семантического указателя. Осуществляется дескрипторизация ключевых слов (для составления дескрипторного словаря) и установление прадигматических отношений между дескрипторами (для увеличения семантической силы языка). Устраняется неоднозначность ключевых слов путем снабжения соответствующими пояснениями — реляторами (Запись — процесс, запись — предмет) Все слова группируются в классы эквивалентности: Безусловно-эквивалентные (опубликованные документы — печатная продукция) и условно-эквивалентные (технические средства — аппаратура).

После этого производится выбор одного из слов в качестве дескриптора. Таким образом, дескриптор — лексическая единица ИПТ, под которой принято понимать нормализованное слово или словосочетание, выбранное из множества условно-эквивалентных ключевых слов для его обозначения.

Ш полнота выражения смыслового значения данного класса;

Ш краткость и понятность;

Ш частота встречаемости термина в текстах документов и запросов.

2. Применение ИПЯ в различных поисковых системах

При описании и классификации информационно-поисковых систем ставилась задача проанализировать наиболее популярные и наиболее типичные системы, которыми пользуются в Сети.

Lycos. Как и большинство систем, Lycos дает возможность использовать простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке. Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о числе документов на каждое слово, а уже позже и список ссылок на формально релевантные документы. В списке напротив каждого документа указывается его мера близости запросу, число слов из запроса, которые попали в документ и оценочная мера близости, которая может быть больше или меньше формально вычисленной. На апрель 1996 года в Lycos не был реализован булевый поиск, такие планы были анонсированы. Последнее предложение подразумевает только то, что нельзя вводить эти операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Последнее относится к расширенной форме запроса, который предназначен для использования искушенными пользователями системы, которые уже научились пользоваться этим механизмом.

Таким образом, мы видим, что Lycos относится к системе с языком запросов типа «Like this», но предполагается его расширения и на другие способы организации поисковых предписаний.

AltaVista. Наиболее интересным с точки зрения информационно-поискового языка в AltaVista является возможность расширенного поиска. Здесь стоит сразу выделить, что в отличии от многих систем AltaVista поддерживает одноместный оператор NOT. Кроме этого есть еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой словарь этих фраз. Кроме всего прочего, при поиске в АltaVista можно задать имя поля где должно встретиться слово. Это может быть гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но сказано, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo. Данная система появилась в сети одной из первых, и поэтому говорить будем о сегодняшнем состоянии Yahoo, а не о состоянии годовой давности. В настоящее время Yahoo сотрудничает со многими производителями средств информационного поиска и на различных ее серверах используется различное программное обеспечение. На наш взгляд, это самая незатейливая информационная служба, которая сосредоточилась на информации о Web как таковой. ИПЯ Yahoo достаточно прост: все слова следует вводить через пробел и они соединяются либо AND, либо OR. При выдаче не выдается степени соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на «общие» слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что информация в базе данных Yahoo точно есть. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText. Информационная система OpenText представляет из себя самый коммерциализированный информационный продукт в сети. Все описания больше напоминают рекламу, чем реальное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов поиска сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести без сомнения к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

InfoSeek. Система InfoSeek обладает довольно развитым информационно-поисковым языком, который позволяет не просто указывать какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков «+» — термин обязан быть в документе, «-» — термин обязан отсутствовать в документе. Кроме этого InfoSeek позволяет проводит то, что называется контекстным поиском. Это значит, что используя специальную форму запроса можно потребовать последовательной совместной встречаемости слов. Кроме этого можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Есть возможность и указания ключевых фраз. Ключевая фраза от последовательной встречаемости отличается тем, что фраза всегда ищется как единое целое, а при последовательной встречаемости слова могут стоять рядом, но в произвольном порядке. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса в документе, за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме можно сказать, что InfoSeek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS. WAIS является одной из наиболее изощренных поисковых систем Интернет. В отличии от многих поисковых машин, ИПЯ системы позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечение терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии «Британика» на Интернет.

Применение языков на практике. Рассмотрим теперь небольшой сравнительный пример использования описанных выше поисковых машин. В качестве запроса использовалась фраза:

«Best on the Web». Подразумевалось, что следует найти документ, связанный с конкурсами «Лучший на Сети». Эта фраза задавалась в качестве набора слов и при этом получались следующие результаты.

AltaVista — после нормализации лексики от запроса осталось только Best. Естественно, что при этом качество поиска было неудовлетворительным. Однако, использование поиска по фразе как по единому целому, поставило требуемый документ на первое место в списке найденных.

Lycos — здесь отсеялись «on the» и документ был указан только в конце списка. Поиск по фразе улучшения результатов не дал.

InfoSeek — при расширенном поиске нужный документ был найден третьим в списке из десяти документов. Уточнение поиска привело только к миграции документа вглубь списка.

OpenText — документ занимает пятую строчку в списке из десяти документов. Как и в случае с InfoSeek уточнение запроса результатов не дало.

Yahoo — документ попал в список найденных и занял третье место (ошибка в запросе: вместо «on the» следовало указывать «of the»). Но здесь следует заметить, что основное место хранения этого документа база данных Yahoo, т.е. запрос точно совпадает с тематикой базы данных.

В завершении хотелось бы обратить внимание еще на один аспект выбора информационно-поисковой системы. Это профиль ее баз данных. Можно возразить, что все системы индексируют одно и тоже — массив документов Интернет. Однако делают они это по-разному. Очень важен профиль системы, который задается разбиением документов по темам и словарем индексирования, а также способом его поддержания. Определенным ориентиром здесь могут служить виртуальные библиотеки.

Итоги теоретического исследования позволили нам выявить достоинства и недостатки различных ИПС, базирующихся на том или ином информационно-поисковым языке.

Так как каждая поисковая система предоставляет различные возможности поиска, из различных баз данных, поэтому информационный поиск на базе ИПС представляет собой достаточно сложный процесс познавательно-практической деятельности, требующий от поисковых субъектов априорной подготовки.

Анализ ИПЯ сети интернет поможет провести свой собственный выбор наиболее подходящего средства поиска, которое обеспечивало актуальность, быстроту и точность результатов.

1. ГОСТ 7.25-2001 СИБИД. Информационно-поисковые языки. Термины и определения — М.: Изд-во стандартов, 2001. — 38 с.

2. Егоров А.Б. Поиск в Интернете — Санкт — Петербург.: НиТ, 2007 г.

3. Захаров В.П. Информационно-поисковые системы: Учебно-методическое пособие. — Спб., 2005 г, 48 с.

4. Кузьмин А.В. Золотарева Н.Н. Поиск в Интернете — СПб.: Изд-во НиТ, 2006 г.

5. Лозовский Л.Ш., Ратновский Л.А. Интернет — это интересно. — М.: ИНФРА-М, 2007. — 128 с.

6. Н.А. Гайдамакин. Автоматизированные информационные системы, базы и банки данных, М.: «Гелиос», 2006.

7. Симонович С.В., Мураховский В.И. Интернет у вас дома: Полное руководство для начинающего пользователя. — М.: АСТ-ПРЕСС, 2008. — 432 с.

8. Храмцов П.И. Информационно-поисковые языки, М.: «Гелиос», 2008.