Проблема поиска информации в интернете

НА МАТЕРИАЛЕ INTERNET На правах рукописи МЕТОДЫ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ПОИСКА НАУЧНОЙ ИНФОРМАЦИИ НА МАТЕРИАЛЕ INTERNET Специальность 05. Официальные оппоненты: доктор технических наук, профессор Чапцов Ведущая организация: Защита диссертации состоится 27 декабря 2000 г. Р-237 на заседании диссертационного совета К 063. Отзывы на автореферат в двух экземплярах, заверенные печатью учреждения, просим направлять по адресу: 620002, Екатеринбург, ул. Мира, 19, УГТУ-УПИ, Ученому секретарю. С диссертацией можно ознакомиться в библиотеке УГТУ-УПИ. Автореферат разослан 25 ноября 2000 г. Ученый секретарь диссертационного совета Морозова Общая характеристика работы Актуальность темы. Эффективность научно-исследовательских работ напрямую зависит от качества их информационного обеспечения, а поиск информации является ключевым этапом любого научного исследования. На сегодняшний день глобальная сеть Internet - важнейший источник информации для всех областей знаний, однако поиск специализированной научно-технической информации при помощи Internet зачастую оказывается малоэффективным. В последние годы мы наблюдаем бурный рост Internet, что ведет к все большему разнообразию информационного наполнения сети. По мере развития Internet обостряется парадокс: вероятность присутствия необходимой информации в глобальном информационном пространстве растет, а вероятность ее нахождения - уменьшается. Это происходит потому, что наполнение сети очень разнородно, громадно по объему, проблема поиска информации в интернете обновляется, плохо поддается структуризации и управлению. В настоящее время в Internet представлены два основных вида служб поиска информации: тематические каталоги ресурсов и машины поиска МП по ключевым словам. Эти универсальные средства обладают целым рядом недостатков с точки зрения поиска научной информации. Процесс отнесения документа к одному из разделов тематического каталога не поддается полностью автоматизации, поэтому каталоги охва-тывают ограниченное количество ресурсов и "не успевают" за ростом сети. Машины поиска по ключевым словам охватывают больше ресурсов и чаще обновляются. Однако проблема поиска информации в интернете они оказываются малоэффективными с точки зрения поиска научной информации из-за большого уровня шума ссылок на нерелевантные документыограниченных возможностей языков запросов и формы представления результатов поиска. Поэтому сегодня особую актуальность приобретают исследования, направленные на повышение эффективности поиска научной информации в Internet. Решение проблемы лежит в области разработки теоретических основ, методов и средств использования слабо структурированных информационных баз в научных исследованиях. Целью работы является разработка методов повышения эффективности поиска научной информации на материале документов Internet. Для достижения указанных целей в работе поставлены и решены следующие задачи: разработка процедуры автоматической классификации документов проблема поиска информации в интернете стилям; разработка структурной схемы машины поиска с использованием стилистического анализа; разработка модели расширения запроса на основе тезауруса с сильно дифференцированным набором семантических отношений; разработка структурной схемы поиска информации проблема поиска информации в интернете использованием процедуры расширения запроса на основе тезауруса; разработка макетных версий программ, реализующих предложенные методы; тестирование разработанных методов; выработка рекомендаций по практическому использованию методов. Объекты и методы исследования. Объекты исследования - русскоязычные текстовые документы сети Internet, а также механизмы поиска информации в Internet. Для их исследования использовались положе-ния теории информационного поиска, функциональной стилистики, терминоведения, а также методы прикладной статистики и элементы дискретной математики. Научная новизна проблема поиска информации в интернете состоит в проблема поиска информации в интернете разработана процедура автоматической стилистической классификации текстовых документов; введен показатель стилистической информативности документа; разработана модель расширения запроса на основе тезауруса с сильно дифференцированным набором семантических отношений. Разработанные методы повышения эффективности поиска научной информации реализованы в виде макетных версий программ стилистического анализа и ассистента формирования запросов на основе тезауруса. В работе предложены эффективные с точки зрения практического использования структурные схемы поиска научной информации с применением разработанных методов. Разработанные программы прошли испытания и внедрены в компании Екатеринбург, НИИ ЦветМет Екатеринбург. Результаты работы используются в научных исследованиях и учебном процессе на кафедре риторики и стилистики русского языка Уральского государственного университета и на кафедре вычислительной проблема поиска информации в интернете Уральского государственного технического университета-УПИ. На защиту выносятся: Метод повышения эффективности поиска научной информации на проблема поиска информации в интернете процедуры стилистической классификации текстовых документов. Метод ранжирования документов на основе показателя стилистической информативности. Метод повышения эффективности поиска научной информации на основе расширения поискового запроса с помощью тезауруса с сильно дифференцированными семантическими отношениями. Основные результаты и положения работы докладывались и обсуждались на XXXV Международной научной студенческой конференции "Студент и научно-технический прогресс" Новосибирск, 1997всероссийской конференции "Информационные технологии, системы управления и электроника" Екатеринбург, 1997семинаре "Методы прикладной математики информационные технологии в многодисциплинарных исследованиях и проектах" Омск, 199830-й проблема поиска информации в интернете молодежной конференции "Проблемы теоретической и прикладной математики" Екатеринбург, 1999четвертом и пятом рабочих совещаниях по электронным публикациям Проблема поиска информации в интернете и EL-PUB-2000 Новосибирск, 1999 и 2000рабочем совещании "Новые Интернет-технологии" Петрозаводск, 2000. Основное содержание работы опубликовано в 5 печатных и 3 электронных работах. Диссертация состоит из введения, четырех глав, заключения, библиографического списка из 83 источников и шести приложений. Общий объем работы - 158 страниц машинописного текста. Работа содержит 59 рисунков и 20 таблиц. Содержание работы Во введении обоснована актуальность темы, сформулированы цели и задачи работы, кратко изложены результаты работы, их научная новизна и практическая ценность. Первая глава содержит исторический очерк развития Internet и средств поиска информации, изложение основ построения информационно-поисковых систем ИПС Internet; данные об информационном наполнении и аудитории российского сегмента Internet; обзор российских машин проблема поиска информации в интернете и основных направлений совершенствования средств поиска информации в Internet. Кроме того, в первой главе рассматриваются различные подходы к проблеме стилей речи и языка, сделан обзор применения методов прикладной статистики в стилистике и опытов по классификации текстов; дается краткий исторический очерк и обзор применения тезаурусов в информационном поиске. На протяжении всей краткой, но бурной истории Internet развитие средств поиска шло параллельно с развитием самой сети. Появление "мировой паутины" WWW придало этому процессу новую динамику. Современные МП Internet во многом реализуют идеи, которые были сформулированы еще в 70-х гг. Российский Internet или Рунетистория которого ведется с конца 80-х - начала 90-х гг. В настоящее время объем российского сегмента Internet оценивается в сотни тысяч серверов и десятки миллионов уникальных страниц. На сегодняшний день в Рунете действует три "большие" машины поиска:и. Они несколько различаются по объемам проиндексированной информации, возможностям языков запросов, методам ранжирования результатов поиска. Наличие нескольких поисковых служб, выполненных на высоком технологическим уровне, является, безусловно, большим достижением российского Internet. Однако все эти МП обладают целым рядом недостатков с точки зрения проблема поиска информации в интернете научной информации. Вторая глава посвящена разработке процедуры автоматической классификации документов по стилям. В качестве рабочей была выбрана концепция функциональной стилистики и соответствующая ей система пяти стилей русской речи разговорный, художественный, публицистический, официально-деловой проблема поиска информации в интернете научный. Из прикладного характера поставленной проблемы следует, что метод классификации должен быть достаточно простым в вычислительном плане. Из задачи автоматической классификации текстов по стилям вытекает задача автоматического вычисления параметров текстов. Параметры так же должны быть легко вычислимыми, а их набор - по возможности оптимальным. Процесс получения набора параметров классификации разбивается на два этапа. На начальном этапе формируется первичный набор параметров "с запасом". Два фактора являются решающими для включения параметра в первичный набор: легкая вычислимость и потенциальная значимость для задач стилистической классификации. Второй этап - оптимизация набора параметров. Из требования "простоты" вытекает, что параметры берутся в основном с "нижних" уровней языковой системы проблема поиска информации в интернете, лексики, морфологии имеют формальный характер. За базовую единицу для вычисления параметров принимается отдельное слово. Все параметры первичного набора можно разделить на формальные и формально-семантические табл. Таблица 1 Первичный набор проблема поиска информации в интернете Уровень языка Параметры формальные формально-семантические Графика формулы : - smiles Cловообразование - приставки, характерные для научного стиля Лексика средняя длина слова общенаучная лексика названия официальных документов слова организации логики повествования Морфология распределение по частям речи существительные среднего рода возвратные глаголы аббревиатуры личные местоимения 1-го и 2-го лица: я, ты, мы, вы частицы бы частицы ну, вот, ведь Синтаксис цепочки имен существительных в родительном падеже средняя длина предложения в словах доля предложений с экспрессивной пунктуацией? Вычисление проблема поиска информации в интернете параметров - это сравнение каждого анализируемого слова с элементами заданных списков использование "словарей". В первичном наборе содержится 31 параметр из них 12 характеризуют распределение слов текста по частям речи. Разработана методика вычисления параметров. В качестве метода для построения классификации выбран дискриминантный анализ ДА. Взятая за основу функционально-стилевая концепция определила подход к формированию опытного массива документов "обучающей выборки" в терминах ДА. Официально-деловой стиль представлен в опытном массиве текстами 50 законов Российской федерации. В коллекцию документов научного стиля вошли 54 статьи по физике, математике, химии, биологии инже-нерным наукам. Публицистический стиль представлен статьями на общественно-политические темы, опубликованными на трех новостных веб-сайтах:и - всего 61 статья. Образцы художественного стиля - 79 рассказов участников проблема поиска информации в интернете сетевой литературы. Тексты разговорного стиля - это 48 фрагментов листингов чатов и 13 диалогов, которые велись с помощью программы ICQ 14 разных участников. Общий объем опытного массива - 305 документов. После вычисления параметров проблема поиска информации в интернете массива была проведена первичная статистическая обработка результатов. Для каждого параметра вычислены минимальные, максимальные, средние значения и стандарт-ные отклонения по каждому стилю; проведены тесты на нормальность распределения, вычислена выборочная матрица корреляции. На основании анализа полученных результатов из 31 параметра первичного набора были исключены 10. Основанием для исключения пара-метра из набора были малая вариабельность средних значений по стилям, большая дисперсия, отличие поведения параметров от предполагаемого a priori. Наличие групп взаимно коррелированных параметров говорит о возможности сокращения набора параметров классификации. В первом эксперименте по классификации опытного массива мы использовали 14 параметров из 21. Семь параметров не могли быть включены в модель, так как они имеют нулевые дисперсии в одном или нескольких классах стилях. Полученная дискриминантная функция хо-рошо работает на документах опытного массива: в целом ошибки составляют менее 10%, для документов научного стиля - менее 8%. Отнесение к одному из пяти стилей происходит из условия макси-мума соответствующей компоненты вектора s s 1 - разговорный, s 2 - художественный, s 3 - публицистический, s 4 - научный, s 5 - официально-деловой. Функция демонстрирует высокое качество классификации документов научного стиля - ошибки составляют менее 8% табл. Таблица 2 Классификация опытного массива Стиль Разго- ворный Художест- венный Публици- стический Научный Офици- ально- деловой Класси- фицировано правильно, % Разговорный 56 5 0 0 0 91,80 Художественный 9 61 9 0 0 77,22 Публицистический 0 3 58 0 0 95,08 Научный 0 0 2 50 2 92,59 Официально- деловой 0 0 1 0 49 98,00 Всего 65 69 70 50 51 89,84 Проблема поиска информации в интернете методов канонического дискриминантного анализа позволяет выявить геометрическую структуру классов. Документы научного стиля на диаграмме рассеяния в координатах канонических направлений образуют изолированный кластер рис. Первое каноническое направление является линейной комбинацией семи параметров текста смысл параметров х 1. Хотя четкие границы между стилями отсутствуют, пучки, соответствую-щие документам публицистического, художественного и разговорного стилей, располагаются последовательно вдоль первого канонического направления. Второе каноническое направление хорошо разделяет документы научного и официально-делового стилей, а вариации документов остальных стилей вдоль этого направления незначительны. Анализ этих результатов позволяет на основе первого канонического направления ввести показатель стилистической информативности документа использовать его в процессе информационного поиска. Диаграмма рассеяния документов опытного массива Root 1 - первое каноническое направление, Root 2 - второе каноническое направление С помощью метода главных компонент получены два фактора, которые являются линейными комбинациями 21 параметра первичного набора. Геометрическая структура классов стилейкоторая выявляется на диаграмме рассеяния объектов опытного массива в новых координатах рис. Это еще раз подтверждает, что различия между объектами документами обусловлены в основном различиями между классами стилями. Однако в данном случае кластеры выглядят более плотными. Это достигается за счет использования более полного набора параметров. Диаграмма рассеяния документов опытного массива Factor 1 - первый фактор, Factor 2 - второй фактор Разработанная программа стилистического анализа состоит из двух блоков - СКАНЕРА и АНАЛИЗАТОРА рис. СКАНЕР с помощью модуля морфологического анализа Linguist и "словарей" вычисляет параметры документа и передает их АНАЛИЗАТОРУ, который вычисляет значения дискриминантной функции и показателя стилистической информативности. Структура программы стилистического анализа Третья глава посвящена методу расширения поискового запроса на основе тезауруса с сильно дифференцированными семантическими отношениями. В работе делается вывод, что тезаурус может стать эффективным инструментом формирования запросов к универсальным ИПС Internet и существенно повысить эффективность поиска научной информации. Для этого должны выполняться следующие условия: тезаурус должен отражать терминологию достаточно узкой научной области; в тезаурусе должен проблема поиска информации в интернете набор сильно дифференцированных семантических отношений; тезаурус должен располагаться на стороне пользователя в клиентской части. Свойства терминов ограниченной научной области: системность, устойчивость и регулярность взаимосвязей, отсутствие субъективности и экспрессии - делают возможным описание терминологии с помощью тезаурусов. Особенно точно описать терминологию можно при помощи тезауруса с проблема поиска информации в интернете сильно дифференцированных семантических отношений. Основная идея такого описания - использование не только универсальных отношений например, "род-вид", "часть-целое" и т. Общее количество типов отношений может достигать нескольких десятков. Таким образом, каждый тип отношения сам по себе несет значительную смысловую нагрузку, определяет различные аспекты семантики термина. Такая структура тезауруса позволяет ввести понятие стратегии поиска по тезаурусу. Стратегия - это шаблон с указанием связки "И", "ИЛИ", "НЕ" и веса для каждого типа семантического отношения. Выбрав "опорный" термин и применив к нему стратегию, можно получить запрос, в котором опорный термин объединен со своими "соседями" в соответствии с маской-стратегией. Стратегии могут быть направлены как на повышение точности или полноты поиска, так и на выделение определенных понятийных сфер термина. Стратегии сокращают усилия проблема поиска информации в интернете формирование запросов, а также служат подсказкой начинающему пользователю. Разнообразие, специфичность и динамика тематических интересов информационных запросов пользователей ставит под вопрос эффективность централизованной разработки проблема поиска информации в интернете и расположения их на МП. Тезаурусный ассистент формирования запросов целесообразно разместить в клиентской части, на стороне пользователя. При разработке модели расширения поискового запроса мы использовали. Из семантических ограничений следует, что все отношения В нерефлексивны термин не связан с самим собой. Процедура расширения поискового запроса с помощью тезауруса реализована на уровне макета в программе ProThes Структура базы данных, с которой работает программа, представлена на рис. Структура базы данных программы ProThes Q Программа содержит три базовых экранных формы: "Термин" навигация по тезаурусу"Запрос" формирование запроса, рис. Форма "Запрос" программы ProThes Q Четвертая глава посвящена проверке полученных результатов и выработке рекомендаций для их практического применения. Для проверки метода стилистической классификации был сформирован тестовый массив документов. В массив вошел 71 документ, ссылки на которые выдала поисковая машина "Яндекс" в ответ на запрос "радикал отношение". Основная часть документов тестового набора принадлежит науч-ному и публицистическому стилям. Можно предположить, что в целом тестовый массив лучше, чем опытный, отражает стилистическую гамму текстов Internet. Применение полученной дискриминантной функции к документам тестового массива демонстрирует приемлемое качество классификации научных документов - 80% табл. Причем ошибки классификации научных документов из тестового массива - это отнесение к публицистическому стилю гуманитарных научных статей. Таблица 3 Классификация тестового массива Стиль Разго- ворный Художест- венный Публици- стический Научный Офици- ально- деловой Класси- фицировано правильно, % Разговорный 0 1 0 0 0 0,00 Художественный 0 1 0 0 0 100,00 Публицистический 0 2 40 0 2 90,91 Научный 0 0 5 20 0 80,00 Всего 0 4 45 20 2 85,92 Заметим, что как при классификации опытного проблема поиска информации в интернете, так и при классификации тестового массива к научным не были ошибочно отнесены документы других стилей. Эти результаты подтверждают эффектив-ность метода. На основании анализа результатов опытов по классификации документов опытного и тестового массивов выработаны рекомендации для применения метода проблема поиска информации в интернете практике. Одним из вариантов реализации метода стилистической классификации может быть дополнительный интерфейс к универсальной машине поиска, ориентированный на поиск научных документов. Второй вариант реализации метода состоит в разделении всех найденных документов на "информативные" и "образные". Кроме того, можно использовать введенный нами показатель стилистической информативности для ранжирования найденных документов. Одновременно пользователь может ограничивать поиск с помощью задания интервала этого показателя. Для проверки эффективности методики расширения запроса мы использовали тезаурус по компьютерной лингвистике, который содержит примерно 250 терминов и набор из 25 типов семантических отношений. Отклики ИПС "Яндекс" табл. Во-вторых, метод позволяет эффективно управлять полнотой и точностью поиска, а также устранять неоднозначность слов за счет указания семантического окружения. Однако даже при достаточно специфических запросах, которые формируются из терминов тезауруса, выданные документы могут отличаться по стилю. Это говорит о возможности совместного применения методов, описываемых в работе. Итоговая структурная схема поиска научной информации представлена на рис. Итоговая структура поиска научной информации На этапе индексирования текстовые документы пропускаются через новый проблема поиска информации в интернете машины поиска - стилистический анализатор СА. После этого каждый документ в базе индекса получает дополнительные признаки, связанные с его стилем. Интерфейс предоставляет пользователю новые возможности: ограничение поиска одним стилем или ранжирование выдачи на основе показателя стилистической информативности. В клиентской части появляется ассистент формирования запросов на основе тезауруса Заметим, что Internet в этой схеме выступает не только как хранилище информации, но и как среда для коммуникации и объединения усилий разработчиков и пользователей тезаурусов. Предложенная структура является эффективной с точки зрения развития и совершенствования существующих механизмов поиска. Предложенные методы позволяют улучшить такие показатели эффективности поиска научной информации, как точность и полнота поиска, усилия пользователя, формат представления результатов. Заключение В результате проведенных исследований предложены методы повышения эффективности поиска научной информации в Internet. Основные результаты работы заключаются в следующем: Обосновано использование стилистических характеристик документов для повышения эффективности поиска научной информации в Internet. Использование стилистических параметров может расширить, с одной стороны, выразительные возможности языка запросов, а с другой - методы ранжирования результатов поиска. Сформулированы подходы к задаче автоматической классификации документов по стилям, критерии для выбора параметров и метода классификации. Сформирован набор параметров классификации, разработана методика их вычисления. В качестве метода классификации выбран дискриминантный анализ. С помощью процедур дискриминантного анализа и метода главных компонент получены дискриминантные функции с хорошим качеством классификации документов по стилям. Проведена оптимизация набора параметров классификации. Выявлена геометрическая структура классов-стилей. Введен показатель стилистической информативности документа, который может использоваться при поиске информации. Разработана проблема поиска информации в интернете, которая реализует на уровне макета метод стилистической классификации и вычисление показателя стилистической информативности документа. На тестовом массиве документов проблема поиска информации в интернете проверка полученных процедур стилистической классификации. Проверка доказала надежность метода и его практическую значимость для задач поиска научной информации. Предложены варианты практической реализации метода стилистической классификации: целенаправленный поиск научных проблема поиска информации в интернете, деление документов на "информативные" и "образные", ранжирование документов на основании показателя стилистической информативности. Определены условия для эффективного применения процедуры расширения запросов с помощью тезауруса при поиске научной информации в Internet: тезаурус отражает терминологию достаточно узкой научной области; в тезаурусе используется набор сильно дифференцированных семантических отношений; тезаурус располагается на стороне пользователя клиента. Описана структура и модель расширения запроса с помощью тезауруса с сильно дифференцированными семантическими отношениями. Разработана программа, реализующая процедуру расширения запроса на уровне макета. На основании проверки можно сделать вывод об эффективности метода расширения запроса на основе тезауруса с сильно дифференцированными семантическими отношениями. Метод позволяет управлять как точностью, так и полнотой поиска. Проверка показала, что возможно совместное проблема поиска информации в интернете средств повышения эффективности поиска информации, обсуждаемых проблема поиска информации в интернете работе. В работе описана эффективная структурная схема поиска научной информации с использованием предложенных методов. Результаты работы в виде программных продуктов прошли испытания и внедрены в компании "Конвекс" ЕкатеринбургСОУНБ ЕкатеринбургНИИ ЦветМет Екатеринбург. Результаты работы используются в научных исследованиях и учебном процессе на кафедре риторики и стилистики русского языка УрГУ и на кафедре вычислительной техники УГТУ-УПИ. Благодарности Мы благодарим д-ра филол. Основные положения диссертации опубликованы в следующих работах: Браславский Тезаурус как инструмент описания терминологии и представления знаний.

См. также