Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада




НазваниеРанжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада
Дата конвертации06.02.2013
Размер445 b.
ТипЛекция


XRANK

Ранжированный поиск ключевых слов в коллекциях XML

Структура доклада

  • Цель доклада

  • XML

  • HTML vs XML

  • XRANK

  • DIL, RDIL, HDIL



Цель доклада

Получение упорядоченных по релевантности результатов информационного поиска в наборе XML-документов.

XML (eXtensible Markup Language)

  • XML

  • XML and IR: A SIGIR 2000 Workshop

  • David Carmel, Yoelle Maarek, Aya Soffer



  • XQL and Proximal Nodes

  • Ricardo Baeza-Yates

  • Gonzalo Navarro

  • Info

  • Querying XML in Xyleme

  • A Query …

  • bla...

    XML



    HTML:



    XML:



    HTML и XML

    ● ищут целые

    документы

    ● ранжируют целые

    документы

    ● близость слов

    определяется

    положением в

    тексте

    Трудности с XML

    ● Как учесть структуру и ссылок, и

    самих XML-деревьев?

    ● Как считать близость слов запроса

    в разных XML-элементах?

    XRANK

    Решение – XRANK

    XRANK - обобщение с HTML на XML поиска на основе PageRank

    ПЛАН

    1. Постановка задачи

    2. ElemRank

    3. Обработка запросов

    Постановка задачи

    ● Что имеем

    ● Что ищем

    ● Как ранжируем

    ● Архитектура XRANK

    Что имеем

    Набор XML-документов – граф

    G = (V, CE, HE)

    V – вершины: XML-элементы

    CE – дуги вложенности

    HE – дуги ссылок

    Что ищем

    R1 – множество XML-элементов, где каждый результат является наиболее глубоким предком элементов, содержащих все слова запроса.

    Критерии функции ранжирования

    Критерии:

    а) специфичность результатов

    б) близость ключевых слов

    в) учёт ссылок

    Как ранжируем

    Имеем:

    v1 in R, ElemRank(v) (~PageRank)

    Функция ранжирования для одного элемента

    Q = (k1, ..., kn) – запрос

    R– результаты поиска

    ki in Q, v1.contains*(ki), тогда есть

    (v1,v2), (v2,v3), ..., (vn-1, vn) из CE:

    vn непосредственно содержит ki

    r(v1, ki) := ElemRank(vn) * q^(n-1)

    Если ключевых слов в элементе результата несколько

    ki in Q, v1.contains(ki) m раз

    тогда ř(v1, ki) := f(r1, ..., rm), где f = max или ∑

    Функция ранжирования p = 1 / размер_окна (мера близости слов)



    ElemRank

    ElemRank(v) – мера важности XML-элемента, вычисляемая на основе структуры гиперссылок

    Вычисление PageRank

    PageRank для HTML :

    d = 0.85

    Nd – общее число документов

    Nh(u) – число ссылок из u

    Вычисление ElemRank

    Переход от HTML к XML:

    a) дуги из HE и CE разных весов

    b) дуги из CE двунаправлены

    c) ранг элемента зависит

    от рангов детей

    Вычисление ElemRank



    Вычисление ElemRank

    d1 – вероятность, что пришли в v по ссылке

    Nh(u) – число ссылок из элемента u

    d2 – вероятность, что пришли в v из родителя

    Nс(u) – число детей у элемента u

    d3 – вероятность, что пришли в v из потомка

    Nde – число предков v

    Архитектура XRANK



    Обработка запросов

    • Наивный подход

    • Dewey Inverted List

    • Ranked Dewey Inverted List

    • Hybrid Dewey Inverted List



    Наивная обработка запросов

    Обращаться с каждым XML-элементом

    как с отдельным документом:

    1) надо много памяти

    2) результаты поиска будут повторяться

    3) не учитывается специфичность

    Dewey Inverted List (DIL)



    Dewey Inverted List (DIL)



    Dewey Inverted List (DIL)

    Основная идея:

    сливать списки, одновременно вычисляя самый длинный общий префикс Dewey ID в разных списках

    Недостатки:

    список ответов может оказаться очень длинным, а пользователю нужны только самые важные.

    Ranked Dewey Inverted List

    RDIL – DIL, отсортированный не по Dewey ID, а по ElemRank. Взамен храним B+ дерево по Dewey ID.

    Недостатки: если слова в запросе слабо

    коррелируют, возможно, придётся просмотреть все списки.

    Hybrid Dewey Inverted List

    Хранить:

    + (полный DIL+B+tree)

    + начало RDIL

    Начинать поиск с RDIL –

    если медленно идёт,

    переходить на DIL

    Результаты работы





    Вопросы?



Похожие:

Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconСодержание доклада Содержание доклада
Поиск оптимальных длин волн измерения коэффициента отражения и методика определения характеристик кожного покрова
Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconСодержание доклада: Содержание доклада
Деятельность консорциума нэикон по информатизации науки (в развитие предыдущего доклада)
Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconТезисы доклада Силантьев Вадим Борисович
О различных трактовках глобального кризиса в контекстах предвыборных позиций политических партий и беспартийного большинства россиян...
Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconИнститут вычислительных технологий со ран план доклада Зачем нужен географический поиск в «негеографических» информационных системах?
Географический поиск в информационных системах с использованием ретроспективного тезауруса
Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconЦелью данного доклада является: Целью данного доклада является
В данной работе рассмотрены вопросы, связанные с аппаратной реализацией алгебрологических уравнений в системах искусственного интеллекта...
Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconОбзор: структура государственного управления в Канаде План доклада
Ответственное правительство в его основе ответственность министров перед Парламентом
Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconПрезентация результатов научного исследования Задачи: Знакомство с правилами устной презентации научного доклада; Знакомство с принципами составления компьютерной презентации устного доклада
Технология педагогического тестирования как средство эффективного управления функционированием и развитием образовательной системы...
Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconУральский федеральный университет Структура доклада Новое позиционирование вузов в предпринимательских экосистемах регионов
Группа компаний, которая занимается предпринимательством, имеет общие цели, создает сетевые структуры
Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconСбор и анализ требований в полностью итеративном цикле разработки 17 ноября 2009 Старший Менеджер Проектов, Лаборатория Касперского Цель доклада

Ранжированный поиск ключевых слов в коллекциях xml структура доклада Цель доклада iconПрезентация доклада «Экономическая свобода в мире. 2005»
Ключ к процветанию. Всемирная презентация доклада «Экономическая свобода в мире. 2005»
Разместите кнопку на своём сайте:
dok.opredelim.com


База данных защищена авторским правом ©dok.opredelim.com 2015
обратиться к администрации
dok.opredelim.com
Главная страница