Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных




НазваниеТакже называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных
Дата конвертации15.02.2013
Размер445 b.
ТипПрезентации



(также называемая Knowledge Discovery in Data) изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных.

  • (также называемая Knowledge Discovery in Data) изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных.

  • Data Мining лежит на пересечении нескольких наук, главные из которых - это системы баз данных, статистика и искусственный интеллект.





(DSS, Decision Support Systems)

  • (DSS, Decision Support Systems)

  • Основная задача СППР - предоставить аналитикам инструмент для выполнения анализа данных. Необходимо отметить, что для эффективного использования СППР ее пользователь-аналитик должен обладать соответствующей квалификацией.

  • Система не генерирует правильные решения, а только предоставляет аналитику данные в соответствующем виде (отчеты, таблицы, графики и т. п.) для изучения и анализа.

  • СППР решают три основные задачи: сбор, хранение и анализ хранимой информации.



Информационно-поисковый: СППР осуществляет поиск необходимых данных. Характерной чертой такого анализа является выполнение заранее определенных запросов.

  • Информационно-поисковый: СППР осуществляет поиск необходимых данных. Характерной чертой такого анализа является выполнение заранее определенных запросов.

  • Оперативно-аналитический: СППР производит группирование и обобщение данных в любом виде, необходимом аналитику. В отличие от информационно-поискового анализа в данном случае невозможно заранее предсказать необходимые аналитику запросы. Применяется многомерное представлений данных.

  • Интеллектуальный: СППР осуществляет поиск функциональных и логических закономерностей в накопленных данных, построение моделей и правил. которые объясняют найденные закономерности и/или прогнозируют развитие некоторых процессов (с определенной вероятностью).









Какие задачи решают СППР?

  • Какие задачи решают СППР?

  • На какие типы делятся задачи анализа данных?

  • Из чего состоит архитектура СППР?

  • Каковы требованиям к системам OLTP и СППР?



В основе концепции ХД лежит идея разделения данных, используемых для оперативной обработки и для решения задач анализа.

  • В основе концепции ХД лежит идея разделения данных, используемых для оперативной обработки и для решения задач анализа.

  • Хранилище данных - предметно ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений.







необходимость интеграции данных из неоднородных источников в распределенной среде;

  • необходимость интеграции данных из неоднородных источников в распределенной среде;

  • потребность в эффективном хранении и обработке очень больших объемов информации;

  • необходимость наличия многоуровневых справочников метаданных;

  • повышенные требования к безопасности данных.



Buтpина данных (ВД) - это упрощенный вариант ХД, содержащий только тематически объединенные данные.

  • Buтpина данных (ВД) - это упрощенный вариант ХД, содержащий только тематически объединенные данные.





Детальными являются данные, переносимые непосредственно из ОИД. Они соответствуют элементарным событиям, фиксируемым OL ТР системами. (Haпример, продажи, эксперименты и др.). Принято разделять все данные на измерения и факты.

  • Детальными являются данные, переносимые непосредственно из ОИД. Они соответствуют элементарным событиям, фиксируемым OL ТР системами. (Haпример, продажи, эксперименты и др.). Принято разделять все данные на измерения и факты.

  • Измерениями называются наборы данных, необходимые для описания событий (например, города, товары, люди и т. п.).

  • Фактами называются данные, отражающие сущность события (например, количество проданного товара, результаты экспериментов и т. п.).

  • На основании детальных данных могут быть получены агрегированные (обобщенные) данные.



Для удобства работы с ХД необходима информация о содержащихся в нем данных. Такая информация называется метаданными (данные о данных).

  • Для удобства работы с ХД необходима информация о содержащихся в нем данных. Такая информация называется метаданными (данные о данных).

  • Coгласно концепции Дж. Захмана, метаданные должны отвечать на следующие вопросы

  • что (описание объектов),

  • кто (описание пользователей),

  • где (описание места хранения),

  • как (описание действий),

  • когда (описание времени)

  • и почему (описание причин).



Входной поток (Inflow) образуется данными, копируемыми из ОИД в ХД;

  • Входной поток (Inflow) образуется данными, копируемыми из ОИД в ХД;

  • поток обобщения (Upflow) образуется аrреrированием детальных дaнных и их сохранением в ХД;

  • архивный поток (Downflow) образуется перемещением детальных дaнных, количество обращений к которым снизилось;

  • поток метаданных (MetaFlow) образуется переносом информации о данных в репозиторий данных;

  • выходной поток (Outf1ow) образуется данными, извлекаемыми пользователями;

  • обратный поток (Feedback Flow) образуется очищенными данными, записываемыми обратно в ОИД.





Уровень ячейки таблицы:

  • Уровень ячейки таблицы:

  • Орфографические ошибки (опечатки)

  • Oтсутствие данных

  • Фиктивные значения

  • Логически неверные значения

  • Закодированные значения

  • Составные значения



Что такое хранилище данных?

  • Что такое хранилище данных?

  • Что такое виртуальное и физическое хранилище данных?

  • Из чего состоит хранилище данных?

  • Какие потоки данных имеются в хранилище данных?

  • В чем заключается очистка данных?



Измерение - это последовательность значений одного из анализируемых параметров. Например, для параметра "время" это последовательность календарных дней, для параметра "реrион" это может быть список городов.

  • Измерение - это последовательность значений одного из анализируемых параметров. Например, для параметра "время" это последовательность календарных дней, для параметра "реrион" это может быть список городов.

  • По Кодду, многомерное концептуальное представление (multidimel1siol1al conceptual view) - это множественная перспектива, состоящая из нескольких независимых измерений, вдоль которых могут быть проанализированы определенные совокупности данных. Одновременный анализ по нескольким измерениям определяется как многомерный анализ.











Многомерность

  • Многомерность

  • Прозрачность

  • Доступность

  • Постоянная производительность при разработке отчетов

  • Клиент-серверная архитектура

  • Равноправие измерений

  • Динамическое управление разреженными матрицами.

  • Поддержка многопользовательского режима

  • Неограниченные перекрестные операции

  • Интуитивная манипуляция данными

  • Гибкие возможности получения отчетов

  • Неограниченная размерность и число уровней агрегации



Пакетное извлечение против интерпретации

  • Пакетное извлечение против интерпретации

  • Поддержка всех моделей ОLАР-анализа

  • Обработка ненормализованных данных

  • Сохранение результатов OLAP: хранение их отдельно от исходных данных

  • Исключение отсутствующих значений

  • Обработка отсутствующих значений



F AST (Быстрый)

  • F AST (Быстрый)

  • ANALYSIS (Анализ)

  • SHARED (Разделяемой)

  • МULТIDIМЕNSIONАL (Mногомерной)

  • INFORMAТION (Информации)



MOLAP - многомерный (multivаriаtе) ОLАР. Для реализации многомерной модели используют многомерные БД;

  • MOLAP - многомерный (multivаriаtе) ОLАР. Для реализации многомерной модели используют многомерные БД;

  • ROLAP - реляционный (relаtiоnаl) OLAP. Для реализации многомерной модели используют реляционные БД;

  • HOLAP - гибридный (hybrid) OLAP. Для реализации многомерной модели используют и многомерные, и реляционные БД.





Преимущества:

  • Преимущества:

    • поиск и выборка данных осуществляются значительно быстрее,
    • легко включить в информационную модель разнообразные встроенные функции.
  • Недостатки:

    • большой объем,
    • сложно хранить разреженные данные,
    • чувствительны к изменениям структуры многомерной модели.


объем исходных данных для анализа не слишком велик (не более нескольких гигабайт), т. е. уровень агрегации данных достаточно высок;

  • объем исходных данных для анализа не слишком велик (не более нескольких гигабайт), т. е. уровень агрегации данных достаточно высок;

  • набор информационных измерений стабилен;

  • время ответа системы на нерегламентированные запросы является наиболее критичным параметром;

  • требуется широкое использование сложных встроенных функций.







Плюсы:

  • Плюсы:

  • в большинстве случаев корпоративные хранилища данных реализуются средствами реляционных СУБД и инструменты ROLAP позволяют производить анализ непосредственно над ними.

  • в случае переменной размерности задачи, когда изменения в структуру измерений приходится вносить достаточно часто, RОLАР системы с динамическим представлением размерности являются оптимальным решением, т. к. В них такие модификации не требуют физической реорганизации БД;

  • реляционные СУБД обеспечивают значительно более высокий уровень защиты данных и хорошие возможности разграничения прав доступа.

  • Минусы: низкая скорость работы!



Какие операции можно производить над гиперкубом?

  • Какие операции можно производить над гиперкубом?

  • Приведите плюсы и минусы MOLAP.

  • Приведите плюсы и минусы ROLAP.



Похожие:

Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconМетоды и средства построения интеллектуальных агентов для продукционных систем и. А. Бессмертный Предмет исследования: Продукционная модель знаний
Предложенные методы позволяют подвергать предметную область декомпозиции и вычислять информативность баз знаний на разных уровнях...
Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconData Mining Докладчики Александра Симонова, Мат-Мех, 5 курс
...
Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconWoS => Web of Knowledge
Единая, уникальная платформа isi web of Knowledge предоставляет возможность удобного доступа, поиска, анализа и управления релевантной...
Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconСортировка в базах данных Сортировка – процесс упорядочения записей в таблице
При использовании строки меню появляется диалоговое окно в котором можно задать параметры сортировки
Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconБазы данных. Системы управления базами данных. Понятие о базах данных (БД) и их виды. Понятие о бд
Основное назначение ис и бд – хранение, поиск, внесение изменений, группировка и сортировка данных (манипулирование данными)
Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconData Mining Докладчики: Ефимова Наталья Балукова Елена План
Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных
Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconЛекция №3 основы реляционной алгебры вопрос Основные операции над отношениями в реляционных базах данных. Вопрос Нормализация реляционных баз данных. Литература
Вопрос Основные операции над отношениями в реляционных базах данных. Вопрос Нормализация реляционных баз данных
Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconЛ 2: Введение в Data Mining Определение Data Mining
Объективных это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного...
Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconИзвлечение знаний из текстовой информации с помощью шаблонов. Knowledge prospector. Net цели проекта
Извлечение знаний из текстовой информации с помощью шаблонов. Knowledge prospector. Net
Также называемая Knowledge Discovery in Data изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных iconВыполнено на базах данных Выполнено на базах данных

Разместите кнопку на своём сайте:
dok.opredelim.com


База данных защищена авторским правом ©dok.opredelim.com 2015
обратиться к администрации
dok.opredelim.com
Главная страница