КАТЕГОРИИ: Архитектура-(3434)Астрономия-(809)Биология-(7483)Биотехнологии-(1457)Военное дело-(14632)Высокие технологии-(1363)География-(913)Геология-(1438)Государство-(451)Демография-(1065)Дом-(47672)Журналистика и СМИ-(912)Изобретательство-(14524)Иностранные языки-(4268)Информатика-(17799)Искусство-(1338)История-(13644)Компьютеры-(11121)Косметика-(55)Кулинария-(373)Культура-(8427)Лингвистика-(374)Литература-(1642)Маркетинг-(23702)Математика-(16968)Машиностроение-(1700)Медицина-(12668)Менеджмент-(24684)Механика-(15423)Науковедение-(506)Образование-(11852)Охрана труда-(3308)Педагогика-(5571)Полиграфия-(1312)Политика-(7869)Право-(5454)Приборостроение-(1369)Программирование-(2801)Производство-(97182)Промышленность-(8706)Психология-(18388)Религия-(3217)Связь-(10668)Сельское хозяйство-(299)Социология-(6455)Спорт-(42831)Строительство-(4793)Торговля-(5050)Транспорт-(2929)Туризм-(1568)Физика-(3942)Философия-(17015)Финансы-(26596)Химия-(22929)Экология-(12095)Экономика-(9961)Электроника-(8441)Электротехника-(4623)Энергетика-(12629)Юриспруденция-(1492)Ядерная техника-(1748) |
Основы технологии OLAP
OLAP базируется на использовании концепции ХД и многомерного представления массива данных. Основной объект OLAP – OLAP-гиперкуб. Это многомерный массив данных, состоящий из отдельных ячеек, содержащих значения показателей. Измерения – последовательность конкретных значений атрибутов анализируемого показателя. Мера – числовое значение показателя, соответствующее определенным меткам измерений. «Объем продаж»
Метки на осях измерений могут иметь внутреннюю иерархию: мир-страна-регион-город-район-магазин. Собственно OLAP сводится к последовательности нескольких типовых операций с гиперкубами: 1. Срез (сечение, Slice). В результате среза из исходного куба формируется подмножество значений показателя, соответствующее метке на оси измерений подвергшихся сечению. Для пользователя результатом среза является двухмерная таблица, заголовки строк и столбцов в которой соответствуют неразрезанным измерениям.
2. Rotate. Поворот/Вращение. В результате строки и столбцы меняются местами. 3. Консолидация (свертка). В результате гиперкуб уменьшается в размерах, за счет консолидации значений показателей по одному или нескольким измерениям. 4. Детализация (развертка) – Drill Down. В результате выполнения детализации гиперкуб увеличивается, за счет детализации показателей по одному или нескольким измерениям. 5. Построение линий трендов. Строится график зависимостей показателей. 6. Построение кросс – таблиц. Создание перекрестных таблиц из двух и более. Исходным сырьем для OLAP является обычные двухмерные таблицы. Разновидности OLAP: 1. ROLAP – реляционный OLAP. При использовании этой технологии массивы для анализа представляют собой реляционные базы. Для реализации OLAP в этом случае используют схему данных, называемая «Звезда».
Таблица фактов содержит данные, например, о числовых значениях показателя. Таблицы измерений содержат данные об атрибутах этого показателя. Т.е. эти данные меняются редко/
Схема «Снежинка».
В этом случае таблицы измерений могут связываться с консольными таблицами (3.1). Такая схема может использоваться если атрибуты измерений имеют внутреннюю иерархию. Схема «Созвездие».
«Созвездием» эта схема называется потому, что в ней соединяется несколько «Звезд». В этих схемах используется связь один ко многим (от Dim к Fact). «+»: В использовании обычных реляционных баз для хранения данных. «-»: Не слишком высокая эффективность анализа. 2. MOLAP – многомерный OLAP. В этом случае анализу подвергаются именно гиперкубы данных. Фактически каждый гиперкуб представляет собой большую плоскую таблицу, содержащую все значения атрибутов измерений и соответствующие им значения показателей, но система воспринимает как многомерный массив. «+»: Высокая эффективность анализа. «-»: Относительная сложность построения таких массивов. 3. HOLAP – гибридный OLAP. Используется сочетание многомерного способа представления данных и реляционного. «+» предыдущих двух комбинируются. 4. DOLAP (Desktop OLAP) – настольный OLAP. Эти термином обозначают средства для OLAP, которыми можно пользоваться в персональном режиме (на ПК, например). Требования к средствам OLAP: Полный список требований к программным средствам реализации OLAP составляют «12 правил Кодда», дополненные позже еще 6 правилами. В сжатом виде эти требования содержатся в тесте FASMI (Fast of Analysis Shared Multidimensional Information) - быстрый анализ разделяемой многомерной информации. Быстрый означает, что большая часть запросов должна обрабатываться в течении времени, в пределах 3 секунд, при этом наиболее простые – не дольше 1 секунды, а самые сложные – не дольше 20 секунд.
Анализ означает, что OLAP – средство должно обеспечивать выполнение всех видов многомерного, а так же статистического анализа массивов данных. Разделяемая означает, что в OLAP – средстве должен быть предусмотрен разделяемый доступ к любым элемента массива данных, вплоть до отдельных ячеек. Многомерной означает, что OLAP – средство должно поддерживать многомерное представление информации, обеспечивать анализ многомерно представленной информации. Информация. Это слово означает, что OLAP – средство должно предоставлять результаты анализа в любой, необходимой пользователю форме. Это средство должно обеспечивать анализ любой доступной информации. Технология OLAP практически реализуется с помощью инструментов (приложений) 3 типов: 1. Простые OLAP – средства, интегрированные в различные пакеты общего назначения, например в таблицы. 2. OLAP – средства, интегрированные в большие СУБД, а так же в информационные системы управления предприятием. 3. Автономные OLAP – средства. Например, аналитическая платформа «Контур» и др. Это средства, которые приобретаются отдельно.
ОСНОВЫ ТЕХНОЛОГИЙ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ИНФОРМАЦИОННЫХ СИСТЕМАХ. Data Mining (добыча данных). Этот термин точнее, чем наименование «интеллектуальный анализ данных». Data Mining – это методы и средства машинной «добычи» из массивов необработанных данных информации, которая является новой, практически ценной, нетривиальной, доступной для интерпретации человеком. Типовые задачи Data Mining: 1. Классификация – это разделение совокупности на классы, причем количество классов определено заранее, известны признаки, соответствующие каждому классу. 2. Кластеризация – подобна задаче классификации, но классы заранее не определены.
Классификация кластеризация. 3. Выявление последовательностей – шаблонов в данных, соответствующих событиям, происходящим в определенной последовательности. 4. Выявление ассоциаций – шаблонов в данных, соответствующих событиям, происходящим одновременно. 5. Построение регрессионных моделей и прогнозирование.
Y=a0+a1x
Средствами Data Mining добывается ценная информация из текстовых, гипертекстовых документов сети Internet, а так же находящихся в других источниках. Для обозначения этих технологий используется: 1. Web Content Mining – методы и средства автоматического аннотирования и классификации текстовых и гипертекстовых документов из сети Internet. 2. Web Usage Mining – методы и средства, позволяющие выявить закономерности в поведении пользователей web-узлов. Text Mining – добыча информации из текстового документа. Основные средства и технологии Data Mining: 1. Стандартные методы математической статистики: 1.1. регрессионный анализ (построение регрессионных моделей). 1.2. Корреляционный анализ – определение коэффициента ясности связи. (1 – абсолютный предел связи). 1.3. Дисперсионный анализ. 1.4. Кластерный анализ. 2. Переборные методы: Переборные методы просты в реализации, но их эффективность невысокая, поэтому на практике переборные механизмы улучшаются применением эвристик (улучшения, произведенные опытным путем). 3. Искусственные нейронные сети (ИНС). ИНС могут быть универсальными классификаторами -апроксиматорами и прогнозаторами. 4. Системы с нечеткой логикой и нечеткие модели: Используются в областях и конкретных задачах, для которых типична неопределенность в исходных данных и логических правилах. Неопределенность данных может быть связана с неполнотой, недостоверностью, противоречивостью, нечеткостью. При решении многих задач исходная информация недостаточна, противоречива и т.п. 5. Генетические алгоритмы. Эволюционные стратегии, используемые при решении задач оптимизации. 6. Методы логических шаблонов в шаблонах массивов данных. Шаблон – последовательность, определенная цепочка событий. Инструменты Data Mining: Статистические методы реализуются либо в специальных пакетах (SPSS, STATISTICA, R), несложный анализ выполняется в электронных таблицах (MS Excel, Open Office Calc). Интеллектуальный анализ выполняется в специальных пакетах (SAS, Polyanalist, MATLAB(имеет пакет расширения для интеллектуального анализа данных): Neural Network, Fuzzy Logic (нечеткая логика), Genetic Algorithm and Direct Search (генетический алгоритм и прямой поиск).
Дата добавления: 2014-01-03; Просмотров: 561; Нарушение авторских прав?; Мы поможем в написании вашей работы! Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет |