热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

二、数据仓库和数据挖掘的OLAP技术

数据仓库和数据挖掘的OLAP技术引言一、什么是数据仓库二、数据仓库的关键特征2.1、面向主题2.2、数据集成2.3、随时间而变化2.4、数据不易丢失三、数据仓库的构建和使用四、数据


数据仓库和数据挖掘的OLAP技术

  • 引言
  • 一、什么是数据仓库
  • 二、数据仓库的关键特征
    • 2.1、面向主题
    • 2.2、数据集成
    • 2.3、随时间而变化
    • 2.4、数据不易丢失
  • 三、数据仓库的构建和使用
  • 四、数据仓库与操作数据库系统
  • 五、多维数据模型


引言


  • 数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤
  • 数据仓库提供OLAP工具,可用于不同粒度的数据分析
  • 很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现
    • 分类
    • 预测
    • 关联
    • 聚集

一、什么是数据仓库

数据仓库的定义很多,但却很难有一种严格的定义:


  • 它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。
  • 为统一的历史数据分析提供坚实的平台,对信息处理提供支持

数据仓库区别于其他数据存储系统:
“数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon


二、数据仓库的关键特征


2.1、面向主题

面向主题,是数据仓库显著区别于关系数据库系统的一个特征


  • 围绕一些主题,如顾客、供应商、产品等
  • 关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。
  • 排除对于决策无用的数据,提供特定主题的简明视图。

2.2、数据集成

一个数据仓库是通过集成多个异种数据源来构造的。


  • 关系数据库,一般文件,联机事务处理记录

使用数据清理和数据集成技术。


  • 确保命名约定、编码结构、属性度量等的一致性。
  • 当数据被移到数据仓库时,它们要经过转化。

2.3、随时间而变化

数据仓库是从历史的角度提供信息


  • 数据仓库的时间范围比操作数据库系统要长的多。
    • 操作数据库系统: 主要保存当前数据。
    • 数据仓库:从历史的角度提供信息(比如过去 5-10 年)
  • 数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的 关键结构可能就不包括时间元素。

2.4、数据不易丢失

尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。


  • 操作数据库的更新操作不会出现在数据仓库环境下。
  • 不需要事务处理,恢复,和并发控制等机制
  • 只需要两种数据访问: 数据的初始转载和数据访问(读操作)

三、数据仓库的构建和使用

数据仓库的构建包括一系列的数据预处理过程


  • 数据清理
  • 数据集成
  • 数据变换

数据仓库的使用热点是商业决策行为,例如:


  • 增加客户聚焦
  • 产品重定位
  • 寻找获利点
  • 客户关系管理

四、数据仓库与操作数据库系统

操作数据库系统的主要任务是联机事务处理OLTP


  • 日常操作: 购买,库存,银行,制造,工资,注册,记帐等

数据仓库的主要任务是联机分析处理OLAP


  • 数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    以上三点OLAP与OLTP的区别个人认为写反了,后续订正

为什么需要一个分离的数据仓库?


  • 提高两个系统的性能
    • DBMS是为OLTP而设计的:存储方式,索引, 并发控制, 恢复
    • 数据仓库是为OLAP而设计:复杂的 OLAP查询, 多维视图,汇总
  • 不同的功能和不同的数据:
    • 历史数据: 决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护
    • 数据汇总:决策支持需要将来自异种源的数据统一(如聚集和汇总)
    • 数据质量: 不同的源使用不一致的数据表示、编码和格式,对这些数据进行有效的分析需要将他们转化后进行集成

五、多维数据模型


推荐阅读
  • Python库在GIS与三维可视化中的应用
    Python库极大地扩展了GIS的能力,使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库,这些库不仅增强了GIS的核心功能,还推动了地理信息系统向更高层次的应用发展。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 国内BI工具迎战国际巨头Tableau,稳步崛起
    尽管商业智能(BI)工具在中国的普及程度尚不及国际市场,但近年来,随着本土企业的持续创新和市场推广,国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争,国内BI工具通过不断优化产品和技术,赢得了越来越多用户的认可。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 福克斯新闻数据库配置失误导致1300万条敏感记录泄露
    由于数据库配置错误,福克斯新闻暴露了一个58GB的未受保护数据库,其中包含约1300万条网络内容管理记录。任何互联网用户都可以访问这些数据,引发了严重的安全风险。 ... [详细]
  • 智慧城市建设现状及未来趋势
    随着新基建政策的推进及‘十四五’规划的实施,我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型,促进数字政府建设,新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计,以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]
  • 数据集成策略:ETL与ELT架构对比及工具选择
    随着企业信息化的深入发展,‘数据孤岛’问题日益突出,阻碍了数据的有效利用与整合。本文探讨了如何通过构建数据仓库解决这一问题,重点分析了ETL与ELT两种数据处理架构的特点及适用场景,为企业选择合适的ETL工具提供了指导。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • Navicat Premium 15 安装指南及数据库连接配置
    本文详细介绍 Navicat Premium 15 的安装步骤及其对多种数据库(如 MySQL 和 Oracle)的支持,帮助用户顺利完成软件的安装与激活。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • Linux 系统启动故障排除指南:MBR 和 GRUB 问题
    本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案,涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • PHP 5.2.5 安装与配置指南
    本文详细介绍了 PHP 5.2.5 的安装和配置步骤,帮助开发者解决常见的环境配置问题,特别是上传图片时遇到的错误。通过本教程,您可以顺利搭建并优化 PHP 运行环境。 ... [详细]
  • 智能投顾机器人:创业者如何应对新挑战?
    随着智能投顾技术在二级市场的兴起,针对一级市场的智能投顾也逐渐崭露头角。近日,一款名为阿尔妮塔的人工智能创投机器人正式发布,它将如何改变投资人的工作方式和创业者的融资策略? ... [详细]
  • 自SQL Server 2005以来,微软的这款数据库产品逐渐崭露头角,成为企业级应用中的佼佼者。本文将探讨SQL Server 2008的革新之处及其对企业级数据库市场的影响。 ... [详细]
author-avatar
路人不会编程
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有