热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数仓理论建模

数仓理论建模数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合数仓的使用结构复杂业务数据库通常是根据业务操作的需要进行设计的,遵循3NF范
数仓理论建模

数据仓库

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合

数仓的使用


  1. 结构复杂

    业务数据库通常是根据业务操作的需要进行设计的,遵循3NF范式,尽可能减少数据冗余。这就造成表与表之间关系错综复杂。在分析业务状况时,储存业务数据的表,与储存想要分析的角度表,很可能不会直接关联,而是需要通过多层关联来达到,这为分析增加了很大的复杂度。
    举例:想要从门店的地域分布来分析用户还款情况。基本的还款数据在订单细节表里,各种杂项信息在订单表里,门店信息在门店表里,地域信息在地域表里,这就意味着我们需要把这四张表关联起来,才能按门店地域来分析用户的还款情况。
    此外,随着NoSQL数据库的进一步发展,有许多数据储存在诸如MongoDB等NoSQL数据库中,另外一些通用信息,如节假日等,通常也不会在数据库中有记录,而是以文本文件的形式储存。多种多样的数据储存方式,也给取数带来了困难,没法简单地用一条SQL完成数据查询。如果能把这些数据都整合到一个数据库里,比如构造一张节假日表。这样就能很方便地完成数据查询,从而提高分析效率。

  2. 数据脏乱

    因为业务数据库会接受大量用户的输入,如果业务系统没有做好足够的数据校验,就会产生一些错误数据,比如不合法的身份证号,或者不应存在的Null值,空字符串等。

  3. 理解困难

    业务数据库中存在大量语义不明的操作代码,比如各种状态的代码,地理位置的代码等等,在不同业务中的同一名词可能还有不同的叫法。

    这些情况都是为了方便业务操作和开发而出现的,但却给我们分析数据造成了很大负担。各种操作代码必须要查阅文档,如果操作代码较多,还需要了解储存它的表。来自不同业务数据源的同义异名的数据更是需要翻阅多份文档。

  4. 缺少历史

    出于节约空间的考虑,业务数据库通常不会记录状态流变历史,这就使得某些基于流变历史的分析无法进行。比如想要分析从用户申请到最终放款整个过程中,各个环节的速度和转化率,没有流变历史就很难完成。

  5. 大规模查询缓慢

    当业务数据量较大时,查询就会变得缓慢。尤其需要同时关联好几张大表,比如还款表关联订单表再关联用户表,这个体量就非常巨大,查询速度非常慢。美好的青春都浪费在了等待查询结果上,真是令人叹息。

    主题

    面向主题

    主题(Subject)

    将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念
    每一个主题基本对应一个宏观的分析领域
    例如“销售分析”就是一个分析领域,那么这个数据仓库应用的主题就是“销售分析”

    提取主题

    采购子系统:
    订单(订单号,供应商号,总金额,日期)
    订单细则(订单号,商品号,类别,单价,数量)
    供应商(供应商号,供应商名,地址,电话)销售子系统:
    顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)
    销售(员工号,顾客号,商品号,数量,单价,日期)库存管理子系统:
    领料单(领料单号,领料人,商品号,数量,日期)
    进料单(进料单号,订单号,进料人,收料人,日期)
    库存(商品号,库房号,库存量,日期)
    库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:
    员工(员工号,姓名,性别,年龄,文化程度,部门号)
    部门(部门号,部门名称,部门主管,电话)主题一:顾客
    固有信息:顾客号,姓名,性别,年龄,文化程度,地址,电话
    购物信息:顾客号,商品号,单价,数量,金额,日期,...主题二:供应商
    固有信息:供应商号,供应商名,地址,电话
    供应商品信息:订单号,供应商号,总金额,日期
    主题三:商品
    固有信息:商品号,商品名,类别,颜色,尺寸,型号
    采购信息:商品号,供应商号,日期,采购价格,采购量
    库存信息:商品号,库房号,库存量,日期
    销售信息:顾客号,商品号,数量,单价,日期
    主题四:订单
    固有信息:订单号,员工号,顾客号,商品号,数量,单价,日期员工信息:员工号,姓名,性别,年龄,文化程度,部门号
    顾客信息:顾客号,姓名,性别,年龄,文化程度,地址,电话
    商品信息:商品号,商品名,类别,颜色,尺寸,型号


集成

集成性是指数据仓库中数据必须是一致的

  1. 数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的
  2. 数据来源可能既有内部数据又有外部数据
    例如F/M,0/1,A/B

集成方法:统一(消除不一致),综合(对原有数据进行综合和计算)

非易失(非人为因素)

数据仓库中的数据是经过抽取而形成的分析型数据

  • 不具有原始性
  • 主要供企业决策分析之用
  • 执行的主要是‘查询’操作,一般情况下不执行‘更新’操作
  • 一个稳定的数据环境也有利于数据分析操作和决策的制订

随时间变化(人为删除)

数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度

  • 不断增加新的数据内容
  • 不断删去旧的数据内容
  • 更新与时间有关的综合数据

数据仓库和数据库的区别


  • 数据库是为捕获和存储数据而设计
  • 数据仓库是为分析数据而设计

** **数据库数据仓库
本质数据的集合数据的集合
定位事务处理OLTP数据分析OLAP
面向群体前端用户管理人员
操作增删改查查询
数据粒度事件记录维度
数据粒度事件记录维度

OLTP和OLAP的区别


  • On-Line Transaction Processing 联机事务处理OLTP
  • OLTP是传统的关系型数据库的主要应用

对比属性OLTPOLAP
读特性每次查询只返回少量记录对大量记录进行汇总
写特性随机、低延时写入用户的输入批量导入
使用场景用户,Java EE项目内部分析师,为决策提供支持
数据表征最新数据状态随时间变化的历史状态
数据规模GBTB到PB

数据仓库的架构


Inmon架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GDMJy5si-1614597871664)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210301095333013.png)]

Kimball架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-INhRqmwp-1614597871665)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210301095433914.png)]

混合型架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YstfHoOM-1614597871666)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210301095510155.png)]

数据仓库的解决方案


  • 数据采集
    Flume,Sqoop,Logstash,Datax

    数据ETL(清洗)

    • 抽取(Extract)
      从操作型数据源获取数据

    • 转换(Transform)
      转换数据,使之转变为适用于查询和分析的形式和结构

    • 装载(Load)
      将转换后的数据导入到最终的目标数据仓库

    • 工具

      Oracle:OWB和ODI
      微软:SQL Server Integration Services
      SAP:Data Integrator
      IBM:InfoSphere DataStage、Informatica
      Pentaho:Kettle

  • 数据存储
    MySQL,HDFS,HBase,Redis,MongoDB

  • 数据计算
    Hive,Tez,Spark,Flink,Storm

  • 数据可视化
    Tableau,Echarts,Superset,QuickBI,DataV

  • 任务调度
    Oozie,Azkaban,Crontab

    数据转换
    1.统一数据编码: 比如性别字段, 有些是1和0, 有些使用"F"和"M表示", 我们需要给他统一一下
    2.预计算: 比如订单信息表里有"订单号, 员工号,顾客号,商品号,数量,单价,日期", 这里我们就可以将"数量×单价", 提前做好计算
    3.重新排序: 提高查询性能
    4.去重: 数据可能会有一些重复的, 会影响到后续的分析, 所以我们需要根据实际情况进行去重
    5.行列转置: lateral view explode


数据仓库的建模


数据仓库模型构建


选择业务流程


  1. 确认哪些业务处理流程是数据仓库应该覆盖的
    例如:了解和分析一个零售店的销售情况
  2. 记录方式
    • 使用纯文本
    • 使用业务流程建模标注(BPMN)方法
    • 使用同一建模语言(UML)

声明粒度


  1. 用于确定事实中表示的是什么
    例如:一个零售店的顾客在购物小票上的一个购买条目
  2. 选择维度和事实前必须声明粒度
  3. 建议从原始粒度数据开始设计
    原始记录能够满足无法预期的用户查询
  4. 不同的事实可以有不同的粒度

确认维度


  1. 说明了事实表的数据是从哪里采集来的
  2. 典型的维度都是名词
    例如:日期、商店、库存等
  3. 维度表存储了某一维度的所有相关数据
    例如:日期维度应该包括年、季度、月、周、日等数据

确认事实


  1. 识别数字化的度量,构成事实表的记录
  2. 和系统的业务用户密切相关
  3. 大部分事实表的度量都是数字类型的
    • 可累加,可计算
    • 例如:成本、数量、金额

星型模型

中间一张事实表,周围一圈维度表构成

优点
简化查询
简化业务报表逻辑
获得查询性能
快速聚合
便于向立方体提供数据
缺点
不能保证数据完整性
对于分析需求来说不够灵活

雪花模型

中间一张事实表,周围多层维度表构成

优点
一些OLAP多维数据库建模工具专为雪花模型进行了优化
规范化的维度属性节省存储空间
缺点
维度属性规范化增加了查询的连接操作和复杂度
不确保数据完整性

星座表

两张事实表通过一张维度表关联


推荐阅读
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • 数据仓库中基本概念
    一、数据仓库数据仓库(DataWarehouse)是一个面向主题的、集成的、稳定的且随时间变化的数据集合,用于支持管理人员的决策面向主题主题就是类型的意思。传统数 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 深入理解Kafka服务端请求队列中请求的处理
    本文深入分析了Kafka服务端请求队列中请求的处理过程,详细介绍了请求的封装和放入请求队列的过程,以及处理请求的线程池的创建和容量设置。通过场景分析、图示说明和源码分析,帮助读者更好地理解Kafka服务端的工作原理。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • 合并列值-合并为一列问题需求:createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 微软评估和规划(MAP)的工具包介绍及应用实验手册
    本文介绍了微软评估和规划(MAP)的工具包,该工具包是一个无代理工具,旨在简化和精简通过网络范围内的自动发现和评估IT基础设施在多个方案规划进程。工具包支持库存和使用用于SQL Server和Windows Server迁移评估,以及评估服务器的信息最广泛使用微软的技术。此外,工具包还提供了服务器虚拟化方案,以帮助识别未被充分利用的资源和硬件需要成功巩固服务器使用微软的Hyper - V技术规格。 ... [详细]
  • 【数据结构与算法】——快速排序
    Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,O ... [详细]
  • MySQL数据 实时同步到KafkaBinlog canal、Maxwell、Kafka Connect 实现MySQL增量同步
    一、需求分析早期业务借助Sqoop将Mysql中的数据同步到Hive、hdfs来进行数据分析,使用过程中也带来了一些问题:虽然Sqoop支持增量同步但还属于粗粒度的离线同步,无法满 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图
    微信公众号:「Python读财」如有问题或建议,请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]
author-avatar
愁撒_651
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有