热门标签 | HotTags
当前位置:  开发笔记 > 数据库 > 正文

数据质量保证和数据质量检测

数据质量保证和数据质量检测:数据质量保证:无论是检测原始库或者是数据仓库,都是要有一个有质量保证的数据库。以检测数据仓库的质量为例:原始数据在抽取进入数据仓库后,通过检测数据仓

 

数据质量保证和数据质量检测:

数据质量保证:无论是检测原始库或者是数据仓库,都是要有一个有质量保证的数据库。

以检测数据仓库的质量为例:

原始数据在抽取进入数据仓库后,通过检测数据仓库质量问题来修正原始库,从新抽取进入数据仓库。

检测数据仓库的数据质量:

第一层:保证数据的正确性,全面性,唯一性;

第二层:进行数据的转换,得到符合要求的数据值

第三层:对转换的数据进行分析+结果展示

第四层:对结果进行人工的交流,查找,得出结论。

保证数据的正确性的方法:格式验证,最大,。最值限制等

保证全面性:可以通过记录总数来确保。

保证唯一性:通过账期唯一值来确保。

一个数据可能的问题:没插入,多插入,插入错误,插入正确,

123可能的质量问题:12,1233,12W

通过正确性验证(格式等)的为1234,12,123,124,

通过全面性(个数):不会个数不够122,142

通过唯一性验证(拒绝重复,如果是冗余的话,重复的算作一个):不会是存在的错误为124,123

 

 

对剩余的情况:124,123

124无法验证,123为正确的。124可通过分析比较历史得出为预警的,123通过分析比较历史得出为正常值。

第二层:转换:要对环比进行分析,需要得到本账期和上一账期的数据

要进行最值分析:可以得到在限定的最值之内和之外的值

第三层:分析:获取环比值,

将环比值通过图表的方式展示,超过预警值的124被自动记录下来

,提供人工分析的可能。

只有对比历史记录才能分析,

举例:8月环比,可以通过查看7月,6月的环比来进行比较

也可以通过限制值的范围来提醒超值列。

在通过第二层第三层的分析错误数据的过程最好可以保存下来。

再次分析不用建立

开源工具的功能:

过滤,转换 分析 分析结果展示  原因跟踪  

当前工具:datacleaner

功能:可以分析多种源.

可以过滤,转换 分析 分析结果展示

分析形式固定:只有空,最大,最小,波动等,无法定制分析形式

优点:提供分析过程保存,分析结果展示,分析结果保存。

 

感觉分析和质量检测混合在一起了,以分析结果得出数据的质量问题情况,不提供错误的原因。

对数据质量的检测提供了总记录数,数据分布波形,重复记录数的检测,和格式过滤 ,基本可以完成第一层的功能。

无法分析展示环比在某个区间的行和某个区间之外的行.

数据分析:保证了数据偏差得质量问题的同时也进行了数据质量分析.

 

 

 

 

 



推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了如何使用Power Design(PD)和SQL Server进行数据库反向工程的方法。通过创建数据源、选择要反向工程的数据表,PD可以生成物理模型,进而生成所需的概念模型。该方法适用于SQL Server数据库,对于其他数据库是否适用尚不确定。详细步骤和操作说明可参考本文内容。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • PHP设置MySQL字符集的方法及使用mysqli_set_charset函数
    本文介绍了PHP设置MySQL字符集的方法,详细介绍了使用mysqli_set_charset函数来规定与数据库服务器进行数据传送时要使用的字符集。通过示例代码演示了如何设置默认客户端字符集。 ... [详细]
  • 本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
author-avatar
mobiledu2502890777
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有