热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

使用Databricks和Anomalo检测Lakehouse中的陈旧、丢失、损坏和异常数据

使用Databricks和Anomalo检测Lakehouse中的陈旧、

这是来自 Databricks 和 Anomalo 的合作帖子。我们感谢 Anomalo 业务发展副总裁 Amy Reams 的贡献。

随着数据复杂性的增加、代码中引入的依赖关系以及第三方数据源的添加,组织的数据质量会随着时间的推移而自然下降。Databricks 客户现在可以使用完整的数据质量平台Anomalo来了解和监控其表的数据质量健康状况。

与传统的基于规则的数据质量方法不同,Anomalo 使用机器学习提供数据质量的自动检查,随着时间的推移自动适应以随着数据和业务的发展保持弹性。当系统检测到问题时,它会提供一组丰富的可视化来对问题进行背景化和解释,以及即时的根本原因分析,指出问题的可能根源。这意味着您的团队将花费更多时间来制定数据驱动的决策,而花费更少的时间调查和解决数据问题。

此外,Anomalo 旨在让所有利益相关者都能看到和访问数据健康状况:从数据科学家和工程师到 BI 分析师,再到高管。任何人都可以轻松添加无代码规则并跟踪他们关心的数据集的关键指标。Anomalo 可让您调查单个行和列,或获取整个湖屋健康状况的高级摘要。

image.png


监控 Lakehouse 表中的数据质量

Databricks Lakehouse Platform结合了数据湖和数据仓库的最佳元素,以提供数据仓库的可靠性、强大的数据治理和性能以及数据湖的开放性、灵活性和机器学习支持。

通过连接到 Databricks,Anomalo 带来了一个统一层,可确保您在数据被各种商业智能和分析工具或建模和机器学习框架使用之前可以信任数据的质量。Anomalo 专注于为您的 Lakehouse 中的各个表提供透明的监控和洞察。


1. 将 Anomalo 连接到 Databricks

只需单击几下,将 Anomalo 连接到您的 Databricks Lakehouse 平台就像在 Anomalo 中添加新数据源一样简单。

image.png


2. 识别缺失和异常数据

Anomalo 连接到 Databricks 后,您可以配置任何表来监控数据质量问题。然后 Anomalo 将自动监控表的四个关键特征:



  • 数据新鲜度,

  • 数据量,

  • 缺失数据,以及

  • 表异常。

    新鲜度和容量检查会查找延迟交付的数据,或者接收的数据量是否比平时少。如果删除了数据段或列中出现空数据,则可能会出现丢失数据。表异常或异常检测包括重复数据、表架构的更改以及原始数据内部的其他重大更改,例如连续分布、分类值、持续时间甚至列之间的关系的更改。

    image.png


3. 设置无代码验证规则和关键指标

除了 Anomalo 内置的自动检查外,任何人都可以添加自己的检查而无需代码(或使用 SQL)。这让领域专家可以引入某些数据应该遵守的约束,即使他们不是工程师。您还可以添加对您的公司很重要的关键指标,或显示数据是否朝着正确方向发展的指标。

image.png

image.png

通过 UI,任何内部用户都可以快速指定数据需求和 KPI。也可以使用 SQL 定义任意复杂的检查。


4. 警报和根本原因分析

如果您的数据未能通过任何自动监控或超出您指定的规则和指标的范围,Anomalo 会立即发出警报。团队可以通过电子邮件、Slack、Microsoft Teams 或 PagerDuty 订阅这些实时警报。还提供功能齐全的 API。

要对数据问题进行分类,了解影响并快速确定来源非常重要。用户可以进入 Anomalo 查看受影响行的百分比,以及更深入的根本原因分析,包括表中故障的位置以及好行和坏行的样本。

image.png


5. 了解 Lakehouse 的数据健康状况

Anomalo 的Pulse 仪表板还为用户提供了对其数据质量的高级概述,以提供对数据覆盖率、到达时间、趋势和重复违规者的洞察。当您可以了解组织湖库中数据的总体健康状况时,您可以确定问题领域和改进策略。

image.png


原文标题:Detecting Stale, Missing, Corrupted, and Anomalous Data in Your Lakehouse With Databricks and Anomalo

原文作者:Amy Reams and Fei Lang

原文地址:https://www.databricks.com/blog/2022/05/24/detecting-stale-missing-corrupted-and-anomalous-data-in-your-lakehouse-with-databricks-and-anomalo.html




推荐阅读
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 使用在线工具jsonschema2pojo根据json生成java对象
    本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具,用户只需将json字符串复制到输入框中,即可自动将其转换成java对象。该工具还能解析列表式的json数据,并将嵌套在内层的对象也解析出来。本文以请求github的api为例,展示了使用该工具的步骤和效果。 ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • Google Play推出全新的应用内评价API,帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论,这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论,以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论,提升用户体验。 ... [详细]
  • 本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法,包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数,以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时,还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说,本文提供了一些有用的技巧和建议。 ... [详细]
  • 解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法
    本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题,并给出了正确的解决方法。详细描述了问题的出现情况和报错信息,并提供了解决该问题的步骤和注意事项。 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • 禁止程序接收鼠标事件的工具_VNC Viewer for Mac(远程桌面工具)免费版
    VNCViewerforMac是一款运行在Mac平台上的远程桌面工具,vncviewermac版可以帮助您使用Mac的键盘和鼠标来控制远程计算机,操作简 ... [详细]
  • 原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中,有两种配置文件,一种 ... [详细]
  • 本文介绍了Svn和Maven的使用说明,包括版本控制和构建工具的功能和优势。同时提供了一个相关链接,链接中详细介绍了SvnMaven的使用方法和注意事项。通过学习和使用SvnMaven,开发人员可以更好地进行代码管理、软件开发和协作开发,提高项目管理的效率和质量。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
author-avatar
mobiledu2502887381
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有