热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

华为云数据治理生产线DataArts,让“数据‘慧’说话”

华,为,云,数据,治理,生产线,dataarts
摘要:数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。

本文分享自华为云社区《【大厂内参】第15期:华为云数据治理生产线DataArts,让“数据‘慧’说话”》,作者: 华为云社区精选。

当下我们已经进入到了数字经济时代。数据作为一种新型生产要素写入《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。

数字经济已经渗透到各行各业,正在引领新经济发展,数字经济覆盖面广且渗透力强,与各行业融合发展,预计到2025年产业数字化机会将达到23万亿美元规模。

所有的企业必须进行数字化转型,才能适用时代的发展。随着数字化转型的深入,数据作为核心资产要驱动业务和释放价值,需要:

  • 能进得来,各种大量、多样性、实时的数据源能被高效集成;
  • 能放得下,海量数据长期存储的性价比高,不用做各种模式转换,易于分析计算;
  • 能理得清,基于业界最佳实践建模,数据之间的关系清晰可见,含义简单易懂,质量问题及时发现;
  • 能找得快,迅速找到需要的是数据资产,能快速分析出价值;
  • 能用得好,数据价值显性化,快速响应业务需求,驱动经营完善。

企业数字化转型升级的三大要求:数据智能体验、数据智能决策、数据智能流程。但是要想实现数据的智能化,企业也面临着非常多的挑战:

  • 数据治理难:从数据到支撑业务的资产,传统数据库、数仓建模和知识图谱等技术无法满足企业全业务流程分析和决策需求,导致难以管理和分析海量异构数据,治理好的数据也难以和应用有效融合;
  • 众多的系统和复杂的架构:随着业务成长,需要管理众多系统如湖、仓、AI等;
  • 技术门槛高:大多数企业缺乏大数据相关人员,研发效率低,维护成本高。

为解决数据治理难、技术门槛高、众多的系统和复杂的架构三大挑战,让数据释放价值,华为云推出了 数据治理生产线DataArts

1.DataArts使能数据治理向自动化、智能化升级

所谓数据生产线,顾名思义,就像生产线一样,把海量的复杂的无序的数据,生产成为清洁透明高质量的数据能源,输送给业务。

华为云数据治理生产线DataArts可以帮助企业解决数据智能化面临的三大挑战,让数据发挥价值,并能完美契合企业数据治理的核心诉求。数据治理生产线​DataArts主要包含两大部分:

  • DataArts LakeFormation:负责整合所有云原生数据湖的组建工作,统一管理一系列数据引擎的源数据,方便上层开发者使用。
  • DataArts Studio:面向数据域的开发者、管理者、架构师,涵盖数据生产、处理、使用的全流程生命周期,帮助开发者系统管理和使用数据。

数据治理生产线DataArts可以帮助企业的数据源进行:数据接入、数据开发、数据治理、数据资产、数据服务、数据安全、数据共享,最终转化成为数据应用。就像生产线一样,能够把海量复杂,无序数据,转化成为高质量的数据能源并输送给业务,实现数据驱动、实时决策。

数据治理生产线DataArts能够帮助数据实时入湖,进行分析处理;具备AI能力,其中AutoETL能够实现数据的准备,自动化标准和质量稽核,实现智能数据治理;拥有全链路安全管理能力,能够保护好用户的隐私数据,对数据进行合规性审计;帮助企业沉淀数据资产,发挥数据价值,实现业务的创新与发展。

总的来说,数据治理生产线DataArts改变了传统“人拉肩抗”的数据处理方式,帮助提升效率;降低技术门槛,让“人人都是分析师”;让“数据‘慧’说话”,驱动高效决策。

在技术架构方面, DataArts不仅支持OLAP数据仓库及大数据分析平台,还支持OLTP事务性数据库。DataArts具备丰富的集成工具,支持将结构化、半结构化、非结构化的数据,即可以实时数据同步入湖,也支持高效的批量数据集成。

DataArts的核心产品:DataArts Studio。 它是从数据集成到开发、治理、服务一站式端到端的平台。支持数据工程师高效数据开发,也支持不懂数据开发和数据分析的业务人员,通过No Code的方式进行数据的准备和处理。让数据治理成为全民都可以参与的数据工作。

2.DataArts5大新特性面面观

2.1 元数据自动发现和表格化存储

数据入湖过程中,自动元数据发现和表格化存储,便于数据的搜索、计算和分析:

  • 支持OBS、HDFS/SFTP、Kafka、REST等数据存储上的文件、消息元数据自动发现;
  • 自定义分类器,支持CSV、JSON、文本、Parquet、ORC、Hudi等半结构化数据进行Schema自动模式推断和提取;
  • 构建表、字段、分区,并感知其变化等元数据信息,便于数据的搜索、计算和分析。

2.2 智能增强的AutoETL能力

智能增强的AutoETL能力,数据准备效率提升20%:

  • 融合code模式与no-code模式:支持No-code模式开发流/批数据处理作业,作业节点数量降低20%,数据作业开发效率由天级别降到小时/分钟级别;
  • 丰富的数据处理算子库:支持清洗、过滤、合并、Join等数据处理类别10+,算子数量200+。

2.3 智能增强的数据异常检测

智能增强的数据异常检测,万张表扫描速度提升5倍,提升数据质量稽核效率:

  • 通过模糊索引、模式挖掘等方法发现潜在重复数据区块;
  • 通过相似性对比检查数据的语法差异,以及领域知识库的实体解析检查数据的语义差异;
  • 支持实时采样计算数据质量预览,支持高性能扫描计算数据质量,万张表扫描速度提升5倍。

2.4 企业级数据目录

企业级数据目录,像搜索引擎一样搜索和管理数据资产:

  • 企业级数据目录 面向多云多Region逻辑数据湖的统一数据目录,技术元数据自动同步更新,并与业务元数据和管理元数据信息关联;
  • 自然语义搜索,智能推荐 支持以自然语言搜索数据资产,并智能给出搜索建议、资产推荐和排序;
  • 360全景“实体-关系”知识图谱 自动发现数据联系。智能导航,路径分析、社群分析等高级图分析,1W+点图分析响应时间200ms以内。

2.5全链路数据安全保护

全链路数据安全保护,中心化安全策略治理,智能识别隐私数据:

  • 中心化数据安全治理,支持企业实现企业数据安全策略统一管控;
  • 智能数据安全:内置GDPR安全规则库、支持数据访问权限控制、敏感数据自动识别,智能数据保护(加密、脱敏、水印);
  • 全链路数据安全保障,数据集成、传输、存储、数据架构设计、开发准备、资产搜索、服务开放等全链路都集成了数据安全能力。

在生态开发方面,华为云的云原生集成数据管理生态产品将持续增强DataArts:

  • 面向生态开放,引入BI、主数据、数据建模、数据标签等数据管理行业TOP伙伴SaaS产品,并与数据治理生产线的DataArts Studio、Lakeformation等云原生服务集成,为客户提供一致性体验
  • 伙伴产品与华为云“联营联运”,支持客户一键购买开通,以及按需订阅消费

目前, 数据治理生产线DataArts在华为内外部有丰富的实践。在内部,基于DataArts,华为生产出10多万个高质量的数据资产;在华为外部,DataArts服务了1000家以上的政企客户,每天有千万级数据任务在云上DataArts运行。

3.华为云DataArts帮助企业快速构建数字化运营能力

安永主要有审计、咨询、税务和战略与交易四大核心业务,其中咨询服务提供从业务规划、解决方案设计与实施,到业务运营的全方位端到端服务,以实现客户理念落地。

华为&安永联合解决方案融合了华为数字技术的优势和安永对业务洞察的深入理解。基于先进的华为云平台和健全的数据管理体系,实现数据资产化、完善数据运营体系,为多业务场景赋能,提供数字化转型支撑。

安永基于联合解决方案在为某集团数字化生产中心提供服务的过程中,通过完成生产关键设备数据、环境信息的采集、基于ROMA实现各系统间数据分发,实现结构化、非结构化、实时、离线数据集成并构建大数据平台,通过DataArts Studio和DWS实现各类数据的整合处理,形成企业级数据底座。基于大数据平台数据实时分析能力,实现生产实时预警及监控,基于大数据平台支持BI企业综合营运分析和领导决策支持。


数据使能技术架构

 

为了让用户更好的体验一站式数据治理服务,DataArts Studio接下来将会有新特性发布,主要体现在:编辑器优化、团队协作增强、调度引擎升级、图形化运维。

  • 编辑器优化:更丰富的语法联想、快速补全SQL,自动格式优化;异常关闭脚本可恢复,防止代码丢失;支持全库代码检索。
  • 团队协作增强:作业和脚本的多版本管理,生产与开发环境隔离审核;多人开发抢锁、解锁机制,防止意外覆盖;跨空间依赖,方便多部门协作。
  • 调度引擎升级:调度机制优化,支持自然周期核心调度;调度性能升级,支持千万级/日任务调度。
  • 图形化运维:作业依赖关系自动解析,图形化展示作业依赖树;DAG图形化运维,集中查看上下游的作业和运行结果、日志提高问题定位效率。
最后

面对数字化时代大潮,制造企业数据资产越来越重要,数字化转型迫在眉睫。但数字化转型道阻且长,而且数据繁多不好处理,制造业亟需上云构建企业数据资产,华为云数据治理生产线DataArts利用已有的策略、技术和经验,将持续赋能制造企业实现数据治理和资产沉淀,为制造业数字化转型和智能化升级提速。

 

点击关注,第一时间了解华为云新鲜技术~


推荐阅读
  • 2018年数字化转型调查
    PointSource发布了2018年数字化转型调查,主要发现包括:1、由于缺乏战略,企业迫切需要进行数字化转型。2、企业急于开始数字化转型过程,但他们缺乏进行智能投资的战 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法
    本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题,并给出了正确的解决方法。详细描述了问题的出现情况和报错信息,并提供了解决该问题的步骤和注意事项。 ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • 单点登录原理及实现方案详解
    本文详细介绍了单点登录的原理及实现方案,其中包括共享Session的方式,以及基于Redis的Session共享方案。同时,还分享了作者在应用环境中所遇到的问题和经验,希望对读者有所帮助。 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 腾讯安全平台部招聘安全工程师和数据分析工程师
    腾讯安全平台部正在招聘安全工程师和数据分析工程师。安全工程师负责安全问题和安全事件的跟踪和分析,提供安全测试技术支持;数据分析工程师负责安全产品相关系统数据统计和分析挖掘,通过用户行为数据建模为业务决策提供参考。招聘要求包括熟悉渗透测试和常见安全工具原理,精通Web漏洞,熟练使用多门编程语言等。有相关工作经验和在安全站点发表作品的候选人优先考虑。 ... [详细]
  • ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES
    一、认识ElasticSearch是一个基于Lucene的开源搜索引擎,通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索,分析系统&# ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 携手生态伙伴,希捷发布银河X16数据存储方案
    2019年6月26日,希捷科技在北京举办“容海量数据筑云之基石”——2019希捷科技企业级生态合作伙伴沟通会暨银河ExosX16新品发布会。在本次发布会上࿰ ... [详细]
author-avatar
米粒多可爱几_642
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有