热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

DataSphereStudio数据应用开发管理集成框架【DSS基础】

https:github.comWeBankFinTechDataSphereStudiohttps:gitee.comWeBankDataSphereStudio基于插拔式的集成

https://github.com/WeBankFinTech/DataSphereStudio/https://gitee.com/WeBank/DataSphereStudio

基于插拔式的集成框架设计,及计算中间件 Linkis ,可轻松接入上层各种数据应用系统,让数据开发变得简洁又易用。在统一的 UI 下,DataSphere Studio 以工作流式的图形化拖拽开发体验,将满足从数据交换、脱敏清洗、分析挖掘、质量检测、可视化展现、定时调度到数据输出应用等,数据应用开发全流程场景需求。DSS 通过插拔式的集成框架设计,让用户可以根据需要,简单快速替换 DSS 已集成的各种功能组件,或新增功能组件。借助于 Linkis 计算中间件的连接、复用与简化能力,DSS 天生便具备了金融级高并发、高可用、多租户隔离和资源管控等执行与调度能力。


1 AppConn

  • 应用连接器AppConn,定义了一套统一的前后台接入协议
  • 总共分为三级规范(
    • 一级 SSO 规范
    • 二级组织结构规范
    • 三级开发流程规范)
  • 可以简单快速集成各种上层 Web 系统(让外部数据应用系统快速简单地接入)
  • DSS 通过串联多个 AppConn,编排成一条支持实时执行和定时调度的工作流,用户只需简单拖拽即可完成数据应用的全流程开发。

2 apps组件

2.1 数据开发Scriptis

  • 一款支持在线写SQL、Pyspark、HiveQL等脚本,执行的数据分析Web工具
  • 支持UDF、函数、资源管控和智能诊断等企业级特性

2.2 数据可视化Visualis

  • 支持拖拽式报表定义、图表联动、钻取、全局筛选、多维分析、实时查询等数据开发探索的分析模式
  • 做了水印、数据质量校验等金融级增强

2.3 数据质量管理Qualitis

  • 是一个支持多种异构数据源的质量校验、通知、管理服务的数据质量管理平台
  • 用于解决业务系统运行、数据中心建设及数据治理过程中的各种数据质量问题
  • 数据质量校验工具,提供数据完整性、正确性等数据校验能力
  • 基于Spring Boot,依赖于Linkis进行数据计算

2.4 工作流调度Schedulis

  • 支持常规的 Command Shell 和 Linkis(HadoopMR、 Hive、Spark、Sqoop、 Python)大数据任务;
  • 支持特色的数据检查和工作流之间的依赖任务
  • 支持完善的告警和工作流执行策略
  • 提供多种类型的参数设置,动态全局变量和简单易用的UI

2.5 数据交换工具Exchangis

  • 支持异构数据源之间的结构化和非结构化数据传输同步
  • 抽象了一套统一的数据源和同步作业定义插件,允许用户快速接入新的数据源,并只需在数据库中简单配置即可在页面中使用
  • 基于插件化的框架设计,及计算中间件 Linkis,Exchangis 可快速集成对接 Linkis 已集成的数据同步引擎,将 Exchangis 的同步作业转换成 Linkis 数据同步引擎的数据同步作业
  • 支持对结构化及无结构化的异构数据源之间的数据传输的数据交换平台

2.6 数据Api服务DataApiService

  • DSS目前支持将SQL脚本发布成数据服务API,分享给其他用户使用
  • 业务用户可以在不用写代码和无大数据平台用户的情况下,设置参数,就可以执行数据服务的脚本,并直接浏览或者下载平台数据
  • 数据API服务。可快速将SQL脚本发布为一个 Restful 接口,对外提供 Rest 访问能力

2.7 流式应用开发管理Streamis

  • 基于 DataSphere Studio 的框架化能力,以及底层对接 Linkis 的 Flink 引擎,让用户低成本完成流式应用的开发、调试、发布和生产管理
  • 以 Flink 为底层计算引擎,基于开发中心和生产中心隔离的架构设计模式,完全隔离开发权限与发布权限,隔离开发环境与生产环境,保证业务应用的高稳定性和高安全
  • 流式应用开发管理工具。支持发布 Flink Jar 和 Flink SQL ,提供流式应用的开发调试和生产管理能力,如:启停、状态监控、checkpoint 等

2.8 一站式ML平台Prophecis

  • 集成多种开源机器学习框架
  • 具备机器学习计算集群的多租户管理能力
  • 提供生产环境全栈化容器部署与管理服务

2.9 工作流任务调度平台Apache Dolphin Scheduler

  • 具有强大用户界面的现代数据工作流编排平台
  • 致力于解决数据管道中的复杂任务依赖关系
  • 提供各种类型的现成作业

2.10 数据模型中心——DataModelCenter

2.11 UserGuide

  • 包含帮助文档、新手指引、Dark模式换肤等。

2.12 DataModelCenter

  • 数据模型开发和数据资产管理的能力
  • 数仓规划包含主题域、数仓分层、修饰词等
  • 数据模型开发包含指标、维度、度量、向导式建表等
  • 数据资产打通 Apache Atlas,提供数据血缘能力

2.13.UserManager

  • 自动初始化一个 DSS 新用户所必须的所有用户环境
  • 包含:创建 Linux 用户、各种用户路径、目录授权等

2.14 Apache Airflow

  • 支持将 DSS 工作流发布到 Apache Airflow 进行定时调度。

2.15 SendEmail

  • 提供数据发送能力
  • 所有其他工作流节点的结果集,都可以通过邮件进行发送

2. 16 EventCheck

  • 提供跨业务、跨工程和跨工作流的信号通信能力。

2.17 计算中间件 Apache Linkis

  • 通过提供 REST/WebSocket/JDBC/SDK 等标准接口
  • 上层应用可以方便地连接访问 MySQL/Spark/Hive/Presto/Flink 等底层引擎
  • Linkis 构建了一层计算中间件,方便上层应用与底层数据引擎之间的连接、治理和编排

3 DSS工作流节点

3.1 spark节点

分别支持sql、pyspark、scala三种方式执行spark任务,使用时只需将节点拖拽至工作台后编写代码即可

3.2 hive节点

hive节点支持sql方式执行hive任务,使用时只需将节点拖拽至工作台后编写hivesql代码即可

3.3 PY节点

python节点支持执行python任务,使用时只需将节点拖拽至工作台后编写python代码即可

3.4 shell节点

shell节点支持执行shell命令或者脚本运行,使用时只需将节点拖拽至工作台后编写shell命令即可

3.5 JDBC节点

jdbc节点支持以jdbc方式运行sql命令,使用时只需将节点拖拽至工作台后编写sql即可,注意需要提前在linkis console管理台配置jdbc连接信息

3.6 SendEmail节点等等

SendEmail节点一般作为工作流的最后一个节点,用于将工作流前面的结果信息进行发送,支持发送表格、文本、DashBoard、Display、图片等,用户在使用的时候直接选择想要发送的工作流节点即可

4 ws管理单元

  • DSS以 Workspace 为管理单元,组织和管理各数据应用系统的业务应用
  • 定义了一套跨数据应用系统的工作空间协同开发通用标准,并提供了用户角色管理能力
  • 工作空间是DSS的基本组织结构,通过工作空间,可以将一个部门、一条业务线、一个产品的所有数据应用放入一个工作空间,用来管理相关的参与用户、角色、工程和应用组件等


推荐阅读
  • Go Cobra命令行工具入门教程
    本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中,如Kubernetes、Hugo和Github CLI等。通过使用Cobra,我们可以快速创建命令行工具,适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • 本文介绍了三种方法来实现在Win7系统中显示桌面的快捷方式,包括使用任务栏快速启动栏、运行命令和自己创建快捷方式的方法。具体操作步骤详细说明,并提供了保存图标的路径,方便以后使用。 ... [详细]
  • 本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境,其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时,子进程只是完全复制父进程的资源,这样得到的子进程独立于父进程,具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制,另外通过fork创建子进程系统开销很大。因此,在某些情况下,使用clone或pthread_create创建线程可能更加高效。 ... [详细]
  • 十大经典排序算法动图演示+Python实现
    本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序,常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念,并提供了相关的名词解释。 ... [详细]
  • MySQL数据库锁机制及其应用(数据库锁的概念)
    本文介绍了MySQL数据库锁机制及其应用。数据库锁是计算机协调多个进程或线程并发访问某一资源的机制,在数据库中,数据是一种供许多用户共享的资源,如何保证数据并发访问的一致性和有效性是数据库必须解决的问题。MySQL的锁机制相对简单,不同的存储引擎支持不同的锁机制,主要包括表级锁、行级锁和页面锁。本文详细介绍了MySQL表级锁的锁模式和特点,以及行级锁和页面锁的特点和应用场景。同时还讨论了锁冲突对数据库并发访问性能的影响。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • Postgresql备份和恢复的方法及命令行操作步骤
    本文介绍了使用Postgresql进行备份和恢复的方法及命令行操作步骤。通过使用pg_dump命令进行备份,pg_restore命令进行恢复,并设置-h localhost选项,可以完成数据的备份和恢复操作。此外,本文还提供了参考链接以获取更多详细信息。 ... [详细]
  • 本文介绍了如何在Azure应用服务实例上获取.NetCore 3.0+的支持。作者分享了自己在将代码升级为使用.NET Core 3.0时遇到的问题,并提供了解决方法。文章还介绍了在部署过程中使用Kudu构建的方法,并指出了可能出现的错误。此外,还介绍了开发者应用服务计划和免费产品应用服务计划在不同地区的运行情况。最后,文章指出了当前的.NET SDK不支持目标为.NET Core 3.0的问题,并提供了解决方案。 ... [详细]
  • Ihaveaworkfolderdirectory.我有一个工作文件夹目录。holderDir.glob(*)>holder[ProjectOne, ... [详细]
author-avatar
灯火阑珊2502936477
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有