热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于kylin:Kyligence-Tableau-统一语义层赋能数据分析平民化

大家都晓得,数据分析我的项目从需要提出到最终交付要经验一个漫长的过程,须要进行数据源整合、指标定义、模型开发、数仓工作开发及运维、报表开发等一系列环节,开发周期动辄都是以周为单位,而且业务场景也并非变化无穷,一旦产生指标逻辑的变更,数仓就要从新开发刷数,这让需要和开发两方本就缓和的关系更加“雪上加霜”

前言

大家都晓得,数据分析我的项目从需要提出到最终交付要经验一个漫长的过程,须要进行数据源整合、指标定义、模型开发、数仓工作开发及运维、报表开发等一系列环节,开发周期动辄都是以周为单位,而且业务场景也并非变化无穷,一旦产生指标逻辑的变更,数仓就要从新开发刷数,这让需要和开发两方本就缓和的关系更加“雪上加霜”。总结起来,就是当下 BI 应用中的痛点:

  • 数据加工链路长,灵活性差
  • PB 级数据难以实现秒级响应能力
  • 数据起源繁冗,不足对立语义治理能力
  • 指标数量越来越多,达到上千甚至更多
  • 业务人员应用门槛过高

只有突破了这些 BI 应用中的壁垒,能力让数据分析平民化不只停留在一句口号,数据分析师们才有机会把更多工夫投入到业务剖析这些更具价值的中央。那么问题来了,有没有一个“低门槛”的平台,能够让业务人员自主进行模型构建、指标定义和工作治理等操作,而后无缝对接 BI 工具进行探索性剖析呢?当初 Kyligence + Tableau 给企业提供了一个优良的解决方案。

Tableau 作为 BI 工具畛域的领导者, 始终是泛滥企业进行数据可视化的首选,其弱小而灵便的开发能力让数据分析师能够疾速进行报表开发,也能够让业务人员进行直观的自助式剖析。

Kyligence 提供了 AI 加强的数据服务和治理平台,帮忙数据分析师和工程师轻松从本地到多云架构上构建受治理的数据服务。Kyligence 提供了针对企业级客户场景的本地部署产品 Kyligence Enterprise 和云端托管产品 Kyligence Cloud。

无论是独自应用 Tableau Desktop,还是通过将内容公布到 Tableau Server,用户都能够间接应用存储在 Kyligence 中的数据。

Kyligence 向下可对接关系型数据或 Hadoop 数据源,如 Hive 等,在云上反对对象存储,及云上数据仓库,无效屏蔽底层数据源差别,在 Kyligence 对立建模,进行维度指标定义。同时向上连贯到 Tableau Desktop 或 Tableau Server,进行数据公布和剖析。

Kyligence + Tableau 联结解决方案的外围劣势如下:

  • 架构可扩大,查问响应快。应用 Tableau 直连形式可解决万亿行数据,直连查问性能放弃在秒级,反对高并发的同时放弃高性能。
  • 对立的语义层。屏蔽底层数据源差别,在 Kyligence 端对立建模;同时反对一键同步 Kyligence 模型语义定义至 Tableau,无需反复建模。
  • 自助式剖析。在 Kyligence 多维模型与预计算技术撑持下,充分发挥 Tableau 灵便、自助个性,满足 BI 平民化的自助式剖析需要。
  • AI 主动建模。Kyligence AI 智能举荐引擎可利用主动建模技术疾速设计和构建数据模型,进步数据开发效率,缩减数据分析周期。

当初就让咱们用数据谈话,看看 Kyligence + Tableau 的解决方案是如何在理论业务场景中帮忙客户冲破数据分析链路上的瓶颈,赋能数据分析平民化的吧。

用户案例1:某大型银行多维分析平台架构剖析演变

亮点:Kyligence + Tableau 自助剖析计划助力企业晋升查问效率,无效升高开发和运维老本

场景形容:
某全国性金融机构,传统 BI 的单次查问工夫均匀在 15 分钟,最长超过 1 小时,数据分析人员无奈进行多维分析,只能查看事后生成的固定报表。同时为了缩小权限变动导致的数据刷新次数,同样的剖析主题须要为每个分行独自构建模型,导致全行模型数量上千个,开发和运维压力十分大。

为了解决这些挑战,该金融机构将其 OLAP 剖析平台迁徙到了 Kyligence,用于应答超大规模数据集的剖析,基于大数据的分布式数据架构,进步了查问效率,也极大加重了运维累赘。

Kyligence 依靠大数据分布式技术框架部署,提供低代码的模型能力——繁多模型反对数百 TB 甚至 PB 级数据,模型维度和指标数目实现麻利扩大,反对百万级高基数维度剖析,以及高并发数据查问。Kyligence 模型可能作为数据源无缝连贯企业 BI,在保留业务用户应用习惯的同时,晋升多维分析性能和体验。

除了晋升数据分析性能和用户体验以外,开发模式的最佳实际也是很多企业关怀的问题。那么如何进行企业内各种职能角色的协同呢?以下是 Kyligence + Tableau 这套计划的全貌,来展现在新的架构下,剖析链路上的不同角色人员是如何进行分工协作的。

咱们联合现有客户的应用场景,提炼出了一套开发模式供大家参考。首先咱们将剖析连路上的不同人员形象成了四类角色:开发人员、建模人员、剖析人员、业务人员。这四类角色并非肯定要严格对应四个岗位,有些企业可能一个开发人员就负责了筹备数据、建模、剖析等一整套工作,企业能够按照理论状况灵便安顿。

  • 开发人员——筹备数据。基于业务需要,IT 部门在平台的业务集市中建设各主题畛域的数据,通过数据交换核心把数据从业务数仓同步到 Hadoop 构建集群中。
  • 建模人员——模型开发与公布。在 Kyligence 中设计基于业务主题的模型,创立好的模型蕴含该主题中可能用到的各种规范剖析指标和维度,同时在调度治理平台上为以后的模型创立定时构建工作,用来定时更新模型内的数据。接着能够基于创立好的模型,导出 Tableau TDS 文件,并公布至 Tableau Server。
  • 剖析人员——自助式剖析。基于 Tableau Server 已公布 TDS 数据源,剖析人员能够在 Tableau Server Web 端或 Tableau Desktop 进行自助式多维分析、报表制作,另外可根据剖析场景,二次定义指标、层级等。
  • 业务人员——间接拜访剖析报表。同时也能够基于 Tableau Server 来进行自助式数据分析。

用户案例2:某车企利用 Kyligence 实现数据变现

亮点:Kyligence + Tableau 自助剖析计划帮忙企业无效实现数据闭环,实现数据变现。

场景形容:
车联网是信息化与工业化深度交融的重要畛域,围绕车辆全生命周期数字化治理,协同车联跨域交融态势,可衍生出多样的商业模式与创新型服务。例如:车企可能会在不同触发条件下对不同画像群体的车主进行服务推送,车主在导航完结前,车联网零碎会依据用户的实时地位为他/她举荐最合适的 3 个停车场,同时依据行为预测后果适时推送餐饮或购物信息,这一系列的翻新服务背地都须要弱小的数据计算能力作为撑持。

某寰球大型车企就面临着以下难题:如何将这些来自人、车、路的数据,造成具备业务价值的指标和标签,并及时输入至业务一线,最终造成数据闭环。车辆和用户每天都会产生大量的状态和行为数据,并且近些年随着车联网技术的成熟,车辆和用户驾驶行为相干的数据还在疾速减少。企业要解决这些一直增长的数据,同时还能及时通过数据模型生成具备业务逻辑的画像标签,就须要有一个具备可弹性伸缩架构,PB 级数据的亚秒级查问响应,反对高并发的同时放弃高性能的数据平台。然而因为传统 BI 和数仓平台的局限,一个新的指标加工周期至多在3天以上,而且随着指标数量的收缩,保护老本也越来低廉,导致车企的大数据团队长期处于疲于奔命的状态,对新业务需要的响应度也越来越低。

目前 Kyligence + Tableau 就能够利用已有劣势无效解决企业痛点:

  • 基于多维模型和预计算技术实现 PB 级数据查问的亚秒级响应;
  • 利用主动建模技术疾速设计和构建数据模型,进步数据开发效率,缩减数据的剖析周期;
  • 一键同步 Kyligence 模型语义至 Tableau,业务人员毋庸反复建模,从而能够高效地进行海量数据的疾速剖析。

更多亮点能力助力企业实现数据分析平民化

除了以上咱们提到的查问响应快、对立的语义层、AI 主动建模及优化等 Kyligence 已有外围劣势,Kyligence + Tableau 联结计划中还有不少亮点性能为企业在智能数据服务和治理提供更进一步的反对。

首先,Kyligence 提供了多种形式能够疾速与 Tableau 建设数据连贯:

  1. Kyligence Connector 专用连接器
    Kyligence 基于 Tableau 提供的 Connector SDK 开发了专用的数据源连接器,针对 Kyligence 查问语法个性定制,保障查问兼容性,反对 Tableau Desktop 和 Server 次要性能,反对企业级权限集成等。
  2. 一键同步 Kyligence 模型语义定义至 Tableau,平滑切换数据源
    在 Kyligence 实现建模后,数据模型开发人员能够间接导出 Tableau 对应的数据源文件(.TDS),业务用户导出的 TDS 文件能够间接通过 Tableau 关上,并应用之前在 Kyligence 中创立的数据模型,实现了建模与剖析的无缝连接。

    当然,事实中的业务场景并非变化无穷的,业务人员前一天定义的指标逻辑往往在第二天就要依据理论的市场反馈从新进行定义,因而数据模型的更新老本必须足够低能力满足业务疾速演变的需要。有了 Kyligence 反对后,业务人员只须要在更新数据模型后,从新导出 TDS 文件并在 Tableau Server 中公布并笼罩之前的数据源和报表,即可实现数据源和模型变更的平滑切换,毋庸简短的数仓开发流程!

通过以上任意一种形式实现连贯后,您就能够在 Tableau Desktop 或 Tableau Server 应用 Kyligence 数据源接口拜访到 Kyligence 进行数据摸索啦!

  1. 利用多种指标度量,实现高效聚合及明细查问
    Kyligence 为用户筹备了业务场景中罕用的指标度量,如:Count Distinct,以及自定义聚合(基于窗口函数)查问。这能够帮忙用户更无效地利用 Kyligence 数据模型进行高性能聚合及明细查问。

3.1 聚合查问

Count Distinct
在 OLAP 多维分析中,Count Distinct(去重计数)是一种罕用的指标度量,比方一段时间内的 UV、沉闷用户数等。Kyligence 提供了两种 Count Distinct 计算形式:

  • 首先是基于 HyperLogLog 算法的近似 Count Distinct,这种实现形式用在须要疾速计算、节俭存储空间,并且能承受肯定错误率的 Count Distinct 指标计算,提供了从 9.75% 到 1.22% 几种不同的误差率以反对不同的查问需要;
  • 其次是基于 Bitmap 的准确 Count Distinct,尽管它的精确度很高,但在构建指标的时候会耗费更多的资源(内存和存储),构建的过程也比较慢。

自定义聚合函数
Kyligence 也提供了 ANSI SQL 标准之外的许多自定义聚合函数。一些用于特定剖析场景,如用户画像、用户行为剖析、Intersect_count 等;另一些用于实现更多简单的查问,如窗口函数等。

3.2 明细查问
除了聚合查问,Kyligence 同时也反对明细查问,这也是业务剖析中常常遇到的剖析场景。用户只需在创立模型时,勾选明细索引选项,用户就能够在 Tableau 中利用 Kyligence 明细索引进行疾速明细查问了。

4.权限集成:严格把控数据安全,数据“各有所用”
企业级 BI 在落地应用中常常遇到的问题就是角色的平安隔离,因为人员和部门繁多,而不同部门、甚至同一个部门不同地区的业务用户在查看数据时都须要设置不同的权限。比方:上海地区的销售经理只能看到上海市的销售数据,因而不同角色在 Tableau 中查问时返回的数据行、列也都不同。

思考到企业级数据的这些隐衷平安需要,Kyligence 提供针对我的项目级/表级/行列级的细粒度数据访问控制,从而为不同用户提供不同的数据视图。

  • 对立的权限管理体系:应用 Kyligence 进行对立的权限访问控制,行列级别管制,提供用户细粒度的权限管制,最大限度满足企业多样的数据管控需要。
  • 更便捷的连贯体验:Kyligence Connector 的提供更顺畅的 Tableau 连贯体验,省去额定的连贯配置。
  • 用户权限委任:报表制作者可应用高权限账号进行报表的开发与公布,而浏览者在查看报表时会切换其对应权限来进行对拜访数据的限度。
  • 免密查看报表:Tableau 用户在 Server 端查看报表时,无需再次输出数据源的登录用户与明码,能够缩小管理员运维老本,晋升用户拜访体验。

简略来说,Tableau Server 把以后登陆用户账号的查问申请委任给 Kyligence,让用户以相应的账号权限进行查问,从而实现了数据库层级的平安治理。

总结

以上就是整套 Kyligence + Tableau 自助式剖析的解决方案了,欢送感兴趣的小伙伴点击「链接」下载《Kyligence 对接 Tableau 应用最佳实际》白皮书,一起来理解更多吧!

对于 Kyligence
Kyligence 由 Apache Kylin 开创团队创立,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和治理。基于机器学习和 AI 技术,Kyligence 从多云的数据存储中辨认和治理最有价值数据,并提供高性能、高并发的数据服务以撑持各种数据分析与利用,同时一直升高 TCO。Kyligence 已服务中国、美国及亚太的多个银行、保险、制作、批发等客户,包含建设银行、浦发银行、招商银行、安全银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、YUM、Costa、UBS、Metlife、AppZen 等寰球知名企业和行业领导者。公司已通过 ISO9001,ISO27001 及 SOC2 Type1 等各项认证及审计,并在寰球范畴内领有泛滥生态合作伙伴。


推荐阅读
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 词袋模型的通俗介绍
    词,袋, ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • SpringBoot整合SpringSecurity+JWT实现单点登录
    SpringBoot整合SpringSecurity+JWT实现单点登录,Go语言社区,Golang程序员人脉社 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • ejava,刘聪dejava
    本文目录一览:1、什么是Java?2、java ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
author-avatar
wang静的天空
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有