热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

数据仓库杂谈

昨天跟同事聊了下目前哪些行业数据仓库比较领先,各个行业的数据仓库是怎么做的,跟互联网比,差别是什么东西,前期资源评估,数据库选型怎么搞等。有点心得,记录如下:1,目前来看,金融,保

昨天跟同事聊了下目前哪些行业数据仓库比较领先,各个行业的数据仓库是怎么做的,跟互联网比,差别是什么东西,前期资源评估,数据库选型怎么搞等。有点心得,记录如下:

1,目前来看,金融,保险,通信,互联网,物流这几个行业的数据仓库做的比较领先,其中由于金融和通信的业务模型比较稳定,清晰,所以基本上从业务建模,概念建模,逻辑建模,物理建模这一整套步骤都比较清晰,流程化,难怪IBM,TD已经将这些行业的数据仓库建设给固化了。

2,抛开抽象的,和业务相关的业务层,概念层。从逻辑层来看,基本都是差不多的,通信行业有stage层,和bdl,然后再是上面的经营分析系统。金融行业有ods,pdm,dm三层模型。互联网企业有odl,bdl,idl,adl四层。其中stage,ods,odl都是一样的,源数据层,直接从前台搬数据。bdl层和pdm层,以及idl层是类似的,都是面向主题,从源数据层到主题层都是巨复杂的逻辑,然后主题层之上,就是各种的指标,分析等。感觉都差不多。三层模型基本就适用了,最大的问题:odl–>idl为什么不解耦?其实这个可能跟业务场景,项目目标有关,计算环境有关。如果业务场景简单,计算环境并行性高,解耦就没有多大意思了,如果业务场景复杂,计算环境都是串行的,那可能就要考虑下分层,减少计算消耗。

3,通常做一个项目是几千个人日,持续时间都是半年以上,这就是传统行业的数据仓库项目。据说这些项目的实施过程都是类似的,主要的消耗就是人力成本,项目都是以架构师带老人,再加N个新人的方式做的,估计利润非常可观啊。。。

4,项目通常以外包的形式完成,自己不养数据仓库相关的开发人员,目前看起来,除了互联网企业之后,其他行业基本都是外包的形式在走,每次项目的迭代周期都是以半年期或者1年期。互联网企业因为业务模式的不灵活性,业务的变动频繁,所以迭代周期短,必须得养着大批的开发同学。不然等半年后,黄花菜都凉了,但是金融,财务,通信等确实是可以这么搞,都是经历了大半个世纪的沉淀,业务都很稳定了。

5,范氏建模是从数据驱动来看的,维度建模是从业务来看的,业务需要哪些维度,我们就提供哪些维度。两者都有各自的应用场景,前者多数在仓库领域,在业务目标不清晰,不明朗的情况下,或者业务目标不唯一的时候,这么干的,比如说互联网;后者在数据集市的领域比较多,因为业务目标清晰,比如财务报表,分析的维度有部门,区域,产品,时间等维度,用维度建模就非常合适了。有的时候,可以将两者合起来做,因为仓库是基础,集市可以作为各种业务展现。

6,数据库选型怎么做?oracle;greenplum,mysql怎么选?一般来说都是跟着业务目标走,稳定性基本上都是第一考虑要素,而且金融和通信又都不差钱,所以oracle基本上就是第一选择了,其他新出的数据库,基本都没他稳定,没他的成功案例多。在互联网企业,因为允许试错,所以非常乐意尝试各种新技术,greenplum,mysql,hive等都是选型的范围,目前在大数据的浪潮中,hive的重要性已经越来越体现了。

7,数据营销在传统行业中都是作为经营分析系统,或者决策分析系统的一部分,主要都是体现在营销活动中,比如针对那类用户用什么样的服务等,由于这些企业的服务产品多,有各种套餐组合,或者各种理财产品,所以营销活动很好弄,而在互联网企业,服务内容很匮乏,导致营销手段有闲,这种影响是两方面的,一是影响了用户分层,丫的,无论我怎么分层,营销的手段就是一种,那我还整个球啊;二是重复的营销内容导致用户疲乏,兴趣度下降。难怪去年大家都想搞资讯,有内容才是王道啊。

8,所有的数据都是围绕其关键路径,比如通信的关键路径,就是买套餐,打电话,发短信。金融就是存款,取款,理财。互联网就不说,太多,太杂了,路径多数是扁平状,不深。

下次还是要多聊,多想,多积累。


推荐阅读
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 本文介绍了Paxos的世界中关于复制日志与状态机的概念和重要性。通过存储日志来实现数据的持久化,并通过日志流来记录数据的变化,而不是直接持久化数据本身。这样做的好处是简化了持久化存储的操作,并且方便多机之间的数据同步。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • Oracle Database 10g许可授予信息及高级功能详解
    本文介绍了Oracle Database 10g许可授予信息及其中的高级功能,包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明,指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法
    本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题,并给出了正确的解决方法。详细描述了问题的出现情况和报错信息,并提供了解决该问题的步骤和注意事项。 ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • Python SQLAlchemy库的使用方法详解
    本文详细介绍了Python中使用SQLAlchemy库的方法。首先对SQLAlchemy进行了简介,包括其定义、适用的数据库类型等。然后讨论了SQLAlchemy提供的两种主要使用模式,即SQL表达式语言和ORM。针对不同的需求,给出了选择哪种模式的建议。最后,介绍了连接数据库的方法,包括创建SQLAlchemy引擎和执行SQL语句的接口。 ... [详细]
  • 本文由编程笔记小编整理,介绍了PHP中的MySQL函数库及其常用函数,包括mysql_connect、mysql_error、mysql_select_db、mysql_query、mysql_affected_row、mysql_close等。希望对读者有一定的参考价值。 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • 众筹商城与传统商城的区别及php众筹网站的程序源码
    本文介绍了众筹商城与传统商城的区别,包括所售产品和玩法不同以及运营方式不同。同时还提到了php众筹网站的程序源码和方维众筹的安装和环境问题。 ... [详细]
  • SAP羞辱国产软件商:技术停在10年前
    SAP中国研究院总裁芮祥麟表示,国产软件厂商过于热衷概念炒作,技术水平停留在10年前的客户端架构水平。他认为,国内厂商推出基于SOA的产品或转型SAAS模式是不可能的,研发新架构需要时间。当前最热门的概念是云计算,芮祥麟呼吁国产厂商应该潜心研发底层架构。 ... [详细]
  • GAMETECH腾讯云游戏行业技术沙龙成都站圆满落幕
    11月13日,由腾讯云主办、游戏茶馆协办的2020年首场GAME-TECH腾讯云游戏行业技术沙龙在成都圆满落幕。本次沙龙邀请了腾讯云游戏行业解决方案总监宋永周、腾讯云游戏行业高级解决方案架构师曾梓恩、腾讯云游戏行业高级产品架构师郑晓曦、腾讯云游戏行业高级解决方案架构师温球良和天美L1(王者荣耀)服务器技术副总监杨光,为参会同行们带来了干货满满的技术建议。本文介绍了腾讯云游戏云的优势和为不同游戏研运场景提供的服务。腾讯云在中国游戏云服务市场领跑,成为众多游戏开发者的合作伙伴。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
author-avatar
民海育来仁湖
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有