热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

数据管理简史:从人工到人工智能



数据管理简史:从人工到人工智能数据管理简史:从人工到人工智能

从1790年美国第一次人口普查,到1946年计算机问世;从2007年iPhone第一代发布,到今日的数字孪生与人工智能,数据变得无处不在。一波又一波的标志性事件,推进着数据管理在浪潮中向前发展,从最初指尖上的负担,到真正能为企业带来业务价值,数据管理一直在不断创新中发展。

数据管理简史:从人工到人工智能




大数据产业创新服务媒体

——聚焦数据 · 改变商业


指尖上的负担

(1800年以前,数据管理0.1)

公元1790年,美利坚合众国举行了一次全国性人口普查,当时美国经济正处于迅速发展阶段,人口流动十分频繁,需要统计的项目繁多,如年龄、性别等,并且还要统计出每个社区有多少儿童和老人,有多少男性公民和女性公民等。再加上统计手段落后,调查员们花了7年半的时间才把数据处理完毕。也就是说,直到快进行第二次人口普查时,美国***才能得知第一次人口普查的状况。

调查员们终日埋在数据堆里,一天下来,也统计不出几张表格的数据。这个时期数据的概念初步形成,但数据相关工作全靠手工,数据管理工作成为调查员们指尖上的沉重负担。

数据管理简史:从人工到人工智能

埋在数据堆里面的调查员们

卡片上的艺术

(1800-1960年,数据管理0.2)

美国第一次人口普查过后,Hollerith深知人工统计数据之痛,发明了分拣机、制表机和记录机,用来记录完整的数据,可以说第一次把数据转变成了二进制信息。一直到1910年-1960年代中期,打卡和制表机都是企业办公的前提条件。1946年2月14日,第一台计算机出世,用穿孔卡片输入数据的方法一直沿用,数据处理也发展成为计算机的主要功能之一。

这个时期数据变成了可以存储的计算机语言,但是计算机速度很慢,仍然需要大量的手工劳动才能运行,主要还是依靠人工处理数据,数据不能长期保存,数据不能共享,数据管理工作依然难以进行。

数据管理简史:从人工到人工智能

工作人员在操作机器

磁盘中的储备

(1950-1965年,数据管理0.3)

50年代-60年代中期,主要通过文件系统对数据进行管理。文件系统是一种能够快速检索打卡信息的机械手段。当时适逢第二代编程语言(汇编语言)兴起,程序员能使用字母表中的字母进行编程,而不是使用复杂的1和0字符串,程序初步拥有了可读性,使程序员免于繁琐并且容易出错的计算,因此汇编语言成为了组织用作管理数据的早期方法。

这个时期数据主要以磁盘为存储介质,可以初步实现联机实时处理和批处理,并且数据可以长期保存,但是数据冗余多、共享性与独立性差,仍然谈不上实现了系统性的数据管理。

数据管理简史:从人工到人工智能

 用汇编语言编写的代码

结构化的飞跃

(1965-1995,数据管理0.6)

20世纪60年代末,美国通用公司研发的第一个数据库系统DBMS诞生,也标志着数据管理进入了一个新的时代。同时大容量磁盘的产生,让数据能够实现大规模管理。在这个时期,一批数据库软件系统出世,数据由DBMS统一管理和控制,第一次实现了数据的结构化,数据有了物理独立性与逻辑独立性,人们可以通过DBMS实现一致的数据处理并减少重复数据的数量。数据可以被联机实时处理、分布处理、批处理,共享性高、冗余度低、易扩充,很大程度减少了数据管理工作人员的人工压力,系统性数据管理初见端倪。

元数据的萌芽

(1995-2000年,数据管理0.7)

1995年3月,由OCLC(联机计算机图书馆中心)和NCSA(美国国家超级计算应用中心)联合在美国的都柏林镇召开的第一届元数据研讨会上,产生了一个精简的元数据集——都柏林核心元素集(Dublin Core Element Set),简称DC。旨在用一个简单的元数据记录来描述种类繁多的电子信息,达到有效地描述和检索网上图书资源。

DC能较好地解决网络资源的发现、控制和管理问题,1998年9月,因特网工程任务组(IETF)将其作为一个正式标准予以发布(RFC2413)。DC元数据概念的提出,为现代基于元数据驱动的数据管理奠定了坚实的基础,到此,数据管理的序幕才真正被拉开。

初步认知的建立

(2000-2008年,数据管理0.8)

国外学界关于“数据治理”的认识始于2004年,起因是H. Watson探讨了“数据仓库治理”在 Blue Cross 和 Blue Shield of North Carolina 两家公司的最佳实践,由此拉开了“数据治理”在企业管理中的大幕。同年,非营利组织DAMA协会成立,以提升数据管理行业及专业的意识和教育。

2005年之后,陆续有学者对“数据治理”展开研究,讨论了数据治理环境下企业、***、医院的职能角色、模型、框架、因素与机制等。2008年国际标准化组织ISO又围绕数据治理和数据管理(ISO/IEC 2008)提出差异化概念。

从这个时期开始,数据管理因其在组织内部和外部管理数据使用上的重要性和优势而受到越来越多的关注,国内外相关组织初步建立了在数据管理上的认知。

“5V”的驱动

(2008年,数据管理0.9)

2008年8月中旬,在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中正式提出大数据概念和大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据和其相关概念的提出,让数据成为公司战略竞争力,驱动了各大企业在数据管理上的欲望,数据管理工作得到进一步发展。

监管下的推进

(2008-2016年,数据管理1.0)

2008-2012年这段时间,国内数据管理工作主要还是面向监管报送系统的单纯的数据质量提升。以银行为代表,为了满足监管报送的数据质量要求,各大银行都先后根据1104设计质量检核体系与质量专项计划,旨在提升报送数据质量。

这个时期的数据管理虽然能解决和发现监管上的数据质量问题但是由于数据管理职能在IT中是分散的,忽略了数据在更广泛的数据环境中的关系,因此还是处于头痛医头,脚痛医脚的水平,难以从整体上提升数据质量。随着IT在银行应用的不断深入,银行建设了大量IT系统并积累了海量数据,如何高效开展数据管理工作,对于公司具有重要意义。2012年7月,国际数据管理协会DAMA出版《DAMA数据管理知识体系指南》一书,一度畅销,也进一步推进国内数据管理走向了正轨。

系统中的主数据

(2010-至今,数据管理2.0)

随着MIS、MRP、ERP等系统的产生,企业发现像客户、产品、员工等这些数据总是需要在各个系统之间分享,最早的是外国ERP厂商推出MDM产品,例如Informatica、 Oracle 、IBM、SAP 、微软都采取了自有产品并提供主数据管理解决方案,旨在集中管理单一版本的、完整的和可信任的主数据信息。到目前为止,还有很多企业处在这个时期,例如对于一些制造型企业来说,由于制造产品信息的复杂、数据量巨大、信息化程度不一,目前主数据如何管理仍是很大的挑战。

仓库中的标准

(2012-至今,数据管理3.0)

2008-2012年这段时间,国内数据管理工作的重点转向面向数据仓库的数据标准的建立和落地。以银行和大型企业为代表,在Inmon提出数据仓库理论后,2010年左右,各大企业都开始了数据仓库的建设,单点解决数据质量问题已经不能满足需求,需要根据数据标准规范数据仓库上下游数据,实现数据拉通,同时建立完善的数据管理机制,解决数据管理没有管控流程、数据管理与业务流程结合的问题。数据管理3.0引入了数据驱动业务的原则,承认了对协作数据管理的需求,拆除了数据孤岛并且将数据管理责任分散到了更多角色。

服务化与消费

(2018-至今,数据管理4.0)

2018年到未来2020年,数据管理的重点将放在面向数据服务化的数据消费支撑场景。以银行、***、***等行业为代表,在数据质量基本得到保障,近几年,在元数据管理技术和平台日益增强的背景下,大中型企业基本实现了自动分析数据资产,同时能够在二代系统的基础上提供数据资产可视与数据服务化能力,数据管理由单纯的内部管理转型为企业支撑业务数字化的必要手段。

云与人工智能

(未来,数据管理5.0)

一方面,随着服务的开发,许多企业开始将大部分数据存储和处理转移到云端。公司从传统的单片架构转向分布式混合云架构。云将根据需要为组织提供专用的数据管理资源,数据管理将与底层基础架构无关。它使用新协议的新形式访问媒体边缘和移动设备,用一种新的不断扩展的数据结构、容器和接口,支持数据驱动,例如自助数据准备、自助分析等。未来数据管理方面将会有新的创新,以满足在这些新的混合云环境中保护和管理数据的需求。

另一方面,可以预见,在未来十年内,人工智能将帮助企业识别和分类大量存储数据,并对基本数据管理程序做出例行决策。作为数据管理的助手,人工智能将变得越来越有价值。包括处理、管理和存储非结构化数据;去掉不相关的冗余数据、实现最大化数据集成、确定存储数据的最佳位置等。

数据管理简史:从人工到人工智能

 4 Gartner数据与分析治理和主数据管理成熟度曲线

参考

[1]Saul Judah.Hype Cycle for Data and Analytics Governance and Master Data Management, 2019[R].America:Gartner,2019.

[2]Keith D. Foote.A Brief History of Data Management[EB/OL].https://www.dataversity.net/brief-history-data-management/,2018-03-20.

[3]Michael Hiskey.He Who Rules The Data, Rules The World: A Brief History Of Data Governance[EB/OL].https://www.forbes.com/sites/ciocentral/2017/11/16/he-who-rules-the-data-rules-the-world-a-brief-history-of-data-governance/,2017-11-16.

[4]刘桂锋,钱锦琳,卢章平.国内外数据治理研究进展: 内涵、要素、模型与框架[J].图书情报工作,2017,61(21):137-144.

[5]未知.数据处理发展的三个历史阶段[EB/OL].https://wenku.baidu.com/view/a417aa71854769eae009581b6bd97f192379bf13.html,2018-10-06.

[6]蔡春久.数据治理平台工具前世今生[EB/OL].http://www.uml.org.cn/bigdata/201906042.asp,2019-6.

[7]清心悟道.大数据发展历程[EB/OL].https://www.cnblogs.com/qxwd/p/5988640.html,2016-10-22.

[8]大大里.数据库的发展历史[EB/OL].https://baijiahao.baidu.com/s?id=1591609627735692351&wfr=spider&for=pc,2018-02-06.

[9]刘宏仓.数据发展简史[EB/OL].https://max.book118.com/html/2018/0614/172617019.shtm,2017-01-13.

—— / END / ——

职位热招中

①【北京】TalkingData

资深银行行业BD-华北/华东JD、资深非银行业BD-华东/华南JD、数据分析师JD丨点击“这里”了解详情

②【北京】金山云云智能解决方案中心大数据团队

大数据架构师、Java架构师丨点击“这里”了解详情

③【上海】数数科技

大数据运维支持工程师、大数据研发工程师、SDK研发工程师、数据分析师、销售经理(上海、北京、深圳)、高级数据产品经理、测试开发工程师丨点击“这里”了解详情

④【杭州+上海+北京+成都】蚂蚁金服大数据部

均为实习生招募—研发类:数据研发工程师、JAVA工程师、前端工程师丨算法类:机器学习算法工程师丨产品类:数据产品经理丨点击“这里”了解详情

⑤【杭州】阿里数据中台品牌团队

均为市场及品牌岗位:数据品牌管理、数据中台整合营销、数据中台内容运营、数据中台渠道策略运营丨点击“这里”了解详情

⑥【杭州】数字浙江

社招:JAVA开发工程师丨校招:数据开发工程师、JAVA开发工程师丨点击“这里”了解详情

⑦【郑州】中原银行三波共33个职位等你来:

了解第一波招聘点“这里

了解第二波招聘点“这里

了解第三波招聘点“这里

提示:如贵公司近期有职位发布需求,可发送内容至数据猿寻求友情扩散[email protected]

2019数据猿年度榜单:

2019大数据产业趋势人物榜TOP 10

●2019大数据产业创新服务企业榜TOP 15

●2019大数据产业创新服务产品榜TOP 40

数据猿公益策划活动

 

#榜样的力量#

寻找新冠战“疫”,中国数据智能产业先锋力量

数据管理简史:从人工到人工智能

数据管理简史:从人工到人工智能


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • Google Play推出全新的应用内评价API,帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论,这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论,以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论,提升用户体验。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • 智慧博物馆信息系统建设方案
    3.信息化系统建设3.1博物馆RFID藏品管理系统3.1.1系统概述博物馆藏品保管是一项十分复杂又繁琐的工作。从事保管工作除了经常、及时地进行藏品的登记、分类、编目、保养和修 ... [详细]
  • Java工程师书单(初级,中级,高级)
    简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师,或者说一名合格的架构师应该有怎样的技术知识体系,这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]
author-avatar
手机用户2502887521
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有