热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

数据整理太繁琐?MIT发布能化零为整的分析系统

2016年美国CrowdFlower公司从业内80位数据科学家那里得到的调查结果显示,他们平均花费在数据收集和整理上的时间占到整个数据分析过程的80%,而只有余下20%的时间才是真

数据整理太繁琐?MIT发布能化零为整的分析系统

2016年美国CrowdFlower公司从业内80位数据科学家那里得到的调查结果显示,他们平均花费在数据收集和整理上的时间占到整个数据分析过程的80%,而只有余下20%的时间才是真正用来分析数据的。

这就是我们通常所说的数据分析过程,其实有一大部分时间都用在了前期的数据的收集和整理上。那么收集和整理又为什么如此耗时呢?

随着数字化和信息化的深入,目前的可用数据并非集中于一点,而是广泛分布在各种文件、电子表格、分布式数据库、数据湖和其他软件系统之中,数据科学研究者需要从各种渠道获取这些数据,过滤其中的有效部分,再将数据组织成便于处理的格式,这一系列的过程都需要耗费大量的精力和时间。

为此,一支国际化的科研团队近期发布了一个全新的大数据分析系统——Data Civilizer,试图解决这一难题。该系统免去了一定程度的整理过程,可以自动识别不同数据表格之间的内在联系,并允许用户以类似查询数据库的方式直接操作这些零散的数据表格。更重要的是,用户还可以将这些查询结果重新组织成一个有序的新数据库,以便进行后续的分析和处理。

这里之所以称Civilizer系统的研发团队是一支国际化的团队,是因为其主要成员并非来自同一个实验室或者同一所高校,甚至并非同一个国家。例如:来自CSAIL的博士后Dong Deng和Raul Castro Fernandez(他们同时也是论文的主要作者),上文提到的Sam Madden教授,以及其他6位来自柏林技术大学、南洋理工大学、滑铁卢大学和卡塔尔计算机研究所的科研人员。另外值得一提的是,尽管并没有参与论文的撰写,但来自麻省理工学院电气工程和计算机科学系的副教授、2014图灵奖获得者Michael Stonebraker同样也为这项研究做出了贡献。

麻省理工学院电气工程和计算机科学教授,CSAIL大数据教研室主任Sam Madden表示:“当前,由于有成千上万的数据被分散在各种软件系统中,因此要组织一个庞大的数据集非常困难。Civilizer系统可以帮助数据科学家快速找到包含相关信息的数据表格,并将这些表格集合在一起,创建一个完整的数据库,从而大大提高了大数据分析的效率。”

逐列分析

Civilizer系统假定其处理的所有数据都按照表格的形式组织。但正如Sam Madden所说,由于将数据转换为表格的技术在大数据领域并不是什么高新的技术,因此这一点并非新研究的重点。类似的,虽然Civilizer的系统原型可以从各种不同类型的文件中提取表格数据,但配合现有程序对数据进行处理却并非研究者的首要任务。“这部分只是工程上的工作,而并非科研上的。”Sam Madden教授表示。

Civilizer系统的核心优势在于逐列分析所有的数据表格,然后得到每一列的统计概要。对于数值数据,概要中可以包括该数值出现的频率、数值的范围、数值的基数、以及每列包含的不同数值的个数等。对于文本数据,概要将包含每列中出现频率最高的词汇,以及不同词汇的个数统计。此外,Civilizer系统还将对每个出现的词汇和包含这些词汇的表格生成一个索引目录。

此后,系统将对比所有列的统计概要,根据概要内容识别具有高度相似性的列(例如具有相似的数值范围、相似的词汇集合的列),并将这些单独的列两两一组,组成一个一个的“列对”。Civilizer会为每个列对分配彼此相似的权值,并在权值的基础上生成一个能够反映列与列之前的连接关系、表格与表格之间的连接关系的映射图。

自动识别相关性

这里可以通过一个例子来说明Civilizer系统的查询能力:假设一家制药公司有一些包含药物品牌名的表格,一些包含药物化学成分的表格,以及一些包含药物内部代号的表格。我们不妨称这些表格为1类,2类和3类。现在假定1和2从未出现在同一个表格中,但至少有一份表格反映1和3的对应关系,以及反映2和3的对应关系。那么当用户利用Civilizer对所有这些表格展开分析时,对1类的查询结果也可以包含2类中的信息。

需要指出的是,Civilizer系统的识别结果也有可能是错误的。但系统允许用户丢弃不恰当的查询结果,保留有效的数据。数据被裁减之后,用户还可以将结果保存为一个独立的数据文件,方便后续的使用。

Merck制药公司的高级信息分析师Iain Wallace表示:“Civilizer的技术非常有趣,它或许能帮助数据科学家解决由于可用数据越来越多而引发的一个重要问题:究竟哪些数据集应该被纳入分析之列。而且组织机构越庞大,这个问题就越严重。”

Sam Madden教授表示:“目前我们正在探索如何将Civilizer系统作为各种化学和生物学数据集之上的协调层。因为这些数据集通常需要将化合物、疾病和搜索目标联系在一起。一个典型例子就是当用户从一个化合物表格中找到某种特定的化合物后,常常还需要根据这种化合物在其他表格中搜索更多的附加信息。Civilizer系统允许用户对所有列数据进行全文搜索,并自动识别出相关列。通过Civilizer,我们可以方便地添加额外数据源,并快速更新之前的分析结果。”

civilize意为使之文明、使之开化,MIT将新系统命名为Data Civilizer,意思很明显,是希望通过这个系统让大数据处理变得更简单方便,为开发者简化数据的预处理过程,把更多精力和时间放在真正的数据分析过程中。我们希望以MIT的这项最新研究成果为起点,未来可以出现更多类似的数据处理工具,推动数据科学更快的向前发展。雷锋网雷锋网

来源:mit,雷锋网(公众号:雷锋网)编译

雷锋网版权文章,未经授权禁止转载。详情见。


数据整理太繁琐?MIT发布能化零为整的分析系统


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • Java在运行已编译完成的类时,是通过java虚拟机来装载和执行的,java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • Google在I/O开发者大会详细介绍Android N系统的更新和安全性提升
    Google在2016年的I/O开发者大会上详细介绍了Android N系统的更新和安全性提升。Android N系统在安全方面支持无缝升级更新和修补漏洞,引入了基于文件的数据加密系统和移动版本的Chrome浏览器可以识别恶意网站等新的安全机制。在性能方面,Android N内置了先进的图形处理系统Vulkan,加入了JIT编译器以提高安装效率和减少应用程序的占用空间。此外,Android N还具有自动关闭长时间未使用的后台应用程序来释放系统资源的机制。 ... [详细]
  • IT方面的论坛太多了,有综合,有专业,有行业,在各个论坛里混了几年,体会颇深,以前是论坛哪里人多 ... [详细]
  • 解决github访问慢的问题的方法集锦
    本文总结了国内用户在访问github网站时可能遇到的加载慢的问题,并提供了解决方法,其中包括修改hosts文件来加速访问。 ... [详细]
  • Java和JavaScript是什么关系?java跟javaScript都是编程语言,只是java跟javaScript没有什么太大关系,一个是脚本语言(前端语言),一个是面向对象 ... [详细]
  • macOS Big Sur全新设计大版本更新,10+个值得关注的新功能
    本文介绍了Apple发布的新一代操作系统macOS Big Sur,该系统采用全新的界面设计,包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出,macOS Big Sur的设计与iPadOS越来越接近,结合了去年iPadOS对鼠标的完善等功能。 ... [详细]
author-avatar
ji_yi
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有