当前位置: 开发笔记 > 后端 > 正文

谈谈对大数据的八个观点分析

作者：吴柏盈4477 | 来源：互联网 | 2023-10-13 06:24

越来越多程序员也涌入大数据行业，但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的，最常引用Victor的4V理论，大量(Volume)，快速(Velocity)，种类多(

越来越多程序员也涌入大数据行业，但是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的，最常引用Victor的4V理论，大量(Volume)，快速(Velocity)，种类多(Variety)，价值(Value)，但究竟多大是大?多快是快?几种算种类多?每个人都有自己的观点。最核心的问题还不在数量和种类，而是价值(Value)。什么是大数据的价值?如何体现它的价值?如何衡量它的价格 ?它能够变现么?如何来变现却是大数据的核心问题。

做大数据的同学，外面看起来像是红楼梦的大观园一样，外表光鲜亮丽，身在其中的人，才知道各有各的无奈。大数据的处理通常分为，数据收集，数据清洗，数据加工。数据应用，数据可视化。数据收集同学总是抱怨数据源Garbage in, Garbage out的感觉，数据清洗的同学总有沙里淘金的感觉，数据加工的同学也经常受两头气，相比来说，做数据可视化的同学比较幸运，可以找到很多炫酷的感觉，但有不是大数据的主流技术。最难受的是做大数据应用/变现的同学，不得不靠着忽悠行走江湖。

【观点如下】

大数据的信息熵值低
大数据不是银弹是蚂蚁效应
大数据不解释因果，更关心相关性
数据资源公司最佳是被收购，最好应用是广告和泛征信
大数据是对用户隐私的汲取
用户数据无法用过定价来进行数据交易
搞清楚业务，再谈大数据也不晚
大数据的价值是真水无香

•观点一：大数据的信息熵值低

1948年，香农提出信息熵的概念，可以用于表述信息的价值，信息熵高的言简意赅，信息熵低的冗余拖沓。目前，很多大数据的来源都是一些系统的Log，图片，视频等。特别是日志系统数据，数据越来越多，越来越大，其中大部分是固定模板的数据，区分度差，信息量并没有随着数据的增加而线性增加。另外举个例子，之前我们使用胶卷照片的，我们会选择重要的场景，珍惜每一个照片，设计好角度和光圈，现在有数据相机了，内存近乎无限大了，大家肆无忌惮的自拍，哪怕都是同一个角度，大家照的废片也是一把一把的。同一类型的数据多了，信息熵也就降低了。

•观点二：大数据不是银弹，而是蚂蚁效应

大数据应用常见，多见于推荐系统，业务流程优化，医疗，性能优化，预测，金融交易等，这些业务在传统的做法上，已经十分依赖于数据了，虽然以前不叫大数据，但是也都是数据驱动的业务。数据的规模和种类增多，处理方法的增多，会渐渐提高这些应用的精准性，这种提高一定是渐渐的，一点一滴的。也许一天两天感觉不错来的，但是经过多年的持续改进，这种效果是显而易见的。

举个例来说，语音识别起始于60年代，基于小型词汇库，在90年代，IBM推出的ViaVoice是语音识别的一个里程碑，基于复杂隐式马尔科夫模型(HMM)或者神经网络算法更加成熟，数据也是基于大量的词汇库，语料库。新闻联播曾经就是ViaVoice中文版本的重要训练语库。虽然用了更大的语料库，效果有改进，但是还无法达到实用的程度。2009年以后，借助于互联网语料库的进一步丰富，数据料的增长，远远超过算法的改进程度。语音识别在准确性和实用性得到很大的提升，用户也不断使用语音识别反馈更多的数据。以至于，谷歌公司人工智能方面的专家彼得·诺维格(Peter Norvig) ，和他的同事在一篇题为《数据的非理性效果》(The Unreasonable Effectiveness of Data)的文章中写道，“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”。大数据正在一步一步的解决一些科技应用难题，例如自动驾驶，人工智能等。

•观点三：大数据不解释因果关系，只关心相关性

《大数据时代》中定义了大数据的第三个特征，“不是因果关系，而是相关关系”。沃尔玛通过数据挖掘，发现蛋挞和飓风产品有很多关联性，并且放在一起销售提高销售量。没有人清楚其中的因果关系，当然，也可能有人牵强的解释，美国人喜欢飓风时期躲在家里吃蛋挞，通过数据我们获得了相关性，但是却不理解其中因果关系。我突然想起来自于《三体》的降维攻击：很多时候我们在二维世界的相关性，是无法在二维世界进行解释因果的，也许只有在三维或者多维世界才能够解释因果关系，而这种因果关系无法直接理解，只能进行归纳成相关关系。

•观点四：大数据资源公司最佳变现是被收购，最直接变现渠道是广告和泛征信

很多专业大数据服务公司的发展都不走上市之路(注意不包括大数据技术公司)，因为他们对于变现的能力和可持续性都有很多顾虑，他们也面临高风险的用户隐私挑战，因此很多大数据资源公司的PR工作，远远多于具体落地的数据服务工作。因此，各个专业大数据公司都忙于各种行业洞察报告和排行榜，数据可视化的工作一个比一个炫丽，一个比一个追热点。谈到大数据公司的变现，很多公司会提到“数据服务”，实际上数据服务的市场相对稳定，并没有因为大数据公司的发展而市场膨胀，因此“数据服务”实际上是一个明显的“僧多粥少”的状态，另外老牌的数据公司，例如Nielson等在客户方便还是有一定的优势。

收购成为大数据公司变现最佳方式，2014年Oracle收购BlueKai获得很多众互联网用户数据，BlueKai的数据来源于和很多小网站进行数据交换和购买，尼尔森公司收购了DMP公司eXelate，eXelate的数据来源各个合作伙伴的数据，它提供了数据共享和交换的平台，创建DMP支持广告优化投放。

既然数据服务不容易攒钱，那么有没有靠谱的变现途径呢?从目前来说，广告和泛征信是两个最有效的变现渠道，效果广告的精确投放，品牌广告主需要强烈的数据背书，这些都需要数据服务，因此在广告行业专业的DMP公司，对于程序化交易是必不可少的。另外，就是征信系统，金融的本质是一个套信用系统，这就是为什么各大互联网公司都早早进入金融业务。目前很多P2P公司是否能够生存，主要依据就是风险控制，大数据是重要技术支持，因此很多P2P会采购大量数据资源，加强自己的征信系统。

•观点五：大数据是对用户隐私的汲取

大数据正在结合智能设备的普及而大力推进，例如摄像头，手机，智能穿戴设别等。其中，大量用户隐私数据被收集，例如用户地址，交易数据，搜索数据，用户的地理位置信息，用户的脉搏，联系人列表等等。这些都是用户的个人数据，各大数据公司都通过改善服务为借口，获得用户的授权，而进行隐私的汲取和偷窥。

也有一种声音，这些数据是为了让你享受更好的服务。这里面也是很多逻辑问题。首先，服务商提供更好的服务，并不代表可以收集用户的隐私数据;其次，很多公司不提供不收集用户隐私数据的服务的选项，这让很多用户无法选择禁止用户隐私数据收集，这是一种利用市场地位的垄断和霸王条款;而后，所有数据公司没有提供数据清理功能，删除用户所有的历史数据。这意味着，你的隐私数据一旦被收集，可以被无限次的无范围的滥用。

•观点六：用户数据是无法通过定价而进行交换的

大数据采集公司，都有数据变现需求。对于数据采集公司来说，虽然能做一些数据分析和预测，但这些分析服务的费用较少(在成为顶级咨询公司之前)，很难持续公司的正常运作，只能继续烧钱或者被收购。对于数据采集公司来说，很多人认为数据可以在公开公正公平的数据市场中变现，不少市面上的DMP都提供了一些数据交易平台，希望数据项商品一些安全，公平的交易.

原因有以下几个：

1. 大数据的价值无法用价格来衡量：

a)同一份数据对于不同客户价值不同，不同拷贝后价值也不同。
b)数据定价太低，卖方有注水动机;如果定价太高，买家也难以接受，而且数据报价都是暗拍的。

2.用户数据交易是玩火自焚：

在各种大数据的应用中，用户的个人数据在很多场景中是最有价值的，这些数据一旦流入到市场或者黑市，社会后果将不堪设想，而且数据泄露者还面临法律风险，因此数据交易无法在公开的数据交易市场进行。一些脱敏技术可以让数据难以反追查，但是脱敏技术的尺度把握却是在人的手上，它很容易引入各种法律风险。

•观点七：大数据的价值是真水无香

满大街唾沫横飞的大数据，让人觉得不懂大数据是一种羞耻。最近面试过好些候选人，做没做过数据都说想做大数据，而且是非大数据/机器学习不做，问他为什么要做大数据，所有回答都是这是趋势，不转型，宁等死，大数据可以挖掘出很多价值，帮助业务增长，这种感觉很好。

反过头来，看看工作中搞大数据技术的同学，每天通过脚本处理成千上万的数据，每天苦逼的处理各个数据格式，数据清洗，数据加工，数据分类/聚类，好不容易生成一些数据洞察结果，也需要用一大堆脚本和数据进行二次验证，包括精准率/召回率。这是一种苦逼，而且需要自己挖掘乐趣的工作。

确实，在一种新的数据洞察或大数据应用出来的时候，确实对于产品的提升很有帮助，为了保持保护这种提升，需要不断的对于数据进行清理，提高及时性，这种数据的维护工作慢慢会变成大数据工作者的很大一部分工作。这个过程有点像，一个系统的完善性维护工作，占了软件开发的很大一部分工作。这部分数据价值对于产品竞争力的提升也会渐渐平淡，投入产出比越来越低。但是这些完善性维护工作，却不能停。一旦停止，对于业务会带来负增长，因此这种维护性的工作会变的越来辛苦。这个时候业务对于数据的以来就像人们对白开水的需求一样，平时觉得没有味道，但是缺少的马上就感到口渴，甚至渴死。

•观点八：搞清楚业务之后，再谈大数据也不晚

目前很多行业峰会都沾上“大数据”的光环了，以前的站长大会也变成”自媒体大数据峰会”了，以前的互联网运营大会也变成”大数据运营峰会”了，以前的软件研发大会也加入了一个“大数据”分会场了。这是一个大数据唾沫横飞的世界，一不小心你就参与其中了。

我参加过几个大数据会议，有很多人是慕名而来(我自己也是其中之一)，努力将自己的工作和大数据挂上钩，搞数据分析的说自己分析的是大数据，搞技术的说自己运用了大数据技术，搞应用的说自己的大数据驱动的业务。最后，谁也不知道大数据是什么，好像和数据之间没有太多本质的区别，只是多了一个“大”字而已。

我认为，这不是什么坏事，无论是使用“信息化”，“大数据”，“数据时代”，“数据挖掘”，“认知计算”，“深度学习”等词语，只要能够解决业务的问题，推进社会更加美好，就是一份有意义的工作。无论大数据还是小数据，解决业务问题就是好数据。

推荐阅读文章

大数据工程师在阿里面试流程是什么？

学习大数据需要具备怎么样基础？

年薪30K的大数据开发工程师的工作经验总结？

《谈谈对大数据的八个观点分析》

推荐阅读

oracle
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
nlp
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
nlp
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
nlp
新款奇骏的两个功能让人上瘾，究竟是什么？

本文介绍了新款奇骏的两个让人上瘾的功能，分别是智能互联系统和BOSE音响。通过对新款奇骏的配置和功能进行评测，探讨了这两个新增功能的使用体验和优势。此外，还介绍了新款奇骏的其他配置和改进，如增加的座椅和驾驶辅助系统，以及内饰的舒适性提升。对于喜欢音响的消费者来说，BOSE音响的升级也是一个亮点。最后，文章提到了BOSE音响的数字还原能力，以及7座版无法配备BOSE音响的原因。 ... [详细]

蜡笔小新 2023-12-14 13:06:19
nlp
如何使用代理服务器进行网页抓取？

本文介绍了如何使用代理服务器进行网页抓取，并探讨了数据驱动对竞争优势的重要性。通过网页抓取，企业可以快速获取并分析大量与需求相关的数据，从而制定营销战略。同时，网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据，提高销售增长和毛利率。 ... [详细]

蜡笔小新 2023-12-11 13:12:52
分布式
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
jvm
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
jvm
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
jvm
adg架构设置及其在企业数据治理中的应用

本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展，企业IT系统的快速发展使得数据成为企业业务增长的新动力，但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题，并提出了解决方案，包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外，本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍，读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]

蜡笔小新 2023-12-14 13:05:22
jvm
高校天文共享平台开发过程中的思考与规划

本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面，并总结了项目存在的问题，如前后端未分离、代码混乱等。作者表示希望通过记录和规划，能够理清思路，进一步完善该平台。 ... [详细]

蜡笔小新 2023-12-13 18:08:58
jvm
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
jvm
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
jvm
集成电路企业跨隔离网数据交换的安全性及解决方案

集成电路企业在进行跨隔离网数据交换时面临着安全性问题，传统的数据交换方式存在安全性堪忧、效率低下等问题。本文以《Ftrans跨网文件安全交换系统》为例，介绍了如何通过丰富的审批流程来满足企业的合规要求，保障数据交换的安全性。 ... [详细]

蜡笔小新 2023-12-12 11:59:54
nlp
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
python
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16

吴柏盈4477

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章