热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

对于数据,科技小白提出了灵魂三问:从哪儿来?到哪儿去?能干什么?

对于数据,科技小白提出了灵魂三问:从哪儿来?到哪儿去?能干什么?-作为科技圈小白,经常被数据搞得头晕脑胀,数据打哪儿来?到哪儿去?能干什么?那么多数据怎么区分谁有用谁没用?其实数据

作为科技圈小白,经常被数据搞得头晕脑胀,数据打哪儿来?到哪儿去?能干什么?那么多数据怎么区分谁有用谁没用?其实数据就在我们身边,每个人都是数据的生产者,从人类文明诞生的那一刻起,数据就伴随我们而生。今天这篇文章,小编就带你查一查数据采集技术的水表。

一、数据从哪儿来

数据是通过采集的方式获得的,但是采集过程并不简单。比如,数据粮食有的是粗粮有的是细粮,能够拿到细粮的概率太低了。为了筛选出真实有效的数据,大家通常的做法就是把粗粮先搞回来再加工,这种情况就导致花大力气搞回来的粮食筛到最后能吃的不到10%。

而且,不是所有的数据都是现成的,有些情况下需要自给自足去种地,从撒子秧苗开始培育自己的数据,至于哪个环节出问题导致数据收成不好那都是靠天吃饭的随机性了。

就算是自己动手丰衣足食也存在秧苗生长不统一的问题,数据有很大的主观性,经常按照自己的想法长,大家都不一样,那口感就不一致了,咱们以为这是一碗大米饭,可能最后出来的是杂豆饭。

二、数据到哪儿去

数据中隐藏着系统或设备运行的规律,也含有突发的状态变更信息,更是潜藏着异常或灾难发生前细微的蛛丝马迹。因此,它的用途非常广泛,传统行业中可以收集生产设备的运行状态数据实现系统的监控和运维工作,信息产业中各种各样的数据是支撑整个产业发展的基石,在未来,人工智能技术大规模应用到各行各业中,更是离不开丰富的数据支撑。

我们既然拿粮食比喻数据,那么数据对于人工智能来说就是吃到肚子里去。数据采集难度系数不低,我们怎么更简便地得到数据,更快地解决人工智能的温饱问题呢?聪明的人类又开始思考如何为自己快速搞到数据。

首先,我们可以自己搞一个高定制化的统一收割系统,用统一的机器做数据粮食收割效率非常高,但这也导致了最终的数据粮食虽然统一,完全没有惊喜,毕竟收割机高度就是这么高,这一茬被收割,一些参差不齐的数据却侥幸继续野蛮生长无法收割。从下面的曲线可以看出:高度定制化可以带来极简的使用体验,但也牺牲了灵活性。

极简和灵活性如何取舍,还是要落地在场景中。按照2-8原则,80%的数据我们采用高端定制的模式来收割,剩下的20%的数据手动收割,这样我们既能高效的获取整齐划一的粮食也能参杂一些小惊喜,两全其美。

下面我们以网络人工智能业务为例,来看看具体的操作:

网络人工智能业务所使用的80%以上数据,是电信网络的设备数据,所以这一部分可以直接进行网络打通,系统自动完成对接协商、数据采集和标准化处理,使用者可直接获取想要的小区性能指标,进入下一业务环节。

80%的数据采集场景做到了极简,大部分用户的体验得到保障。剩下20%的场景,通过灵活通用的采集能力来解决,用户配置数据源对接参数即可完成数据采集。

还有一些数据并不能通过简单采集获得,比如,无源设备、以及无法产生状态数据的软硬件系统,这就需要一波高端操作——探针自主采集。探针技术本身比较成熟,各行业都有广泛应用,弊端是部署成本高、推广难度大。探针技术也有软硬之分,从名称上就能看出,软探针就是通过独立可执行的软件或可被集成的SDK,在用户授权的情况下,采集网络体验数据。硬探针基本上就是传感器、探测设备等,专业性较强,数据收集准确性高。

三、数据能干什么

数据能干的事情太多了,可以用来分析用户喜好和需求,获得对电信网络真实客观的使用反馈,能够快速得知产品有何不足,对应更新更多的业务模式,能够帮助实现业务改善。好的数据能够帮助企业获得更大对竞争力。但这些数据的背后是人,人的主观性越强,需求就越明确,对产品能力的提升就越有帮助。这些数据就好比是食物中最顶端的高端食材,口感一流品质上乘,但是价格不菲。

如下图所示:

体验数据不好获得,这些数据基本上要通过问卷调查、实验、端侧体验指标采集等方式获得,不仅成本高而且可获得的数据量也有限。这就好像你是个网店卖家,辛苦做出的产品想要得到五星好评或真实超过10个字的评价感受,需要给客户搞一个好评返现红包。鉴于大家都比较忙,给有字评价的客户依旧不多,那就需要用插补的方式,基于少量真实评价估计一个全部用户的整体感受。

在网络人工智能业务中,我们是如何获得高质量数据的?首先,我们开发了专业的APP,对于用户来说,除了能随时感知自己所处网络的速率和时延,还能针对室内覆盖帮助用户进行信号仿真,实现Wi-Fi的组网规划,真正解决用户的体验问题,除此之外,还具备游戏的代入感和使用体验,能更好的吸引用户,实现网络体验数据的采集。其次,我们还提供了可基于有限采集数据,通过算法进行数据插补的能力,对于采样点少或缺失的区域进行数据补充,该方法引入了地理统计计算的相关算法,在一定采样条件下,插补的误差RMSE小于5,高于物理测量设备的仿真结果。

四、保卫数据安全才是正经事

在开头我们讲过,数据采集有很多难处,在收集、存储、传输上都需要更安全的环境。只有保障数据采集系统安全可靠,才能够有效的保护数据需求者和提供者的权益。网络人工智能在数据采集安全方面也做了不少针对性的措施。比如在数据收集环节的数据脱敏、最小采集范围、密级控制等,避免“顺手牵羊”;在传输过程中也提升了运输大队的军火储备和隐蔽能力,争取让劫匪找不到自己的数据,或者遇到劫道儿的也能从容迎战保卫数据安全;在存储环节的访问控制和权限隔离等技术,避免越权访问和数据泄露问题。

网络人工智能在数据采集安全方面所做的措施如下图所示:

随着数据安全和隐私保护法规的不断完善,应对数据安全的软、硬件措施也逐步完善,每一个安全措施都是不断完善的长久工程,数据安全没有终点,只有与时俱进不断进步,才能持续满足人们对数据的安全感,从而更充分的发挥数据价值。

五、数据采集技术还在不断成长

数据采集不是一蹴而就的,随着产品或服务的迭代升级,各行业技术的发展,用户需求的提升,政策法规的完善,数据采集技术在安全和隐私保护、数据可获得性、体验等都需要不断演进发展。数据采集不仅是数字化转型的基础,还是人工智能的精神食粮,更需要做到保障数据通道的畅通无阻。

作为华为ICT基础设施业务面向全球开发者的年度盛会,华为开发者大会2021(Cloud)将于2021年4月24日-26日在深圳举行。本届大会以#每一个开发者都了不起#为主题,将汇聚业界大咖、华为科学家、顶级技术专家、天才少年和众多开发者,共同探讨和分享云、计算、人工智能等最新ICT技术在行业的深度创新和应用。智能时代,每一个开发者都在创造一往无前的奔腾时代。世界有你,了不起!

点击链接,了解大会详细信息。https://developer.huaweicloud...

点击关注,第一时间了解华为云新鲜技术~


推荐阅读
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 词袋模型的通俗介绍
    词,袋, ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • macOS Big Sur全新设计大版本更新,10+个值得关注的新功能
    本文介绍了Apple发布的新一代操作系统macOS Big Sur,该系统采用全新的界面设计,包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出,macOS Big Sur的设计与iPadOS越来越接近,结合了去年iPadOS对鼠标的完善等功能。 ... [详细]
  • 服务网关与流量网关
    一、为什么需要服务网关1、什么是服务网关传统的单体架构中只需要开放一个服务给客户端调用,但是微服务架构中是将一个系统拆分成多个微服务,如果没有网关& ... [详细]
  • 寻求更强大的身份和访问管理(IAM)平台的企业正在转向云,并接受身份即服务(IDaaS)的灵活性。要为IAM选择正确的场外解决方案,业务管理人员和IT专业人员必须在实施之前评估安全 ... [详细]
  • 生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍
    一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks(论文下载链接arxiv:[h ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
  • 面试经验分享:华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试
    最近有朋友去华为面试,面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败,因为缺乏基础知识。面试问题涉及 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 深入理解线程、进程、多线程、线程池
    本文以QT的方式来走进线程池的应用、线程、进程、线程池、线程锁、互斥量、信号量、线程同步等的详解,一文让你小白变大神!为什么要使用多线程、线程锁、互斥量、信号量?为什么需要线程 ... [详细]
author-avatar
泉怪的皮毛_884
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有