热门标签 | HotTags
当前位置:  开发笔记 > 程序员 > 正文

你想知道什么是数据科学吗?阅读此内容以了解。

你想知道什么是数据科学吗?阅读此内容以了解。介绍在随机的一天,您只需进入您的Instagram,点击用户故事并收到一些关于您正在搜索的原声吉他的广告。之后,您的屏幕上会出现有关Ro

你想知道什么是数据科学吗?阅读此内容以了解。


介绍

在随机的一天,您只需进入您的 Instagram,点击用户故事并收到一些关于您正在搜索的原声吉他的广告。

之后,您的屏幕上会出现有关 Rock In Rio 门票的其他公告。


推荐算法怎么可以这么好??


仅仅是因为你留下了一些有用的信息吗?

是和不是。

当您使用社交网络时,公司可以访问您的信息,例如您用于搜索 Instagram 个人资料的文本、对视频的点赞、照片、您保存的照片等。

但是只有数据是不够的。 从这些数据中提取相关信息很重要 . 你需要使用科学来做到这一点,你需要数据科学。


那么,什么是数据科学和数据科学家?

数据科学是一个科学领域,它结合了数学统计、机器学习和人工智能来帮助公司的业务。

数据科学是在公司中应用数据科学的学科和数据科学家。事实上,数据科学有直接的商业应用,数据科学家在就业市场上的需求越来越大。在下图中,您可以观察到数据科学家的职位发布随着时间的推移而增长。

Source: https://www.hiringlab.org/2019/01/17/data-scientist-job-outlook/


什么是顶尖的数据科学技能?

很难总结数据科学技能,因为您可以在就业市场中找到不同的概念。但是,恕我直言,我认为我们可以在下面列出硬能力:



  • 统计分析与计算

  • 机器学习/深度学习

  • 数据处理(Pandas、spark 等)

  • 数据可视化

  • 数学与统计

  • 编程

看到数据科学技能的维恩图也很常见。下图是我喜欢的一张。 ( 资源 )


我们可以举例说明哪些数据科学应用?

除了推荐在广告中的应用,我们还可以提到其他常见的商业数据科学应用:



  • 乳腺癌肿瘤鉴定。由于人眼很难观察到,我们可以使用机器学习来实现这一点。

  • 通过送餐预测到达时间。优步为此使用机器学习。

  • 一家名为 WHOOP 的公司生产可跟踪运动员身体数据的可穿戴设备,例如静息心率、睡眠周期和呼吸频率。数据科学用于优化运动员的训练、何时需要训练以及何时需要休息。

  • 动视是一家大型游戏公司,负责《使命召唤》、《魔兽世界》和《守望先锋》等优秀游戏玩家。他们使用数据科学来改善在线游戏体验。

  • Airbnb 应用数据科学来提高其搜索引擎的质量。

  • 这些不可思议的艺术( 资源 ):


数据科学项目是如何发生的?数据科学项目的阶段是什么?

简而言之,将数据科学划分为一些阶段/步骤是很常见的。我们也可以说这些步骤是 项目生命周期 .下图来自 亚伯拉罕·摩西 的文章。我也用他的文章简单地回答了这个问题:)。

让我们在每个阶段深入一点:



  • 业务问题理解。

第一阶段是了解业务需求。你需要将他们想要解决的问题转化为数据科学问题。业务团队需要的是使用数据对组织产生积极影响。

让我们假设业务团队发现人们通过提供虚假信息(例如地址、姓名、年龄等)来击败信用系统。然后,您观察到您可以使用从软件系统收集的数据来检测某人是否要进行欺诈。这是文献中的一个常见问题,称为信用卡欺诈检测。一个非常经典的数据集可以在 Kaggle 上找到 这里 .



  • 数据采集

在你观察你想要解决信用卡欺诈检测之后。您注意到该公司尚未收集所有必要的数据。您阅读了文献并注意到拥有人口统计数据、贷款信息等很重要。然后,您可以使用一些好的技术,例如美丽的汤或刮擦来收集这些数据。



  • 数据清洗和处理

在一些数据科学课程中收到非常好的数据是很常见的。但在现实生活中,情况并非如此。

您可能会收到非常差的数据,有时问题无法像您想象的那样解决。或者您收到可接受的数据,您只需要对其进行清理和结构化。

当我说清理它时,我的意思是删除非信息性数据,例如空数据、负年龄、空地址等等。

这个阶段非常重要,因为如果我们将坏数据插入到我们的模型中,它就不会理解模式。 这就是为什么这是一个关键阶段,数据科学家可以在此步骤中将 80% 的时间花在数据科学项目上。



  • 探索性数据分析

整理完所有数据后,就该进行分析并获得洞察力了。勘探数据分析(EDA)中常见的分析是单变量分析、双变量分析、缺失值处理、异常值处理、变量变换、特征工程和相关性分析。

在我们的信用卡欺诈检测示例中,分析示例可以回答以下问题:

- 该位置是否会影响信用卡欺诈?

- 什么时候出现更多的欺诈行为?哪几个月?一周中的哪一天?

- 我们可以改进哪些功能以更深入地了解欺诈行为? (特征工程)。

创建良好的分析和功能以创建良好的预测器非常重要。



  • 模型构建和评估

这是我们选择使用某种评估技术训练的最佳模型的阶段。

当我们将数据集划分为训练集和测试集时,最常见的评估技术是保留。训练集用作模型(或模型集)来拟合数据并理解模式。测试数据是一个看不见的数据集,我们将使用它来观察模型在某些指标方面的表现。一个非常常用的评估指标是准确率和 f1-score。

在这个阶段也常见做模型超参数优化。例如,在决策树中,我们可以测试深度参数的不同值并观察 f1-score 度量的结果。



  • 传达模型结果

沟通是每个数据科学家都需要的一项非常重要的技能。因为,您首先需要沟通来判断数据科学项目是否可行,然后您需要为项目利益相关者创建模型结果的故事。

展示您的模型如何帮助解决业务问题非常重要。经理们对您的参数优化如何达到最佳评估指标不感兴趣。这就是为什么数据科学家需要良好的讲故事技巧。



  • 模型部署和维护

在这个阶段,并不是所有的数据科学家都这样做。有时,机器学习工程师会收到模型并将其设计用于生产。在信用卡欺诈检测的示例中,您可以想象当用户尝试在银行应用程序中注册时可以使用该模型。

所以,事情没那么简单。我们需要了解应用程序中使用了哪些技术。此外,我们需要创建一个应用程序接口 (API) 来创建应用程序和信用卡欺诈预测模型之间的通信。

为了使其更加复杂,有时需要重新训练模型。这就是为什么我们需要创建指标和监控。我们可以使用new relic、grafana、cloud watch等程序。


免责声明

数据科学家的定义还不是很简洁。甚至数据科学阶段也可能因公司和文献而异。

你喜欢它吗??请拍下这篇文章并关注我。

我推荐的书:

[


使用 Scikit-Learn、Keras 和 TensorFlow 进行机器学习:概念、工具和技术……


使用 Scikit-Learn、Keras 和 TensorFlow 进行机器学习:构建……的概念、工具和技术

amzn.to

](https://amzn.to/3KLBkqS)

[


实用自然语言处理:构建真实世界 NLP 系统的综合指南


实用自然语言处理:构建真实世界 NLP 系统的综合指南 [Vajjala, Sowmya…

amzn.to

](https://amzn.to/3TLYmlB)

[


数据科学的基本数学:用基本线性代数控制你的数据……


为数据科学购买基本数学:使用基本线性代数、概率和……控制您的数据

amzn.to

](https://amzn.to/3RwC5Gy)

[


商业数据科学:您需要了解的有关数据挖掘和数据分析思维的知识


购买商业数据科学:在 Amazon.com 上您需要了解的有关数据挖掘和数据分析思维的知识 ✓ 免费……

amzn.to

](https://amzn.to/3KNvmpN)

[


数据科学家实用统计:使用 R 和 Python 的 50 多个基本概念


数据科学家实用统计:使用 R 和 Python 的 50 多个基本概念:9781492072942:计算机科学……

amzn.to

](https://amzn.to/3BcKFov)

下一篇文章:

数据工程师、数据科学、数据分析师和机器学习工程师之间有什么区别?


参考:

https://towardsdatascience.com/five-stages-of-every-data-science-project-8a62885e46de

https://www.simplilearn.com/what-skills-do-i-need-to-become-a-data-scientist-article

https://builtin.com/data-science/data-science-applications-examples

https://www.hiringlab.org/2019/01/17/data-scientist-job-outlook/

https://www.ibm.com/cloud/learn/data-science-introduction

https://www.youtube.com/watch?v=RyHAEEr2nYM

https://www.youtube.com/watch?v=Zwvq-rlIHAw

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/15604/35590510



推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文详细介绍了SQL日志收缩的方法,包括截断日志和删除不需要的旧日志记录。通过备份日志和使用DBCC SHRINKFILE命令可以实现日志的收缩。同时,还介绍了截断日志的原理和注意事项,包括不能截断事务日志的活动部分和MinLSN的确定方法。通过本文的方法,可以有效减小逻辑日志的大小,提高数据库的性能。 ... [详细]
  • Win10下游戏不能全屏的解决方法及兼容游戏列表
    本文介绍了Win10下游戏不能全屏的解决方法,包括修改注册表默认值和查看兼容游戏列表。同时提供了部分已经支持Win10的热门游戏列表,帮助玩家解决游戏不能全屏的问题。 ... [详细]
  • 本文讨论了如何在不使用SearchBar display controller的情况下,单独使用SearchBar并捕获其textChange事件。作者介绍了实际状况,即左侧SliderMenu中的SearchBar需要在主页TableView中显示搜索结果。然后,作者提供了解决方案和步骤,帮助读者实现这一功能。 ... [详细]
  • 本文介绍了新款奇骏的两个让人上瘾的功能,分别是智能互联系统和BOSE音响。通过对新款奇骏的配置和功能进行评测,探讨了这两个新增功能的使用体验和优势。此外,还介绍了新款奇骏的其他配置和改进,如增加的座椅和驾驶辅助系统,以及内饰的舒适性提升。对于喜欢音响的消费者来说,BOSE音响的升级也是一个亮点。最后,文章提到了BOSE音响的数字还原能力,以及7座版无法配备BOSE音响的原因。 ... [详细]
  • 电脑公司win7剪切板位置及使用方法
    本文介绍了电脑公司win7剪切板的位置和使用方法。剪切板一般位于c:\windows\system32目录,程序名为clipbrd.exe。通过在搜索栏中输入cmd打开命令提示符窗口,并输入clip /?即可调用剪贴板查看器。赶紧来试试看吧!更多精彩文章请关注本站。 ... [详细]
  • 本文介绍了使用postman进行接口测试的方法,以测试用户管理模块为例。首先需要下载并安装postman,然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时,可以进行异常测试,包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]
  • javascript  – 概述在Firefox上无法正常工作
    我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观:而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]
  • Excel数据处理中的七个查询匹配函数详解
    本文介绍了Excel数据处理中的七个查询匹配函数,以vlookup函数为例进行了详细讲解。通过示例和语法解释,说明了vlookup函数的用法和参数的含义,帮助读者更好地理解和运用查询匹配函数进行数据处理。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • JVM 学习总结(三)——对象存活判定算法的两种实现
    本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法:引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活,虽然简单高效,但无法解决循环引用的问题;可达性分析算法通过判断对象是否可达来确定存活对象,是主流的Java虚拟机内存管理算法。 ... [详细]
  • 微软发布OneNote for WordPress插件,支持一键从OneNote获取内容发布
    微软今日发布了OneNoteforWordPress插件,该插件支持从OneNote一键获取 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • Pycharm编辑器取消双击shift弹出搜索框的方法
    在使用Pycharm编辑器时,双击shift会弹出搜索框界面,导致输入失去焦点,给用户带来不便。本文介绍了取消双击shift弹出搜索框的方法:在Pycharm中双击shift,输入registry并回车,找到“ide.suppress.double.click.handler”并勾选后,关闭即可解决该问题。通过这个方法,你再也不会被shift问题困扰了。 ... [详细]
author-avatar
0523wei
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有