热门标签 | HotTags
当前位置:  开发笔记 > 大数据 > 正文

数据分析之描述性统计

当我们打开一份有十几列,几万行的明细数据时,那种感觉我相信用铺天盖地、头晕目眩来形容是再合适不过了。面对如此令人崩溃的场景,必须要求我们

当我们打开一份有十几列,几万行的明细数据时,那种感觉我相信用铺天盖地、头晕目眩来形容是再合适不过了。

面对如此令人崩溃的场景,必须要求我们要求能够快速找到数据的特征。描述性统计正是为此而生,它通过几个简单的分析方法就能在几秒钟内提取出指标背后的数据特征,快速建立整体全面的认知,并帮助我们寻找到分析的突破口。

为了能够高效的发现数据的特征,描述性统计为我们提供了三个非常有用的分析工具,分别是:


  • 中位数/平均数

  • 方差/标准差


分析工具1:用中位数和平均数分析数据分析布情况

平均数一般包括算数平均数和几何平均数:

        算数平均数:适用于指标是绝对值的数据;比如(1+2+3+4)/4

        几何平均数:适用于指标是百分比的数据。比如 (11%+12%+13%+14%)开5次方

中位数和平均数一般结合着使用。先看下面一组数据。


  • 产品 A 的日均销售额为 281.11,每日销售额的中位数是 234,即平均数大于中位数。
    意味着产品 A 的每日销售额偏高的居多,可能是产品 A 的客单价较高,可能是某一天的销售额很高,拉高了平均数。

  • 产品 B 的日均销售额为 281.11,每日销售额的中位数是 315,即平均数小于中位数。
    意味着产品 B 的每日销售额偏低的居多,可能是产品 B 的客单价较低,可能是某一天的销售额很低,拉低了平均数。


分析工具 2:用“方差和标准差”来分析指标的波情况

方差,是指数据的离散程度,是一组数据与这组数据平均数之差的平方值的平均数;而标准差,是方差的开方值。


  • 方差和标准差代表了业务指标的波动情况,即业务稳定性的高低,也即业务经营风险的大小;

  • 当方差和标准差变大,意味着指标波动变大,业务稳定性降低,业务经营风险升高;

  • 当方差和标准差变小,意味着指标波动变小,业务稳定性升高,业务经营风险降低;

 我们用方差来计算,分别计算这三个渠道的每日获客量的方差和标准差:


  • 渠道 A 的每日新增用户数的方差是 305.6,标准差是 17.48;

  • 渠道 B 的每日新增用户数的方差是 834.6,标准差是 28.89;

  • 渠道 C 的每日新增用户数的方差是 630.6,标准差是 25.11。

我们发现:因为渠道 B 的每日新增用户数方差和标准差最大,可以认为在这 3 个渠道中,渠道 B 的获客能力波动最大,稳定性最差,后续的风险也在 3 个渠道中最高(相对),接下来的运营需要更多的关注渠道 B 的运营情况;而渠道 A 和渠道 C 的获客能力相对波动较小,获客较稳定,保持中优先级的关注即可。


推荐阅读
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 数据对比分析图PPT(127.0.0.1表示什么)的使用方法和意义
    本文介绍了数据对比分析图PPT的使用方法和意义,解释了127.0.0.1的含义,并提供了相关资源下载。同时还讨论了目标管理的概念和MBO的实施方法。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • FineReport平台数据分析图表显示部分系列接口的应用场景和实现思路
    本文介绍了FineReport平台数据分析图表显示部分系列接口的应用场景和实现思路。当图表系列较多时,用户希望可以自己设置哪些系列显示,哪些系列不显示。通过调用FR.Chart.WebUtils.getChart("chartID").getChartWithIndex(chartIndex).setSeriesVisible()接口,可以获取需要显示的系列图表对象,并在表单中显示这些系列。本文以决策报表为例,详细介绍了实现方法,并给出了示例。 ... [详细]
  • 本文介绍了简书APP的PRD文档规范写法及内容概述。PRD文档的要求因公司、团队或产品而异,本文总结了简书APP的PRD文档框架,包括版本信息、文档说明、产品简介、产品特色、用户分析和产品架构等内容。简书APP致力于提供最好的分享体验,为写作者打造最优秀的写作软件,为阅读者打造最优雅的阅读社区。主要用户为喜欢分享交流、爱生活拥有文艺气息的年轻人,喜爱文字并想在喧嚣网络中沉淀文字的读写人。产品架构包括了主要模块,并应展开至最小用户可见单元。 ... [详细]
  • 2022年的风口:你看不起的行业,真的很挣钱!
    本文介绍了2022年的风口,探讨了一份稳定的副业收入对于普通人增加收入的重要性,以及如何抓住风口来实现赚钱的目标。文章指出,拼命工作并不一定能让人有钱,而是需要顺应时代的方向。 ... [详细]
  • Python开源库和第三方包的常用框架及库
    本文介绍了Python开源库和第三方包中常用的框架和库,包括Django、CubicWeb等。同时还整理了GitHub中最受欢迎的15个Python开源框架,涵盖了事件I/O、OLAP、Web开发、高性能网络通信、测试和爬虫等领域。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
  • Excel中超好用的5招条件格式图表可视化 ... [详细]
  • 合并列值-合并为一列问题需求:createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 腾讯安全平台部招聘安全工程师和数据分析工程师
    腾讯安全平台部正在招聘安全工程师和数据分析工程师。安全工程师负责安全问题和安全事件的跟踪和分析,提供安全测试技术支持;数据分析工程师负责安全产品相关系统数据统计和分析挖掘,通过用户行为数据建模为业务决策提供参考。招聘要求包括熟悉渗透测试和常见安全工具原理,精通Web漏洞,熟练使用多门编程语言等。有相关工作经验和在安全站点发表作品的候选人优先考虑。 ... [详细]
  • 本文总结了使用不同方式生成 Dataframe 的方法,包括通过CSV文件、Excel文件、python dictionary、List of tuples和List of dictionary。同时介绍了一些注意事项,如使用绝对路径引入文件和安装xlrd包来读取Excel文件。 ... [详细]
author-avatar
crazttitan
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有