热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

老板电器数据分析

1数据挖掘与预处理1.1数据背景高质量的产品不仅能很好地满足顾客对产品使用功能的需要,获得良好的使用体验,提升企业形象和商誉,同时能为企业减少售后维修成本,增加利润。燃气灶市场已成



1 数据挖掘与预处理
1.1数据背景
高质量的产品不仅能很好地满足顾客对产品使用功能的需要,获得良好的使用体验,提升企业形象和商誉,同时能为企业减少售后维修成本,增加利润。燃气灶市场已成为继家电市场之后各大电器公司竞争的新战场。某电器公司的燃气灶产品销售额一直在国内处于领先地位,把产品质量视为重中之重,每年都要对其产品质量数据进行分析研究,以期不断完善,精益求精。
1.2数据概况
本次建模数据来源于1月电器公司燃气灶质量情况统计数据,记录到的燃气灶故障现象均为“打不着火”,其主要的数据基本统计概况如下:
特征变量数:8
数据记录数:8257
是否有NA值:是
是否有异常值:是
去除异常值和NA值后的数据共计7868条,其特征变量详情如下:
(1)机型:代表所售燃气灶的型号,共计204个型号。
(2)故障代码:代表燃气灶维修部分的记录,分别代表故障模式、故障模式细分、维修方式、故障名称等。
(3)故障模式:表示燃气灶故障的基本情况,分为“微动开关坏”、“热电偶坏”、“电极针坏”、“电磁阀坏”、“脉冲器坏”等5种。
(4)故障模式细分:根据故障基本情况,故障类型又细分为“开裂”、“变形”、“老化”、“调整电极针位置”、“热电偶与电磁阀接触不良”等5种。
(5)维修方式:根据不同燃气灶的具体情况,采用的维修方式分为“更换”和“未更换”2种。
(6)故障名称:根据购买和维修之间的时间跨度,分为“保内”和“保外”两种。
(7)分公司:共有61个分公司负责销售和维修。
(8)单据类型:针对具体情况,每个维修单类型分为“调试”、“维修”、“改气源”、“其它”等4种。

图1燃气灶部分维修数据截图
1.3主要应用程序库
本文研究的数据来自电器公司的维修记录,以下简要介绍数据分析及建模过程中使用到的库函数:
(1)Pandas:作为Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的主要数据结构是Series(一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。
(2)Numpy:作为Python中科学计算的基础包,它提供了多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数,基本统计运算和随机模拟等等。
(3)Sklearn:其全称为scikit-learn,是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用,并且涵盖了几乎所有主流机器学习算法。Sklearn有以下常用模块:
(4)Matplotlib:作为一个Python的2D绘图库,可以以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形。
1.4数据预处理
真实数据中可能包含了大量的缺失值和噪音数据或人工录入错误导致有异常点存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。数据预处理通常包含数据清洗、归约、聚合、转换、抽样等方式,数据预处理质量决定了后续数据分析挖掘及建模工作的精度和泛化价值。以下简要介绍数据预处理工作中主要的预处理方法:
1.4.1导入程序库并读取数据
(1)导入程序库:将所用到的程序库导入到Python程序中,如图2所示。

图2 程序库导入代码
(2)读取数据:使用Pandas库中read_excel方法读取Excel数据,并转为DataFrame类型。读取数据代码如图3所示。

图3 数据读取代码
1.4.2数据校验和处理
通过对原始数据审查和校验,了解数据基本分布、数值类型,处理数据中异常值和缺失值等情况。
(1)数据替换:原始数据中均以文字记录各项信息,需将文字信息替换成对应的数字代码,方便后期数据挖掘和分析工作。根据故障代码,详细的替换内容如下:
1)故障模式中,将“微动开关坏”、“热电偶坏”、“电极针坏”、“电磁阀坏”、“脉冲器坏”分别替换为“1”、“2”、“3”、“4”、“5”。
2)故障模式细分中,将“开裂”、“变形”、“老化”、“调整电极针位置”、“热电偶与电磁阀接触不良”分别替换为“1”、“2”、“3”、“4”、“5”。
3)维修方式中,将“更换”和“未更换”分别替换为“1”、“2”。
4)故障名称中,将“保内”、“保外”分别替换为“1”、“2”。
5)单据类型中,将“调试”、“维修”、“改气源”、“其它”分别替换为为“1”、“2”、“3”、“4”。
使用Python代码将数据完成替换,图4为替换部分代码。

图4 数据替换部分代码
(2)数据缺失和异常处理:原始数据存在购买日期异常,购买日期记录为1930年,部分数据特征变量存在缺失值,异常情况如图5所示。

图5 数据异常和缺失情况
根据购买时间,删除异常购买日期的信息和缺失值信息,最终得到干净的燃气灶维系记录信息,如图6所示。

图6 经过替换、去除异常和缺失值后的数据
(3)数据概览:本部分通过代码对数据进行审查,检查各部分数据类型和数据缺失情况,其数据类型和缺失情况如图7所示,处理后的数据不含缺失值。

图7 数据类型和缺失情况
1.4.3数据分析
(1)机型数量分析:在8247条维修记录中,共有209个燃气灶型号。其中,机型为JZT-7B13、JZT.2-9B13、JZT.2-7G02的燃气灶数量最多,分别有1112条、684条和625条记录,分别占比13.4%、8.29%、7.57%。
(2)故障分析:在维修记录中不同部件维修数量不同,其中“电极针坏”的数量占比最多,占全部维修记录的64.12%。“热电偶坏”和“电磁阀坏”的占比次之,分别为14.87%和11.29%。图8为绘制统计图的Python代码,图9为故障模式各项占比统计图。

图8 绘制统计图的Python代码

图9 故障模式各项统计图
5种故障模式又分别细分为5项:“开裂”、“变形”、“老化”、“调整电极针位置”、“热电偶与电磁阀接触不良”,分别对5项故障模式统计细分故障模式,统计故障模式细分的Python如图10所示,统计结果如图11所示。

图10 统计故障模式细分部分代码

图11 故障模式细分统计
图11中按顺序分别对应“微动开关坏”、“热电偶坏”、“电极针坏”、“电磁阀坏”、“脉冲器坏”等5种故障模式。故障模式中出现“开裂”、“老化”、“变形”的细分故障最多。
根据燃气灶的5种故障模式,统计各种故障状态的维修方式,统计是否需要更换部件,Python统计维修方式的代码如图12所示,其统计结果如图13所示。仅当“微动开关坏”时,“未更换”部件的占比高与“更换”部件,其余4种故障模式下,“更换”部件占比均高与“未更换”。

图12 维修方式统计部分代码

图13 不同故障下“更换”部件与“未更换”部件占比

2 建立预测模型
2.1 划分数据集
根据燃气灶维修记录,通过训练机器学习模型,使之可以根据燃气灶维修记录和是否在保信息,判断所维修的燃气灶是否需要更换故障零件,以期达到动态管理常见故障零部件仓储和调配,减少后续维修工作成本,增加厂商利润。
在机器学习模型建立过程中,需要有足够的数据用与模型训练和测试。用于机器学习的数据集一般需被划分为“训练集”和“验证集”。训练集数据用于模型训练,调整模型的参数;验证集数据用于验证模型性能,评估模型分类的准确度。训练集数据和验证集数据之间互斥。
原始数据经过预处理后,剩余干净数据8247条,有4类主要的特征变量:“故障模式”、“故障模式细分”、“维修方式”和“故障名称”。先将处理后的数据随机重新排列,减少相邻数据之间可能存在的隐藏联系,再按照4:1的比例划分训练集和测试。
2.2 建立预测模型
根据数据中“故障模式”、“故障模式细分”、“故障名称”3种变量的特征,预测“维修方式”中是否需要更换零部件。使用C4.5决策树算法,用于目标分类。
2.2.1 C4.5决策树算法
决策树模型代表对象属性与对象值之间的映射关系,树中每个节点表示对象,每个分查路径代表某个可能的属性值,每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树模型仅有单一输出。
C4.5决策树算法依据信息增益率的大小,分类对象。熵表示事务不确定性的程度,即信息量的大小,信息熵的公式如式(1)所示。
█(Entropy= -∑_(i=1)^n▒〖p(x_i )*〖log〗2 p(x_i ) 〗#(1) )
其中,pi(xi)为分类xi的概率,n为分类数目,即信息熵的变化金鱼变量概率分布相关。信息熵不断朝最小化方向发展,就是提高决策树模型分类正确率的过程。通过计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征即为最好的选择。信息增益计算如式(2)所示。
█(infoGain(D│A)=Entropy(D)-Entropy(D│A)#(2) )
其中,定义属性A对数据集D的信息增益为infoGain(D|A),它等于D本身的熵减去 给定A的条件下D的条件熵。
C4.5决策树算法在信息增益的基础上,进一步计算信息增益率,用来选择优先划分的属性,信息增益率公式如式(3)和式(4)所示。
█(GainRatio(D│A)=(infoGain(D│A))/IV(A) #(3) )
█(IV(A)= -∑
(k=1)^K▒〖|D_k |/|D| *〖log〗_2 |D_k |/|D| 〗#(4) )
其中A=[a1, a2,…, ak],若用A对样本集D进行划分,则会产生K个分支节点,其中第k个节点包含D中所有属性A上取值为ak的样本,记为Dk。通常,属性A的可能取值越多,则IV(A)的值越大。

2.2.2 模型性能
将“故障模式”、“故障模式细分”、“故障名称”3种属性的数字代码输入决策树模型中,分类预测“维修方式”,是否需要更换零部件。使用Python代码,根据Sklearn库构建决策树模型,训练及验证模型性能的部分代码如图14所示。

图14 决策树模型训练及验证部分代码
使用C4.5决策树算法模型,根据“故障模式”、“故障模式细分”、“故障名称”3个特征属性,预测燃气灶的维修方式。使用精确率、召回率和F1值评估模型性能,其中,精确率表示所有预测为正的样本中实际样本亦为正的概率,召回率表示在实际为正的样本中被预测为正的样本概率,F1值同时参考精确率和召回率,使两者同时达到最高取得平衡。精确率、召回率和F1值计算数据来自于混淆矩阵,如图15所示。

图15 模型分类结果混淆矩阵示意图
混淆矩阵中,1代表正确,0代表错误。TP代表模型预测为1,且实际也为1,模型预测正确的样本数量;FP代表模型预测为1,且实际为0,模型预测错误的样本数量;FN代表预测为0,且实际为1,模型预测错误的样本数量;TN代表预测为0,且实际为0,模型预测正确的样本数量。模型精确率、召回率和F1值计算公式分别如式(5)、式(6)、式(7)所示。
█(精确率=TP/(TP+FP)#(5) )
█(召回率=TP/(TP+FN)#(6) )
█(F1=(2精确率召回率)/(精确率+召回率)#(7) )
决策树模型对维修方式的预测效果较好,详细模型性能参数如图16所示。

图16 决策树模型性能
通过训练,决策树模型的性能较强,模型训练和验证结果相近,未出现严重过拟合和欠拟合现象。因此,根据“故障模式”、“故障模式细分”、“故障名称”3种属性的特征值,使用C4.5决策树算法模型,预测燃气灶维修方式的方法是可行的,而且模型准确率较高。通过这种方法,为降低电器厂商维修成本,增加企业利润,提高电器公司燃气灶等零部件等产品的物资仓储、运输等工作的运行效率。



推荐阅读
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度
    介绍在我们学习机器算法的时候,可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器,但你要明白这些兵器是需要在合适的时间合理 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 开发笔记:计网局域网:NAT 是如何工作的?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了计网-局域网:NAT是如何工作的?相关的知识,希望对你有一定的参考价值。 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 深入理解Kafka服务端请求队列中请求的处理
    本文深入分析了Kafka服务端请求队列中请求的处理过程,详细介绍了请求的封装和放入请求队列的过程,以及处理请求的线程池的创建和容量设置。通过场景分析、图示说明和源码分析,帮助读者更好地理解Kafka服务端的工作原理。 ... [详细]
author-avatar
别样青年别样范儿bo
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有