热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

数据预处理:思路分享及方法总结

1.数据预处理之前的准备工作通常,业务数据是某个行业领域的具体数据集,因此,在做数据清洗之前,需要有一定的业务逻辑的数据预处理。(1)行业领域调研。行业领域调研包括目前该行业领域内

1. 数据预处理之前的准备工作

通常,业务数据是某个行业领域的具体数据集,因此,在做数据清洗之前,需要有一定的业务逻辑的数据预处理。
(1)行业领域调研。行业领域调研包括目前该行业领域内的工业界所做出的成果、方法以及学术界对该领域的前言研究方向。
(2)具体业务的实际理解。具体业务的理解需要理清楚该业务有哪些核心关键点,以及有哪些可以从技术手段去解决的实际痛点。
(3)数据表字段的整理。数据的业务字段通常是非常繁杂的,需要落实到每个字段的未来可能使用场景,进行经验和逻辑上的初步字段筛选。

2. 数据预处理方法与过程

在完成上述准备工作后,进入代码层面与业务逻辑结合的数据预处理。根据以下几种不同的数据情况,分为不同的方法与过程。
(1)数据缺失
数据缺失是数据质量中的常见异常。面对数据缺失,首先在基于业务逻辑的基础上,有以下几种处理方法:
剔除:总体样本大,缺失值较少,剔除非完整样本数据;
最大似然填充:依概率分布函数,通过最大似然估计,对缺失值进行填充;
均值、同类型数据、众数等插补:依据业务逻辑和数据分布,插补数据;
手动插补:依据外部经验进行插补;
模型预测:以数据非缺失与缺失进行分割,利用机器学习的方法进行预测填补

(2)数据噪声
数据噪声也是业务数据中难以避免的数据异常问题。通常也是以业务逻辑为基础,有以下几种方法:
回归检测:噪声数据通常偏离整体数据的期望值,以构建回归模型的方法,筛选出偏离回归曲线较大的噪声数据。
卡方检验:以统计学方法,对数据进行卡方估计。
箱线图:通过分位数对数据噪声进行筛选
聚类:通过聚类模型,分离出偏离簇群的数据
数据标准化:归一化、Z-score、小数定标

(3)维度灾难
PCA:主成分分析
矩阵分解:SVD、LDA
模型选择:通过决策树模型、随机森林等模型构建,对数据进行重要性降维筛选
相关性分析:通过皮尔逊相关、信息熵等方法,对数据进行筛选降维
冗余分析:冗余数据逻辑分析,剔除重复值

(4)连续数据离散化
分箱法:等宽分箱、等频分箱
卡方分布离散化:卡方分裂,取卡方值大的区域,进行划分离散
熵的离散化:以最大熵进行自上而下的分裂

(5)离散数据连续化
独热编码:使用N位状态寄存器来对N个状态进行编码
高维映射:以高维映射函数,将离散数据扩展到更高维度,实现连续化

(6)数据样本不平衡
分层采样:数据划分多层次,重新组合多个样本比例均衡的数据集
数据重采样:对少样本数据进行重采样,补充数据
样本随机填补:以随机值填补数据样本集,扩充数据

另附思维导图:

《数据预处理:思路分享及方法总结》


推荐阅读
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 数据结构与算法的重要性及基本概念、存储结构和算法分析
    数据结构与算法在编程领域中的重要性不可忽视,无论从事何种岗位,都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外,还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • Python入门后,想要从事自由职业可以做哪方面工作?1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • bat大牛带你深度剖析android 十大开源框架_请收好!5大领域,21个必知的机器学习开源工具...
    全文共3744字,预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • JavaScript设计模式之策略模式(Strategy Pattern)的优势及应用
    本文介绍了JavaScript设计模式之策略模式(Strategy Pattern)的定义和优势,策略模式可以避免代码中的多重判断条件,体现了开放-封闭原则。同时,策略模式的应用可以使系统的算法重复利用,避免复制粘贴。然而,策略模式也会增加策略类的数量,违反最少知识原则,需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例,说明了策略模式的应用场景和实现方式。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 机器学习——KMeans算法
    相似度或距离假设有$m$个样本,每个样本由$n$个属性的特征向量组成,样本合集可以用矩阵$X$表示$X[x_{ij}]_{mn}\begin{bmatrix}x_{11}& ... [详细]
  • JavaScript和Python是用于构建各种应用程序的两种有影响力的编程语言。尽管JavaScript多年来一直是占主导地位的编程语言,但Python的迅猛发展有 ... [详细]
author-avatar
萧俊瑄俊明纬伦
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有