热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

常用数据处理方法,你都会吗?

数据编辑处理是在统计和分析数据时,第一步要做的。尤其是当面对大量数据时,数据处理是一个重要的过程,可以达到提高处理效率及精度的目的。为配

数据编辑处理是在统计和分析数据时,第一步要做的。尤其是当面对大量数据时,数据处理是一个重要的过程,可以达到提高处理效率及精度的目的。

为配合进行更好的分析,研究过程过可能涉及到以下数据处理工作:

  1. 定义变量名
  2. 制定数据标签
  3. 数据编码
  4. 计算变量
  5. 无效样本处理
  6. 特殊值处理等

 

定义变量

定义变量,就是给每个指标起名字。每个变量都需要有对应的变量名,以便得到更规范的表格呈现和操作体验,spssau中通过“标题修改”定义变量名,一般用于以下情况:

  1. 上传数据后,对不规范标题修改
  2. 完成数据编码后,进行标题修改
  3. 完成生成变量后,进行标题修改
  4. 有多余无意义的标题,进行删除标题(一次只能删除一个标题)

 


数据标签

除了标题名需要定义,数据标签也是一个重要的属性。数据标签用于标识数据中的数字代表的意义,对数据的含义进行解释说明,比如用1表示男,用2表示女。数据标签仅影响表格展示,完全不影响分析结果。

 


数据编码

量表问卷中经常会使用到反向计分,反项题得到数据在分析以前,要先进行重新编码。

数据编码通常除了用于处理反项题,还会用于数据组合。

比如1代表高中,2代表大专,3代表本科,4代表硕士,5代表博士。希望组合成三组分别是:本科以下,本科,硕士及以上.则可处理为:1->1,2->1,3->2,4->3,5->3,最终数字1代表本科以下,2代表本科,3代表硕士及以上

 

无效样本

在数据分析之前,首先需要进行数据查看,包括数据中是否有异常值,无效样本等。如果有无效样本则需要进行处理,然后再进行分析。另外如果数据中有异常值也需要进行处理后再进行分析。无效样本会干扰分析研究,扭曲数据结论等,因而在分析前先对无效样本进行标识显示尤其必要。

 

如果数据来源为问卷,则很可能出现无效样本,因为填写问卷的样本是否真实填写无从判定;如果数据库下载或者使用二手数据等,也可能出现大量缺失数据等无效样本。

 

无效样本的常见使用场景:

  1. 问卷研究中乱填问卷的样本;
  2. 数据库下载的数据中有大量缺失数据;
  3. 二手数据中包括无效或缺失数据;
  4. 其它收集数据中有无效样本时。

 

缺失值或异常值

缺失值或异常值是一个重要但容易被忽略的问题。不论什么研究数据,如果数据中存在可能的异常值,均应在分析之前处理,防止异常值带来的干扰,比如异常值会扭曲X和Y之间的相关关系,回归关系等,异常错误的结论;当然其它研究方法基本均会受到异常值的干扰,异常值较多或者异常稍大时,此时会直接扭曲结论。

 

计算变量

上传数据,并修改好各标题名、数据标签后,我们就已经得到了原始的数据库,可以开始进行数据分析了。

不过实际情况中,往往不能直接使用原始数据进行统计分析,原因是数据中可能存在因录入错误或原始问卷记录错误导致的不正确的数据。或者不同研究目的,需要结合不同分析方法进行分析,而不同的统计方法对变量的需求也不尽相同,因此需要对数据重新调整或转换

计算变量功能是指对问卷某题项或者多个题项进行处理的一种数学变换。通常情况下,问卷研究中共有两种情况会使用此功能,分别是变量生成和变量处理。

多数情况下,一个变量由多个题项表示,而最终进行相关、回归等分析时仅能使用一个变量,此时则需要将多个题项进行计算平均值处理,多个题项的综合平均值代表此变量。另外,如果需要对数据取对数,或者进行题项或者变量之间的加减计算时,均需要使用计算变量功能实现。计算变量功能仅适用于定量数据,分类数据不需要进行加减或者取平均值处理等。

比如网购满意度由4项表示,希望将4项处理成一个整体(网购满意度),则将此4项进行选中,并且告诉SPSSAU‘变量名字’。生成变量可做以下功能:

  1. 平均值、求和、中位数、乘积
  2. 标准化、中心化、最大最小归一化
  3. 虚拟变量
  4. 平方、根号
  5. 自然对数、10为底对数
  6. 绝对值
  7. 正向化、逆向化

总结来说,数据处理是很容易被轻视的一部分内容,但往往数据处理的好坏会决定之后工作的难度,并直接影响到数据分析的结果,数据处理的好,会简化后面的数据分析工作,因此一定要把数据处理重视起来。


推荐阅读
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 数据对比分析图PPT(127.0.0.1表示什么)的使用方法和意义
    本文介绍了数据对比分析图PPT的使用方法和意义,解释了127.0.0.1的含义,并提供了相关资源下载。同时还讨论了目标管理的概念和MBO的实施方法。 ... [详细]
  • 本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面,并总结了项目存在的问题,如前后端未分离、代码混乱等。作者表示希望通过记录和规划,能够理清思路,进一步完善该平台。 ... [详细]
  • 在线教育平台的搭建及其优势
    在线教育平台的搭建对于教育发展来说是一次重大进步。未来在线教育市场前景广阔,但许多老师不知道如何入手。本文介绍了在线教育平台的搭建方法以及与传统教育相比的优势,包括时间、地点、空间的灵活性,改善教育不公平现象以及个性化教学的特点。在线教育平台的搭建将为学生提供更好的教育资源,解决教育不公平的问题。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 阿里云虚拟主机安装多个织梦系统的方法
    本文介绍了在阿里云虚拟主机上安装多个织梦系统的方法。通过创建不同名称的文件夹并将不同的域名解析到对应的目录,可以实现多个系统的安装。在安装过程中需要注意修改数据库前缀,并在系统设置中还原数据库。同时还介绍了阿里云虚拟主机二级域名绑定二级目录和域名重定向的用法。 ... [详细]
  • 2022年的风口:你看不起的行业,真的很挣钱!
    本文介绍了2022年的风口,探讨了一份稳定的副业收入对于普通人增加收入的重要性,以及如何抓住风口来实现赚钱的目标。文章指出,拼命工作并不一定能让人有钱,而是需要顺应时代的方向。 ... [详细]
  • MVC设计模式的介绍和演化过程
    本文介绍了MVC设计模式的基本概念和原理,以及在实际项目中的演化过程。通过分离视图、模型和控制器,实现了代码的解耦和重用,提高了项目的可维护性和可扩展性。详细讲解了分离视图、分离模型和分离控制器的具体步骤和规则,以及它们在项目中的应用。同时,还介绍了基础模型的封装和控制器的命名规则。该文章适合对MVC设计模式感兴趣的读者阅读和学习。 ... [详细]
  • 合并列值-合并为一列问题需求:createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文介绍了如何使用Power Design(PD)和SQL Server进行数据库反向工程的方法。通过创建数据源、选择要反向工程的数据表,PD可以生成物理模型,进而生成所需的概念模型。该方法适用于SQL Server数据库,对于其他数据库是否适用尚不确定。详细步骤和操作说明可参考本文内容。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
author-avatar
潇然free
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有