热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

3.1数据采集(一)-数据采集的步骤与方法

简介数据采集就是搜集符合数据挖掘研究要求的原始数据(RawData)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过

简介

数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。

一句话解释版本:

数据采集就是怎么获得原始数据,如果把数据采集看成吃饭,自己撸起袖子做饭就是用一手数据,点外卖就是用二手数据。


数据分析与挖掘体系位置

数据采集是数据挖掘的基础。数据挖掘如果是建房子,数据采集就是那些砖跟水泥等等基础材料。没有砖,拿什么盖房子,总不能用空气吧?所以,找砖、找水泥的工作就是数据采集。它是数据准备工作的第一步。

数据采集的工作中,包含着部分与样本的知识,但是那部分我们单独在“样本抽取”单元讲解。这里我们只说能够通过什么样的方法进行数据采集。因此,它在整个数据分析与挖掘体系中的位置如下图所示。


数据采集的理解

前面也说了,数据收集就是准备数据挖掘要用的那些数据。数据挖掘,没有数,哪来的挖掘呢?

但是我们肯定会说:世界上有那么多的数据,我怎么知道自己要用的数据能不能拿到?怎么拿到?有什么方法拿到?

数据收集的理论其实就是提供了一个方法论,或者说一个框架,它就是告诉你:有这些这些方法能够在你不知道数据中怎么来的时候帮到你。你不是不知道数据从哪里来吗?我告诉你,有这么多的方法都能帮你拿到数据。

唯一一个需要注意的地方就是:

数据收集可以告诉你:我怎么样才能拿到数据。

但是,不能告诉你:你拿到的数据合不合适;他也不能告诉你:你需要什么样的数据。

要解决后两个问题,你需要进行完善的项目调研,并且明确项目的需求。这些,靠的是你对业务以及模型的理解,而并非是方法论。

数据采集的方法

数据收集的方法可以分成两类:

  1. 直接来源:一手数据
  2. 间接来源:二手数据

就像前面说的,一手资源就是拿着炒勺锅子自己做饭。二手资源则是点个外卖,吃别人做好的饭。

我们下面分别讲解一下如何用这两种方法吃饱饭。


直接来源:一手数据

一手数据的正式版定义是:通过研究者实施的调查或实验活动获得的数据。

所以,要想获得一手数据,有两种方法:调查 或 实验。

调查

通过调查得到的一手数据叫做调查数据。调查数据是针对社会现象的。比如说,调查现在的经济形势、人的心理现象、工厂效率等等。

调查的形式

调查的形式分为两类:

  • 普查
  • 抽样

普查是要对一个总体内部的所有个体进行调查,国家进行的人口普查就是最典型的普查形式。普查的结果是最贴近总体的真实表现的,是无偏见(Unbias)的估测。但是普查的成本太大,少有项目采用这种方式。

抽样则在生活中被应用的更加广泛。由于数据分析挖掘涉及的总体数据量一般很大,如果要做普查,没有大规模的时间与金钱是几乎不可能的。所以,我们会从总体中抽取部分有代表性的个体调查,并用这部分个体的数据去反映整体,这就是抽样。

调查的方法

不管是用普查还是抽样的方法,数据采集都习惯用下面三种方式之一:

  • 自填式:填写调查问卷(电子/书面)。
  • 面访式:面对面采访。
  • 电话式:电话联络。

具体的设计问卷的方法、面访的技巧或者电话的提问设计都在后面慢慢讲解。这里只是概括性的介绍方法。


实验

通过实验得到的一手数据叫做实验数据。调查数据是针对自然现象的。比如说,植物背光生长的快慢、小白鼠对食物的记忆规律等等。

实验的方法

实验方法需要研究者真正设计实验,并记录结果、整合为数据,服务于后期的数据分析与挖掘工作。

实验的设计需要满足一个大原则:有实验组与对照组。实验组是只有要研究的变量发生变化的组;对照组是保持变量不变的组。这样,通过控制变量的方法,能得到观测数据。


间接来源:二手数据

二手数据的正式版定义是:数据原本已经存在,是由别人收集的,使用者通过重新加工或整理得到的数据。

所以,要想获得二手数据,有两种方法:系统内部采集 或 系统外部采集。

系统内部采集

系统内部采集数据是我在工作中最常见的数据采集方法。要进行数据分析的公司肯定会有自己的数据,这些数据一般会保存在数据库中,我有过接触的数据库例如Oracle与Teradata。在数据仓库中,会保存公司内部的生产数据,他们就是将公司的业务、渠道、成本、收益等生产过程数字化并固定存放在机器中。数据挖掘师可以通过SQL语言提取想要的数据表,并进行数据的收集。

系统内部数据一般都与企业的生产相关,涉及到用户信息的保密与商业机密等问题。所以一般都是有项目或者有研究课题的时候才能够获取。


系统外部采集

系统外部采集的数据是更加宏观、更加公开的数据。这些数据大部分不是针对某一家公司自己的运营与生产情况,而是更加偏重于社会的外部环境以及行业的经济形势。

下面这些都是系统外部采集的常用渠道:

  • 统计部门或政府的公开资料、统计年鉴
  • 调查机构、行会、经济信息中心发布的数据情报
  • 专业期刊
  • 图书
  • 博览会
  • 互联网

系统外部采集数据的源头众多,采集方法也有很多,手工处理excel或者网络爬虫都是可选的方法。


推荐阅读
  • Oracle 和 mysql的9点区别【MySQL】
    数据库|mysql教程oracle,Oracle,money,mysql,coun数据库-mysql教程1.组函数用法规则mysql中组函数在select语句中可以随意使用,但在o ... [详细]
  • PHP组合工具以及开发所需的工具
    本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件,包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境,包括推荐的AppServ等版本。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • Oracle Database 10g许可授予信息及高级功能详解
    本文介绍了Oracle Database 10g许可授予信息及其中的高级功能,包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明,指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]
  • 本文讨论了在数据库打开和关闭状态下,重新命名或移动数据文件和日志文件的情况。针对性能和维护原因,需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况,以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]
  • Oracle10g备份导入的方法及注意事项
    本文介绍了使用Oracle10g进行备份导入的方法及相关注意事项,同时还介绍了2019年独角兽企业重金招聘Python工程师的标准。内容包括导出exp命令、删用户、创建数据库、授权等操作,以及导入imp命令的使用。详细介绍了导入时的参数设置,如full、ignore、buffer、commit、feedback等。转载来源于https://my.oschina.net/u/1767754/blog/377593。 ... [详细]
  • Python SQLAlchemy库的使用方法详解
    本文详细介绍了Python中使用SQLAlchemy库的方法。首先对SQLAlchemy进行了简介,包括其定义、适用的数据库类型等。然后讨论了SQLAlchemy提供的两种主要使用模式,即SQL表达式语言和ORM。针对不同的需求,给出了选择哪种模式的建议。最后,介绍了连接数据库的方法,包括创建SQLAlchemy引擎和执行SQL语句的接口。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 本文介绍了一个误删Oracle数据文件导致数据库无法打开的问题,并提供了解决方式。解决方式包括切换到mount状态、离线删除报错的数据文件等。 ... [详细]
  • 在Oracle11g以前版本中的的DataGuard物理备用数据库,可以以只读的方式打开数据库,但此时MediaRecovery利用日志进行数据同步的过 ... [详细]
  • 本文介绍了Oracle存储过程的基本语法和写法示例,同时还介绍了已命名的系统异常的产生原因。 ... [详细]
  • 从Oracle安全移植到国产达梦数据库的DBA实践与攻略
    随着我国对信息安全和自主可控技术的重视,国产数据库在党政机关、军队和大型央企等行业中得到了快速应用。本文介绍了如何降低从Oracle到国产达梦数据库的技术门槛,保障用户现有业务系统投资。具体包括分析待移植系统、确定移植对象、数据迁移、PL/SQL移植、校验移植结果以及应用系统的测试和优化等步骤。同时提供了移植攻略,包括待移植系统分析和准备移植环境的方法。通过本文的实践与攻略,DBA可以更好地完成Oracle安全移植到国产达梦数据库的工作。 ... [详细]
  • MySQL中的MVVC多版本并发控制机制的应用及实现
    本文介绍了MySQL中MVCC的应用及实现机制。MVCC是一种提高并发性能的技术,通过对事务内读取的内存进行处理,避免写操作堵塞读操作的并发问题。与其他数据库系统的MVCC实现机制不尽相同,MySQL的MVCC是在undolog中实现的。通过undolog可以找回数据的历史版本,提供给用户读取或在回滚时覆盖数据页上的数据。MySQL的大多数事务型存储引擎都实现了MVCC,但各自的实现机制有所不同。 ... [详细]
  • 如何利用 Myflash 解析 binlog ?
    本文主要介绍了对Myflash的测试,从准备测试环境到利用Myflash解析binl ... [详细]
  • 本文详细介绍了使用 SQL Load 和 Excel 的 Concatenate 功能将数据导入 ORACLE 数据库的方法和步骤,同时介绍了使用 PL/SQL tools 将数据导入临时表的方法。此外,还提供了一个转链接,可参考更多相关内容。摘要共计XXX字。 ... [详细]
author-avatar
mobiledu2502869153
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有