热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【2019全国职业技能大赛大数据技术】任务三:4数据清洗与分析(25分_题目+答案<图片+分值>)

【题目】现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及

【题目】

        现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的
情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。
        hoteldata.csv 文件中已经包含了数据采集阶段从酒店网站上爬取的数据集,其中包含了来自不同城市中多家酒店的销售信息,你的小组需要通过编写代码或脚本完成对文件 hoteldata.csv 中酒店销售管理数据的清洗和整理,并完成数据计算和分析任务。综合利用 MapReduce、Spark、Storm、分布式存储系统、数据仓库 Hive、数据推送工具等技术,使用 Java、Python 等开发语言,完成本阶段数据清洗、存储、转化、分析及数据推送等任务。通过多个维度分析酒店的销售信息,并以此评价酒店销售业绩、区域的游客接纳能力、接纳质量等指标。
        初始数据集来自多个网站及平台系统,且为多次采集汇总,因此数据集中不可避免地存在一些脏数据,即源数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。

请分析数据集 hoteldata,根据题目规定要求实现数据清洗及分析。




  1. 脱敏后的数据存放于 平台/h3cu/hoteldata.csv ;

  2. Spark maven 依赖 的 配置文件 样例 存放于 计算机 桌面/H3CU_hotel/spark_file ;

  3. 任务三 虚拟机账号/ 密码:hadoop/hadoop ; 虚拟机 MySQL 数据库 账号/密码:root/Password123$ ;

  4. 相关 jar 包 存放于 在 计算机 桌面/H3CU_hotel/jar 包 ;

  5. 本任务要求 使用的 编译 工具 为:IDEA 2019.1 (IntelliJ IDEA CommunityEdition 2019.1 x64) ) ;

  6. Jar 包可以 使用 XFTP 上传。



        1、 酒店销售数据涉及到多个平台及数据库对接,个别信息由于人为操作失误或计算机故障等原因产生了数据缺失值。缺失值是一种常见的脏数据情况,由于粗糙数据中缺少信息而造成的数据删失或截断。现有数据集中某个或某些属性的值是不完全的。对于缺失值的处理,从总体上来说分为缺失值删除和缺失值插补。当缺失值过多时,信息条目本身的价值也会随之降低,此时如果对缺失值进行填补则将产生结果的人为干预。结合行业数据本身特点及上述考虑,请你根据题目具体参数要求实现以下功能:将缺失值大于 n 个的数据条目剔除原始数据集,并输出剔除的条目数量,截图并保存结果。
详细描述:
         数据源文件存放于平台/h3cu/hoteldata.csv,请编写 Spark 程序,按照如下要求实现对数据的清洗,并将结果输出至 HDFS 文件系统中/hotelsparktask1。


  1. 解析/h3cu/hoteldata.csv;

  2. 将缺失值大于 n(n=3)个的数据条目剔除出原始数据集,并输出剔除的条目数量;

  3. 程 序 打 包 并 在 Spark 上 运 行 , 结 果 输 出 至 HDFS 文 件 系 统 中/hotelsparktask1。

具体任务要求:


  1. 将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;

  2. 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);

  3. 使 用 Hadoop shell 命 令 查 看 清 洗 后 输 出 的 结 果 文 件 总 行 数/hotelsparktask1,将运行结果截图并保存。




【答案】

1 、将 hoteldata.csv 文件上传至 HDFS 新建目录/file3_1 中,将运行命令截图并保存;(1分)
参考答案截图:红框区域结果一致得 1 分;


2) 运行代码,删除数据源中缺失值大于 3 个字段的数据,打印输出删除条目数,将打印输出结果截图并保存(截图需包含打印语句输出结果的上下各 5 行运行日志);(1分)
参考答案截图:每个红框区域结果一致得 0.5 分; (两个红框共 1 分 )


3) 使用 Hadoop shell 命令查看清洗后输出的结果文件总行数/hotelsparktask1,将运行结果截图并保存;(1 分)
参考答案截图:红框区域结果一致得 1 分;


推荐阅读
  • Azkaban(三)Azkaban的使用
    界面介绍首页有四个菜单projects:最重要的部分,创建一个工程,所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]
  • Java和JavaScript是什么关系?java跟javaScript都是编程语言,只是java跟javaScript没有什么太大关系,一个是脚本语言(前端语言),一个是面向对象 ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • Maven构建Hadoop,
    Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引 序  上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行-- ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • MapReduce 切片机制源码分析
     总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]
author-avatar
拍友2502881913
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有