热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

大数据技术学习笔记

内容来自:大数据技术视频课程目标课程模块第一讲大数据概念及计算简介要求:对本课程教学目标、内容、方式做一个全面概要介绍内容:了解数据

内容来自:大数据技术
视频


课程目标

在这里插入图片描述


课程模块

在这里插入图片描述


第一讲 大数据概念及计算简介

要求:对本课程教学目标、内容、方式做一个全面概要介绍

内容:了解数据科学的发展背景和要解决的问题,介绍大数据概念和再现代服务行业的应用情况。重点是大数据的概念和数据科学的发展史


第二讲 大数据计算体系与模式

要求:介绍大数据存储系统和数据处理平台

内容:让学生了解主要的大数据存储系统,包括数据的清洗、建模、分布式文件存储、NoSQL数据库、数据访问接口。向学生介绍目前数据工程界采用的主要数据处理平台,通过实例介绍各类数据分析算法的特点和功能,使学生初步了解计算处理模型和计算平台引擎。本章重点为大数据存储系统和数据处理平台。

大数据计算系统可归纳为3个基本层次:数据存储系统、数据处理系统、数据应用系统


大数据计算系统


数据存储系统

在这里插入图片描述


数据处理系统

在这里插入图片描述
在这里插入图片描述


数据应用系统

在这里插入图片描述


计算总体架构


数据建模

在这里插入图片描述


数据存储架构

在这里插入图片描述


逻辑存储结构

在这里插入图片描述


物理存储结构

在这里插入图片描述

在这里插入图片描述


大数据存储系统


分布式文件系统

提供大数据物理存储架构
主要技术:HDFS,GFS,…


  • HDFS架构:Master/slave
  • 组织:
    一个主节点
    一群从节点
    数据文件倍分成固定大小的数据块
    每份数据快可以存储再不同节点做备份(数据容错、恢复性)
  • 优点:开源、使用廉价设备、易用性好
  • 缺点:数据读取慢、不擅长存储小文件、不擅长单个数据读取和更新

分布式数据库 NOSQL Database(not only SQL Database)


优点


  • 不需要预先定义数据结构
  • 扩展性好
  • 数据划分
  • 不需要做数据同步

NoSQL数据的四种类型

在这里插入图片描述


统一数据访问结构

在这里插入图片描述
传统数据块接口软件

ODBC
在这里插入图片描述

JDBC
在这里插入图片描述
数据读写接口
在这里插入图片描述
统一数据接口
在这里插入图片描述
在这里插入图片描述


大数据处理系统

各类算法实现、各类计算模型支撑、提供平台架构
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
理解计算模式
在这里插入图片描述


大数据计算架构

在这里插入图片描述
在这里插入图片描述


计算模型与计算架构

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述


MapReduce计算模型

在这里插入图片描述在这里插入图片描述


例子 计算词频

在这里插入图片描述
计算原理
在这里插入图片描述


  • 按行拆分
  • map、reduce程序不一定一一对应
  • suffle结果存放在磁盘空间中(磁盘读写)

图并行计算模型

在这里插入图片描述


流计算模型

在这里插入图片描述


计算平台与计算引擎

在这里插入图片描述


数据应用系统

在这里插入图片描述

在这里插入图片描述

IBM
在这里插入图片描述
ORACLE
在这里插入图片描述

Mcrosoft
在这里插入图片描述


大数据应用系统


第三讲 数据采集方法

要求:讲授数据的采集方法和数据接口

内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。


系统日志数据采集

在这里插入图片描述


日志数据采集目的

在这里插入图片描述


系统日志数据采集

在这里插入图片描述


网络数据采集


搜索引擎局限性

在这里插入图片描述


网络爬虫工作原理

根据既定目标抓取数据,选择性抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源

技术框架:控制器、解析器、资源库。
控制器:为各个现成分配工作任务,并调度爬虫的线性资源。
解析器:批量下载网页,并对页面的格式和内容进行处理
资源库:存储下载到的网页资源,通常采用大型的数据库存储模型

爬虫体系结构
在这里插入图片描述
在这里插入图片描述


第四讲 数据清洗与规约方法

要求:介绍数据预处理技术、数据清洗技术、数据规约技术的基本原理和方法

内容:讲授内容包括日志数据的采集、互联网数据的采集等,让学生掌握网络爬虫技术。本章重点为互联网数据采集。


第五讲数据分析算法

要求:讲授常用的数据分析算法的原理

教学内容:讲授内容包括常用的数据分析算法的原理,并比较不同数据分析算法之间的区别,让学生掌握各种数据分析方法的原理,并能够选择适当的方法解决数据科学中的问题。本章重点为常用的数据分析算法的原理。


第六讲 文本读写技术

要求:讲授文本读写技术的工作原理及方法

教学内容:让学生掌握文本读写技术的组成特点,了解常见的文本读写技术的特点,掌握读取文件、写入文件、连接数据库的方法等。本章重点为文本读写技术的工作原理。


第七讲 数据处理技术

教学要求:介绍数据处理技术的基本原理及主要方法

内容:让学生了解数据处理技术的概念和特点,了解其基本原理、主要功能特点等,让学生对数据处理技术有一个初步理解。本章重点为数据处理技术的基本原理。


第八讲 数据分析计算

要求:介绍数据分析技术的概念.算法及应用场景

内容:让学生了解数据分析技术的概念和特点,了解其原理、算法、应用场景等,让学生对数据分析算法体系有一个初步理解。本章重点为数据分析算法的基本原理。


第九讲 数据可视化技术

要求:讲解数据可视化技术的基本原理和主要功能

内容:讲授数据可视化技术的基本原理和主要功能,介绍数据可视化技术的应用场景。本章重点为数据可视化技术的基本原理。


推荐阅读
author-avatar
远处有个蘑菇丶
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有