热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoopv3.1大数据技术快速入门

Hadoop是由Java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。HDFS为海量的数据提供了存储,而Ma

Hadoop 是由 Java 语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是 HDFS 与 MapReduce。

HDFS 为海量的数据提供了存储,而 MapReduce 为海量的数据提供了计算。

可以把 HDFS 理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。

把 MapReduce 理解成为一个计算引擎,按照 MapReduce 的规则编写 Map 计算 Reduce 计算的程序,可以完成计算任务。

YARN:Hadoop 2 开始使用的资源管理框架。

HBase:Google分布式数据库Bigtable的开源实现,是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据。为了提高数据可靠性和健壮性,发挥HBase处理大数据量等功能,一般使用HDFS作为HBase的底层数据存储方式。

MapReduce:分布式计算框架。

Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。





技术专栏主要包含如下内容:




  • Hadoop大数据技术生态系统和基础知识


  • CentOS 7 单机安装最新版Hadoop v3.1.2以及配置和简单测试


  • Hadoop v3.1.2 单机伪分布式安装、配置和测试


  • Hadoop分布式文件系统HDFS核心概念、体系结构和数据读写过程


  • Hadoop分布式文件系统HDFS 常用API以及应用实例


  • Java应用中HDFS客户端远程连接Hadoop FileSystem异常情况分析和解决办法


  • Hadoop列式数据库HBase 数据模型、系统架构和运行机制-快速入门


  • 列式数据库HBase v2.2.3 最新版安装单机模式、启动和简单练习shell命令


  • 列式数据库HBase v2.2.3 最新版伪分布式模式配置、启动运行


  • 大数据快速读写-HBase 常用的Shell命令


  • 大数据快速读写-HBase Java API编程实例-HBaseConn和HBaseUtil工具类


  • 大数据快速读写-HBase Java API编程实例-单元测试和shell命令验证


  • HBase表的设计原则,包括预分区、列族设计、RowKey设计


  • 【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-1


  • 【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-2


  • 【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-3


  • 【项目实例】基于Elasticsearch对HBase中的数据建立二级索引实现海量数据快速查询-4


  • Hadoop分布式离线计算框架-MapReduce体系结构和工作流程


  • Hadoop分布式离线计算框架-MapReduce和YARN


  • MapReduce编程实践-基于IDEA/Maven实现单词词频统计-Part 1


  • MapReduce编程实践-基于IDEA/Maven实现单词词频统计-Part 2


  • Hadoop集群资源管理调度框架-YARN


  • YARN/MapReduce编程实践-WordCount on YARN代码编写


  • YARN/MapReduce编程实践-WordCount on YARN编译打包运行


  • YARN/MapReduce编程实践-实现文件合并和去重


  • YARN/MapReduce编程实践-实现对输入文件的排序


  • Hadoop v3.1大数据技术快速入门技术专栏-项目实例源代码


  • Hadoop数据仓库框架Hive快速入门-简介、系统架构和执行流程


  • Hadoop数据仓库框架-Hive v3.1.2最新版安装和配置(含MySQL)-Part 1


  • Hadoop数据仓库框架-Hive v3.1.2最新版安装和配置(含MySQL)-Part 2


  • Hive编程实践-Hive中常用HiveQL操作


  • Hive编程实践-分区表(Partition)和分桶表(Bucket)-Part 1


  • Hive编程实践-分区表(Partition)和分桶表(Bucket)-Part 2


  • Hive编程实践-Hive ACID和事务表支持的详细操作和快速入门


  • Hive编程实践-WordCount应用实例


  • Hive编程实践-内置函数和用户自定义函数(含示例项目源代码)-Part 1


  • Hive编程实践-内置函数和用户自定义函数(含示例项目源代码)-Part 2


  • Hive编程实践-通过Java和JDBC驱动访问Hive,附实例项目源代码


  • Hive高级特性-HiveServer2配置启动和Beeline的基本操作


  • Impala 实时性交互查询分析工具


  • Hadoop和关系型数据库的数据传输工具-Sqoop入门


  • 分布式消息队列Kafka-数据交互枢纽


  • Apache Kudu构建高性能实时数据分析存储系统 -入门简介

 

从实战出发,通过理论讲解-环境搭建-项目案例实战,让初学者快速掌握hadoop大数据技术。



推荐阅读
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • 【转】腾讯分析系统架构解析
    TA(TencentAnalytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • 本文介绍了Python爬虫技术基础篇面向对象高级编程(中)中的多重继承概念。通过继承,子类可以扩展父类的功能。文章以动物类层次的设计为例,讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例,以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]
  • Maven构建Hadoop,
    Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引 序  上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • 你知道Kafka和Redis的各自优缺点吗?一文带你优化选择,不走弯路 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • 利用Visual Basic开发SAP接口程序初探的方法与原理
    本文介绍了利用Visual Basic开发SAP接口程序的方法与原理,以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图,在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型,并强调本文主要不讨论SAP R/3函数的开发,而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ... [详细]
  • 伸缩性|发生_分布式文件系统设计,该从哪些方面考虑?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了分布式文件系统设计,该从哪些方面考虑?相关的知识,希望对你有一定的参考价值。点击上方关注“ ... [详细]
  • MapReduce工作流程最详细解释
    MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太 ... [详细]
  • 本文_大数据之非常详细Sqoop安装和基本操作
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识,希望对你有一定的参考价值。大数据大数据之 ... [详细]
author-avatar
情人有意_119
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有