热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【杂谈】大数据主流技术简介

目的:1、了解大数据主流技术的基本原理及技术特点,从而把握各种大数据计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。2、了解主流大数据技术应用基础、技

目的:
1、了解大数据主流技术的基本原理及技术特点,从而把握各种大数据计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
2、了解主流大数据技术应用基础、技术特征和使用场景等。
3、了解最新的大数据系统工具以及大数据处理的基本过程和方法。

1)大数据关键技术介绍
 √ 分三类:存储(如:分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案,内存数据库等)、计算(如:MapReduce、流计算、图计算)、应用(如:HIVE,pig,mahout,Sqoop以及ETL工具,统计与报告工具等)
 √ Hadoop 是目前最为流行的大数据技术。除了Hadoop,还有很多针对大数据的处理工具。这些工具有些是完整的平台,有些则是专门针对特定的大数据处理应用。下表归纳总结了现今一些主流的处理平台和工具:


2)离线计算框架和应用场景
 √ 简    介:Hadoop分布式存储+分布式运算的框架,可以对海量数据进行统计分析,解决单节点极限性
 √ 示    例:通过编写MapReduce可以批量统计某个地域的车辆里程情况、道路等级,通过速度判断车型、车辆驾驶情况等,使用Hive做数据仓库,可以统计最近一年或者两年的数据,进行数据的建模和历史数据的统计和分析。
 √ 应用场景:
   *大数据的处理:几GB,上TP的大量数据的计算。
   *非实时:应用在非实时处理的场景,离线处理是需要时间,一般是1小时,或者隔天。
   *高并发:大量数据的高并发,大量的处理和计算的进程数。

3)流式计算框架和应用场景
 √ 来自于一个信念:数据的价值随着时间的流逝而降低,所以事件出现后必须尽快地对它们进行处理,最好数据出现时便立刻对其进行处理,发生一个事件进行一次处理,而不是缓存起来成一批再处理。
 √ 流计算 的 概念:
   *流计算是针对流式数据的实时计算。
   *流式数据(流数据):是指将数据看作数据流的形式来处理。数据流是在时间分布和数量上无限的一系列动态数据集合体;数据记录是数据流的最小组成单元。
   *流数据具有数据实时持续不断到达、到达次序独立、数据来源众多格式复杂、数据规模大且不十分关注存储、注重数据的整体价值而不关注个别数据等特点。
 √ 流式计算产品:
   *Yahoo的S4:S4是一个通用的、分布式的、可扩展的、分区容错的、可插拔的流式系统,Yahoo!开发S4系统,主要是为了解决:搜索广告的展现、处理用户的点击反馈。
   *Twitter的storm:Twitter的storm:Storm是一个分布式的、容错的实时计算系统。
                  >>Storm用途:可用于处理消息和更新数据库(流处理),在数据流上进行持续查询,并以流的形式返回结果到客户端(持续计算),并行化一个类似实时查询的热点查询(分布式的RPC)。

 √ 应用场景

 

 

 
4)内存计算框架和应用场景
 √ what:现今技术已可以实现在服务器的主内存中处理超大量的实时数据,从分析和交易中提供即时数据。
 √ 应用:

5)实时请求框架和应用场景
 √ what:低延迟的流式数据处理
   *离线计算的补充
   *业务发展和技术进步的必然需求
 √ 关键技术点:分布式数据、低延迟技术

 


推荐阅读
  • 不会搭建大数据平台,我被老板优化了...
    不会,搭建,大数,据,平台,我 ... [详细]
  • 阅读目录一、Hadoop简介二、Hadoop的特性三、hadoop组成与体系结构四、Hadoop安装方式五、Hadoop集群中的节点类型一、Hadoop简介Hadoop是Apac ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Maven构建Hadoop,
    Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引 序  上一篇,我们编写了第一个MapReduce,并且成功的运行了Job,Hadoop1.x是通过ant ... [详细]
  • Java工程师书单(初级,中级,高级)
    简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师,或者说一名合格的架构师应该有怎样的技术知识体系,这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]
  • 【转】腾讯分析系统架构解析
    TA(TencentAnalytics,腾讯分析)是一款面向第三方站长的免费网站分析系统,在数据稳定性、及时性方面广受站长好评,其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • Hadoop——Hive简介和环境配置
    一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎,它将SQL转译成MapReduce作业,并 ... [详细]
  • 当计算任务越来越多,作业提交越来越多,企业普通的做法是,在原有的系统架构上,不停地往上堆积硬件或者加服务器。的确,hadoop设计上的优秀和可扩展性可以方便的 ... [详细]
  • 如今ApacheHadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume) ... [详细]
  • 怎么快速学好大数据开发?
    新如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题,已成为热门大数据领域热门问题,以下是对新手如何学习大数据技术问题的解答! ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • Unit4博客&课程总结Unit4作业的架构设计本单元作业的设计我分为了三个模块处理:模型构建+预处理+任务函数,前两部分即为整个图的完整构建,第三部分即为实现题目要求的查询方法。 ... [详细]
  • hive的本质是hadoop客户端通过写sql转换成MapReduce提交给yarn、hdfs执行hive的优点操作接口采用类sql语法提供快速开发能力避免了去写MapReduce ... [详细]
  • 从接触DataX起就有一个疑问,它和Sqoop到底有什么区别,昨天部署好了DataX和Sqoop,就可以对两者进行更深入的了解了。两者从原理上看有点相似,都是解决异构环境的数据交换 ... [详细]
author-avatar
多米音乐_34026248
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有