当前位置: 开发笔记 > 前端 > 正文

Hive简介,HIV的介绍

作者：爷们疯子2_593_278 | 来源：互联网 | 2023-10-12 23:50

hive的本质是hadoop客户端通过写sql转换成MapReduce提交给yarn、hdfs执行hive的优点操作接口采用类sql语法提供快速开发能力避免了去写MapReduce

hive的本质是hadoop客户端通过写sql转换成MapReduce提交给yarn、hdfs执行

hive的优点操作接口采用类sql语法提供快速开发能力避免了去写MapReduce减少了开发人员学习成本hive执行延迟比较高因此常用于数据分析用于对实时性要求不高的场合hive优势在处理大数据对于小数据没有优势hive支持用户自定义函数可以根据自己的需求来实现自己的函数hive的缺点 hive的hql表达能力有限迭代式算法无法表达数据挖掘方面不擅长由于MapReduce数据处理流程限制效率更高的算法却无法实现hive的效率较低hive自动生成MapReduce作业通常情况下不够智能hive调优困难粒度较粗hive与数据库比较

由于hive采用类sql查询语言hqlhive query language因此很容易将hive理解为数据库。其实结构上看hive和数据库除了拥有类似语言再无相似之处数据库可以用在online的应用但是hive是为数据仓库而设计的

数据存储位置

hive是建立在Hadoop上的所有hive的数据都是存储在hdfs上的而数据库则可以将数据保存在块设备或者本地文件中

数据更新

hive中不建议对数据的改写所有数据都是在加载的时候确定好的数据库则可以经常修改

索引

hive在加载数据时不会对数据有任何处理因此没有对数据有索引hive要访问数据中满足条件的特定值时需要暴力扫描整个数据。由于MapReducehive可以并行访问数据因此尽管没有索引对于大数据量的访问hive仍然可以体现优势

数据库通常会针对一个或者多个列进行建立索引因此对于少量的特定条件的数据访问数据库有很高的效率

由于数据的访问延迟高决定了hive不适合在线数据的查询

执行延迟

hive查询时无索引需要扫描整个表因此延迟较高。此外MapReduce框架本身有较高的延迟利用MapReduce执行hive查询时延迟较高。相对数据库执行延迟较低。低也是有条件的即数据库规模较小当数据规模大到超过数据库的处理能力的时候hive的并行计算显然可以体现优势

可扩展性

由于hive是在hadoop上的因此hive的可扩展性与hadoop可扩展性是一致的

数据规模

由于hive建立在集群上并可以利用MapReduce进行并行计算因此可以支持很大规模的数据数据库的可以支持的数据规模较小管理表

默认创建的表都是管理表也称为内部表当删除一个管理表的时候hive也会删除这个表的数据

也可以建立外部表删除外部表时数据不会被删除不过描述的元数据信息会被删除元数据为描述数据的数据主要是描绘数据属性properties信息用来支持如指示存储位置、历史数据、资源查找、文件记录等功能

推荐阅读

数据库
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
view
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
view
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
view
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
view
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
上传
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
console
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
yarn
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
yarn
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
yarn
Hadoop与大数据技术大会将于11月30日开幕

11月26日，由中国计算机协会（CCF）主办，CCF大数据专家委员会协办，CSDN承办的Hadoop与大数据技术大会（Hadoop&BigDataTechnology ... [详细]

蜡笔小新 2023-10-17 17:47:11
js
如何在mysql shell命令中执行sql命令行

如何在mysqlshell命令中执行sql命令行本文介绍MySQL8.0shell子模块Util的两个导入特性importTableimport_table(JS和python版本 ... [详细]

蜡笔小新 2023-10-17 08:53:00
yarn
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
yarn
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
yarn
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
yarn
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18

爷们疯子2_593_278

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章