热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

首届ApacheHadoop技术社区中国Meetup在京举办(内附完整PPT)

近日,在ApacheHadoop社区主导及邀请下,腾讯开源、腾讯大数据、腾讯云联合承办了Hadoop技术社区在中国的首次Meetup。围绕Hadoop技

640?wx_fmt=jpeg

近日,在Apache Hadoop社区主导及邀请下,腾讯开源、腾讯大数据、腾讯云联合承办了Hadoop技术社区在中国的首次Meetup。围绕Hadoop技术实践,来自腾讯、Cloudera、京东、小米、阿里、滴滴、华为、字节跳动的多位嘉宾参与了分享讨论。

 

腾讯开源运营负责人王春雨表示:“中国企业的参与是开源生态建设不可或缺的一部分。腾讯作为国内开源的先行者,将持续投入社区协同合作,以开放的心态,推动更多开源社区之间的交流对话,助力技术生态发展。”

 

Hadoop是由Apache基金会所开发的分布式系统基础架构。自2006年诞生以来,Hadoop改变了企业对数据的存储、处理和分析的过程,形成了一个极其丰富的技术生态圈,并在经历了大数据技术高速发展之后,迎来了3.x的时代。

 

作为Apache Member, HadoopPMC & Committer, Hadoop社区负责人之一,堵俊平于2011年开始持续关注Hadoop技术的进展,参与社区贡献,并积极推动 Hadoop技术在全球各地的落地推广。他同时也是腾讯TEG数据平台部海量存储与计算研发负责人、腾讯开源联盟主席、开源管理委员会委员。据介绍,腾讯是最早采用Hadoop技术的中国公司之一,这两年向社区贡献了大量patch和特性,包括HDFS稳定性增强、YARN增强型资源隔离方案、Ozone项目的新特性等,并作为国内首家企业率先在社区发布2.8.4与2.8.5 release。

640?wx_fmt=png

堵俊平展示了大数据Hadoop技术与社区发展的Roadmap。包括存储平台(HDFS,Ozone)向大规模、云、容器化、机器学习等方向的演进路线以及近期的热点feature,包括RBF(Router Based Federation),即基于路由机制的集群联邦方案来应对海量数据存储的增长,HDFS对外部对象存储的管理,OpenTracing机制的支持,以及Ozone的特性。据悉,Hadoop项目的近期发布计划将包括2.8.6, 3.1.3,3.2.1和3.3.0。

 

堵俊平表示,此次Meetup将是Hadoop社区交流的良好开端,腾讯将积极参与社区交流,贡献自己的技术实践,推动Hadoop技术生态发展。未来Apache Hadoop社区在中国的Meetup将沿用之前在硅谷的方式,即:由Hadoop PMC组织发起,志愿参与社区贡献的公司来自愿承办,开源贡献者共同参与并提交议题,活动向开源社区所有用户与贡献者免费开放。未来,Hadoop社区将在中国形成每季度举办一次中小型的Meetup的惯例,甚至开创新的形式,包括举办较大规模的HadoopCon。

 

腾讯大数据工程师、Apache Hadoop Committer & PMC member陈怡以Ozone为例,介绍了Hadoop原生对象存储服务的解决方案。

640?wx_fmt=png

Ozone是由Hadoop社区新发起的一个强一致性分布式对象存储服务,旨在解决目前HDFS Namenode的扩展性上限问题。Ozone 拥有和HDFS一样的可靠性,一致性和可用性,支持Hadoop文件系统接口,无缝对接YARN,SPARK 和HIVE。支持S3接口,提供CNCF CSI驱动。Ozone不仅适用于on-premise大数据环境,同时也是大数据上云,云端存储的一个很好的选择。

 

陈怡在分享中介绍了Ozone的动机和目标,namespace管理和数据管理分离的构架,支持的对象存储的语义,对象读写流程,访问控制,用户可自定义的弹性网络拓扑结构,和Kubernetes集成的支持等等将要发布的0.5版本的新特性。

 

腾讯高级工程师、Hadoop YARN和Kubernetes社区活跃贡献者龚军、陈东东则介绍了腾讯大规模YARN集群实践。腾讯的Hadoop YARN集群在2014年就已经支持单集群8800台上的规模,每日调度上亿的container。龚军分享了优化调度器性能的一些基本思路和方法,包括改进热点代码的算法、降低时间复杂度、避免重复的查找与计算、减少锁竞争以及优化锁粒度等。通过这些调度性能优化,使YARN能满足大规模集群的吞吐量。

640?wx_fmt=png

陈东东则主要介绍了如何使用cgroup对底层资源进行弹性控制,确保业务的请求资源可以得到保障,特别是对多资源纬度的管理,包括cpu、内存、网络io、磁盘io等,同时在有空闲资源的情况下,可以临时借用更多的资源,以此来提高底层资源利用率。

640?wx_fmt=png

此外,Cloudera、京东、小米、阿里、滴滴、华为、字节跳动的多位嘉宾也参与了分享,分别围绕Hadoop在各大企业的大规模实践、HDFS的改进优化,YARN与机器学习和云原生结合,以及架构演进等话题进行了讨论。

640?wx_fmt=gif

扫码关注“腾讯技术工程”公众号,回复“PPT”即可领取嘉宾的演讲PPT。如果你还想了解更多,请点击底部“阅读原文”或者扫描下方二维码查看现场直播回放。

640?wx_fmt=jpeg

640?wx_fmt=jpeg


推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池?
    本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点,解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时,介绍了JDK原生线程池的工作流程。 ... [详细]
  • 本文介绍了一些Java开发项目管理工具及其配置教程,包括团队协同工具worktil,版本管理工具GitLab,自动化构建工具Jenkins,项目管理工具Maven和Maven私服Nexus,以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]
  • 关于CMS收集器的知识介绍和优缺点分析
    本文介绍了CMS收集器的概念、运行过程和优缺点,并解释了垃圾回收器的作用和实践。CMS收集器是一种基于标记-清除算法的垃圾回收器,适用于互联网站和B/S系统等对响应速度和停顿时间有较高要求的应用。同时,还提供了其他垃圾回收器的参考资料。 ... [详细]
  • 本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大,单机上运行高斯朴素贝叶斯模型会变得很慢,因此考虑使用Spark来加速运行。然而,Spark的MLlib并没有实现高斯朴素贝叶斯模型,因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式,并对具有多个特征和类别的模型进行了讨论。最后,作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]
  • Android日历提醒软件开源项目分享及使用教程
    本文介绍了一款名为Android日历提醒软件的开源项目,作者分享了该项目的代码和使用教程,并提供了GitHub项目地址。文章详细介绍了该软件的主界面风格、日程信息的分类查看功能,以及添加日程提醒和查看详情的界面。同时,作者还提醒了读者在使用过程中可能遇到的Android6.0权限问题,并提供了解决方法。 ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • 原创 | 大数据入门基础系列之ClouderaManager版本的Hive安装部署
    添加服务,一 ... [详细]
  • 无服务器_云原生数据湖架构中的无服务器 Kafka
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了云原生数据湖架构中的无服务器Kafka相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 数据结构系列1 数组和链表
    数组,链表,l ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
author-avatar
别他妈给脸不要脸别动老子东西
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有