热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【面试真题】今日头条大数据面试100题,收藏备用

长按二维码关注大数据领域必关注的公众号大数据面试100题1、简述WordCount 的实现过程2、简述MapReduce与 Spark 的区别与联系3、Spark 在客户端与集群运行的区别4、相同的

长按二维码关注

大数据领域必关注的公众号



大数据面试100题


1、简述WordCount 的实现过程
2、简述MapReduce与 Spark 的区别与联系
3、Spark 在客户端与集群运行的区别
4、相同的 SQL 在 HiveSql 与 SparkSQL 的实现中,为什么 Spark 比 Hadoop 快
5、简述自定义 UDF实现过程
6、HBase 表设计有哪些注意事项
7、谈谈你对HBase 的 HLog的理解
8、数据同样存在 HDFS,为什么 HBase支持在线查询
9、SparkSQL操作Hive中的数据遇到过什么问题嘛?
10、SparkStreaming与Storm、Flink DataStream的区别与联系
11、海量数据下,用三个 map和一个 reduce 来做 top10,哪种方法最优。
12、数据仓库的模型如何设计
13、简述数据仓库的数据清洗过程
14、谈谈数据仓库业务建模、数据分析方法
15、说一说数据仓库是怎么设计的
16、数仓设计规范包含哪些方面
17、数仓数据质量如何监控
18、说一说你们的项目包含哪些数仓主题
19、简述数仓拉链表的实现原理
20、有没有遇到数据倾斜的问题(场景、解决方式)
21、手写 map-reduce,两份数据,一份是设备 id+用户 id,一份是设备 id+点击的广告+ 点击时间,找出每个用户id 每天 10 条最新的广告点击记录
22、手写SQL查询出用户连续七天登录的用户(user_id,login_date)
23、Sqoop 增量导入数据是如何实现的
24、Flume 事务是如何实现的
25、从Kafka 消费者角度考虑是拉取数据还是推送数据
26、Kafka 中的数据是有序的吗
27、Kafka 数据推送失败后怎么处理
28、Kafka 如何保证生产者精确发送一次?
29、Kafka 数据重复怎么处理?
30、Spark Streaming 如何实现精准一次消费?
31、谈谈项目中,Hive优化是怎么做的?
32、如何手写MR实现Hive Join操作?
33、Hive如何处理数据倾斜的?
34、Hive执行碰到过 oom 情况吗?什么原因导致的,怎么处理的?
35、Hbase 包含哪些组件?
36、什么情况下会用到HBase数据库?
37、简述Hbase 的读写流程
38、简述Spark任务提交的流程
39、简述Spark的两种核心Shuffle
40、你们项目中HBase是如何建模设计的?
41、你们的项目中是如何设计HBase Rowkey的?
42、你们的项目是如何实现数据精确一次消费的?
43、你们的项目是如何解决数据倾斜问题?
44、你们项目是否会丢失数据?如何做的数据治理?
45、你们项目技术选型为什么是Spark而不是Flink,有哪些优缺点?
46、HBase数据库数据读写为什么这么快?
47、消费不到Kafka数据该怎么办?
48、手写Spark RDD实现TOPN
题目描述:手写Spark RDD统计用户成绩前10的记录,字段包含user_id, score。
49、利用spark-sql手写一个DataFrame实现WordCount
50、谈谈数据仓库的建模与分层
51、介绍一下Flink容错机制
52、谈谈你对Spark调优及数据倾斜的处理方式
53、Hbasse 和 mysql 区别和存储原理
54、kafka 的底层原理,kafka 如何保证全局消费数据有序
55、简述yarn底层原理、执行流程和yarn 底层使用的算法
56、谈谈你对hive udf、udaf、udtf的理解
57、简述Hive转换为MR的过程
58、谈谈你对Flink watermark的理解
59、谈谈你对Flink barrier机制的理解
60、谈谈你对Flink checkpoint机制的理解
61、谈谈你们项目中对Kafka做了哪些调优?
62、简述Hive任务提交过程
63、如何对Kafka进行监控?
64、如何对Kafka进行重分区?
65、用Cannal 监控mysql之后,Scala 怎么通过 SparkStreaming 去消费的?
66、谈谈你对多线程和多进程的理解
67、MySQL 引擎是什么,常用的是哪个 innodb,知道原理吗?
68、常用的数据结构都有哪些?并举例说明其应用场景?
69、MySQL 优化,怎么建索引?
70、算法:给 2 个有序数组,合并成一个有序数组
71、SQL排名取值
题目描述:有一个班级学生成绩表,包含班级,学号,科目,分数等字段,现在求某个班级总分最高的前五名?
72、数组目标数据查找算法
题目描述:如何查找有序数组中的目标值?二分查找法,请简述二分查找法的实现原理?
73、SQL分组统计
题目描述:有一个用户观看视频的时长表,现在要求统计时间在0-1分钟,1-10分钟的用户数?
74、g1回收器和cms 有哪些区别?
75、jvm该如何调整?
76、SQL开窗函数使用
题目描述:表字段为:department_id、user_id、amount,现在要求统计每个部门、每个人的薪资占部门薪资的比例。
77、算法题:最长回文子串. 给定一个字符串 s,找到 s 中最长的回文子串
78、谈谈你对二叉树算法的理解?
79、谈谈你对Java线程安全、锁和线程池的理解?
80、链表反转排序如何实现
81、谈谈你对LRU算法的理解
82、谈谈你对深度优先搜索的理解?
83、Java heap是如何分代的?
84、谈谈你对线程安全与可重入的理解
85、jvm包含哪些常见的垃圾回收算法
86、谈谈你对Java并发包的理解
87、说说线程池几个配置参数含义
88、谈谈你对redis跳表的理解
89、Java中Spring单例模式如何使用
90、谈谈你对Spring ioc的理解
91、谈谈你对回文函数的理解
92、算法基础建模有哪些?
93、redis底层原理?以及如何预估数据量?
94、谈谈你对聚类kmeans算法的理解
95、求字符串中首先出现 3 次且仅出现 3 次的字符
96、两个链表第一次交叉的节点

题目描述:给定两个可能有环也可能无环的单链表,头节点head1和head2。请实现一个函数,如果两个链表相交,请返回相交的 第一个节点。如果不相交,返回null

【要求】

如果两个链表长度之和为N,时间复杂度请达到O(N),额外空间复杂度请达到O(1)。

97、有用过树结构么?什么场景下用到的?
98、如何实现一个map数据结构?什么场景下使用map?
99、用Java如何实现一个List
100、谈谈你对Linux fork命令的理解与使

欢迎点赞 + 收藏 + 在看  素质三连 


往期精彩回顾
程序员,如何避免内卷
Apache 架构师总结的 30 条架构原则
【全网首发】Hadoop 3.0分布式集群安装
大数据运维工程师经典面试题汇总(附带答案)
大数据面试130题
某集团大数据平台整体架构及实施方案完整目录
大数据凉凉了?Apache将一众大数据开源项目束之高阁!
实战企业数据湖,抢先数仓新玩法
Superset制作智慧数据大屏,看它就够了
Apache Flink 在快手的过去、现在和未来
华为云-基于Ambari构建大数据平台(上)
华为云-基于Ambari构建大数据平台(下)
【HBase调优】Hbase万亿级存储性能优化总结
【Python精华】100个Python练手小程序
【HBase企业应用开发】工作中自己总结的Hbase笔记,非常全面!
【剑指Offer】近50个常见算法面试题的Java实现代码

长按识别左侧二维码

     关注领福利    

  领10本经典大数据书


推荐阅读
author-avatar
mobiledu2502889283
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有