你好,游客 登录
背景:
阅读新闻

老学员面试hadoop面试题总结

[日期:2017-09-13] 来源:云帆大数据学院博客  作者: [字体: ]

1、项目处理的大致数据流程(根据自己的项目回答)
2、hive的优化有哪些?
3、关系型数据库导入到HBase/HDFS的方式有哪些? 我回答了sqoop、api、bulkload,面试官说还有一种工具,让我回去查,我至今没查到。
4、MR优化(我能把整个MR的执行流程画出来,然后每个阶段的配置编程优化讲一些,
结果他说不是说这么细的,然后我回答主要是磁盘IO和网络传输,他说对了。。。。囧)
5、讲一个项目中比较有难度的HQL,(可结合UDF/UDAF/UDTF)
6、hive实例:
a、表tb_ip(ip string),–用户的ip地址
表tb_area(ip_start string,ip_end string,area string),–起止IP段属于的区域
求tb_ip表的IP地址属于哪个区域。
UDF实现,读取区域表文件,然后匹配

b、   uid_1    url1    2015/05/20 08:40:00      uid_1    url2    2015/05/20 08:50:00      uid_1    url3    2015/05/20 09:50:00      求用户uid_1访问各个url的时间 分别用oracle和hive实现      结果为      uid_1    url1   10分钟      uid_1    url2   60分钟      本题大概是这样,具体没记得很清楚了,oracle用lead()over()可以实现,hive没答上来,后来想想用UDAF貌似可以实现。

7、hive order by 设置多个reduce,如何实现全排序?
这个题我觉得有问题,首先hive order by 只能有一个reduce,
如果不用order by,我当时回答的是先用sort by可设置多个reduce,
然后对sort by 的结果再进行一次order by。结果面试官说不对,让我
回去查一下,我今天查了很久,网上都是按我的答案这么搞的。
8、JAVASE基础,因为我项目中没写,但是跟面试官沟通说学过而且写过MR,就问了些基础的知识。
9、oracle优化,因为我以前是做oracle的,所以问到了。
10、Shell编程,因为项目中写到,具体没问细节,就问我熟悉不,会哪些命令。(建议看看基础命令,awk,sed,grep之类的,还有crontab调度),
其实我不熟悉,幸好在公交车上看了几分钟。
11、要求搭建tomcat的HA(不知道这个能不能实现),这家公司基本没有会hadoop的,就问我能不能当扛把子,我果断虚了,直接说单独不能。
12、会不会搭集群。
13、熟不熟悉Hbase
14、熟不熟悉kafka、impala、flume等

15、zookeeper如何实现HA,选举,隔离机制等。老师讲的完全够回答了。

我的面试主要是围绕HIVE的比较多,因为我编的项目主要是hive处理的。考察HIVE的优化,与关系型数据库的区别,UDF函数比较多。

收藏 推荐 打印 | 阅读:
相关新闻       hadoop面试题