1、项目处理的大致数据流程(根据自己的项目回答)
2、hive的优化有哪些?
3、关系型数据库导入到HBase/HDFS的方式有哪些? 我回答了sqoop、api、bulkload,面试官说还有一种工具,让我回去查,我至今没查到。
4、MR优化(我能把整个MR的执行流程画出来,然后每个阶段的配置编程优化讲一些,
结果他说不是说这么细的,然后我回答主要是磁盘IO和网络传输,他说对了。。。。囧)
5、讲一个项目中比较有难度的HQL,(可结合UDF/UDAF/UDTF)
6、hive实例:
a、表tb_ip(ip string),–用户的ip地址
表tb_area(ip_start string,ip_end string,area string),–起止IP段属于的区域
求tb_ip表的IP地址属于哪个区域。
UDF实现,读取区域表文件,然后匹配
7、hive order by 设置多个reduce,如何实现全排序?
这个题我觉得有问题,首先hive order by 只能有一个reduce,
如果不用order by,我当时回答的是先用sort by可设置多个reduce,
然后对sort by 的结果再进行一次order by。结果面试官说不对,让我
回去查一下,我今天查了很久,网上都是按我的答案这么搞的。
8、JAVASE基础,因为我项目中没写,但是跟面试官沟通说学过而且写过MR,就问了些基础的知识。
9、oracle优化,因为我以前是做oracle的,所以问到了。
10、Shell编程,因为项目中写到,具体没问细节,就问我熟悉不,会哪些命令。(建议看看基础命令,awk,sed,grep之类的,还有crontab调度),
其实我不熟悉,幸好在公交车上看了几分钟。
11、要求搭建tomcat的HA(不知道这个能不能实现),这家公司基本没有会hadoop的,就问我能不能当扛把子,我果断虚了,直接说单独不能。
12、会不会搭集群。
13、熟不熟悉Hbase
14、熟不熟悉kafka、impala、flume等
15、zookeeper如何实现HA,选举,隔离机制等。老师讲的完全够回答了。
我的面试主要是围绕HIVE的比较多,因为我编的项目主要是hive处理的。考察HIVE的优化,与关系型数据库的区别,UDF函数比较多。