你好,游客 登录
rss订阅 手机访问 
大数据面试题
zookeeper常见面试题
zookeeper是如何保证事务的顺序一致性的
zookeeper采用了递增的事务Id来标识,所有的proposal都在被提出的时候加上了zxid,zxid实际上是一个64位的数字,高32位是 epoch用来标识leader是否发生改变,如果有新的leader产生出来,epoch会自增,低32位用来递增计数。当新产生proposal的时 候,会依据数据库的两阶段过程,首先会向其他的server发出事务执行请求,如果超过...
日期:09/13/2017 12:40:09 作者:CodingBoy121 点击:313
hive面试问题
A所有的hive任务都会有reducer的执行吗?
答:不是,由于当前hive的优化,使得一般简单的任务不会去用reducer任务;只有稍微复杂的任务才会有reducer任务
举例:使用select * from person ; 就不会有reducer
   使用from person p
         insert into person2 select p.age,p.name 
B\hive解决了什么问题
答:多用户的使用...
日期:09/13/2017 12:38:36 作者:high2011 点击:266
从一道hive面试题的解决思路中理解hive应用
Hive面试题—理清hive应用思路
问题:有一张很大的表:TRLOG该表大概有2T左右。 TRLOG:  CREATE TABLE TRLOG  (PLATFORM string,  USER_ID int,  CLICK_TIME string,  CLICK_URL string)  row format delimited fields terminated by '\t'; 
数据: PLATFORM     USER_ID       CLICK_TIME       CLICK_URL  WEB      ...
日期:09/13/2017 12:36:54 作者:zolalad 点击:459
大数据Hive 面试以及知识点
1 hive表关联查询,如何解决数据倾斜的问题?
倾斜原因:
map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。
1)、key分布不均匀;
2)、业务数据本身的特性;
3)、建表时考虑不周;
4)、某些SQL语句本身就有数据倾斜;
如何避免:对于key为空产生的数据...
日期:09/13/2017 12:35:16 作者:言之无文行而不远 点击:1171
【面试】HBase面试题
以下大部分题目是从网上搜索得来,答案是笔者给的,若有错误,烦请指出,谢谢。 1 每天百亿数据存入HBase,如何保证数据的存储正确和在规定的时间里全部录入完毕,不残留数据
日期:09/13/2017 12:33:59 作者:_朝和 点击:779
Hbase总结(六)hbase37个笔试题
以下试题是摘自互联网的基础上自己加了选项说明解释便于自己以后看时方便节省时间
日期:09/13/2017 12:33:11 作者:Break-Li 点击:377
大数据Hbase 面试题
hbase 的特点是什么
(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。
(2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。
(3) Hbase为null的记录不会被存储.
(4)基于的表包含rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以前...
日期:09/13/2017 12:32:07 作者:言之无文行而不远 点击:504
HDFS的相关面试题总结
1、hadoop与云计算之间的关系?
解析:云计算由位于网络上的一组服务器把其计算、存储、数据等资源以服务的形式提供给请求者以完成信息处理任务的方法和过程。针对海量文本数据处 理,为实现快速文本处理响应,缩短海量数据为辅助决策提供服务的时间,基于Hadoop云计算平台,建立HDFS分布式文件系统存储海量文本数据集,通过 文本词频利用MapReduce原理建立分布式索引,以分布...
日期:09/13/2017 12:30:38 作者:JimGray11 点击:418
一些Hadoop面试题及答案
1.Hadoop集群可以运行的3个模式?
单机(本地)模式
伪分布式模式
全分布式模式
2. 单机(本地)模式中的注意点?
在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。
3. 伪分布模式中的注意点?
...
日期:09/13/2017 12:28:32 作者: 点击:590
hadoop面试100道收集(带答案)
1.列出安装hadoop流程步骤
a) 创建hadoop账号
b) 更改ip
c) 安装java 更改/etc/profile 配置环境变量
d) 修改host文件域名
e) 安装ssh 配置无密码登录
f) 解压hadoop
g) 配置hadoop conf下面的配置文件
h) Hadoop namenode -format 格式化
i) Start 启动
2.列出hadoop集群启动中的所有进程和进程的作用
a) Nameno...
日期:09/13/2017 12:23:20 作者: 点击:1371
十道海量数据处理面试题与十个方法大总结
第一部分���十道海量数据处理面试题
  1、海量日志数据,提取出某日访问百度次数最多的那个IP。
  此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。
  再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大...
日期:09/13/2017 12:20:47 作者: 点击:485
大数据经典面试题及答案
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
日期:09/13/2017 12:19:10 作者: 点击:534
最全大数据面试题及答案(二)
1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?
日期:09/13/2017 12:14:45 作者: 点击:937
几道大数据面试题
首先处理大数据的面试题,有些基本概念要清楚:
(1)1Gb = 109bytes(1Gb = 10亿字节):1Gb = 1024Mb,1Mb = 1024Kb,1Kb = 1024bytes;
(2)基本流程是,分解大问题,解决小问题,从局部最优中选择全局最优;(当然,如果直接放内存里就能解决的话,那就直接想办法求解,不需要分解了。)
(3)分解过程常用方法:hash(x)%m。其中x为字符串/url/ip,m为...
日期:09/13/2017 12:13:25 作者:张贺 点击:237
程序员面试技巧总结
闲聊
在深入代码之前,大多数面试官喜欢聊聊你的背景。他们想知道: 你对编码认知。你是否知道如何编写好代码? 个人能力/领导力。你是否经历过整个工作流程?你是否修复过并不怎么正确的东西,即使你并不需要这么去做? 沟通。和你交流技术问题是有用的还是痛苦的?
你应该至少说明以下中的一个: 你曾解决的一个有趣的技术问题 你曾克服的一个人际冲突 显示...
日期:09/05/2017 19:55:21 作者: 点击:348
  • 2/2
  • «
  • 1
  • 2