你好,游客 登录
spark面试题 的搜索结果
1. spark 的四大组件下面哪个不是 ( )
A.Spark Streaming B Mlib C Graphx D Spark R
2.下面哪个端口不是 spark 自带服务的端口 ( )
A.8080 B.4040 C.8090 D.18080
3.spark 1.4 版本的最大变化 ( )
A spark sql Release 版本 B 引入 Spark R C DataFrame D支持动态资源分配
4. Spark Job 默认的调度模式 ( )
A FIFO  B FAIR  C 无  D...
http://bigdatastudy.net/show.aspx?id=175&cid=14日期:2017-9-13 13:34:13
1、将现有逻辑在spark上面实现。
2、数据倾斜怎么处理?
  数据倾斜有很多解决方案,本例子简要介绍一种实现方式,假设表A 和表B连接,表A 数据倾斜,只有一个key倾斜,首先对A进行采样,统计出最倾斜的key,将A   表分隔为A1 只有倾斜 key, A2 不包含倾斜key, 然后分别与 表B 连接。
  最后将结果合并, union
3 、各完成一个awk和sed的例子,...
http://bigdatastudy.net/show.aspx?id=174&cid=14日期:2017-9-13 13:33:02
Spark面试经典系列之数据倾斜 Spark面试经典系列之数据倾斜:数据倾斜之痛
http://bigdatastudy.net/show.aspx?id=173&cid=14日期:2017-9-13 13:32:02
spark-submit的时候如何引入外部jar包
spark shuffle的具体过程,你知道几种shuffle方式
spark 如何防止内存溢出
cache和pesist的区别
怎么处理数据倾斜
​简要描述Spark分布式集群搭建的步骤
spark使用:
1)当前文件a.text的格式为,请统计每个单词出现的个数、计算第四列每个元素出现的个数
A,b,c,d
B,b,f,e
...
http://bigdatastudy.net/show.aspx?id=172&cid=14日期:2017-9-18 12:57:47
面试回来之后把其中比较重要的问题记了下来写了个总结:
http://bigdatastudy.net/show.aspx?id=171&cid=14日期:2017-9-13 13:29:35
2016-4-20 下午,杭州某公司面试
面试内容概要:
由于没有c#的试题,所以直接跳过考试部分,直接开始负责人面试。
第一类问题:关于数据的爱好性问题
1.​你是从什么时候开始接触数据挖掘之类的技术?
回答:2年前​
2.简要介绍一下你学习数据挖掘技术的大致历程
回答:2年前接触数据挖掘,从R语言的相关学习,到后面的参加Spark相关培...
http://bigdatastudy.net/show.aspx?id=169&cid=14日期:2017-9-13 13:26:46
  • 1/1
  • 1