你好,游客 登录
rss订阅 手机访问 
Spark
SparkRDMA:使用RDMA技术提升Spark的Shuffle性能
Spark Shuffle 基础
在 MapReduce 框架中,Shuffle 是连接 Map 和 Reduce 之间的桥梁,Reduce 要读取到 Map 的输出必须要经过 Shuffle 这个环节;而 Reduce 和 Map 过程通常不在一台节点,这意味着 Shuffle 阶段通常需要跨网络以及一些磁盘的读写操作,因此 Shuffle 的性能高低直接影响了整个程序的性能和吞吐量。
与 MapReduce 计算框架一样,Spark 作业也有 Shu...
日期:11/28/2017 21:20:54 作者: 点击:535
Spark Summit 2017 Europe全部PPT及视频下载[共69个]
Spark Summit 2017 Europe 于2017-10-24 至 26在柏林进行,本次会议议题超过了70多个,会议的全部日程请参见:https://spark-summit.org/eu-2017 /schedule/。本次议题主要包括:开发、研究、机器学习、流计算等领域。从这次会议可以看出,当前 Spark 发展两大方向:
日期:11/06/2017 21:34:38 作者:Hadoop技术博文 点击:241
Spark常用函数讲解之键值RDD转换
摘要:
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集
RDD有两种操作算子:     Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住    了数据集的逻辑操作
     Ation...
日期:11/02/2017 22:01:41 作者:MOBIN 点击:581
Spark函数详解系列之RDD基本转换
摘要:  RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集
日期:11/02/2017 21:55:50 作者:MOBIN 点击:496
spark Sql系统入门2:spark sql精简总结
问题导读
1.spark有哪两个分支?
2.spark运行架构是什么?
3.spark包含哪四个模块?
此文是对Spark Sql系统入门1:什么是spark sql及包含哪些组件的精简总结
SparkSQL有两个分支,sqlContext和hiveContext,sqlContext现在只支持SQL 语法解析器(SQL-92语法);hiveContext现在支持SQL语法解析器和hivesql语法解析器,默认为hiveSQL语法解析器,用户...
日期:11/02/2017 21:34:03 作者:pig2 点击:327
Spark Sql系统入门3:spark sql运行计划精简
问题导读
1.hive/console的作用是什么?
2.hive/console如何安装?
3.hive/console的原理是什么?
4.通过什么命令可以查看执行计划?
5.如何查看RDD的转换过程?
hive/console官网没有提供,需要下载spark源码,hive源码及配置环境变量编译。然后运行hive/console.这个作用,可以查看sql的运行计划,schema,转换rdd等。
hive/console安装<...
日期:10/31/2017 20:47:07 作者:pig2 点击:492
Spark Sql系统入门1:什么是spark sql及包含哪些组件
1.为什么会产生spark sql
2.sparkSQL包含哪些内容?
3.spark运行框架是什么?
4.spark sql包含哪些组件?
5.sparkSQL有哪两个分支?
1.为什么会产生spark sql
随着Spark的发展,其中sparkSQL作为Spark生态的一员继续发展,而不再受限于hive,只是兼容hive;而hive on spark是一个hive的发展计划,该计划将spark作为hive的底层引擎之一,也就是...
日期:10/31/2017 20:43:01 作者:pig2 点击:1196
Spark的Dataset操作(四)-其他单表操作
Spark的Dataset操作(四)-其他单表操作
还有些杂七杂八的小用法没有提到,比如添加列,删除列,NA值处理之类的,就在这里大概列一下吧。
数据集还是之前的那个吧:
scala> val df = spark.createDataset(Seq( ("aaa",1,2),("bbb",3,4),("ccc",3,5),("bbb",4, 6)) ).toDF("key1","key2","key3") df: org.apache.spark.sql.DataFrame = [key1: string,...
日期:09/29/2017 21:39:11 作者:野男孩 点击:611
Spark的Dataset操作(三)-分组,聚合,排序
Spark的Dataset操作(三)-分组,聚合,排序
上一篇就说了下次主题是分组聚合。内容还挺多的,时间紧,任务重,就不瞎BB了。
数据还是用上一篇里造的那个dataset:
scala> val df = spark.createDataset(Seq( ("aaa",1,2),("bbb",3,4),("ccc",3,5),("bbb",4, 6)) ).toDF("key1","key2","key3") df: org.apache.spark.sql.DataFrame = [key1: string, ke...
日期:09/29/2017 21:37:37 作者:野男孩 点击:603
Spark的Dataset操作(二)-过滤的filter和where
Spark的Dataset操作(二)-过滤的filter和where
话说第一集发完也没看,格式乱成那样子,太可怕了。要不是有好心人评论了下,我还不知道,囧。这次换个Markdown编辑器接着来吧。
上一篇说的是Select的用法,这次说说Where部分。Where部分可以用filter函数和where函数。这俩函数的用法是一样的,官网文档里都说where是filter的别名。
数据还是用上一篇里造的那...
日期:09/29/2017 21:36:27 作者:野男孩 点击:466
Spark的Dataset操作(一)-列的选择select
环境说明:
用的版本是Spark 2.1,Dataset操作很丰富,join的支持也蛮好的,比原来用的spark 1.4好用多了。
嗯,Dataset操作,我觉得最重要的是把Column类的用法弄清楚。毕竟,后面的Dataset操作都是在操作列。最好的资料自然是官方文档,Spark的API文档还是挺详细的,而且还细分了Java/Scala/Python。
来个例子边看边说:
scala> val df = spark.cr...
日期:09/29/2017 21:34:45 作者:野男孩 点击:686
Spark的Dataset操作(五)-多表操作 join
Spark的Dataset操作(五)-多表操作 join
不说废话了,直接上代码。
先看两个源数据表的定义:
scala> val df1 = spark.createDataset(Seq(("aaa", 1, 2), ("bbb", 3, 4), ("ccc", 3, 5), ("bbb", 4, 6)) ).toDF("key1","key2","key3") df1: org.apache.spark.sql.DataFrame = [key1: string, key2: int ... 1 more field] scala> val df2 = spark.cre...
日期:09/29/2017 21:32:50 作者:野男孩 点击:479
Spark常用函数讲解之Action操作
摘要:
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集
RDD有两种操作算子:     Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住    了数据集的逻辑操作
     Ation...
日期:09/29/2017 21:31:39 作者:MOBIN 点击:420
Spark算子:RDD基本转换操作(1)–map、flatMap、distinct
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinct map
日期:09/29/2017 18:07:39 作者:lxw 点击:251
推荐系统那点事 —— 基于Spark MLlib的特征选择
机器学习中,一般都会按照下面几个步骤:特征提取、数据预处理、特征选择、模型训练、检验优化。那么特征的选择就很关键 了,一般模型最后效果的好坏往往都是跟特征的选择有关系的,因为模型本身的参数并没有太多优化的点,反而特征这边有时候多加一个或者少加一个,最终的结果 都会差别很大。
日期:09/29/2017 17:11:48 作者:xingoo 点击:691