你好,游客 登录
rss订阅 手机访问 
Spark
scala,spark报错:Welcome to Scala version 2.10.6 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.
运行spark-shell 或者scala命令,出现以下错误:
Welcome to Scala version 2.10.6 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_66). Type in expressions to have them evaluated. Type :help for more information. scala> [init] error: error while loading <root>, error in opening zip file Failed to initialize compiler: object scala.runti...
日期:09月15日 作者: 点击:217
Spark序列化错误:java.io.NotSerializableException
由于spark算子用到的class没有实现序列化,报错如下所示
日期:09月15日 作者: 点击:251
Scala+Spark大数据编程入门教程(006)-Hive on spark:java.nio.file.NoSuchFileException,Hive是否需要部署到每个节点
Hive on Spark时,提交Job时,报下面的错误。
java.nio.file.NoSuchFileException: /home/user/apache-hive-2.3.3-bin/lib/hive-exec-2.3.3.jar
1. 什么是hive-exec-2.3.3.jar?它有什么用?
hive-exec-2.3.3.jar是Hive提供的供访问Hive数据的函数库,Hive on Spark在底层使用Saprk作为执行引擎,Spark程序执行时,需要和Hive进行交互,就是通过hive-exec-*....
日期:09月14日 作者:艾叔 点击:197
Scala+Spark教程:RC ORC Parquet 格式比较和性能测试
作者:刘旭晖 Raymond 转载请注明出处
Email:colorant at 163.com
BLOG:http://blog.csdn.net/colorant/ 为什么要比较这三者
为什么要比较,起因是为了提高Hadoop集群的存储和计算效率,尤其是离线Hive作业的效率,为什么比较的是这三者,是因为三者是目前Hive离线作业中正在大规模使用或可能大规模使用的三种主流的相对成熟的文件格式
对于ORC性能...
日期:09月12日 作者:彩色蚂蚁 点击:255
Spark Shuffle教程:Spark Architecture: Shuffle
Spark Architecture: Shuffle 42 Replies
This is my second article about Apache Spark architecture and today I will be more specific and tell you about the shuffle, one of the most interesting topics in the overall Spark design. The previous part was mostly about general Spark architecture and its memory management. It can be accessed here. T...
日期:09月04日 作者:Alexey Grishchenko 点击:319
Spar调优教程:三次性能优化经历
最近在做一些性能优化工作,回想起工作这些年来,参与过的三次集中性能优化,每次都得折腾少则一个月,多则半年。这些内容既是不同视角、不同思路的比较,也是挺有趣的工作经历。
日期:09月04日 作者:四火 点击:281
Spark教程-Spark 性能优化——和 shuffle 搏斗
Spark 的性���分析和调优很有意思,今天再写一篇。主要话题是 shuffle,当然也牵涉一些其他代码上的小把戏。
日期:09月04日 作者: 点击:289
spark中的spark Shuffle详解1
spark中的spark Shuffle详解1
Shuffle简介
Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗...
日期:09月02日 作者: 点击:272
Spark(1.6 版本)系列:Shuffle读写数据的源码解析
读写数据的源码解析
1. Shuffle写数据的源码解析
从SparkShuffle的整体框架中可以看到,在ShuffleManager提供了Shuffle相关数据块的写入与读取,即,对应的接口getWriter与getReader。
在解析Shuffle框架数据读取过程中,可以构建一个具有ShuffleDependency的RDD,查看执行过程中,Shuffle框架中的数据读写接口getWriter与getReader如何使用,通过这种具体案...
日期:09月02日 作者:偷功 点击:351
spark shuffle内在原理说明
在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑。 Shuffle
日期:09月02日 作者:bonelee 点击:200
spark-2.0原理分析-shuffle过程
shuffle概览 shuffle过程概览
shuffle数据流概览
shuffle数据流
shuffle工作流程
在运行job时,spark是一个stage一个stage执行的。先把任务分成stage,在任务提交阶段会把任务形成taskset,在执行任务。
spark的DAGScheduler���据RDD的ShuffleDependency来构建Stages: 例如:ShuffleRDD/CoGroupedRDD有一个ShuffleDependency。 很多操作通过...
日期:09月02日 作者:HoverZheng 点击:222
Bug剖析篇-“Facebook 60TB+级的Apache Spark应用案例”
本文由 简书 祝威廉 授权转载,版权所有归作者,转载请联系作者!
日期:09月02日 作者:祝威廉 点击:254
Spark Structured Streaming框架(5)之进程管理
Structured Streaming提供一些API来管理Streaming对象。用户可以通过这些API来手动管理已经启动的Streaming,保证在系统中的Streaming有序执行。 1. StreamingQuery
日期:09月01日 作者:xiuneng 点击:241
Spark Structured Streaming框架(4)之窗口管理详解
1. 结构 1.1 概述
  Structured Streaming组件滑动窗口功能由三个参数决定其功能:窗口时间、滑动步长和触发时间. 窗口时间:是指确定数据操作的长度; 滑动步长:是指窗口每次向前移动的时间长度; 触发时间:是指Structured Streaming将数据写入外部DataStreamWriter的时间间隔。
图 11 1.2 API
  用户管理Structured Streaming的窗口功能,...
日期:09月01日 作者:xiuneng 点击:266
Spark Structured Streaming框架(3)之数据输出源详解
Spark Structured streaming API支持的输出源有:Console、Memory、File和Foreach。其中Console在前两篇博文中已有详述,而Memory使用非常简单。本文着重介绍File和Foreach两种方式,并介绍如何在源码基本扩展新的输出方式。 1. File
日期:09月01日 作者:xiuneng 点击:235
  • 3/14
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14
  • »