你好,游客 登录
rss订阅 手机访问 
Spark
Spark教程:Spark Structured Streaming入门编程指南
概览
Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame API处理流数据的聚集,事件窗口,和流与批次的连接操作等。最后Structured Streaming 系统快速,稳定,端到端的...
日期:10/12/2018 19:37:52 作者:cutd 点击:466
Spark SQL教程:Spark SQL调优(那些年我们在spark SQL上踩过的坑)
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。 spark 内存泄露 1.高并发情况下的内存泄露的具体表现
日期:09/30/2018 20:00:45 作者:qq_33160722 点击:433
spark教程:Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
一、修改hosts文件
在主节点,就是第一台主机的命令行下;
vim /etc/hosts
我的是三台云主机:
在原文件的基础上加上;
ip1 master worker0 namenode ip2 worker1 datanode1 ip3 worker2 datanode2
其中的ipN代表一个可用的集群IP,ip1为master的主节点,ip2和iip3为从节点。 二、ssh互信(免密码登录)
注意我这里配置的是root用户...
日期:09/29/2018 22:57:40 作者:PurStar 点击:360
spark教程:Apache Spark 2.3 重要特性介绍
本文翻译自:https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html
日期:09/29/2018 22:56:24 作者:Hadoop技术博文 点击:395
scala,spark报错:Welcome to Scala version 2.10.6 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.
运行spark-shell 或者scala命令,出现以下错误:
Welcome to Scala version 2.10.6 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_66). Type in expressions to have them evaluated. Type :help for more information. scala> [init] error: error while loading <root>, error in opening zip file Failed to initialize compiler: object scala.runti...
日期:09/15/2018 14:11:19 作者: 点击:439
Spark序列化错误:java.io.NotSerializableException
由于spark算子用到的class没有实现序列化,报错如下所示
日期:09/15/2018 14:08:02 作者: 点击:457
Scala+Spark大数据编程入门教程(006)-Hive on spark:java.nio.file.NoSuchFileException,Hive是否需要部署到每个节点
Hive on Spark时,提交Job时,报下面的错误。
java.nio.file.NoSuchFileException: /home/user/apache-hive-2.3.3-bin/lib/hive-exec-2.3.3.jar
1. 什么是hive-exec-2.3.3.jar?它有什么用?
hive-exec-2.3.3.jar是Hive提供的供访问Hive数据的函数库,Hive on Spark在底层使用Saprk作为执行引擎,Spark程序执行时,需要和Hive进行交互,就是通过hive-exec-*....
日期:09/14/2018 09:16:01 作者:艾叔 点击:412
Scala+Spark教程:RC ORC Parquet 格式比较和性能测试
作者:刘旭晖 Raymond 转载请注明出处
Email:colorant at 163.com
BLOG:http://blog.csdn.net/colorant/ 为什么要比较这三者
为什么要比较,起因是为了提高Hadoop集群的存储和计算效率,尤其是离线Hive作业的效率,为什么比较的是这三者,是因为三者是目前Hive离线作业中正在大规模使用或可能大规模使用的三种主流的相对成熟的文件格式
对于ORC性能...
日期:09/12/2018 16:26:32 作者:彩色蚂蚁 点击:518
Spark Shuffle教程:Spark Architecture: Shuffle
Spark Architecture: Shuffle 42 Replies
This is my second article about Apache Spark architecture and today I will be more specific and tell you about the shuffle, one of the most interesting topics in the overall Spark design. The previous part was mostly about general Spark architecture and its memory management. It can be accessed here. T...
日期:09/04/2018 12:12:45 作者:Alexey Grishchenko 点击:713
Spar调优教程:三次性能优化经历
最近在做一些性能优化工作,回想起工作这些年来,参与过的三次集中性能优化,每次都得折腾少则一个月,多则半年。这些内容既是不同视角、不同思路的比较,也是挺有趣的工作经历。
日期:09/04/2018 12:10:46 作者:四火 点击:435
Spark教程-Spark 性能优化——和 shuffle 搏斗
Spark 的性���分析和调优很有意思,今天再写一篇。主要话题是 shuffle,当然也牵涉一些其他代码上的小把戏。
日期:09/04/2018 11:08:04 作者: 点击:447
spark中的spark Shuffle详解1
spark中的spark Shuffle详解1
Shuffle简介
Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗...
日期:09/02/2018 21:44:52 作者: 点击:441
Spark(1.6 版本)系列:Shuffle读写数据的源码解析
读写数据的源码解析
1. Shuffle写数据的源码解析
从SparkShuffle的整体框架中可以看到,在ShuffleManager提供了Shuffle相关数据块的写入与读取,即,对应的接口getWriter与getReader。
在解析Shuffle框架数据读取过程中,可以构建一个具有ShuffleDependency的RDD,查看执行过程中,Shuffle框架中的数据读写接口getWriter与getReader如何使用,通过这种具体案...
日期:09/02/2018 21:44:02 作者:偷功 点击:509
spark shuffle内在原理说明
在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑。 Shuffle
日期:09/02/2018 21:43:20 作者:bonelee 点击:272
spark-2.0原理分析-shuffle过程
shuffle概览 shuffle过程概览
shuffle数据流概览
shuffle数据流
shuffle工作流程
在运行job时,spark是一个stage一个stage执行的。先把任务分成stage,在任务提交阶段会把任务形成taskset,在执行任务。
spark的DAGScheduler根据RDD的ShuffleDependency来构建Stages: 例如:ShuffleRDD/CoGroupedRDD有一个ShuffleDependency。 很多操作通过...
日期:09/02/2018 21:38:13 作者:HoverZheng 点击:334
  • 3/14
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14
  • »