你好,游客 登录
rss订阅 手机访问 
Spark
Spark Shuffle教程:Spark Architecture: Shuffle
Spark Architecture: Shuffle 42 Replies
This is my second article about Apache Spark architecture and today I will be more specific and tell you about the shuffle, one of the most interesting topics in the overall Spark design. The previous part was mostly about general Spark architecture and its memory management. It can be accessed here. T...
日期:09月04日 作者:Alexey Grishchenko 点击:187
Spar调优教程:三次性能优化经历
最近在做一些性能优化工作,回想起工作这些年来,参与过的三次集中性能优化,每次都得折腾少则一个月,多则半年。这些内容既是不同视角、不同思路的比较,也是挺有趣的工作经历。
日期:09月04日 作者:四火 点击:192
Spark教程-Spark 性能优化——和 shuffle 搏斗
Spark 的性���分析和调优很有意思,今天再写一篇。主要话题是 shuffle,当然也牵涉一些其他代码上的小把戏。
日期:09月04日 作者: 点击:145
spark中的spark Shuffle详解1
spark中的spark Shuffle详解1
Shuffle简介
Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗...
日期:09月02日 作者: 点击:154
Spark(1.6 版本)系列:Shuffle读写数据的源码解析
读写数据的源码解析
1. Shuffle写数据的源码解析
从SparkShuffle的整体框架中可以看到,在ShuffleManager提供了Shuffle相关数据块的写入与读取,即,对应的接口getWriter与getReader。
在解析Shuffle框架数据读取过程中,可以构建一个具有ShuffleDependency的RDD,查看执行过程中,Shuffle框架中的数据读写接口getWriter与getReader如何使用,通过这种具体案...
日期:09月02日 作者:偷功 点击:182
spark shuffle内在原理说明
在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑。 Shuffle
日期:09月02日 作者:bonelee 点击:152
spark-2.0原理分析-shuffle过程
shuffle概览 shuffle过程概览
shuffle数据流概览
shuffle数据流
shuffle工作流程
在运行job时,spark是一个stage一个stage执行的。先把任务分成stage,在任务提交阶段会把任务形成taskset,在执行任务。
spark的DAGScheduler根据RDD的ShuffleDependency来构建Stages: 例如:ShuffleRDD/CoGroupedRDD有一个ShuffleDependency。 很多操作通过...
日期:09月02日 作者:HoverZheng 点击:158
Bug剖析篇-“Facebook 60TB+级的Apache Spark应用案例”
本文由 简书 祝威廉 授权转载,版权所有归作者,转载请联系作者!
日期:09月02日 作者:祝威廉 点击:140
Spark Structured Streaming框架(5)之进程管理
Structured Streaming提供一些API来管理Streaming对象。用户可以通过这些API来手动管理已经启动的Streaming,保证在系统中的Streaming有序执行。 1. StreamingQuery
日期:09月01日 作者:xiuneng 点击:163
Spark Structured Streaming框架(4)之窗口管理详解
1. 结构 1.1 概述
  Structured Streaming组件滑动窗口功能由三个参数决定其功能:窗口时间、滑动步长和触发时间. 窗口时间:是指确定数据操作的长度; 滑动步长:是指窗口每次向前移动的时间长度; 触发时间:是指Structured Streaming将数据写入外部DataStreamWriter的时间间隔。
图 11 1.2 API
  用户管理Structured Streaming的窗口功能,...
日期:09月01日 作者:xiuneng 点击:168
Spark Structured Streaming框架(3)之数据输出源详解
Spark Structured streaming API支持的输出源有:Console、Memory、File和Foreach。其中Console在前两篇博文中已有详述,而Memory使用非常简单。本文着重介绍File和Foreach两种方式,并介绍如何在源码基本扩展新的输出方式。 1. File
日期:09月01日 作者:xiuneng 点击:122
Spark Structured Streaming框架(2)之数��输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File、kafka和socket。 1. Socket
日期:09月01日 作者:xiuneng 点击:196
Spark Structured Streaming框架(1)之基本用法
Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架。这篇是介绍Spark Structured Streaming的基本开发方法。以Spark 自带的example进行测试和介绍,其为"StructuredNetworkWordcount.scala"文件。 1. Quick Example
日期:09月01日 作者:xiuneng 点击:196
Spark 2.0 Structured Streaming 分析
前言
Spark 2.0 将流式计算也统一到DataFrame里去了,提出了Structured Streaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结果映射为另外一张表,完全以结构化的方式去操作流式数据,复用了其对象的Catalyst引擎。 Spark 2.0 之前
作为Spark平台的流式实现,Spark Streaming 是有单独一套抽象和API的,大体如下 图片来源于Spakr官网
日期:09月01日 作者:祝威廉 点击:131
Structured Streaming 编程指南
概述 快速示例 Programming Model (编程模型) 基本概念 处理 Event-time 和延迟数据 容错语义 API 使用 Datasets 和 DataFrames 创建 streaming DataFrames 和 streaming Datasets Input Sources (输入源) streaming DataFrames/Datasets 的模式接口和分区 streaming DataFrames/Datasets 上的操作 基础操作 - Selection, Projection, Aggregation Window Oper...
日期:09月01日 作者: 点击:195
  • 2/13
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 13
  • »