你好,游客 登录
rss订阅 手机访问 
Spark
spark-2.0原理分析-shuffle过程
shuffle概览 shuffle过程概览
shuffle数据流概览
shuffle数据流
shuffle工作流程
在运行job时,spark是一个stage一个stage执行的。先把任务分成stage,在任务提交阶段会把任务形成taskset,在执行任务。
spark的DAGScheduler根据RDD的ShuffleDependency来构建Stages: 例如:ShuffleRDD/CoGroupedRDD有一个ShuffleDependency。 很多操作通过...
日期:09/02/2018 21:38:13 作者:HoverZheng 点击:563
Bug剖析篇-“Facebook 60TB+级的Apache Spark应用案例”
本文由 简书 祝威廉 授权转载,版权所有归作者,转载请联系作者!
日期:09/02/2018 21:33:46 作者:祝威廉 点击:511
Spark Structured Streaming框架(5)之进程管理
Structured Streaming提供一些API来管理Streaming对象。用户可以通过这些API来手动管理已经启动的Streaming,保证在系统中的Streaming有序执行。 1. StreamingQuery
日期:09/01/2018 21:16:47 作者:xiuneng 点击:420
Spark Structured Streaming框架(4)之窗口管理详解
1. 结构 1.1 概述
  Structured Streaming组件滑动窗口功能由三个参数决定其功能:窗口时间、滑动步长和触发时间. 窗口时间:是指确定数据操作的长度; 滑动步长:是指窗口每次向前移动的时间长度; 触发时间:是指Structured Streaming将数据写入外部DataStreamWriter的时间间隔。
图 11 1.2 API
  用户管理Structured Streaming的窗口功能,...
日期:09/01/2018 21:16:01 作者:xiuneng 点击:678
Spark Structured Streaming框架(3)之数据输出源详解
Spark Structured streaming API支持的输出源有:Console、Memory、File和Foreach。其中Console在前两篇博文中已有详述,而Memory使用非常简单。本文着重介绍File和Foreach两种方式,并介绍如何在源码基本扩展新的输出方式。 1. File
日期:09/01/2018 21:15:25 作者:xiuneng 点击:638
Spark Structured Streaming框架(2)之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File、kafka和socket。 1. Socket
日期:09/01/2018 21:14:30 作者:xiuneng 点击:778
Spark Structured Streaming框架(1)之基本用法
Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架。这篇是介绍Spark Structured Streaming的基本开发方法。以Spark 自带的example进行测试和介绍,其为"StructuredNetworkWordcount.scala"文件。 1. Quick Example
日期:09/01/2018 21:12:40 作者:xiuneng 点击:560
Spark 2.0 Structured Streaming 分析
前言
Spark 2.0 将流式计算也统一到DataFrame里去了,提出了Structured Streaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结果映射为另外一张表,完全以结构化的方式去操作流式数据,复用了其对象的Catalyst引擎。 Spark 2.0 之前
作为Spark平台的流式实现,Spark Streaming 是有单独一套抽象和API的,大体如下 图片来源于Spakr官网
日期:09/01/2018 21:08:43 作者:祝威廉 点击:467
Structured Streaming 编程指南
概述 快速示例 Programming Model (编程模型) 基本概念 处理 Event-time 和延迟数据 容错语义 API 使用 Datasets 和 DataFrames 创建 streaming DataFrames 和 streaming Datasets Input Sources (输入源) streaming DataFrames/Datasets 的模式接口和分区 streaming DataFrames/Datasets 上的操作 基础操作 - Selection, Projection, Aggregation Window Oper...
日期:09/01/2018 21:05:22 作者: 点击:1194
深入理解Spark2.x中的Structured Streaming
在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好。 连续应用程序continuous application
日期:09/01/2018 21:03:33 作者:哎哟慰 点击:345
Spark 2.3.0 Spark Streaming Programming Guide 学习笔记
一 概述
spark是近实时的流处理框架,支持的数据源有kafka、flume、kinesis、tcp sockets、文件系统等。流式读取数据后,可以用类似map、reduce、join和window等高层函数进行处理。最终,处理后的数据可以写入文件系统、数据库、实时仪表盘等。这里其实已经把流式数据抽象成了一个个小批次的分布式数据集,因此,你也可以在这些数据之上进行机器学习以及图计算。
...
日期:09/01/2018 21:02:07 作者:hjbbjh0521 点击:667
spark1.6转到spark2.3总结(依赖、版本、初始化问题)
问题:pom里面不写spark版本(<spark.version>2.0.0</spark.version>)的话,可能会默认用spark1.6导致版本冲突异常——语法通过但无法编译运行
日期:08/20/2018 21:14:35 作者: 楚天love 点击:1044
Spark-2.3各种集群的安装
准备安排:Spark的HA
Spark会安装在hadoop02,hadoop03,hadoop04,hadoop05上面
注意需要先启动hdfs(必须),在启动yarn(非必须可以使standalone模式) 1.登陆:http://spark.apache.org/downloads.html
  下载符合自己的Spark安装包
2.上传到hadoop02节点 3.解压安装包
[hadoop@hadoop02 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/...
日期:08/20/2018 20:56:56 作者:一直在跑的乌龟 点击:1004
Spark 2.3 重磅发布: 欲与 Flink 争高下, 引入持续流处理
AI 前线导读: 2018 年 2 月 28 日, Databricks 在官方工程博客上正式发布 Apache Spark 2.3.0, 作为 Databricks Runtime 4.0 beta 的一部分新版本引入了持续流式处理模型, 可将流处理延迟降低至毫秒级别, 据说会成为 PK Flink 的大杀器还有哪些重要更新, 是不是该给 Spark 升个级, 看完就有数了!
日期:08/20/2018 20:53:34 作者: 点击:628
Apache Spark 2.3 重要特性介绍
为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2 3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;
日期:08/20/2018 20:50:37 作者:hely 点击:750
  • 4/14
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14
  • »