你好,游客 登录
rss订阅 手机访问 
Spark
Spark踩坑记——共享变量
目录 前言 累加器 广播变量 更新广播变量(rebroadcast) 总结 参考文献 前言 Spark踩坑记——初试 Spark踩坑记——数据库(Hbase+Mysql) Spark踩坑记——Spark Streaming+kafka应用及调优
日期:10/25/2018 19:26:15 作者:xlturing 点击:415
Spark踩坑记——Spark Streaming+Kafka
目录 前言 Spark streaming接收Kafka数据 基于Receiver的方式 直接读取方式 Spark向kafka中写入数据 Spark streaming+Kafka应用 Spark streaming+Kafka调优 合理的批处理时间(batchDuration) 合理的Kafka拉取量(maxRatePerPartition重要) 缓存反复使用的Dstream(RDD) 设置合理的GC 设置合理的CPU资源数 设置合理的parallelism 使用高性能的算子 使用Kryo优化序列...
日期:10/25/2018 19:24:06 作者:xlturing 点击:780
Kafka丢失数据问题优化总结
数据丢失是一件非常严重的事情事,针对数据丢失的问题我们需要有明确的思路来确定问题所在,针对这段时间的总结,我个人面对kafka 数据丢失问题的解决思路如下:
日期:10/19/2018 17:43:48 作者:一个人的奋斗...... 点击:798
消息系统kafka之二 kafka的HA(高可用)
在前面的《消息系统kafka之一 系统简介》的为什么选择kafka中已经提到了kafka高可用的特性。
日期:10/19/2018 16:46:11 作者:gongzhiyao37390814 点击:666
消息系统-kafka之一 系统简介
最近在研究消息中间件kafka,下面简单介绍一下kafka消息系统,首先,为什么使用消息中间件,有哪些消息中间件,为什么选择kafka
日期:10/19/2018 16:42:01 作者:gongzhiyao3739081 点击:470
必读:再讲Spark与kafka 0.8.2.1+整合
afka在0.8和0.10版本引入了新的消费者API,所以sparkStreaming与kafka的整合提供了两个包。 请根据你的集群选用正确的包。注意, 0.8和后期的版本0.9及0.10是兼容的,但是0.10整合是不兼容之前的版本的。
日期:10/19/2018 16:37:17 作者:浪尖 点击:461
必读:Spark与kafka010整合
SparkStreaming与kafka010整合
读本文之前,请先阅读之前文章:
必读:再讲Spark与kafka 0.8.2.1+整合
Spark Streaming与kafka 0.10的整合,和0.8版本的direct Stream方式很像。Kafka的分区和spark的分区是一一对应的,可以获取offsets和元数据。API使用起来没有显著的区别。这个整合版本标记为experimental,所以API有可能改变。
工程依赖
首先,添加...
日期:10/19/2018 16:04:46 作者:Spark高级玩法 点击:598
kafka0.8--0.11各个版本特性预览介绍
kafka-0.8.2 新特性
  producer不再区分同步(sync)和异步方式(async),所有的请求以异步方式发送,这样提升了客户端效率。producer请求会返回一个应答对象,包括偏移量或者错误信。这种异步方地批量的发送消息到kafka broker节点,因而可以减少server端资源的开销。新的producer和所有的服务器网络通信都是异步地,在ack=-1模式下需要等待所有的replica副本完成复...
日期:10/19/2018 15:58:56 作者:ntsmaze(刘洋) 点击:410
Kafka 2.0重磅发布,新特性独家解读
策划编辑 | Natalie 作者 | 王国璋 编辑 | Vincent AI 前线导读:今天 Apache Kafka 项目的 2.0.0 版本正式发布了!距离 1.0 版本的发布,相距还不到一年。这一年不论是社区还是 Confluent 内部对于到底 Kafka 要向哪里发展都有很多讨论:从最初的标准消息系统,到现如今成为一个完整的包括导入导出和处理的流数据平台,从 0.8.2 一直到 1.0 版本,很多新特性和新部件被不...
日期:10/19/2018 15:57:23 作者:王国璋 点击:438
DStream 生成 RDD 实例详解
「腾讯·广点通」技术团队荣誉出品
本系列内容适用范围: * 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发布:2.1.0, 2.1.1, 2.1.2) * 2016.11.14 update, Spark 2.0 全系列 √ (已发布:2.0.0, 2.0.1, 2.0.2)
阅读本文前,请一定先阅读 [Spark Streaming 实现思路与模块概述]...
日期:10/12/2018 20:11:44 作者: 点击:686
DStream, DStreamGraph 详解
「腾讯·广点通」技术团队荣誉出品
本系列内容适用范围: * 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发布:2.1.0, 2.1.1, 2.1.2) * 2016.11.14 update, Spark 2.0 全系列 √ (已发布:2.0.0, 2.0.1, 2.0.2)
阅读本文前,请一定先阅读 [Spark Streaming 实现思路与模块概述]...
日期:10/12/2018 20:08:17 作者: 点击:523
Spark Streaming 实现思路与模块概述
「腾讯·广点通」技术团队荣誉出品
本系列内容适用范围: * 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发布:2.1.0, 2.1.1, 2.1.2) * 2016.11.14 update, Spark 2.0 全系列 √ (已发布:2.0.0, 2.0.1, 2.0.2)
一、基于 Spark 做 Spark Streaming 的思路
Spark Streaming...
日期:10/12/2018 20:04:57 作者: 点击:797
Structured Streaming 实现思路与实现概述
一、引言:Spark 2 时代!
Spark 1.x 时代里,以 SparkContext(及 RDD API)为基础,在 structured data 场景衍生出了 SQLContext, HiveContext,在 streaming 场景衍生出了 StreamingContext,很是琳琅满目。
Spark 2.x 则咔咔咔精简到只保留一个 SparkSession 作为主程序入口,以 Dataset/DataFrame 为主要的用户 API,同时满足 structured data, streaming dat...
日期:10/12/2018 20:02:51 作者: 点击:902
Spark2.0 Structured Streaming
综述
Structured Streaming是构建在Spark SQL引擎上的流式数据处理引擎,使用Scala编写,具有容错功能。你可以像在使用静态RDD数据一样来编写你的流式计算过程。当流数据连续不断的产生时,Spark
SQL将会增量的,持续不断的处理这些数据并将结果更新到结果集中。你可以使用DataSet/DataFrame API来展现数据流的aggregations, event-time windows,stream-to-batch ...
日期:10/12/2018 19:59:56 作者: 点击:943
干货 | 深入理解 Spark Structured Streaming
本 PPT 资料来自于 2018年05月12日在杭州进行的第六次 Spark & Flink Meetup。会议详情请参加《免费活动 | Spark & Flink Meetup 6 @Hangzhou》文章的介绍。
日期:10/12/2018 19:57:29 作者:Hadoop技术博文 点击:360
  • 2/14
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14
  • »