你好,游客 登录
rss订阅 手机访问 
Spark
必读:再讲Spark与kafka 0.8.2.1+整合
afka在0.8和0.10版本引入了新的消费者API,所以sparkStreaming与kafka的整合提供了两个包。 请根据你的集群选用正确的包。注意, 0.8和后期的版本0.9及0.10是兼容的,但是0.10整合是不兼容之前的版本的。
日期:10月19日 作者:浪尖 点击:112
必读:Spark与kafka010整合
SparkStreaming与kafka010整合
读本文之前,请先阅读之前文章:
必读:再讲Spark与kafka 0.8.2.1+整合
Spark Streaming与kafka 0.10的整合,和0.8版本的direct Stream方式很像。Kafka的分区和spark的分区是一一对应的,可以获取offsets和元数据。API使用起来没有显著的区别。这个整合版本标记为experimental,所以API有可能改变。
工程依赖
首先,添加...
日期:10月19日 作者:Spark高级玩法 点击:171
kafka0.8--0.11各个版本特性预览介绍
kafka-0.8.2 新特性
  producer不再区分同步(sync)和异步方式(async),所有的请求以异步方式发送,这样提升了客户端效率。producer请求会返回一个应答对象,包括偏移量或者错误信。这种异步方地批量的发送消息到kafka broker节点,因而可以减少server端资源的开销。新的producer和所有的服务器网络通信都是异步地,在ack=-1模式下需要等待所有的replica副本完成复...
日期:10月19日 作者:ntsmaze(刘洋) 点击:115
Kafka 2.0重磅发布,新特性独家解读
策划编辑 | Natalie 作者 | 王国璋 编辑 | Vincent AI 前线导读:今天 Apache Kafka 项目的 2.0.0 版本正式发布了!距离 1.0 版本的发布,相距还不到一年。这一年不论是社区还是 Confluent 内部对于到底 Kafka 要向哪里发展都有很多讨论:从最初的标准消息系统,到现如今成为一个完整的包括导入导出和处理的流数据平台,从 0.8.2 一直到 1.0 版本,很多新特性和新部件被不...
日期:10月19日 作者:王国璋 点击:105
DStream 生成 RDD 实例详解
「腾讯·广点通」技术团队荣誉出品
本系列内容适用范围: * 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发布:2.1.0, 2.1.1, 2.1.2) * 2016.11.14 update, Spark 2.0 全系列 √ (已发布:2.0.0, 2.0.1, 2.0.2)
阅读本文前,请一定先阅读 [Spark Streaming 实现思路与模块概述]...
日期:10月12日 作者: 点击:167
DStream, DStreamGraph 详解
「腾讯·广点通」技术团队荣誉出品
本系列内容适用范围: * 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发布:2.1.0, 2.1.1, 2.1.2) * 2016.11.14 update, Spark 2.0 全系列 √ (已发布:2.0.0, 2.0.1, 2.0.2)
阅读本文前,请一定先阅读 [Spark Streaming 实现思路与模块概述]...
日期:10月12日 作者: 点击:136
Spark Streaming 实现思路与模块概述
「腾讯·广点通」技术团队荣誉出品
本系列内容适用范围: * 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发布:2.1.0, 2.1.1, 2.1.2) * 2016.11.14 update, Spark 2.0 全系列 √ (已发布:2.0.0, 2.0.1, 2.0.2)
一、基于 Spark 做 Spark Streaming 的思路
Spark Streaming...
日期:10月12日 作者: 点击:164
Structured Streaming 实现思路与实现概述
一、引言:Spark 2 时代!
Spark 1.x 时代里,以 SparkContext(及 RDD API)为基础,在 structured data 场景衍生出了 SQLContext, HiveContext,在 streaming 场景衍生出了 StreamingContext,很是琳琅满目。
Spark 2.x 则咔咔咔精简到只保留一个 SparkSession 作为主程序入口,以 Dataset/DataFrame 为主要的用户 API,同时满足 structured data, streaming dat...
日期:10月12日 作者: 点击:207
Spark2.0 Structured Streaming
综述
Structured Streaming是构建在Spark SQL引擎上的流式数据处理引擎,使用Scala编写,具有容错功能。你可以像在使用静态RDD数据一样来编写你的流式计算过程。当流数据连续不断的产生时,Spark
SQL将会增量的,持续不断的处理这些数据并将结果更新到结果集中。你可以使用DataSet/DataFrame API来展现数据流的aggregations, event-time windows,stream-to-batch ...
日期:10月12日 作者: 点击:182
干货 | 深入理解 Spark Structured Streaming
本 PPT 资料来自于 2018年05月12日在杭州进行的第六次 Spark & Flink Meetup。会议详情请参加《免费活动 | Spark & Flink Meetup 6 @Hangzhou》文章的介绍。
日期:10月12日 作者:Hadoop技术博文 点击:98
Spark 2.1 structured streaming
概述
在Spark2.0时,Spark引入了structured streaming,structured streaming是建立在Spark SQL之上的可扩展和高容错的流处理架构。不同于Spark1.x时代的DStream和ForeachRDD, structured streaming的目的是使用户能够像使用Spark SQL处理批处理一样,能够使用相同的方法处理流数据。Spark SQL引擎会递增式的处理到来的数据,并且持续更新流处理输出的数据。
当前...
日期:10月12日 作者: 点击:93
Spark教程:Spark Structured Streaming入门编程指南
概览
Structured Streaming 是一个可拓展,容错的,基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来,Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame API处理流数据的聚集,事件窗口,和流与批次的连接操作等。最后Structured Streaming 系统快速,稳定,端到端的...
日期:10月12日 作者:cutd 点击:197
Spark SQL教程:Spark SQL调优(那些年我们在spark SQL上踩过的坑)
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。 spark 内存泄露 1.高并发情况下的内存泄露的具体表现
日期:09月30日 作者:qq_33160722 点击:226
spark教程:Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程
一、修改hosts文件
在主节点,就是第一台主机的命令行下;
vim /etc/hosts
我的是三台云主机:
在原文件的基础上加上;
ip1 master worker0 namenode ip2 worker1 datanode1 ip3 worker2 datanode2
其中的ipN代表一个可用的集群IP,ip1为master的主节点,ip2和iip3为从节点。 二、ssh互信(免密码登录)
注意我这里配置的是root用户...
日期:09月29日 作者:PurStar 点击:174
spark教程:Apache Spark 2.3 重要特性介绍
本文翻译自:https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html
日期:09月29日 作者:Hadoop技术博文 点击:236
  • 2/14
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14
  • »