你好,游客 登录
spark streaming 的搜索结果
目录 前言 Spark Streaming持久化设计模式 DStreams输出操作 使用foreachRDD的设计模式 Spark访问Hbase Hbase通用连接类 Hbase输出操作 填坑记录 Spark访问Mysql MySQL通用连接类 Mysql输出操作 部署 前言
http://bigdatastudy.net/show.aspx?id=618&cid=9日期:2018-10-25 19:27:51
目录 前言 Spark streaming接收Kafka数据 基于Receiver的方式 直接读取方式 Spark向kafka中写入数据 Spark streaming+Kafka应用 Spark streaming+Kafka调优 合理的批处理时间(batchDuration) 合理的Kafka拉取量(maxRatePerPartition重要) 缓存反复使用的Dstream(RDD) 设置合理的GC 设置合理的CPU资源数 设置合理的parallelism 使用高性能的算子 使用Kryo优化序列...
http://bigdatastudy.net/show.aspx?id=616&cid=9日期:2018-10-25 19:24:06
「腾讯·广点通」技术团队荣誉出品
本系列内容适用范围: * 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发布:2.1.0, 2.1.1, 2.1.2) * 2016.11.14 update, Spark 2.0 全系列 √ (已发布:2.0.0, 2.0.1, 2.0.2)
阅读本文前,请一定先阅读 [Spark Streaming 实现思路与模块概述]...
http://bigdatastudy.net/show.aspx?id=608&cid=9日期:2018-10-12 20:11:44
「腾讯·广点通」技术团队荣誉出品
本系列内容适用范围: * 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发布:2.1.0, 2.1.1, 2.1.2) * 2016.11.14 update, Spark 2.0 全系列 √ (已发布:2.0.0, 2.0.1, 2.0.2)
阅读本文前,请一定先阅读 [Spark Streaming 实现思路与模块概述]...
http://bigdatastudy.net/show.aspx?id=607&cid=9日期:2018-10-12 20:08:17
「腾讯·广点通」技术团队荣誉出品
本系列内容适用范围: * 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0) * 2017.10.02 update, Spark 2.1 全系列 √ (已发布:2.1.0, 2.1.1, 2.1.2) * 2016.11.14 update, Spark 2.0 全系列 √ (已发布:2.0.0, 2.0.1, 2.0.2)
一、基于 Spark 做 Spark Streaming 的思路
Spark Streaming...
http://bigdatastudy.net/show.aspx?id=606&cid=9日期:2018-10-12 20:04:57
在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好。 连续应用程序continuous application
http://bigdatastudy.net/show.aspx?id=519&cid=9日期:2018-9-1 21:03:33
一 概述
spark是近实时的流处理框架,支持的数据源有kafka、flume、kinesis、tcp sockets、文件系统等。流式读取数据后,可以用类似map、reduce、join和window等高层函数进行处理。最终,处理后的数据可以写入文件系统、数据库、实时仪表盘等。这里其实已经把流式数据抽象成了一个个小批次的分布式数据集,因此,你也可以在这些数据之上进行机器学习以及图计算。
...
http://bigdatastudy.net/show.aspx?id=518&cid=9日期:2018-9-1 21:02:07
本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。
http://bigdatastudy.net/show.aspx?id=292&cid=9日期:2017-9-23 13:26:30
1 实例演示
1.1 流数据模拟器
1.1.1 流数据说明
在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序。
1.1.2 模拟器代码
import java.io.{...
http://bigdatastudy.net/show.aspx?id=251&cid=9日期:2017-9-22 19:36:00
1 Spark Streaming简介
1.1 概述
Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、 Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果 存储到文件系统...
http://bigdatastudy.net/show.aspx?id=250&cid=9日期:2017-9-22 19:32:41
接上篇:about云日志分析项目准备11:spark streaming 接收 flume 监控目录的日志文件
http://bigdatastudy.net/show.aspx?id=51&cid=9日期:2017-9-5 12:52:28
接上篇:
这一篇主要讲解从日志文件的流向,即从flume-->kafka-->spark streaming。
启动相关进程
首先,我们需要确保启动相应的进程。如果启动了可以忽略。
启动hdfs
登录master机器
start-dfs.sh 复制代码
在master机器上使用 jps 命令查看相关进程
master机器上出现NameNode和 SecondaryNameNode说明master节点启动正常。...
http://bigdatastudy.net/show.aspx?id=50&cid=9日期:2017-9-5 12:49:07
问题导读
1.DStreams的含义是什么?
2.DStreams提供哪两种类型的操作?
3.Transformations操作分为哪两种类型?
4.本文说了哪些输入源?
5.什么是batch?
RDD与job之间的关系
Spark Streaming是构建在Spark上的实时流计算框架,扩展了Spark流式大数据处理能
力。Spark Streaming将数据流以时间片为单位分割形成RDD,使用RDD操作处理...
http://bigdatastudy.net/show.aspx?id=48&cid=9日期:2017-9-5 12:42:31
  • 1/1
  • 1