你好,游客 登录
rss订阅 手机访问 
Spark
Spark Structured Streaming框架(2)之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File、kafka和socket。 1. Socket
日期:09月01日 作者:xiuneng 点击:340
Spark Structured Streaming框架(1)之基本用法
Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架。这篇是介绍Spark Structured Streaming的基本开发方法。以Spark 自带的example进行测试和介绍,其为"StructuredNetworkWordcount.scala"文件。 1. Quick Example
日期:09月01日 作者:xiuneng 点击:291
Spark 2.0 Structured Streaming 分析
前言
Spark 2.0 将流式计算也统一到DataFrame里去了,提出了Structured Streaming的概念,将数据源映射为一张无线长度的表,同时将流式计算的结果映射为另外一张表,完全以结构化的方式去操作流式数据,复用了其对象的Catalyst引擎。 Spark 2.0 之前
作为Spark平台的流式实现,Spark Streaming 是有单独一套抽象和API的,大体如下 图片来源于Spakr官网
日期:09月01日 作者:祝威廉 点击:205
Structured Streaming 编程指南
概述 快速示例 Programming Model (编程模型) 基本概念 处理 Event-time 和延迟数据 容错语义 API 使用 Datasets 和 DataFrames 创建 streaming DataFrames 和 streaming Datasets Input Sources (输入源) streaming DataFrames/Datasets 的模式接口和分区 streaming DataFrames/Datasets 上的操作 基础操作 - Selection, Projection, Aggregation Window Oper...
日期:09月01日 作者: 点击:365
深入理解Spark2.x中的Structured Streaming
在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好。 连续应用程序continuous application
日期:09月01日 作者:哎哟慰 点击:194
Spark 2.3.0 Spark Streaming Programming Guide 学习笔记
一 概述
spark是近实时的流处理框架,支持的数据源有kafka、flume、kinesis、tcp sockets、文件系统等。流式读取数据后,可以用类似map、reduce、join和window等高层函数进行处理。最终,处理后的数据可以写入文件系统、数据库、实时仪表盘等。这里其实已经把流式数据抽象成了一个个小批次的分布式数据集,因此,你也可以在这些数据之上进行机器学习以及图计算。
...
日期:09月01日 作者:hjbbjh0521 点击:321
spark1.6转到spark2.3总结(依赖、版本、初始化问题)
问题:pom里面不写spark版本(<spark.version>2.0.0</spark.version>)的话,可能会默认用spark1.6导致版本冲突异常——语法通过但无法编译运行
日期:08月20日 作者: 楚天love 点击:433
Spark-2.3各种集群的安装
准备安排:Spark的HA
Spark会安装在hadoop02,hadoop03,hadoop04,hadoop05上面
注意需要先启动hdfs(必须),在启动yarn(非必须可以使standalone模式) 1.登陆:http://spark.apache.org/downloads.html
  下载符合自己的Spark安装包
2.上传到hadoop02节点 3.解压安装包
[hadoop@hadoop02 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/...
日期:08月20日 作者:一直在跑的乌龟 点击:453
Spark 2.3 重磅发布: 欲与 Flink 争高下, 引入持续流处理
AI 前线导读: 2018 年 2 月 28 日, Databricks 在官方工程博客上正式发布 Apache Spark 2.3.0, 作为 Databricks Runtime 4.0 beta 的一部分新版本引入了持续流式处理模型, 可将流处理延迟降低至毫秒级别, 据说会成为 PK Flink 的大杀器还有哪些重要更新, 是不是该给 Spark 升个级, 看完就有数了!
日期:08月20日 作者: 点击:327
Apache Spark 2.3 重要特性介绍
为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2 3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;
日期:08月20日 作者:hely 点击:366
基于spark的DataFrame实战
Spark 中的另一核心功能是DataFrame,方便处理结构化数据。实例中还是以上一篇博客中的数据为基础。
日期:04月26日 作者:bo_hai 点击:566
spark dataframe和dataSet用电影点评数据实战
RDD
优点: 编译时类型安全
编译时就能检查出类型错误 面向对象的编程风格
直接通过类名点的方式来操作数据
缺点: 序列化和反序列化的性能开销
无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销
频繁的创建和销毁对象, 势必会增加GC DataFrame
DataFrame引入了schema和off-heap ...
日期:04月26日 作者: a11a22334455 点击:828
如何理解spark中RDD和DataFrame的结构?
Spark RDD是分布式弹性数据集,一个比较核心的是粗粒度的分布式计算,粗粒度是指用户不用关心太多的分布式细节,用声明式的API就能完成分布式计算,比如Word Count用一行就能写完。RDD易用性很好,那Spark为啥还要有Dataframe呢?
日期:04月26日 作者: 点击:423
Spark SQL 中 dataFrame 学习总结
dataFrame多了数据的结构信息。就是schema。
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。
DataFrame 提供了详细的结构信息,可以让sparkSQL清楚的知道数据集中包含哪些列,列的名称和类型各是什么?
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了
比RDD更丰富的算子以外,更重要的特点...
日期:04月26日 作者: 点击:265
大数据实战:spark DataFrame的union函数使用时的坑
spark
Spark DataFrame提供了union函数用于将两个DataFrame合并。虽然经常使用,但是没有仔细读过官方文档,今天合并DataFrame时出了点错误,仔细看了API文档之后,发现使用时有一些坑需要注意。
def union(other: Dataset[T]): Dataset[T]
Returns a new Dataset containing union of rows in this Dataset and another Dataset.
This is equivalent t...
日期:04月26日 作者: 点击:2830
  • 4/14
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14
  • »