你好,游客 登录
rss订阅 手机访问 
Spark
深入理解Spark2.x中的Structured Streaming
在Spark2.x中,Spark Streaming获得了比较全面的升级,称为Structured Streaming,和之前的很不同,功能更强大,效率更高,跟其他的组件整合性也更好。 连续应用程序continuous application
日期:09月01日 作者:哎哟慰 点击:148
Spark 2.3.0 Spark Streaming Programming Guide 学习笔记
一 概述
spark是近实时的流处理框架,支持的数据源有kafka、flume、kinesis、tcp sockets、文件系统等。流式读取数据后,可以用类似map、reduce、join和window等高层函数进行处理。最终,处理后的数据可以写入文件系统、数据库、实时仪表盘等。这里其实已经把流式数据抽象成了一个个小批次的分布式数据集,因此,你也可以在这些数据之上进行机器学习以及图计算。
...
日期:09月01日 作者:hjbbjh0521 点击:206
spark1.6转到spark2.3总结(依赖、版本、初始化问题)
问题:pom里面不写spark版本(<spark.version>2.0.0</spark.version>)的话,可能会默认用spark1.6导致版本冲突异常——语法通过但无法编译运行
日期:08月20日 作者: 楚天love 点击:274
Spark-2.3各种集群的安装
准备安排:Spark的HA
Spark会安装在hadoop02,hadoop03,hadoop04,hadoop05上面
注意需要先启动hdfs(必须),在启动yarn(非必须可以使standalone模式) 1.登陆:http://spark.apache.org/downloads.html
  下载符合自己的Spark安装包
2.上传到hadoop02节点 3.解压安装包
[hadoop@hadoop02 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/...
日期:08月20日 作者:一直在跑的乌龟 点击:319
Spark 2.3 重磅发布: 欲与 Flink 争高下, 引入持续流处理
AI 前线导读: 2018 年 2 月 28 日, Databricks 在官方工程博客上正式发布 Apache Spark 2.3.0, 作为 Databricks Runtime 4.0 beta 的一部分新版本引入了持续流式处理模型, 可将流处理延迟降低至毫秒级别, 据说会成为 PK Flink 的大杀器还有哪些重要更新, 是不是该给 Spark 升个级, 看完就有数了!
日期:08月20日 作者: 点击:223
Apache Spark 2.3 重要特性介绍
为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2 3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;
日期:08月20日 作者:hely 点击:233
基于spark的DataFrame实战
Spark 中的另一核心功能是DataFrame,方便处理结构化数据。实例中还是以上一篇博客中的数据为基础。
日期:04月26日 作者:bo_hai 点击:431
spark dataframe和dataSet用电影点评数据实战
RDD
优点: 编译时类型安全
编译时就能检查出类型错误 面向对象的编程风格
直接通过类名点的方式来操作数据
缺点: 序列化和反序列化的性能开销
无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销
频繁的创建和销毁对象, 势必会增加GC DataFrame
DataFrame引入了schema和off-heap ...
日期:04月26日 作者: a11a22334455 点击:623
如何理解spark中RDD和DataFrame的结构?
Spark RDD是分布式弹性数据集,一个比较核心的是粗粒度的分布式计算,粗粒度是指用户不用关心太多的分布式细节,用声明式的API就能完成分布式计算,比如Word Count用一行就能写完。RDD易用性很好,那Spark为啥还要有Dataframe呢?
日期:04月26日 作者: 点击:259
Spark SQL 中 dataFrame 学习总结
dataFrame多了数据的结构信息。就是schema。
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。
DataFrame 提供了详细的结构信息,可以让sparkSQL清楚的知道数据集中包含哪些列,列的名称和类型各是什么?
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了
比RDD更丰富的算子以外,更重要的特点...
日期:04月26日 作者: 点击:211
大数据实战:spark DataFrame的union函数使用时的坑
spark
Spark DataFrame提供了union函数用于将两个DataFrame合并。虽然经常使用,但是没有仔细读过官方文档,今天合并DataFrame时出了点错误,仔细看了API文档之后,发现使用时有一些坑需要注意。
def union(other: Dataset[T]): Dataset[T]
Returns a new Dataset containing union of rows in this Dataset and another Dataset.
This is equivalent t...
日期:04月26日 作者: 点击:1686
spark DataFrame 常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中。 不得不赞叹dataframe的强大。 ...
日期:04月26日 作者: 点击:456
[Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量
比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点的做法就是:能定义在计算函数内的方法就定义在里面。
日期:03月29日 作者:代立冬 点击:264
Spark实战
1.Spark简介
什么是Spark?
 Spark是UC BerkeleyAmp实验室开源的类Hadoop MapReduce的通用并行计算框架
                             Spark  VS  MapReduce
MapReduce      
                 ①.缺少对迭代计算以及DAG运算的支持
                 ②.Shuffle...
日期:03月29日 作者:代立冬 点击:535
Kafka史上最详细原理总结
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apa...
日期:01月15日 作者: 点击:2618
  • 3/13
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 13
  • »