你好,游客 登录
rss订阅 手机访问 
Spark
windows10环境下搭建spark2.4.0源码阅读环境
准备工作(默认你已经安装好jdk,scala,maven,IDEA工具)
日期:11月09日 作者:u011055139 点击:18
windows Spark 2.4 通过mvn源码编译
日期:11月09日 作者:lzzyok 点击:16
Intellij IDE+ Spark 2.4 例子运行(源码断点跟踪)
上一篇文章写了如何通过Maven编译源码,该篇说明如何在IDE中引入项目,并运行其中一个例子。
日期:11月09日 作者:lzzyok 点击:22
专访朱诗雄:Apache Spark中的全新流式引擎Structured Streaming
Apache Spark 在 2016 年的时候启动了 Structured Streaming 项目,一个基于 Spark SQL 的全新流计算引擎 Structured Streaming,让用户像编写批处理程序一样简单地编写高性能的流处理程序。经过一年多的改进和完善,目前 Structured Streaming 已经在 Databricks 内部和客户广泛使用,InfoQ 采访了 Structured Streaming 的核心开发朱诗雄来具体了解这个项目。
日期:11月09日 作者: 点击:30
Structured streaming+kafka集成样例
关于structured streaming, spark社区已经有很多文章介绍,个人认为其中最大的特点是将流视作没有边界的大表,从而能够使用sql来操作这张表,其中包括使用sql join(截止Spark2.1.1,目前只支持streaming和静态表之间的join,还不支持多条流之间的join ‘期待社区大招 ’)。 消息队列 Kafka
日期:11月09日 作者:biggeng 点击:29
Structured Streaming 动态流 join 静态流 Example
Structured Streaming 动态流 join 静态流 Example
Spark 代码

/*
* Licensed to the Apache Software Foundation (ASF) under one or more
* contributor license agreements. See the NOTICE file distributed with
* this work for additional information regarding copyright ownership.
* The ASF licenses this file to You und...
日期:11月09日 作者: 点击:43
Apache Spark 2.4新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。
日期:11月09日 作者: 点击:13
即将发布的 Apache Spark 2.4 都有哪些新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。
日期:10月25日 作者:过往记忆 点击:48
Spark踩坑记——从RDD看集群调度
前言
在Spark的使用中,性能的调优配置过程中,查阅了很多资料,本文的思路是从spark最细节的本质,即核心的数据结构RDD出发,到整个Spark集群宏观的调度过程做一个整理归纳,从微观到宏观两方面总结,方便自己在调优过程中找寻问题,理清思路,也加深自己对于分布式程序开发的理解。(有任何问题和纰漏还请各位大牛指出啦,我会第一时间改正) RDD详谈
在Spark开...
日期:10月25日 作者:xlturing 点击:84
Spark踩坑记——数据库(Hbase+Mysql)
目录 前言 Spark Streaming持久化设计模式 DStreams输出操作 使用foreachRDD的设计模式 Spark访问Hbase Hbase通用连接类 Hbase输出操作 填坑记录 Spark访问Mysql MySQL通用连接类 Mysql输出操作 部署 前言
日期:10月25日 作者:xlturing 点击:67
Spark踩坑记——共享变量
目录 前言 累加器 广播变量 更新广播变量(rebroadcast) 总结 参考文献 前言 Spark踩坑记——初试 Spark踩坑记——数据库(Hbase+Mysql) Spark踩坑记——Spark Streaming+kafka应用及调优
日期:10月25日 作者:xlturing 点击:66
Spark踩坑记——Spark Streaming+Kafka
目录 前言 Spark streaming接收Kafka数据 基于Receiver的方式 直接读取方式 Spark向kafka中写入数据 Spark streaming+Kafka应用 Spark streaming+Kafka调优 合理的批处理时间(batchDuration) 合理的Kafka拉取量(maxRatePerPartition重要) 缓存反复使用的Dstream(RDD) 设置合理的GC 设置合理的CPU资源数 设置合理的parallelism 使用高性能的算子 使用Kryo优化序列...
日期:10月25日 作者:xlturing 点击:91
Kafka丢失数据问题优化总结
数据丢失是一件非常严重的事情事,针对数据丢失的问题我们需要有明确的思路来确定问题所在,针对这段时间的总结,我个人面对kafka 数据丢失问题的解决思路如下:
日期:10月19日 作者:一个人的奋斗...... 点击:99
消息系统kafka之二 kafka的HA(高可用)
在前面的《消息系统kafka之一 系统简介》的为什么选择kafka中已经提到了kafka高可用的特性。
日期:10月19日 作者:gongzhiyao37390814 点击:96
消息系统-kafka之一 系统简介
最近在研究消息中间件kafka,下面简单介绍一下kafka消息系统,首先,为什么使用消息中间件,有哪些消息中间件,为什么选择kafka
日期:10月19日 作者:gongzhiyao3739081 点击:88
  • 1/14
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14
  • »