你好,游客 登录
kafka 的搜索结果
关于structured streaming, spark社区已经有很多文章介绍,个人认为其中最大的特点是将流视作没有边界的大表,从而能够使用sql来操作这张表,其中包括使用sql join(截止Spark2.1.1,目前只支持streaming和静态表之间的join,还不支持多条流之间的join ‘期待社区大招 ’)。 消息队列 Kafka
http://bigdatastudy.net/show.aspx?id=624&cid=9日期:2018-11-9 14:32:16
目录 前言 Spark streaming接收Kafka数据 基于Receiver的方式 直接读取方式 Spark向kafka中写入数据 Spark streaming+Kafka应用 Spark streaming+Kafka调优 合理的批处理时间(batchDuration) 合理的Kafka拉取量(maxRatePerPartition重要) 缓存反复使用的Dstream(RDD) 设置合理的GC 设置合理的CPU资源数 设置合理的parallelism 使用高性能的算子 使用Kryo优化序列...
http://bigdatastudy.net/show.aspx?id=616&cid=9日期:2018-10-25 19:24:06
最近在研究消息中间件kafka,下面简单介绍一下kafka消息系统,首先,为什么使用消息中间件,有哪些消息中间件,为什么选择kafka
http://bigdatastudy.net/show.aspx?id=613&cid=9日期:2018-10-19 16:42:01
afka在0.8和0.10版本引入了新的消费者API,所以sparkStreaming与kafka的整合提供了两个包。 请根据你的集群选用正确的包。注意, 0.8和后期的版本0.9及0.10是兼容的,但是0.10整合是不兼容之前的版本的。
http://bigdatastudy.net/show.aspx?id=612&cid=9日期:2018-10-19 16:37:17
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apa...
http://bigdatastudy.net/show.aspx?id=495&cid=9日期:2018-1-15 21:37:30
引言
Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。
partition是以文件的形式存储在文件系统中,比如,创建了一个名为page_visits的topic,其...
http://bigdatastudy.net/show.aspx?id=487&cid=9日期:2018-1-15 21:17:13
Kafka 从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、存储及实时地处理大规模流数 据。来自世界各地的数千家公司在使用 Kafka,包括三分之一的 500 强公司。Kafka 以稳健的步伐向前迈进,首先加入了复制功能和无边界的键值数据存储,接着推出了用于集成外部存储系统的 Connect API,后又推出了...
http://bigdatastudy.net/show.aspx?id=411&cid=6日期:2017-11-6 21:36:03
本文详细阐述了Kafka的性能测试方法,并全面展示了Kafka各组件的性能测试报告。
http://bigdatastudy.net/show.aspx?id=319&cid=9日期:2017-9-26 16:14:21
本文主要介绍了Kafka High Level Consumer,Consumer Group,Consumer Rebalance,Low Level Consumer实现的语义,以及适用场景。以及未来版本中对High Level Consumer的重新设计--使用Consumer Coordinator解决Split Brain和Herd等问题。
http://bigdatastudy.net/show.aspx?id=318&cid=9日期:2017-9-26 16:13:01
本文在上篇文章 基础上,更加深入讲解了Kafka的HA机制,主要阐述了HA相关各种场景,如Broker failover,Controller failover,Topic创建/删除,Broker启动,Follower从Leader fetch数据等详细处理过程。同时介绍了Kafka提供的与Replication相关的工具,如重新分配Partition等。
http://bigdatastudy.net/show.aspx?id=317&cid=9日期:2017-9-26 16:11:35
Kafka从0.8版本开始提供High Availability机制,从而提高了系统可用性及数据持久性。本文从Data Replication和Leader Election两方面介绍了Kafka的HA机制。
http://bigdatastudy.net/show.aspx?id=316&cid=9日期:2017-9-26 16:10:15
http://bigdatastudy.net/show.aspx?id=315&cid=9日期:2017-9-26 16:08:04
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本 文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版本中已发生了一些变化,比如HA策略: 通过Spark Cont...
http://bigdatastudy.net/show.aspx?id=291&cid=9日期:2017-9-23 13:25:03
问题导读
1.对于不断追加的文件可以使用flume哪个属性?
2.对于不断追加的文件及变化的文件个数,可是使用flume哪个属性?
3.该如何配置能够搜集网站日志的flume?
上篇文章
flume与kafka整合高可靠教程2:flume与kafka整合安装
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22173
本文的背景:
在搜集日志的过程中,日...
http://bigdatastudy.net/show.aspx?id=64&cid=9日期:2017-9-6 20:26:24
接上篇:
这一篇主要讲解从日志文件的流向,即从flume-->kafka-->spark streaming。
启动相关进程
首先,我们需要确保启动相应的进程。如果启动了可以忽略。
启动hdfs
登录master机器
start-dfs.sh 复制代码
在master机器上使用 jps 命令查看相关进程
master机器上出现NameNode和 SecondaryNameNode说明master节点启动正常。...
http://bigdatastudy.net/show.aspx?id=50&cid=9日期:2017-9-5 12:49:07
  • 1/2
  • 1
  • 2
  • »