你好,游客 登录
kafka 的搜索结果
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apa...
http://bigdatastudy.net/show.aspx?id=495&cid=9日期:2018-1-15 21:37:30
引言
Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。
partition是以文件的形式存储在文件系统中,比如,创建了一个名为page_visits的topic,其...
http://bigdatastudy.net/show.aspx?id=487&cid=9日期:2018-1-15 21:17:13
Kafka 从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、存储及实时地处理大规模流数 据。来自世界各地的数千家公司在使用 Kafka,包括三分之一的 500 强公司。Kafka 以稳健的步伐向前迈进,首先加入了复制功能和无边界的键值数据存储,接着推出了用于集成外部存储系统的 Connect API,后又推出了...
http://bigdatastudy.net/show.aspx?id=411&cid=6日期:2017-11-6 21:36:03
本文详细阐述了Kafka的性能测试方法,并全面展示了Kafka各组件的性能测试报告。
http://bigdatastudy.net/show.aspx?id=319&cid=9日期:2017-9-26 16:14:21
本文主要介绍了Kafka High Level Consumer,Consumer Group,Consumer Rebalance,Low Level Consumer实现的语义,以及适用场景。以及未来版本中对High Level Consumer的重新设计--使用Consumer Coordinator解决Split Brain和Herd等问题。
http://bigdatastudy.net/show.aspx?id=318&cid=9日期:2017-9-26 16:13:01
本文在上篇文章 基础上,更加深入讲解了Kafka的HA机制,主要阐述了HA相关各种场景,如Broker failover,Controller failover,Topic创建/删除,Broker启动,Follower从Leader fetch数据等详细处理过程。同时介绍了Kafka提供的与Replication相关的工具,如重新分配Partition等。
http://bigdatastudy.net/show.aspx?id=317&cid=9日期:2017-9-26 16:11:35
Kafka从0.8版本开始提供High Availability机制,从而提高了系统可用性及数据持久性。本文从Data Replication和Leader Election两方面介绍了Kafka的HA机制。
http://bigdatastudy.net/show.aspx?id=316&cid=9日期:2017-9-26 16:10:15
http://bigdatastudy.net/show.aspx?id=315&cid=9日期:2017-9-26 16:08:04
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本 文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版本中已发生了一些变化,比如HA策略: 通过Spark Cont...
http://bigdatastudy.net/show.aspx?id=291&cid=9日期:2017-9-23 13:25:03
问题导读
1.对于不断追加的文件可以使用flume哪个属性?
2.对于不断追加的文件及变化的文件个数,可是使用flume哪个属性?
3.该如何配置能够搜集网站日志的flume?
上篇文章
flume与kafka整合高可靠教程2:flume与kafka整合安装
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22173
本文的背景:
在搜集日志的过程中,日...
http://bigdatastudy.net/show.aspx?id=64&cid=9日期:2017-9-6 20:26:24
接上篇:
这一篇主要讲解从日志文件的流向,即从flume-->kafka-->spark streaming。
启动相关进程
首先,我们需要确保启动相应的进程。如果启动了可以忽略。
启动hdfs
登录master机器
start-dfs.sh 复制代码
在master机器上使用 jps 命令查看相关进程
master机器上出现NameNode和 SecondaryNameNode说明master节点启动正常。...
http://bigdatastudy.net/show.aspx?id=50&cid=9日期:2017-9-5 12:49:07
问题导读:
1. 如何安装flume?
2. 如何使用flume将本地文件发送到kafka?
接上篇:about云日志分析项目准备8:Kafka集群安装
这篇主要讲解Flume集群的安装和配置
一、Flume安装
1. 压缩安装包 tar -zxvf ~/jar/apache-flume-1.6.0-bin.tar.gz -C /data mv /data/apache-flume-1.6.0-bin/ /data/flume-1.6.0 # 重命名 复制代码
2. 配置...
http://bigdatastudy.net/show.aspx?id=41&cid=9日期:2017-9-5 12:14:48
问题导读:
1. 如何搭建一个zookeeper集群?
2. 安装zookeeper集群中myid文件的作用是什么?
3. 如何搭建一个kafka集群?
接上篇:about云日志分析项目准备7:Hive安装和配置
这篇主要讲解kafka集群的安装,由于kafka一部分依赖于zookeeper,所以在安装kafka之前需要先安装zookeeper。
一、安装zookeeper
在master机器进行以下操作。
http://bigdatastudy.net/show.aspx?id=39&cid=9日期:2017-9-4 19:06:10
问题导读:
1. 不同工具版本选择时只要考虑什么因素?
2. 有没有可推荐的版本组合?
由于整个项目需要使用到hadoop、spark、kafka、flume、hive,scala,所以对于不同软件之间的兼容性还是需要考虑的。主要考虑以下几点:
1. spark最新的稳定版是2.0.2,最高支持hadoop 2.7.x,并且在spark 2.0版本开始,使用的scala版本默认是2.11。这两点可以从spark官...
http://bigdatastudy.net/show.aspx?id=28&cid=8日期:2017-9-4 15:52:11
1. 什么是流处理
一种被设计来处理无穷数据集的数据处理系统引擎 2. 流处理的几个概念
1.   无穷数据(Unbounded data):一种持续生成,本质上是无穷尽的数据集。它经常会被 称为“流数据”。然而,用流和批次来定义数据集的时候就有问题了,因为如前所述,这就意味着用处理数据的引擎的类型来定义数据的类型。现实中,这两类数据 的本质区别在于...
http://bigdatastudy.net/show.aspx?id=9&cid=7日期:2017-9-3 11:42:19
  • 1/1
  • 1