你好,游客 登录
rss订阅 手机访问 
Spark
Kafka史上最详细原理总结
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apa...
日期:01月15日 作者: 点击:180
Kafka的Log存储解析
引言
Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。
partition是以文件的形式存储在文件系统中,比如,创建了一个名为page_visits的topic,其...
日期:01月15日 作者: 点击:56
Spark之中map与flatMap的区别
map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。
日期:01月10日 作者:u013063153 点击:57
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
map(function)
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。
举例:
val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值 a.collect //结果Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) b.colle...
日期:01月10日 作者:guotong1988 点击:33
Spark RDD API详解(一) Map和Reduce
RDD是什么?
RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第...
日期:01月10日 作者: 点击:51
Apache Spark 2.2.0新特性详细介绍
Apache Spark2.2.0 经过了大半年的紧张开发,从RC1到RC6终于在今天正式发布了。由于时间的缘故,我并没有在《文章中过多地介绍 Apache Spark2.2.0 的新特性,本文作为补充将详细介绍Apache Spark 2.2.0 的新特性。
日期:01月07日 作者: 点击:87
Spark 2.2.0 高可用搭建
一、概述
1.实验环境基于以前搭建的Haoop HA;
2.spark HA所需要的Zookeeper环境前文已经配置过,此处不再重复。
3.所需软件包为:scala-2.12.3.tgz、spark-2.2.0-bin-Hadoop2.7.tar
4.主机规划
bd1
bd2
bd3
Worker
bd4
bd5
Master、Worker
二、配置Scala
1.解压并拷贝 [root@bd1 ~]#...
日期:01月07日 作者:lullaby 点击:67
spark-2.2.0安装和部署——Spark集群学习日记
前言
在安装后hadoop之后,接下来需要安装的就是Spark。 scala-2.11.7下载与安装
具体步骤参见上一篇博文 Spark下载
为了方便,我直接是进入到了/usr/local文件夹下面进行下载spark-2.2.0
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz 1 Spark安装之前的准备
文件的解压与改名
tar -zxvf spark-2.2.0-bi...
日期:01月07日 作者:kwongtailau 点击:79
SparkSql的Catalyst之图解简易版
日期:01月06日 作者:浪尖 点击:63
SparkSql的优化器-Catalyst
日期:01月06日 作者:浪尖 点击:92
SparkSql 中外连接查询中的谓词下推规则
SparkSql
SparkSql是架构在spark计算框架之上的分布式Sql引擎,使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理,提供的DSL可以直接使用scala语言完成sql查询,同时也使用thrift server提供服务化的Sql查询功能。SparkSql提供了Data Source API,用户通过这套API可以自己开发一套Connector,直接查询各类数据源,包括NoSql、RDBMS、搜索引擎以...
日期:01月06日 作者:Spark高级玩法 点击:73
干货 | 如何成为大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸...
日期:01月06日 作者:Spark高级玩法 点击:70
使用Flume+Kafka+SparkStreaming进行实时日志分析
每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码 1. 整体架构
日期:01月02日 作者:Trigl的博客 点击:107
Spark:Yarn-cluster和Yarn-client区别与联系
我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系?阅读完本文,你将了解。
日期:01月02日 作者:过往记忆 点击:33
  • 1/10
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 10
  • »