你好,游客 登录
rss订阅 手机访问 
Spark
[Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量
比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点的做法就是:能定义在计算函数内的方法就定义在里面。
日期:03月29日 作者:代立冬 点击:49
Spark实战
1.Spark简介
什么是Spark?
 Spark是UC BerkeleyAmp实验室开源的类Hadoop MapReduce的通用并行计算框架
                             Spark  VS  MapReduce
MapReduce      
                 ①.缺少对迭代计算以及DAG运算的支持
                 ②.Shuffle...
日期:03月29日 作者:代立冬 点击:84
Kafka史上最详细原理总结
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apa...
日期:01月15日 作者: 点击:754
Kafka的Log存储解析
引言
Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。
partition是以文件的形式存储在文件系统中,比如,创建了一个名为page_visits的topic,其...
日期:01月15日 作者: 点击:150
Spark之中map与flatMap的区别
map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。
日期:01月10日 作者:u013063153 点击:128
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
map(function)
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。
举例:
val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值 a.collect //结果Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) b.colle...
日期:01月10日 作者:guotong1988 点击:92
Spark RDD API详解(一) Map和Reduce
RDD是什么?
RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第...
日期:01月10日 作者: 点击:129
Apache Spark 2.2.0新特性详细介绍
Apache Spark2.2.0 经过了大半年的紧张开发,从RC1到RC6终于在今天正式发布了。由于时间的缘故,我并没有在《文章中过多地介绍 Apache Spark2.2.0 的新特性,本文作为补充将详细介绍Apache Spark 2.2.0 的新特性。
日期:01月07日 作者: 点击:175
Spark 2.2.0 高可用搭建
一、概述
1.实验环境基于以前搭建的Haoop HA;
2.spark HA所需要的Zookeeper环境前文已经配置过,此处不再重复。
3.所需软件包为:scala-2.12.3.tgz、spark-2.2.0-bin-Hadoop2.7.tar
4.主机规划
bd1
bd2
bd3
Worker
bd4
bd5
Master、Worker
二、配置Scala
1.解压并拷贝 [root@bd1 ~]#...
日期:01月07日 作者:lullaby 点击:148
spark-2.2.0安装和部署——Spark集群学习日记
前言
在安装后hadoop之后,接下来需要安装的就是Spark。 scala-2.11.7下载与安装
具体步骤参见上一篇博文 Spark下载
为了方便,我直接是进入到了/usr/local文件夹下面进行下载spark-2.2.0
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz 1 Spark安装之前的准备
文件的解压与改名
tar -zxvf spark-2.2.0-bi...
日期:01月07日 作者:kwongtailau 点击:179
SparkSql的Catalyst之图解简易版
日期:01月06日 作者:浪尖 点击:137
SparkSql的优化器-Catalyst
日期:01月06日 作者:浪尖 点击:230
SparkSql 中外连接查询中的谓词下推规则
SparkSql
SparkSql是架构在spark计算框架之上的分布式Sql引擎,使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理,提供的DSL可以直接使用scala语言完成sql查询,同时也使用thrift server提供服务化的Sql查询功能。SparkSql提供了Data Source API,用户通过这套API可以自己开发一套Connector,直接查询各类数据源,包括NoSql、RDBMS、搜索引擎以...
日期:01月06日 作者:Spark高级玩法 点击:198
干货 | 如何成为大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸...
日期:01月06日 作者:Spark高级玩法 点击:154
  • 1/10
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 10
  • »