你好,游客 登录
rss订阅 手机访问 
Spark
spark dataframe和dataSet用电影点评数据实战
RDD
优点: 编译时类型安全
编译时就能检查出类型错误 面向对象的编程风格
直接通过类名点的方式来操作数据
缺点: 序列化和反序列化的性能开销
无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销
频繁的创建和销毁对象, 势必会增加GC DataFrame
DataFrame引入了schema和off-heap ...
日期:04/26/2018 20:56:12 作者: a11a22334455 点击:1076
如何理解spark中RDD和DataFrame的结构?
Spark RDD是分布式弹性数据集,一个比较核心的是粗粒度的分布式计算,粗粒度是指用户不用关心太多的分布式细节,用声明式的API就能完成分布式计算,比如Word Count用一行就能写完。RDD易用性很好,那Spark为啥还要有Dataframe呢?
日期:04/26/2018 20:51:34 作者: 点击:547
Spark SQL 中 dataFrame 学习总结
dataFrame多了数据的结构信息。就是schema。
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。
DataFrame 提供了详细的结构信息,可以让sparkSQL清楚的知道数据集中包含哪些列,列的名称和类型各是什么?
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了
比RDD更丰富的算子以外,更重要的特点...
日期:04/26/2018 20:50:45 作者: 点击:325
大数据实战:spark DataFrame的union函数使用时的坑
spark
Spark DataFrame提供了union函数用于将两个DataFrame合并。虽然经常使用,但是没有仔细读过官方文档,今天合并DataFrame时出了点错误,仔细看了API文档之后,发现使用时有一些坑需要注意。
def union(other: Dataset[T]): Dataset[T]
Returns a new Dataset containing union of rows in this Dataset and another Dataset.
This is equivalent t...
日期:04/26/2018 20:49:19 作者: 点击:4398
spark DataFrame 常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中。 不得不赞叹dataframe的强大。 ...
日期:04/26/2018 20:44:45 作者: 点击:766
[Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量
比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点的做法就是:能定义在计算函数内的方法就定义在里面。
日期:03/29/2018 21:12:54 作者:代立冬 点击:402
Spark实战
1.Spark简介
什么是Spark?
 Spark是UC BerkeleyAmp实验室开源的类Hadoop MapReduce的通用并行计算框架
                             Spark  VS  MapReduce
MapReduce      
                 ①.缺少对迭代计算以及DAG运算的支持
                 ②.Shuffle...
日期:03/29/2018 21:08:37 作者:代立冬 点击:911
Kafka史上最详细原理总结
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apa...
日期:01/15/2018 21:37:30 作者: 点击:3846
Kafka的Log存储解析
引言
Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。
partition是以文件的形式存储在文件系统中,比如,创建了一个名为page_visits的topic,其...
日期:01/15/2018 21:17:13 作者: 点击:734
Spark之中map与flatMap的区别
map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。
日期:01/10/2018 12:38:56 作者:u013063153 点击:465
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
map(function)
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。
举例:
val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值 a.collect //结果Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) b.colle...
日期:01/10/2018 12:37:46 作者:guotong1988 点击:340
Spark RDD API详解(一) Map和Reduce
RDD是什么?
RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第...
日期:01/10/2018 12:36:25 作者: 点击:572
Apache Spark 2.2.0新特性详细介绍
Apache Spark2.2.0 经过了大半年的紧张开发,从RC1到RC6终于在今天正式发布了。由于时间的缘故,我并没有在《文章中过多地介绍 Apache Spark2.2.0 的新特性,本文作为补充将详细介绍Apache Spark 2.2.0 的新特性。
日期:01/07/2018 21:25:47 作者: 点击:636
Spark 2.2.0 高可用搭建
一、概述
1.实验环境基于以前搭建的Haoop HA;
2.spark HA所需要的Zookeeper环境前文已经配置过,此处不再重复。
3.所需软件包为:scala-2.12.3.tgz、spark-2.2.0-bin-Hadoop2.7.tar
4.主机规划
bd1
bd2
bd3
Worker
bd4
bd5
Master、Worker
二、配置Scala
1.解压并拷贝 [root@bd1 ~]#...
日期:01/07/2018 21:22:11 作者:lullaby 点击:672
spark-2.2.0安装和部署——Spark集群学习日记
前言
在安装后hadoop之后,接下来需要安装的就是Spark。 scala-2.11.7下载与安装
具体步骤参见上一篇博文 Spark下载
为了方便,我直接是进入到了/usr/local文件夹下面进行下载spark-2.2.0
wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz 1 Spark安装之前的准备
文件的解压与改名
tar -zxvf spark-2.2.0-bi...
日期:01/07/2018 21:19:50 作者:kwongtailau 点击:758
  • 5/14
  • «
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14
  • »