你好,游客 登录
rss订阅 手机访问 
Spark
基于spark的DataFrame实战
Spark 中的另一核心功能是DataFrame,方便处理结构化数据。实例中还是以上一篇博客中的数据为基础。
日期:04月26日 作者:bo_hai 点击:187
spark dataframe和dataSet用电影点评数据实战
RDD
优点: 编译时类型安全
编译时就能检查出类型错误 面向对象的编程风格
直接通过类名点的方式来操作数据
缺点: 序列化和反序列化的性能开销
无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销
频繁的创建和销毁对象, 势必会增加GC DataFrame
DataFrame引入了schema和off-heap ...
日期:04月26日 作者: a11a22334455 点击:284
如何理解spark中RDD和DataFrame的结构?
Spark RDD是分布式弹性数据集,一个比较核心的是粗粒度的分布式计算,粗粒度是指用户不用关心太多的分布式细节,用声明式的API就能完成分布式计算,比如Word Count用一行就能写完。RDD易用性很好,那Spark为啥还要有Dataframe呢?
日期:04月26日 作者: 点击:94
Spark SQL 中 dataFrame 学习总结
dataFrame多了数据的结构信息。就是schema。
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。
DataFrame 提供了详细的结构信息,可以让sparkSQL清楚的知道数据集中包含哪些列,列的名称和类型各是什么?
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了
比RDD更丰富的算子以外,更重要的特点...
日期:04月26日 作者: 点击:114
大数据实战:spark DataFrame的union函数使用时的坑
spark
Spark DataFrame提供了union函数用于将两个DataFrame合并。虽然经常使用,但是没有仔细读过官方文档,今天合并DataFrame时出了点错误,仔细看了API文档之后,发现使用时有一些坑需要注意。
def union(other: Dataset[T]): Dataset[T]
Returns a new Dataset containing union of rows in this Dataset and another Dataset.
This is equivalent t...
日期:04月26日 作者: 点击:375
spark DataFrame 常见操作
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中。 不得不赞叹dataframe的强大。 ...
日期:04月26日 作者: 点击:225
[Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量
比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点的做法就是:能定义在计算函数内的方法就定义在里面。
日期:03月29日 作者:代立冬 点击:158
Spark实战
1.Spark简介
什么是Spark?
 Spark是UC BerkeleyAmp实验室开源的类Hadoop MapReduce的通用并行计算框架
                             Spark  VS  MapReduce
MapReduce      
                 ①.缺少对迭代计算以及DAG运算的支持
                 ②.Shuffle...
日期:03月29日 作者:代立冬 点击:306
Kafka史上最详细原理总结
Kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apa...
日期:01月15日 作者: 点击:1543
Kafka的Log存储解析
引言
Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。
partition是以文件的形式存储在文件系统中,比如,创建了一个名为page_visits的topic,其...
日期:01月15日 作者: 点击:299
Spark之中map与flatMap的区别
map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。
日期:01月10日 作者:u013063153 点击:207
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
map(function)
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。
举例:
val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值 a.collect //结果Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9) b.colle...
日期:01月10日 作者:guotong1988 点击:174
Spark RDD API详解(一) Map和Reduce
RDD是什么?
RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第...
日期:01月10日 作者: 点击:251
Apache Spark 2.2.0新特性详细介绍
Apache Spark2.2.0 经过了大半年的紧张开发,从RC1到RC6终于在今天正式发布了。由于时间的缘故,我并没有在《文章中过多地介绍 Apache Spark2.2.0 的新特性,本文作为补充将详细介绍Apache Spark 2.2.0 的新特性。
日期:01月07日 作者: 点击:302
Spark 2.2.0 高可用搭建
一、概述
1.实验环境基于以前搭建的Haoop HA;
2.spark HA所需要的Zookeeper环境前文已经配置过,此处不再重复。
3.所需软件包为:scala-2.12.3.tgz、spark-2.2.0-bin-Hadoop2.7.tar
4.主机规划
bd1
bd2
bd3
Worker
bd4
bd5
Master、Worker
二、配置Scala
1.解压并拷贝 [root@bd1 ~]#...
日期:01月07日 作者:lullaby 点击:280
  • 1/10
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 10
  • »