你好,游客 登录
spark 的搜索结果
摘要: 使用Spark+CarbonData替换Impala案例
背景介绍
国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题:
1、详单采用Parquet格式存储,数据表使用时间+MSISDN号码做分区,使用Impala查询,利用不上分区的查询场景,则查询性能比较差。
2、在使用Impala过程中,遇...
http://bigdatastudy.net/show.aspx?id=634&cid=9日期:2019-1-13 14:09:47
afka在0.8和0.10版本引入了新的消费者API,所以sparkStreaming与kafka的整合提供了两个包。 请根据你的集群选用正确的包。注意, 0.8和后期的版本0.9及0.10是兼容的,但是0.10整合是不兼容之前的版本的。
http://bigdatastudy.net/show.aspx?id=612&cid=9日期:2018-10-19 16:37:17
Structured Streaming提供一些API来管理Streaming对象。用户可以通过这些API来手动管理已经启动的Streaming,保证在系统中的Streaming有序执行。 1. StreamingQuery
http://bigdatastudy.net/show.aspx?id=526&cid=9日期:2018-9-1 21:16:47
Spark Structured Streaming目前的2.1.0版本只支持输入源:File、kafka和socket。 1. Socket
http://bigdatastudy.net/show.aspx?id=523&cid=9日期:2018-9-1 21:14:30
一 概述
spark是近实时的流处理框架,支持的数据源有kafka、flume、kinesis、tcp sockets、文件系统等。流式读取数据后,可以用类似map、reduce、join和window等高层函数进行处理。最终,处理后的数据可以写入文件系统、数据库、实时仪表盘等。这里其实已经把流式数据抽象成了一个个小批次的分布式数据集,因此,你也可以在这些数据之上进行机器学习以及图计算。
...
http://bigdatastudy.net/show.aspx?id=518&cid=9日期:2018-9-1 21:02:07
Spark 中的另一核心功能是DataFrame,方便处理结构化数据。实例中还是以上一篇博客中的数据为基础。
http://bigdatastudy.net/show.aspx?id=509&cid=9日期:2018-4-26 20:57:57
RDD
优点: 编译时类型安全
编译时就能检查出类型错误 面向对象的编程风格
直接通过类名点的方式来操作数据
缺点: 序列化和反序列化的性能开销
无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销
频繁的创建和销毁对象, 势必会增加GC DataFrame
DataFrame引入了schema和off-heap ...
http://bigdatastudy.net/show.aspx?id=508&cid=9日期:2018-4-26 20:56:12
Spark RDD是分布式弹性数据集,一个比较核心的是粗粒度的分布式计算,粗粒度是指用户不用关心太多的分布式细节,用声明式的API就能完成分布式计算,比如Word Count用一行就能写完。RDD易用性很好,那Spark为啥还要有Dataframe呢?
http://bigdatastudy.net/show.aspx?id=507&cid=9日期:2018-4-26 20:51:34
dataFrame多了数据的结构信息。就是schema。
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。
DataFrame 提供了详细的结构信息,可以让sparkSQL清楚的知道数据集中包含哪些列,列的名称和类型各是什么?
RDD是分布式的 Java对象的集合。DataFrame是分布式的Row对象的集合。DataFrame除了提供了
比RDD更丰富的算子以外,更重要的特点...
http://bigdatastudy.net/show.aspx?id=506&cid=9日期:2018-4-26 20:50:45
spark
Spark DataFrame提供了union函数用于将两个DataFrame合并。虽然经常使用,但是没有仔细读过官方文档,今天合并DataFrame时出了点错误,仔细看了API文档之后,发现使用时有一些坑需要注意。
def union(other: Dataset[T]): Dataset[T]
Returns a new Dataset containing union of rows in this Dataset and another Dataset.
This is equivalent t...
http://bigdatastudy.net/show.aspx?id=505&cid=9日期:2018-4-26 20:49:19
spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行写入到HIVE中。 不得不赞叹dataframe的强大。 ...
http://bigdatastudy.net/show.aspx?id=504&cid=9日期:2018-4-26 20:44:45
http://bigdatastudy.net/show.aspx?id=470&cid=9日期:2018-1-6 19:44:00
Spark的Dataset操作(四)-其他单表操作
还有些杂七杂八的小用法没有提到,比如添加列,删除列,NA值处理之类的,就在这里大概列一下吧。
数据集还是之前的那个吧:
scala> val df = spark.createDataset(Seq( ("aaa",1,2),("bbb",3,4),("ccc",3,5),("bbb",4, 6)) ).toDF("key1","key2","key3") df: org.apache.spark.sql.DataFrame = [key1: string,...
http://bigdatastudy.net/show.aspx?id=354&cid=9日期:2017-9-29 21:39:11
Spark的Dataset操作(三)-分组,聚合,排序
上一篇就说了下次主题是分组聚合。内容还挺多的,时间紧,任务重,就不瞎BB了。
数据还是用上一篇里造的那个dataset:
scala> val df = spark.createDataset(Seq( ("aaa",1,2),("bbb",3,4),("ccc",3,5),("bbb",4, 6)) ).toDF("key1","key2","key3") df: org.apache.spark.sql.DataFrame = [key1: string, ke...
http://bigdatastudy.net/show.aspx?id=353&cid=9日期:2017-9-29 21:37:37
Spark的Dataset操作(二)-过滤的filter和where
话说第一集发完也没看,格式乱成那样子,太可怕了。要不是有好心人评论了下,我还不知道,囧。这次换个Markdown编辑器接着来吧。
上一篇说的是Select的用法,这次说说Where部分。Where部分可以用filter函数和where函数。这俩函数的用法是一样的,官网文档里都说where是filter的别名。
数据还是用上一篇里造的那...
http://bigdatastudy.net/show.aspx?id=352&cid=9日期:2017-9-29 21:36:27
  • 1/5
  • 1
  • 2
  • 3
  • 4
  • 5
  • »