你好,游客 登录
rss订阅 手机访问 
Spark
Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍
Apache Spark 2.4 是在11月08日正式发布的,其带来了很多新的特性具体可以参见这里,本文主要介绍这次为复杂数据类型新引入的内置函数和高阶函数。本次 Spark 发布共引入了29个新的内置函数来处理复杂类型(例如,数组类型),包括高阶函数。
日期:01月13日 作者: 点击:33
单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例
摘要: 使用Spark+CarbonData替换Impala案例
背景介绍
国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题:
1、详单采用Parquet格式存储,数据表使用时间+MSISDN号码做分区,使用Impala查询,利用不上分区的查询场景,则查询性能比较差。
2、在使用Impala过程中,遇...
日期:01月13日 作者: 点击:41
Apache Spark 2.4 内置的 Avro 数据源介绍
Apache Avro 是一种流行的数据序列化格式。它广泛用于 Apache Spark 和 Apache Hadoop 生态系统,尤其适用于基于 Kafka 的数据管道。从 Apache Spark 2.4 版本开始,Spark 为读取和写入 Avro 数据提供内置支持。新的内置 spark-avro 模块最初来自 Databricks 的开源项目Avro Data Source for Apache Spark。除此之外,它还提供以下功能: 新函数 from_avro() 和 to_avro() ...
日期:01月13日 作者: 点击:69
Apache Spark 2.4 正式发布,重要功能详细介绍
美国时间 2018年11月08日 正式发布了。一如既往,为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.4 带来了许多新功能,如下: 添加一种支持屏障模式(barrier mode)的调度器,以便与基于MPI的程序更好地集成,例如, 分布式深度学习框架; 引入了许多内置的高阶函数,以便更容易处理复杂的数据类型(比如数组和 map); 开始支持 Scala 2.12; 允许我们对 noteb...
日期:01月13日 作者: 点击:51
windows10环境下搭建spark2.4.0源码阅读环境
准备工作(默认你已经安装好jdk,scala,maven,IDEA工具)
日期:11/09/2018 14:41:03 作者:u011055139 点击:128
windows Spark 2.4 通过mvn源码编译
日期:11/09/2018 14:39:40 作者:lzzyok 点击:116
Intellij IDE+ Spark 2.4 例子运行(源码断点跟踪)
上一篇文章写了如何通过Maven编译源码,该篇说明如何在IDE中引入项目,并运行其中一个例子。
日期:11/09/2018 14:39:04 作者:lzzyok 点击:179
专访朱诗雄:Apache Spark中的全新流式引擎Structured Streaming
Apache Spark 在 2016 年的时候启动了 Structured Streaming 项目,一个基于 Spark SQL 的全新流计算引擎 Structured Streaming,让用户像编写批处理程序一样简单地编写高性能的流处理程序。经过一年多的改进和完善,目前 Structured Streaming 已经在 Databricks 内部和客户广泛使用,InfoQ 采访了 Structured Streaming 的核心开发朱诗雄来具体了解这个项目。
日期:11/09/2018 14:34:37 作者: 点击:201
Structured streaming+kafka集成样例
关于structured streaming, spark社区已经有很多文章介绍,个人认为其中最大的特点是将流视作没有边界的大表,从而能够使用sql来操作这张表,其中包括使用sql join(截止Spark2.1.1,目前只支持streaming和静态表之间的join,还不支持多条流之间的join ‘期待社区大招 ’)。 消息队列 Kafka
日期:11/09/2018 14:32:16 作者:biggeng 点击:238
Structured Streaming 动态流 join 静态流 Example
Structured Streaming 动态流 join 静态流 Example
Spark 代码

/*
* Licensed to the Apache Software Foundation (ASF) under one or more
* contributor license agreements. See the NOTICE file distributed with
* this work for additional information regarding copyright ownership.
* The ASF licenses this file to You und...
日期:11/09/2018 14:30:38 作者: 点击:263
Apache Spark 2.4新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。
日期:11/09/2018 14:29:18 作者: 点击:95
即将发布的 Apache Spark 2.4 都有哪些新功能
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。
日期:10/25/2018 19:45:10 作者:过往记忆 点击:167
Spark踩坑记——从RDD看集群调度
前言
在Spark的使用中,性能的调优配置过程中,查阅了很多资料,本文的思路是从spark最细节的本质,即核心的数据结构RDD出发,到整个Spark集群宏观的调度过程做一个整理归纳,从微观到宏观两方面总结,方便自己在调优过程中找寻问题,理清思路,也加深自己对于分布式程序开发的理解。(有任何问题和纰漏还请各位大牛指出啦,我会第一时间改正) RDD详谈
在Spark开...
日期:10/25/2018 19:41:32 作者:xlturing 点击:338
Spark踩坑记——数据库(Hbase+Mysql)
目录 前言 Spark Streaming持久化设计模式 DStreams输出操作 使用foreachRDD的设计模式 Spark访问Hbase Hbase通用连接类 Hbase输出操作 填坑记录 Spark访问Mysql MySQL通用连接类 Mysql输出操作 部署 前言
日期:10/25/2018 19:27:51 作者:xlturing 点击:245
Spark踩坑记——共享变量
目录 前言 累加器 广播变量 更新广播变量(rebroadcast) 总结 参考文献 前言 Spark踩坑记——初试 Spark踩坑记——数据库(Hbase+Mysql) Spark踩坑记——Spark Streaming+kafka应用及调优
日期:10/25/2018 19:26:15 作者:xlturing 点击:202
  • 1/14
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • ...
  • 14
  • »