你好,游客 登录
spark sql 的搜索结果
做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助。 spark 内存泄露 1.高并发情况下的内存泄露的具体表现
http://bigdatastudy.net/show.aspx?id=600&cid=9日期:2018-9-30 20:00:45
SparkSql
SparkSql是架构在spark计算框架之上的分布式Sql引擎,使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理,提供的DSL可以直接使用scala语言完成sql查询,同时也使用thrift server提供服务化的Sql查询功能。SparkSql提供了Data Source API,用户通过这套API可以自己开发一套Connector,直接查询各类数据源,包括NoSql、RDBMS、搜索引擎以...
http://bigdatastudy.net/show.aspx?id=466&cid=9日期:2018-1-6 19:38:55
写在前面
本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了。若想深入了解,最好阅读参考文章和官方文档。
其次,本...
http://bigdatastudy.net/show.aspx?id=443&cid=9日期:2017-12-1 11:23:23
问题导读
1.spark有哪两个分支?
2.spark运行架构是什么?
3.spark包含哪四个模块?
此文是对Spark Sql系统入门1:什么是spark sql及包含哪些组件的精简总结
SparkSQL有两个分支,sqlContext和hiveContext,sqlContext现在只支持SQL 语法解析器(SQL-92语法);hiveContext现在支持SQL语法解析器和hivesql语法解析器,默认为hiveSQL语法解析器,用户...
http://bigdatastudy.net/show.aspx?id=403&cid=9日期:2017-11-2 21:34:03
问题导读
1.hive/console的作用是什么?
2.hive/console如何安装?
3.hive/console的原理是什么?
4.通过什么命令可以查看执行计划?
5.如何查看RDD的转换过程?
hive/console官网没有提供,需要下载spark源码,hive源码及配置环境变量编译。然后运行hive/console.这个作用,可以查看sql的运行计划,schema,转换rdd等。
hive/console安装<...
http://bigdatastudy.net/show.aspx?id=401&cid=9日期:2017-10-31 20:47:07
1.为什么会产生spark sql
2.sparkSQL包含哪些内容?
3.spark运行框架是什么?
4.spark sql包含哪些组件?
5.sparkSQL有哪两个分支?
1.为什么会产生spark sql
随着Spark的发展,其中sparkSQL作为Spark生态的一员继续发展,而不再受限于hive,只是兼容hive;而hive on spark是一个hive的发展计划,该计划将spark作为hive的底层引擎之一,也就是...
http://bigdatastudy.net/show.aspx?id=400&cid=9日期:2017-10-31 20:43:01
最令开发者们高兴的事莫过于有一组 API,可以大大提高开发者们的工作效率,容易使用、非常直观并且富有表现力。Apache Spark 广受开发者们欢迎的一个重要原因也在于它那些非常容易使用的 API,可以方便地通过多种语言,如 Scala、Java、Python 和 R 等来操作大数据集。
http://bigdatastudy.net/show.aspx?id=284&cid=9日期:2017-9-23 13:11:20
一、前置知识详解
Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作,
Load:可以创建DataFrame,
Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。
二、Spark SQL读写数据代码实战 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18...
http://bigdatastudy.net/show.aspx?id=276&cid=9日期:2017-9-23 12:56:23
本文讲解Spark的结构化数据处理,主要包括:Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容。本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际,并且Spark 2.0的预览版本也已发布许久),因此请随时关注Spark SQL官方文档以了解最新信息。
http://bigdatastudy.net/show.aspx?id=275&cid=9日期:2017-9-23 12:52:53
Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。
http://bigdatastudy.net/show.aspx?id=272&cid=9日期:2017-9-23 12:42:03
一、从csv文件创建DataFrame
  本文将介绍如何从csv文件创建DataFrame。
如何做?
  从csv文件创建DataFrame主要包括以下几步骤:
  1、在build.sbt文件里面添加spark-csv支持库;
  2、创建SparkConf对象,其中包括Spark运行所有的环境信息;
  3、创建SparkContext对象,它是进入Spark的核心切入点,然后我们可以通过它创建SQLCon...
http://bigdatastudy.net/show.aspx?id=269&cid=9日期:2017-9-23 12:36:45
摘要
    如果要想真正的掌握sparkSQL编程,首先要对 sparkSQL的整体框架以及sparkSQL到底能帮助我们解决什么问题有一个整体的认识,然后就是对各个层级关系有一个清晰的认识后,才能真正的掌 握它,对于sparkSQL整体框架这一块,在前一个博客已经进行过了一些介绍,如果对这块还有疑问可以看我前一个博客:http://9269309.blog.51cto.com/9259309/1845525。本篇...
http://bigdatastudy.net/show.aspx?id=268&cid=9日期:2017-9-23 12:34:30
1 使用Hive-Console 了解运行计划
前面介绍了SparkSQL的运行过程,罗列了很多概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan,下面介绍一个工具hive/console,来加深对SparkSQL的运行计划的理解。
【注】以下实验环境为第二课《Spark编译与部署》搭建hadoop1一台机器
1.1 运行环境说明
1.1.1 硬软件环境 主机操作系统:Windows 64...
http://bigdatastudy.net/show.aspx?id=248&cid=9日期:2017-9-22 19:21:54
1 SparkSQL的发展历程
1.1 Hive and Shark
SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯 一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效 率,为了提高SQL-on-Hadoop的效率,大量的SQL-on-Hadoop工具开始产生,其中表现较...
http://bigdatastudy.net/show.aspx?id=247&cid=9日期:2017-9-22 19:16:38
  说在前面的话:
  几年前我做过银行项目,那会使用IBM的datastage这个产品,只要拖拖拽拽就可以实现多数据源的表关联取数然后落地到另一张表里现在回想起来那个 产品的设计思路真是高大上,之前的看法是这玩意就是封装了类似存储过程的东西,底层还是sql语句,现在看来那会太天真了,这么多年过去了现在已经是大数据的天下,技术保守的银行都已经过陆陆续续上了...
http://bigdatastudy.net/show.aspx?id=68&cid=9日期:2017-9-6 20:51:24
  • 1/2
  • 1
  • 2
  • »