你好,游客 登录
rss订阅 手机访问 
Spark
想研读下spark的源码,怎么搭阅读和调试的环境呢?
问题导读:
1. 如何选择ide?
2. 如何Build Spark?
3. 如何工程导入?
4. SBT 如何配置?
5. 如何调试?
解决方案:
这个问题被很多人问过,很早就想写一下。尤其是如何在 IntelliJ IDEA 中单步调试 Spark。若无特殊说明,本篇均以撰稿时最新的 Spark 2.0 SNAPSHOT 和 IntelliJ IDEA 2016 为基础,并以 SBT 为主要 build 工具。
IDE ...
日期:09/05/2017 19:28:49 作者:连城 点击:252
云日志分析:hadoop spark编程实战入门教程11-3:ip库介绍以及使用
问题导读:
1. ip库每个字段都是什么意思?
2. 如何使用ip库?
解决方案:
1. 字段介绍以及讲解
所谓IP地址就是给每个连接在互联网上的主机分配的一个32位地址,IP地址用二进制来表示,每个IP地址长32bit,比特换算成字节,就是4个字节,IP地址经常被写成十进制的形式,中间使用符号“.”分开不同的字节。但是事实上,ip就是一个32位的2进制数.
日期:09/05/2017 12:56:50 作者:pig2 点击:254
云日志分析:hadoop spark编程实战入门教程11-2:spark 实现业务
问题导读:
1. 如何启动集群?
2. 工程结构是什么样?
3. 处理结果如何储存?
解决方案:
1. 集群启动
1.1 spark
1.2 zookeeper
1.3 kafka
1.4 flume
flume-ng agent --conf-file ~/opt/flume/conf/single_agent.conf --name a1 -Dflume.root.logger=INFO,console
2. 工程结构
2.1 delivery
传入一个StreamingCont...
日期:09/05/2017 12:53:23 作者:pig2 点击:417
云日志分析:hadoop spark编程实战入门教程11-1:spark streaming+spark sql 实现业务
接上篇:about云日志分析项目准备11:spark streaming 接收 flume 监控目录的日志文件
日期:09/05/2017 12:52:28 作者:pig2 点击:337
云日志分析:hadoop spark编程实战入门教程11:spark streaming 接收 flume 监控目录的日志文件
接上篇:
这一篇主要讲解从日志文件的流向,即从flume-->kafka-->spark streaming。
启动相关进程
首先,我们需要确保启动相应的进程。如果启动了可以忽略。
启动hdfs
登录master机器
start-dfs.sh 复制代码
在master机器上使用 jps 命令查看相关进程
master机器上出现NameNode和 SecondaryNameNode说明master节点启动正常。...
日期:09/05/2017 12:49:07 作者:pig2 点击:330
云日志分析:hadoop spark编程实战入门教程10-5:本地模式之根据ip计算地区访问论坛的比率
问题导读:
1. Spark 都有哪些常用的Rdd API?
2. 如何实现“地区论坛访问比率计算”Demo?
解决方案:
Spark RDD 常用API解析
map
  val rdd = sc.parallelize(1 to 10) /* map: 1. 使用函数f 处理rdd 中的所有元素,产生一个新的mapRdd 2. 不会改变partition 数量 */ val mapRdd = rdd.map(_*2) print (mapRdd.collect().toBu...
日期:09/05/2017 12:44:14 作者:pig2 点击:395
云日志分析:hadoop spark编程实战入门教程10-4-1:spark streaming总结
问题导读
1.DStreams的含义是什么?
2.DStreams提供哪两种类型的操作?
3.Transformations操作分为哪两种类型?
4.本文说了哪些输入源?
5.什么是batch?
RDD与job之间的关系
Spark Streaming是构建在Spark上的实时流计算框架,扩展了Spark流式大数据处理能
力。Spark Streaming将数据流以时间片为单位分割形成RDD,使用RDD操作处理...
日期:09/05/2017 12:42:31 作者:pig2 点击:272
云日志分析:hadoop spark编程实战入门教程10-4:将Spark Streaming程序运行在Spark集群上
接上篇 about云日志分析项目准备10-2:Windows Intellij idea配置scala开发环境
日期:09/05/2017 12:35:17 作者:pig2 点击:303
云日志分析:hadoop spark编程实战入门教程10-3:Spark Local模式之Log文本清洗
问题导读:
1. Spark 有哪几种运行方式?
2. 如何初始化StreamingContext?
3. 如何用scala 写正则表达式进行文本清洗?
4. 待解决的问题有哪些?
解决方案:
Spark运行模式
Spark的运行模式多种多样,在单机上可以以Local和伪分布式模式运行;部署在集群上时有Spark内建的Standalone模式及对于外部框架的支持,有Mesos模式和Spark On YARN...
日期:09/05/2017 12:32:55 作者:pig2 点击:302
云日志分析:hadoop spark编程实战入门教程10-2:Windows Intellij idea配置scala开发环境
问题导读:
1. 如何在 Windows Intellij idea上配置scala开发环境?
2. 如何在 Intellij idea 上安装配置 SBT 插件?
解决方案:
Intellij idea配置scala开发环境
1. 已安装Intellij idea,scala,jdk
2. 安装Scala 插件
2.1 报错以及解决方案
解决方案:
去官网https://plugins.jetbrains.com/ 下载对应版本,手动安装
版本
日期:09/05/2017 12:22:52 作者:pig2 点击:352
云日志分析:hadoop spark编程实战入门教程10-1:Intellij Idea 手动添加本地依赖
问题导读:
1. 如何创建Scala项目?
2. 如何添加本地依赖?
3. 如何设置源目录?
接上篇:about云日志分析项目准备10:使用Intellij Idea搭建Spark Streaming开发环境(SBT版本)
上一篇,我们讲解了如何使用Intellij Idea来构建基于SBT的Spark Streaming项目,使用SBT可以很好地解决一些依赖问题,但是有一个不好的地方是因为国内的环境原因,如果不...
日期:09/05/2017 12:19:37 作者:pig2 点击:248
云日志分析:hadoop spark编程实战入门教程10:使用Intellij Idea搭建Spark Streaming开发环境(SBT版本)
问题导读:
1. 如何创建SBT项目?
2. 如何添加SBT依赖?
3. 如何测试Spark Streaming程序可以正常运行?
接上篇:about云日志分析项目准备9:Flume安装和使用
到目前为止,我们已经搭建好了整个项目所需要的环境,现在来讲解开发环境的搭建。我们采用 Intellij Idea 作为开发工具。 Intellij Idea 下载地址:https://www.jetbrains.com/idea/#ch...
日期:09/05/2017 12:16:58 作者:pig2 点击:354
云日志分析:hadoop spark编程实战入门教程9:Flume安装和使用
问题导读:
1. 如何安装flume?
2. 如何使用flume将本地文件发送到kafka?
接上篇:about云日志分析项目准备8:Kafka集群安装
这篇主要讲解Flume集群的安装和配置
一、Flume安装
1. 压缩安装包 tar -zxvf ~/jar/apache-flume-1.6.0-bin.tar.gz -C /data mv /data/apache-flume-1.6.0-bin/ /data/flume-1.6.0 # 重命名 复制代码
2. 配置...
日期:09/05/2017 12:14:48 作者:pig2 点击:387
云日志分析:hadoop spark编程实战入门教程8-1: zookeeper 进程启动正常,状态显示报错问题
问题导读:
1. 安装zookeeper时候,可以查看进程启动,但是状态显示报错:Error contacting service. It is probably not running 如何解决?
解决方案:
错误形式
JMX enabled by default
Using config: /hadoop/zookeeper/bin/../conf/zoo.cfg
Error contacting service. It is probably not running.
解决方法1
创建数据目录,也就是...
日期:09/04/2017 19:10:03 作者:pig2 点击:239
云日志分析:hadoop spark编程实战入门教程8:Kafka集群安装
问题导读:
1. 如何搭建一个zookeeper集群?
2. 安装zookeeper集群中myid文件的作用是什么?
3. 如何搭建一个kafka集群?
接上篇:about云日志分析项目准备7:Hive安装和配置
这篇主要讲解kafka集群的安装,由于kafka一部分依赖于zookeeper,所以在安装kafka之前需要先安装zookeeper。
一、安装zookeeper
在master机器进行以下操作。
日期:09/04/2017 19:06:10 作者:pig2 点击:337