你好,游客 登录
rss订阅 手机访问 
Spark
spark mllib 入门学习(三)--线性回归
问题导读:
1.什么是线性回归算法?
2.线性回归代码示例?
3.如何在本地跑spark mllib的线性回归算法?
4.线性回归结果如何评估?
上次我们分享了LDA文档主题模型算法,按照计划,本次分享回归算法中的线性回归。
算法说明
线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法,只有一个自变量...
日期:09/06/2017 20:48:29 作者:hero1122 点击:1002
spark mllib 入门学习(二)--LDA文档主题模型
问题导读:
1.什么是LDA文档问题模型?
2.LDA 建模算法是什么样的?
3.spark MLlib中的LDA模型如何调优?
4.运行LDA有哪些小技巧?
上次我们简单介绍了聚类算法中的KMeans算法,并且介绍了一个简单的KMeans的例子,本次按照我的计划,我想分享的是聚类算法中的LDA文档主题模型,计划从下次开始分享回归算法。
什么是LDA主题建模?
隐含狄利克雷...
日期:09/06/2017 20:38:27 作者:hero1122 点击:1103
spark mllib 入门学习(一)--聚类算法
1.概述
首先,笔者要先申明,我也 是初学机器学习领域的内容,虽然我是从事大数据平台开发的工作,但是工作中确实没有跟spark MLlib打过交道,所以文中如果有描述错误的地方,还请大家指正。机器学习对高数、python的基础都有一定的要求,但是入门我觉得最重要的是理论联 系实际,了解机器学习基本概念,然后结合spark MLlib的example代码去入手,亲自跑一个代码尝试一...
日期:09/06/2017 20:34:47 作者:hero1122 点击:599
flume搜集日志:如何解决实时不断追加的日志文件及不断增加的文件个数问题
问题导读
1.对于不断追加的文件可以使用flume哪个属性?
2.对于不断追加的文件及变化的文件个数,可是使用flume哪个属性?
3.该如何配置能够搜集网站日志的flume?
上篇文章
flume与kafka整合高可靠教程2:flume与kafka整合安装
http://www.aboutyun.com/forum.php?mod=viewthread&tid=22173
本文的背景:
在搜集日志的过程中,日...
日期:09/06/2017 20:26:24 作者:pig2 点击:1052
Spark 源码和应用开发环境的构建
问题导读:
1、如何在Eclipse下设置Spark开发调试环境?
2、如何在IntelliJ下设置Spark开发调试环境?
调试与阅读 Spark 源代码无疑是深入学习 Spark 内部原理的有效途径,本文基于作者亲身实践,针对常用的开发工具,快速的构建 Spark 的源代码开发调试环境,从而帮助读者能够快速进入 Spark 内部的学习。
引言
Spark 现在无疑是大数据领域最热门的...
日期:09/05/2017 19:50:07 作者: 点击:476
想研读下spark的源码,怎么搭阅读和调试的环境呢?
问题导读:
1. 如何选择ide?
2. 如何Build Spark?
3. 如何工程导入?
4. SBT 如何配置?
5. 如何调试?
解决方案:
这个问题被很多人问过,很早就想写一下。尤其是如何在 IntelliJ IDEA 中单步调试 Spark。若无特殊说明,本篇均以撰稿时最新的 Spark 2.0 SNAPSHOT 和 IntelliJ IDEA 2016 为基础,并以 SBT 为主要 build 工具。
IDE ...
日期:09/05/2017 19:28:49 作者:连城 点击:434
云日志分析:hadoop spark编程实战入门教程11-3:ip库介绍以及使用
问题导读:
1. ip库每个字段都是什么意思?
2. 如何使用ip库?
解决方案:
1. 字段介绍以及讲解
所谓IP地址就是给每个连接在互联网上的主机分配的一个32位地址,IP地址用二进制来表示,每个IP地址长32bit,比特换算成字节,就是4个字节,IP地址经常被写成十进制的形式,中间使用符号“.”分开不同的字节。但是事实上,ip就是一个32位的2进制数.
日期:09/05/2017 12:56:50 作者:pig2 点击:458
云日志分析:hadoop spark编程实战入门教程11-2:spark 实现业务
问题导读:
1. 如何启动集群?
2. 工程结构是什么样?
3. 处理结果如何储存?
解决方案:
1. 集群启动
1.1 spark
1.2 zookeeper
1.3 kafka
1.4 flume
flume-ng agent --conf-file ~/opt/flume/conf/single_agent.conf --name a1 -Dflume.root.logger=INFO,console
2. 工程结构
2.1 delivery
传入一个StreamingCont...
日期:09/05/2017 12:53:23 作者:pig2 点击:772
云日志分析:hadoop spark编程实战入门教程11-1:spark streaming+spark sql 实现业务
接上篇:about云日志分析项目准备11:spark streaming 接收 flume 监控目录的日志文件
日期:09/05/2017 12:52:28 作者:pig2 点击:666
云日志分析:hadoop spark编程实战入门教程11:spark streaming 接收 flume 监控目录的日志文件
接上篇:
这一篇主要讲解从日志文件的流向,即从flume-->kafka-->spark streaming。
启动相关进程
首先,我们需要确保启动相应的进程。如果启动了可以忽略。
启动hdfs
登录master机器
start-dfs.sh 复制代码
在master机器上使用 jps 命令查看相关进程
master机器上出现NameNode和 SecondaryNameNode说明master节点启动正常。...
日期:09/05/2017 12:49:07 作者:pig2 点击:612
云日志分析:hadoop spark编程实战入门教程10-5:本地模式之根据ip计算地区访问论坛的比率
问题导读:
1. Spark 都有哪些常用的Rdd API?
2. 如何实现“地区论坛访问比率计算”Demo?
解决方案:
Spark RDD 常用API解析
map
  val rdd = sc.parallelize(1 to 10) /* map: 1. 使用函数f 处理rdd 中的所有元素,产生一个新的mapRdd 2. 不会改变partition 数量 */ val mapRdd = rdd.map(_*2) print (mapRdd.collect().toBu...
日期:09/05/2017 12:44:14 作者:pig2 点击:719
云日志分析:hadoop spark编程实战入门教程10-4-1:spark streaming总结
问题导读
1.DStreams的含义是什么?
2.DStreams提供哪两种类型的操作?
3.Transformations操作分为哪两种类型?
4.本文说了哪些输入源?
5.什么是batch?
RDD与job之间的关系
Spark Streaming是构建在Spark上的实时流计算框架,扩展了Spark流式大数据处理能
力。Spark Streaming将数据流以时间片为单位分割形成RDD,使用RDD操作处理...
日期:09/05/2017 12:42:31 作者:pig2 点击:461
云日志分析:hadoop spark编程实战入门教程10-4:将Spark Streaming程序运行在Spark集群上
接上篇 about云日志分析项目准备10-2:Windows Intellij idea配置scala开发环境
日期:09/05/2017 12:35:17 作者:pig2 点击:533
云日志分析:hadoop spark编程实战入门教程10-3:Spark Local模式之Log文本清洗
问题导读:
1. Spark 有哪几种运行方式?
2. 如何初始化StreamingContext?
3. 如何用scala 写正则表达式进行文本清洗?
4. 待解决的问题有哪些?
解决方案:
Spark运行模式
Spark的运行模式多种多样,在单机上可以以Local和伪分布式模式运行;部署在集群上时有Spark内建的Standalone模式及对于外部框架的支持,有Mesos模式和Spark On YARN...
日期:09/05/2017 12:32:55 作者:pig2 点击:532
云日志分析:hadoop spark编程实战入门教程10-2:Windows Intellij idea配置scala开发环境
问题导读:
1. 如何在 Windows Intellij idea上配置scala开发环境?
2. 如何在 Intellij idea 上安装配置 SBT 插件?
解决方案:
Intellij idea配置scala开发环境
1. 已安装Intellij idea,scala,jdk
2. 安装Scala 插件
2.1 报错以及解决方案
解决方案:
去官网https://plugins.jetbrains.com/ 下载对应版本,手动安装
版本
日期:09/05/2017 12:22:52 作者:pig2 点击:548