你好,游客 登录
mllib 的搜索结果
机器学习中,一般都会按照下面几个步骤:特征提取、数据预处理、特征选择、模型训练、检验优化。那么特征的选择就很关键 了,一般模型最后效果的好坏往往都是跟特征的选择有关系的,因为模型本身的参数并没有太多优化的点,反而特征这边有时候多加一个或者少加一个,最终的结果 都会差别很大。
http://bigdatastudy.net/show.aspx?id=342&cid=9日期:2017-9-29 17:11:48
1. 软件版本: IDE:Intellij IDEA 14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2.6.0-cdh5.8.0 ; Hadoop:hadoop2.6.0-cdh5.8.0;(使用的是CDH提供的虚拟机) 2. 工程下载及部署: Scala封装Spark算法工程:https://github.com/fansy1990/Spark_MLlib_Algorithm_1.6.0.git ; 调用Spark算法工程:https://github.com/fansy1990/Sp...
http://bigdatastudy.net/show.aspx?id=341&cid=9日期:2017-9-29 17:07:35
逻辑回归
import org.apache.spark.ml.classification.LogisticRegression // Load training data val training = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt") val lr = new LogisticRegression() .setMaxIter(10) .setRegParam(0.3) .setElasticNetParam(0.8) // Fit the model val lrModel = lr.fit(training) // Print the c...
http://bigdatastudy.net/show.aspx?id=339&cid=9日期:2017-9-29 17:01:07
协同过滤推荐算法,是最经典、最常用的推荐算法。通过分析用户兴趣,在用户群中找到指定用户的相似用户,综合这些相似用户对某一信息的评价,形成系统关于该指定用户对此信息的喜好程度预测。
http://bigdatastudy.net/show.aspx?id=338&cid=9日期:2017-9-29 16:59:06
简述
sell = a*x + b*y + c*z + d*zz + e
上面我们的sell是一个具体的实数值,然而很多情况下,我们需要回归产生一个类似概率值的0~1之间的数值(比如某一双鞋子今天能否卖出去?或者 某一个广告能否被用户点击? 我们希望得到这个数值来帮助决策鞋子上不上架,以及广告展不展示)。这个数值必须是0~1之间,但sell显然不满足这个区间要求。于是引入了 Logistic方程...
http://bigdatastudy.net/show.aspx?id=337&cid=9日期:2017-9-29 16:56:47
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题 进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。 1. 基本概念
http://bigdatastudy.net/show.aspx?id=336&cid=9日期:2017-9-29 16:54:53
定义
决策树(decision tree)是一个树结构,决策树由节点和有向边组成。
节点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类。
其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出。 决策树学习过程
决策树学习的本质是从训练数据集上归纳出一组分类规则,通常采用启发式的方法:...
http://bigdatastudy.net/show.aspx?id=335&cid=9日期:2017-9-29 16:52:00
介绍
k-means算法原理比较简单,与上之前提到的C4.5算法不同,C4.5属性分类算法(有监督的),而k-means算法属于聚类算法(无监督的),两者有着本质的区别。
具体的算法描述如下:
1、随机选取 k个聚类质心点 2、重复下面过程直到收敛 { 对于每一个样例 i,计算其应该属于的类:
对于每一个类 j,重新计算该类的质心:
比较好理...
http://bigdatastudy.net/show.aspx?id=334&cid=9日期:2017-9-29 16:49:51
关联规则算法的思想就是找频繁项集,通过频繁项集找强关联。
http://bigdatastudy.net/show.aspx?id=333&cid=9日期:2017-9-29 16:47:02
spark-1.6.1 机器学习库(MLlib)指南
MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。
MLllib目前分为两个代码包: spark.mllib 包含基于RDD的原始算法API。 spark.ml 则提供了基于DataF...
http://bigdatastudy.net/show.aspx?id=332&cid=9日期:2017-9-29 16:43:43
1、MLlib实例
1.1 聚类实例
1.1.1 算法说明
聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的 object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常见的还有层次法 (CURE、CHAMELEON等)、网...
http://bigdatastudy.net/show.aspx?id=253&cid=9日期:2017-9-22 20:11:26
1 机器学习概念
1.1 机器学习的定义
在维基百科上对机器学习提出以下几种定义: “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一...
http://bigdatastudy.net/show.aspx?id=252&cid=9日期:2017-9-22 20:07:25
问题导读:
1.什么是线性回归算法?
2.线性回归代码示例?
3.如何在本地跑spark mllib的线性回归算法?
4.线性回归结果如何评估?
上次我们分享了LDA文档主题模型算法,按照计划,本次分享回归算法中的线性回归。
算法说明
线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法,只有一个自变量...
http://bigdatastudy.net/show.aspx?id=67&cid=9日期:2017-9-6 20:48:29
问题导读:
1.什么是LDA文档问题模型?
2.LDA 建模算法是什么样的?
3.spark MLlib中的LDA模型如何调优?
4.运行LDA有哪些小技巧?
上次我们简单介绍了聚类算法中的KMeans算法,并且介绍了一个简单的KMeans的例子,本次按照我的计划,我想分享的是聚类算法中的LDA文档主题模型,计划从下次开始分享回归算法。
什么是LDA主题建模?
隐含狄利克雷...
http://bigdatastudy.net/show.aspx?id=66&cid=9日期:2017-9-6 20:38:27
1.概述
首先,笔者要先申明,我也 是初学机器学习领域的内容,虽然我是从事大数据平台开发的工作,但是工作中确实没有跟spark MLlib打过交道,所以文中如果有描述错误的地方,还请大家指正。机器学习对高数、python的基础都有一定的要求,但是入门我觉得最重要的是理论联 系实际,了解机器学习基本概念,然后结合spark MLlib的example代码去入手,亲自跑一个代码尝试一...
http://bigdatastudy.net/show.aspx?id=65&cid=9日期:2017-9-6 20:34:47
  • 1/1
  • 1