sparkmlib算法使用有代码输入输出

上传人：A*** IP属地：广东上传时间：2022-08-14 格式：DOC 页数：61 大小：2.39MB 积分：15 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、. STYLEREF 标题 1,章 n * MERGEFORMAT 第1章 STYLEREF 标题 1,章 * MERGEFORMAT 分类与回归 -PAGE 22-：.；-PAGE 23-目录 TOC o 1-3 h z u HYPERLINK l _Toc453595425 第1章分类与回归 PAGEREF _Toc453595425 h 6 HYPERLINK l _Toc453595426 1.1支持向量机 PAGEREF _Toc453595426 h 6 HYPERLINK l _Toc453595427 1.1.1算法描画和定义 PAGEREF _Toc453595427 h 6

2、 HYPERLINK l _Toc453595428 1.1.2输入参数和含义 PAGEREF _Toc453595428 h 6 HYPERLINK l _Toc453595429 1.1.3代码展现 PAGEREF _Toc453595429 h 6 HYPERLINK l _Toc453595430 1.1.4运用场景 PAGEREF _Toc453595430 h 6 HYPERLINK l _Toc453595431 1.2逻辑回归 PAGEREF _Toc453595431 h 6 HYPERLINK l _Toc453595432 1.2.1算法描画和定义 PAGEREF _To

3、c453595432 h 6 HYPERLINK l _Toc453595433 1.2.2输入参数和含义 PAGEREF _Toc453595433 h 6 HYPERLINK l _Toc453595434 1.2.3代码展现 PAGEREF _Toc453595434 h 6 HYPERLINK l _Toc453595435 1.2.4运用场景 PAGEREF _Toc453595435 h 6 HYPERLINK l _Toc453595436 1.3线性回归 PAGEREF _Toc453595436 h 6 HYPERLINK l _Toc453595437 1.3.1算法描画和

4、定义 PAGEREF _Toc453595437 h 6 HYPERLINK l _Toc453595438 1.3.2输入参数和含义 PAGEREF _Toc453595438 h 6 HYPERLINK l _Toc453595439 1.3.3代码展现 PAGEREF _Toc453595439 h 6 HYPERLINK l _Toc453595440 1.3.4运用场景 PAGEREF _Toc453595440 h 6 HYPERLINK l _Toc453595441 1.4朴素贝叶斯 PAGEREF _Toc453595441 h 6 HYPERLINK l _Toc45359

5、5442 1.4.1算法描画和含义 PAGEREF _Toc453595442 h 6 HYPERLINK l _Toc453595443 1.4.2输入参数和含义 PAGEREF _Toc453595443 h 6 HYPERLINK l _Toc453595444 1.4.3代码展现 PAGEREF _Toc453595444 h 6 HYPERLINK l _Toc453595445 1.4.4运用场景 PAGEREF _Toc453595445 h 6 HYPERLINK l _Toc453595446 1.5决策树 PAGEREF _Toc453595446 h 6 HYPERLIN

6、K l _Toc453595447 1.5.1算法描画和定义 PAGEREF _Toc453595447 h 7 HYPERLINK l _Toc453595448 1.5.2输入参数和含义 PAGEREF _Toc453595448 h 7 HYPERLINK l _Toc453595449 1.5.3代码展现 PAGEREF _Toc453595449 h 7 HYPERLINK l _Toc453595450 1.5.4运用场景 PAGEREF _Toc453595450 h 7 HYPERLINK l _Toc453595451 1.6随机森林 PAGEREF _Toc45359545

7、1 h 7 HYPERLINK l _Toc453595452 1.6.1算法描画和定义 PAGEREF _Toc453595452 h 7 HYPERLINK l _Toc453595453 1.6.2输入参数和含义 PAGEREF _Toc453595453 h 7 HYPERLINK l _Toc453595454 1.6.3代码展现 PAGEREF _Toc453595454 h 7 HYPERLINK l _Toc453595455 1.6.4运用场景 PAGEREF _Toc453595455 h 7 HYPERLINK l _Toc453595456 1.7梯度提升树 PAGER

8、EF _Toc453595456 h 7 HYPERLINK l _Toc453595457 1.7.1算法描画和定义 PAGEREF _Toc453595457 h 7 HYPERLINK l _Toc453595458 1.7.2输入参数和含义 PAGEREF _Toc453595458 h 7 HYPERLINK l _Toc453595459 1.7.3代码展现 PAGEREF _Toc453595459 h 7 HYPERLINK l _Toc453595460 1.7.4运用场景 PAGEREF _Toc453595460 h 7 HYPERLINK l _Toc453595461

9、 1.8保序回归 PAGEREF _Toc453595461 h 7 HYPERLINK l _Toc453595462 1.8.1算法描画和定义 PAGEREF _Toc453595462 h 7 HYPERLINK l _Toc453595463 1.8.2输入参数和含义 PAGEREF _Toc453595463 h 7 HYPERLINK l _Toc453595464 1.8.3代码展现 PAGEREF _Toc453595464 h 7 HYPERLINK l _Toc453595465 1.8.4运用场景 PAGEREF _Toc453595465 h 7 HYPERLINK l

10、 _Toc453595466 第2章协同过滤 PAGEREF _Toc453595466 h 8 HYPERLINK l _Toc453595467 2.1算法描画和定义 PAGEREF _Toc453595467 h 8 HYPERLINK l _Toc453595468 2.2输入参数和含义 PAGEREF _Toc453595468 h 8 HYPERLINK l _Toc453595469 2.3代码展现 PAGEREF _Toc453595469 h 8 HYPERLINK l _Toc453595470 2.4运用场景 PAGEREF _Toc453595470 h 8 HYPER

11、LINK l _Toc453595471 第3章聚类 PAGEREF _Toc453595471 h 9 HYPERLINK l _Toc453595472 3.1K-means PAGEREF _Toc453595472 h 9 HYPERLINK l _Toc453595473 3.1.1算法描画和定义 PAGEREF _Toc453595473 h 9 HYPERLINK l _Toc453595474 3.1.2输入参数和含义 PAGEREF _Toc453595474 h 9 HYPERLINK l _Toc453595475 3.1.3代码展现 PAGEREF _Toc453595

12、475 h 9 HYPERLINK l _Toc453595476 3.1.4运用场景 PAGEREF _Toc453595476 h 9 HYPERLINK l _Toc453595477 3.2高斯混合 PAGEREF _Toc453595477 h 9 HYPERLINK l _Toc453595478 3.2.1算法描画和定义 PAGEREF _Toc453595478 h 9 HYPERLINK l _Toc453595479 3.2.2输入参数和含义 PAGEREF _Toc453595479 h 9 HYPERLINK l _Toc453595480 3.2.3代码展现 PAGE

13、REF _Toc453595480 h 9 HYPERLINK l _Toc453595481 3.2.4运用场景 PAGEREF _Toc453595481 h 9 HYPERLINK l _Toc453595482 3.3快速迭代聚类图片 PAGEREF _Toc453595482 h 9 HYPERLINK l _Toc453595483 3.3.1算法描画和定义 PAGEREF _Toc453595483 h 10 HYPERLINK l _Toc453595484 3.3.2输入参数和含义 PAGEREF _Toc453595484 h 10 HYPERLINK l _Toc4535

14、95485 3.3.3代码展现 PAGEREF _Toc453595485 h 10 HYPERLINK l _Toc453595486 3.3.4运用场景 PAGEREF _Toc453595486 h 10 HYPERLINK l _Toc453595487 3.4三层贝叶斯概率模型 PAGEREF _Toc453595487 h 10 HYPERLINK l _Toc453595488 3.4.1算法描画和定义 PAGEREF _Toc453595488 h 10 HYPERLINK l _Toc453595489 3.4.2输入参数和含义 PAGEREF _Toc453595489 h

15、 10 HYPERLINK l _Toc453595490 3.4.3代码展现 PAGEREF _Toc453595490 h 10 HYPERLINK l _Toc453595491 3.4.4运用场景 PAGEREF _Toc453595491 h 10 HYPERLINK l _Toc453595492 3.5二分K-means聚类 PAGEREF _Toc453595492 h 10 HYPERLINK l _Toc453595493 3.5.1算法描画和定义 PAGEREF _Toc453595493 h 10 HYPERLINK l _Toc453595494 3.5.2输入参数和

16、含义 PAGEREF _Toc453595494 h 10 HYPERLINK l _Toc453595495 3.5.3代码展现 PAGEREF _Toc453595495 h 10 HYPERLINK l _Toc453595496 3.5.4运用场景 PAGEREF _Toc453595496 h 10 HYPERLINK l _Toc453595497 3.6流K-means PAGEREF _Toc453595497 h 10 HYPERLINK l _Toc453595498 3.6.1算法描画和定义 PAGEREF _Toc453595498 h 10 HYPERLINK l _

17、Toc453595499 3.6.2输入参数和含义 PAGEREF _Toc453595499 h 10 HYPERLINK l _Toc453595500 3.6.3代码展现 PAGEREF _Toc453595500 h 10 HYPERLINK l _Toc453595501 3.6.4运用场景 PAGEREF _Toc453595501 h 10 HYPERLINK l _Toc453595502 第4章降维算法 PAGEREF _Toc453595502 h 11 HYPERLINK l _Toc453595503 4.1奇特值分解 PAGEREF _Toc453595503 h 1

18、1 HYPERLINK l _Toc453595504 4.1.1算法描画和定义 PAGEREF _Toc453595504 h 11 HYPERLINK l _Toc453595505 4.1.2输入参数和含义 PAGEREF _Toc453595505 h 11 HYPERLINK l _Toc453595506 4.1.3代码展现 PAGEREF _Toc453595506 h 11 HYPERLINK l _Toc453595507 4.1.4运用场景 PAGEREF _Toc453595507 h 11 HYPERLINK l _Toc453595508 4.2主成分分析PCA PA

19、GEREF _Toc453595508 h 11 HYPERLINK l _Toc453595509 4.2.1算法描画和定义 PAGEREF _Toc453595509 h 11 HYPERLINK l _Toc453595510 4.2.2输入参数和含义 PAGEREF _Toc453595510 h 11 HYPERLINK l _Toc453595511 4.2.3代码展现 PAGEREF _Toc453595511 h 11 HYPERLINK l _Toc453595512 4.2.4运用场景 PAGEREF _Toc453595512 h 11 HYPERLINK l _Toc4

20、53595513 第5章统计 PAGEREF _Toc453595513 h 12 HYPERLINK l _Toc453595514 5.1相关统计 PAGEREF _Toc453595514 h 12 HYPERLINK l _Toc453595515 5.1.1算法描画和定义 PAGEREF _Toc453595515 h 12 HYPERLINK l _Toc453595516 5.1.2输入参数和含义 PAGEREF _Toc453595516 h 12 HYPERLINK l _Toc453595517 5.1.3代码展现 PAGEREF _Toc453595517 h 12 HY

21、PERLINK l _Toc453595518 5.1.4运用场景 PAGEREF _Toc453595518 h 12 HYPERLINK l _Toc453595519 5.2分层采样 PAGEREF _Toc453595519 h 12 HYPERLINK l _Toc453595520 5.2.1算法描画和定义 PAGEREF _Toc453595520 h 12 HYPERLINK l _Toc453595521 5.2.2输入参数和含义 PAGEREF _Toc453595521 h 12 HYPERLINK l _Toc453595522 5.2.3代码展现 PAGEREF _T

22、oc453595522 h 12 HYPERLINK l _Toc453595523 5.2.4运用场景 PAGEREF _Toc453595523 h 12 HYPERLINK l _Toc453595524 5.3假设检验 PAGEREF _Toc453595524 h 12 HYPERLINK l _Toc453595525 5.3.1算法描画和定义 PAGEREF _Toc453595525 h 12 HYPERLINK l _Toc453595526 5.3.2输入参数和含义 PAGEREF _Toc453595526 h 12 HYPERLINK l _Toc453595527 5

23、.3.3代码展现 PAGEREF _Toc453595527 h 12 HYPERLINK l _Toc453595528 5.3.4运用场景 PAGEREF _Toc453595528 h 12 HYPERLINK l _Toc453595529 5.4流式显著性测试 PAGEREF _Toc453595529 h 12 HYPERLINK l _Toc453595530 5.4.1算法描画和定义 PAGEREF _Toc453595530 h 12 HYPERLINK l _Toc453595531 5.4.2输入参数和含义 PAGEREF _Toc453595531 h 12 HYPER

24、LINK l _Toc453595532 5.4.3代码展现 PAGEREF _Toc453595532 h 12 HYPERLINK l _Toc453595533 5.4.4运用场景 PAGEREF _Toc453595533 h 12 HYPERLINK l _Toc453595534 5.5随机数发生器 PAGEREF _Toc453595534 h 12 HYPERLINK l _Toc453595535 5.5.1算法描画和定义 PAGEREF _Toc453595535 h 13 HYPERLINK l _Toc453595536 5.5.2输入参数和含义 PAGEREF _To

25、c453595536 h 13 HYPERLINK l _Toc453595537 5.5.3代码展现 PAGEREF _Toc453595537 h 13 HYPERLINK l _Toc453595538 5.5.4运用场景 PAGEREF _Toc453595538 h 13 HYPERLINK l _Toc453595539 5.6核密度估计 PAGEREF _Toc453595539 h 13 HYPERLINK l _Toc453595540 5.6.1算法描画和定义 PAGEREF _Toc453595540 h 13 HYPERLINK l _Toc453595541 5.6.

26、2输入参数和含义 PAGEREF _Toc453595541 h 13 HYPERLINK l _Toc453595542 5.6.3代码展现 PAGEREF _Toc453595542 h 13 HYPERLINK l _Toc453595543 5.6.4运用场景 PAGEREF _Toc453595543 h 13 HYPERLINK l _Toc453595544 第6章特征抽取和变换 PAGEREF _Toc453595544 h 14 HYPERLINK l _Toc453595545 6.1TF-IDF PAGEREF _Toc453595545 h 14 HYPERLINK l

27、 _Toc453595546 6.1.1算法描画和定义 PAGEREF _Toc453595546 h 14 HYPERLINK l _Toc453595547 6.1.2输入参数和含义 PAGEREF _Toc453595547 h 14 HYPERLINK l _Toc453595548 6.1.3代码展现 PAGEREF _Toc453595548 h 14 HYPERLINK l _Toc453595549 6.1.4运用场景 PAGEREF _Toc453595549 h 14 HYPERLINK l _Toc453595550 6.2词到变量 PAGEREF _Toc4535955

28、50 h 14 HYPERLINK l _Toc453595551 6.2.1算法描画和定义 PAGEREF _Toc453595551 h 14 HYPERLINK l _Toc453595552 6.2.2输入参数和含义 PAGEREF _Toc453595552 h 14 HYPERLINK l _Toc453595553 6.2.3代码展现 PAGEREF _Toc453595553 h 14 HYPERLINK l _Toc453595554 6.2.4运用场景 PAGEREF _Toc453595554 h 14 HYPERLINK l _Toc453595555 6.3规范化 P

29、AGEREF _Toc453595555 h 14 HYPERLINK l _Toc453595556 6.3.1算法描画和定义 PAGEREF _Toc453595556 h 14 HYPERLINK l _Toc453595557 6.3.2输入参数和含义 PAGEREF _Toc453595557 h 14 HYPERLINK l _Toc453595558 6.3.3代码展现 PAGEREF _Toc453595558 h 14 HYPERLINK l _Toc453595559 6.3.4运用场景 PAGEREF _Toc453595559 h 14 HYPERLINK l _Toc

30、453595560 6.4正规化 PAGEREF _Toc453595560 h 14 HYPERLINK l _Toc453595561 6.4.1算法描画和定义 PAGEREF _Toc453595561 h 14 HYPERLINK l _Toc453595562 6.4.2输入参数和含义 PAGEREF _Toc453595562 h 14 HYPERLINK l _Toc453595563 6.4.3代码展现 PAGEREF _Toc453595563 h 14 HYPERLINK l _Toc453595564 6.4.4运用场景 PAGEREF _Toc453595564 h 1

31、4分类与回归支持向量机算法描画和定义神经网络与支持向量机包含核方法都是非线性分类模型。1986年，Rummelhart与McClelland发明了神经网络的学习算法Back Propagation。后来，Vapnik等人于1992年提出了支持向量机。神经网络是多层通常是三层的非线性模型，支持向量机利用核技巧把非线性问题转换成线性问题。神经网络与支持向量机不断处于“竞争关系。Scholkopf是Vapnik的大弟子，支持向量机与核方法研讨的领军人物。据Scholkopf说，Vapnik当初发明支持向量机就是想干掉神经网络He wanted to kill Neural Network)。支持向量

32、机确实很有效，一段时间支持向量机一派占了上风。由于 HYPERLINK httpsbaidu/s?wd=%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1YdujmzryNbuHRkmhuhPWmL0ZwV5Hcvrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3EnHf4n1cYrHfsPW03njTsPW6drf t zhidao.baidu/_b

33、lank 神经网络等较新兴的 HYPERLINK httpsbaidu/s?wd=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1YdujmzryNbuHRkmhuhPWmL0ZwV5Hcvrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3EnHf4n1cYrHfsPW03njTsPW6drf t zhidao.baidu/_blank 机器学习方法

34、的研讨遇到一些重要的困难,比如如何确定网络构造的问题、过学习与欠学习问题、部分极小点问题等,使得SVM迅速开展和完善,在处理小样本、非线性及高维方式识别问题中表现出许多特有的优势,并可以推行运用到函数拟合等其他 HYPERLINK httpsbaidu/s?wd=%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1YdujmzryNbuHRkmhuhPWmL0ZwV5Hcvrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjC

35、EQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3EnHf4n1cYrHfsPW03njTsPW6drf t zhidao.baidu/_blank 机器学习问题中.从此迅速的开展起来如今曾经在许多领域(生物信息学，文本和手写识别等)都获得了胜利的运用。在地球物理反演当中处理非线性反演也有显著效果，例如支持向量机在预测地下水涌水量问题等。如今知该算法被被运用的主要有：石油测井中利用测井资料预测地层孔隙度及粘粒含量、天气预告任务等。经过核函数将特征映射到其他维度输入参数和含义代码展现import java.text.SimpleDateFormatimport java.

36、util.Date import org.apache.spark.mllib.classification.SVMModel, SVMWithSGD import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.mllib.util.MLUtils import org.ap

37、ache.spark.SparkConf, SparkContext val data = MLUtils.loadLibSVMFile(sc, /root/sample_libsvm_data.txt)val splits = data.randomSplit(Array(0.6, 0.4), seed = 11L) val training = splits(0).cache() val test = splits(1)val numIterations = 10 val model = SVMWithSGD.train(training, numIterations)val scoreA

38、ndLabels = test.map point = val score = model.predict(point.features) (score, point.label) scoreAndLabels.take(10).foreach(println)输出数据：(-893656.2467488575,0.0) (553216.1154887225,1.0) (-1030793.6628224523,0.0) (-660018.4363039621,0.0) (473494.1478776787,1.0) (474484.8472541839,1.0) (625896.11730549

39、89,1.0) (-1179877.5567907898,0.0) (459173.33117972035,1.0) (547268.1947242465,1.0)运用场景1.主要用来处置分类问题逻辑回归算法描画和定义逻辑回归的模型是一个非线性模型，sigmoid函数，又称逻辑回归函数。但是它本质上又是一个线性回归模型，由于除去igmoid映射函数关系，其他的步骤，算法都是线性回归的。可以说，逻辑回归，都是以线性回归为实际支持的。只不过，线性模型，无法做到sigmoid的非线性方式，sigmoid可以轻松处置0/1分类问题输入参数和含义输入数据：1|2 1|3 1|4 1|5 1|6 0|7

40、0|8 0|9 0|10 0|11代码展现代码展现：import org.apache.spark.mllib.classification.LogisticRegressionWithSGD import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.SparkConf, SparkContextval data = sc.textFile(/root/ttt1.txt) /获取数据集途径 val parse

41、dData = data.map line = val parts = line.split(|) LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split( ).map(_.toDouble) .cache() /转化数据格式 parsedData.foreach(println) val model = LogisticRegressionWithSGD.train(parsedData, 50) println(model.predict(Vectors.dense(10)输出数据：scala println(model.p

42、redict(Vectors.dense(10)0.0scala println(model.predict(Vectors.dense(11)0.0scala println(model.predict(Vectors.dense(20)0.0运用场景可用于概率预测，也可用于分类。仅能用于线性问题广告系统中进展CTR预估，引荐系统中的预估转换率，反渣滓系统中的识别渣滓内容线性回归算法描画和定义什么是线性回归步骤：线性回归分析的整个过程可以简单描画为如下三个步骤：寻觅适宜的预测函数，即上文中的 h(x)用来预测输入数据的判别结果。这个过程时非常关键的，需求对数据有一定的了解或分析，知道或者猜测

43、预测函数的“大约方式，比如是线性函数还是非线性函数，假设是非线性的那么无法用线性回归来得出高质量的结果。 2.构造一个Loss函数损失函数，该函数表示预测的输出h与训练数据标签之间的偏向，可以是二者之间的差h-y或者是其他的方式如平方差开方。综合思索一切训练数据的“损失，将Loss求和或者求平均，记为 J()函数，表示一切训练数据预测值与实践类别的偏向。 3.显然， J() 函数的值越小表示预测函数越准确即h函数越准确，所以这一步需求做的是找到 J() 函数的最小值。找函数的最小值有不同的方法，Spark中采用的是梯度下降法stochastic gradient descent, SGD)。输

44、入参数和含义代码展现输入数据：销量广告费价钱10,5 38,4 36,3 312,6 3代码：import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LinearRegressionWithSGD, LabeledPoint import org.apache.spark.SparkConf, SparkContextval data = sc.textFile(/root/ttt.txt) /获取数据集途径 val parsedData = data.map line =

45、/开场对数据集处置 val parts = line.split(,) /根据逗号进展分区 LabeledPoint(parts(0).toDouble, Vectors.dense(parts(1).split( ).map(_.toDouble) .cache() /转化数据格式 parsedData.foreach(println) val model = LogisticRegressionWithSGD.train(parsedData, 50) /建立模型println(result) /打印预测结果输出数据：scala val result = model.predict(Vec

46、tors.dense(5,3) /经过模型预测模型 result: Double = 9.853582413207473scala val result = model.predict(Vectors.dense(10,3) result: Double = 17.454890879861697运用场景营销和促销分析，如评价直接邮件促销或一个电台广告活动的胜利情况。根据历史数据预测股票升降、汇率浮动或其他频繁变动的金融信息。分析制造和工业流程。文本发掘。分析多个输入和相对较少的输出之间的复杂关系的任何预测模型朴素贝叶斯算法描画和含义描画：对于给出的待分类项，求解在此项出现的条件下各个

47、类别出现的概率，哪个最大，就以为此待分类项属于哪个类别步骤：1根据详细情况确定特征属性，并对每个特征属性进展适当划分，然后由人工对一部分待分类项进展分类，构成训练样本集合。这一阶段的输入是一切待分类数据，输出是特征属性和训练样本2生成分类器，即计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录3运用分类器对待分类项进展分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系，由程序完成。输入参数和含义1.输入数据是LabeledPoint格式2.lambda：参数为平滑参数，默以为1，可改3.modelType：贝叶斯类型，多项为multinomi

48、al代码展现数据：代码：结果：运用场景医生对病人进展诊断账号分类等决策树算法描画和定义描画：是一个预测模型，它表示对象属性和对象值之间的一种映射，树中的每一个节点表示对象属性的判别条件，其分支表示符合节点条件的对象。树的叶子节点表示对象所属的预测结果步骤：1.将一切记录看作是一个节点2.遍历每个变量的每种分割方式，找到最好的分割点3.利用分割点将记录分割成两个子结点 C1 和 C24.对子结点 C1 和 C2 反复执行步骤 b、c，直到满足特定条件为止输入参数和含义1.numClasses:分类数2.categoricalFeaturesInfo:为空那么意味着一切的特征为延续变量3.impu

49、rity:纯度计算4.numTrees：树的个数5.maxDepth:树的最大层数6.maxBins:特征最大装箱数输入参数和含义代码展现数据：代码：结果：运用场景作为分类、预测问题的典型支持技术，它在用户划分、行为预测、规那么梳理等方面具有广泛的运用前景随机森林算法描画和定义描画：运用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林的每一棵决策树分别进展一下判别，看看这个样本应该属于哪一类对于分类算法，然后看看哪一类能被选择最多，就预测这个样本为那一类。步骤：从样本集中有放回随机采样选出n个

50、样本从一切特征中随机选择k个特征，对选出的样本利用这些特征建立决策树反复以上两步m次，即生成m棵决策树，构成随机森林对于新数据，经过每棵树决策，最后投票确认分到哪一类输入参数和含义1.numClasses:分类数2.categoricalFeaturesInfo:为空那么意味着一切的特征为延续变量3.impurity:纯度计算4.numTrees：树的个数5.maxDepth:树的最大层数6.maxBins:特征最大装箱数7.featureSubsetStrategy:特征子集采样战略，auto表示算法自取代码展现数据：测试数据：代码：预测结果和决策树：运用场景网络游戏流失预测的场景，人体识

51、别梯度提升树算法描画和定义思想：Boosting思想是训练多个模型，利用每个模型进展投票，每个模型的权重都一样，对于分类问题，取总票数最多作为分类，对于回归，取平均值。利用多个弱分类器，集成一个性能高的分类器，梯度提升树采用的是boosting的思想每一次建立模型是在之前建立模型损失函数的梯度下降方向。这句话有一点拗口，损失函数描画的是模型的不靠谱程度，损失函数越大，那么阐明模型越容易出错其实这里有一个方差、偏向平衡的问题，但是这里就假设损失函数越大，模型越容易出错。假设我们的模型可以让损失函数继续的下降，那么阐明我们的模型在不停的改良，而最好的方式就是让损失函数在其梯度的方向上下降。输入参数

52、和含义1.boostingStrategy:要阐明是分类还是回归2.trainingData:训练数据代码展现代码：结果：运用场景点击率预测，几乎可用于一切的回归问题线性/非线性，也可以用来做搜索引擎排序运用RankNet、引荐算法保序回归算法描画和定义从该序列的首元素往后察看，一旦出现乱序景象停顿该轮察看，从该乱序元素开场逐个吸收元素组成一个序列，直到该序列一切元素的平均值小于或等于下一个待吸收的元素。输入参数和含义1.输入数据以(feature，label)进展排序代码展现输入数据：代码：结果展现：运用场景判别药物能否有阳性反响等 STYLEREF 标题 1,章 n * MERGEFORM

53、AT 第6章 STYLEREF 标题 1,章 * MERGEFORMAT 特征抽取和变换 -PAGE 60-PAGE 61-协同过滤算法描画和定义描画：协同过滤是利用集体智慧的一个典型方法。要了解什么是协同过滤 (Collaborative Filtering, 简称CF)，首先想一个简单的问题，假设他如今想看个电影，但他不知道详细看哪部，他会怎样做？大部分的人会问问周围的朋友，看看最近有什么美观的电影推荐，而我们普通更倾向于从口味比较类似的朋友那里得到引荐。这就是协同过滤的中心思想步骤：搜集用户偏好找到类似的用户和物品计算并引荐输入参数和含义用户电影评分 1:480:51:520:51

54、:539:51:586:51:588:51:589:51:594:51:616:52:110:52:151:32:260:53:1148:43:1246:43:1252:4代码展现val splits = ratings.randomSplit(Array( 0.8 , 0.2 ), seed = 111 l)val training = splits( 0 ).repartition(numPartitions)val test = splits( 1 ).repartition(numPartitions)val rank = 12val lambda = 0.01val numItera

55、tions = 20val model = ALS.train(ratings, rank, numIterations, lambda)users.take( 5 )/ArrayInt = Array(384, 1084, 4904, 3702, 5618)查看用户编号为384的用户的预测结果中预测评分排前10的商品：val userId = users.take( 1 )( 0 ) /384val K = 10val topKRecs = model.recommendProducts(userId, K)println(topKRecs.mkString( n )/ Rating(384

56、,2545,8.354966018818265)/ Rating(384,129,8.113083736094676)/ Rating(384,184,8.038113395650853)/ Rating(384,811,7.983433591425284)/ Rating(384,1421,7.912044967873945)/ Rating(384,1313,7.719639594879865)/ Rating(384,2892,7.53667094600392)输出数据集：基于用户的引荐：384用户预测评分前4个/ Rating(384,2545,8.354966018818265)/

57、Rating(384,129,8.113083736094676)/ Rating(384,184,8.038113395650853)/ Rating(384,811,7.983433591425284)基于商品的引荐：显示跟该用户评分商品最相近的商品/ (2055,0.9999999999999999)/ (2051,0.9311231145874)/ (3520,0.8739823400539756)/ (2190,0.8718466671129721)/ (2050,0.8612639515847019)/ (1011,0.8466911667526461)/ (2903,0.8455

58、764332511272)实时引荐可以把训练出来的模型保管，发布成web接口，在启动的时候生成或加载训练模型，然后提供API接口前往引荐接口val data = sc.textFile( data/ml-1m/ratings.dat )接下来解析文件内容，获得用户对商品的评分记录：val ratings = data.map(_.split( : ) match case Array(user, item, rate, ts) =Rating(user.toInt, item.toInt, rate.toDouble).cache()运用场景引荐物品发现兴趣类似的用户聚类K-means算法描画

59、和定义步骤：1.选择 K 个点作为初始聚类中心2.计算其他一切点到聚类中心的间隔，并把每个点划分到离它最近的聚类中心所在的聚类中去。3. 重新计算每个聚类中一切点的平均值，并将其作为新的聚类中心点算法在初始点选择上遵照一个根本原那么: 初始聚类中心点相互之间的间隔应该尽能够的远输入参数和含义1.k表示期望的聚类的个数。2.maxInterations表示方法单次运转最大的迭代次数。3.runs表示算法被运转的次数。K-means 算法不保证能前往全局最优的聚类结果，所以在目的数据集上多次跑 K-means 算法，有助于前往最正确聚类结果。4.initializationMode表示初始聚类

60、中心点的选择方式, 目前支持随机选择或者 K-means|方式。默许是 K-means|。5.initializationSteps表示 K-means|方法中的部数。6.epsilon表示 K-means 算法迭代收敛的阀值。7.seed表示集群初始化时的随机种子。代码展现输入数据：代码:输出结果：K 选择例如代码片段val ks:ArrayInt = Array(3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20)ks.foreach(cluster = val model:KMeansModel = KMeans.train(parsedTrai

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

sparkmlib算法使用有代码输入输出

文档简介

温馨提示

最新文档

评论

sparkmlib算法使用有代码输入输出

文档简介

温馨提示

最新文档

评论

相关文档