大数据技术及应用 习题及答案_第1页
大数据技术及应用 习题及答案_第2页
大数据技术及应用 习题及答案_第3页
大数据技术及应用 习题及答案_第4页
大数据技术及应用 习题及答案_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据技术及应用习题及答案

第1章

1.1概念:大数据是指大小超出传统数据库工具的获取、存储、管理和分析能力的数据集。

特征:规模庞大(Volume),种类繁多(Variety),生成快速(Velocity),来源真实

(Veracity),...

1.2数据采集、数据预处理、数据分析与挖掘、数据展现与可视化。

1.3目的:监督并改善数据的质量,保证后续分析挖掘结果的有效性。

主要操作:数据清洗、数据集成、数据转换和数据归约。

1.4统计分析、机器学习、数据挖掘等。

1.5略。

第2章

2.1分类:系统日志采集、网络数据采集、传感器采集、其他采集方法等。

特点:大规模、海量存储、高速传输、实时采集、支持分布式架构、可扩展性。

适用范围:系统日志、网页数据、电子商务信息、传感器数据、科学领域数据等。

2.2来源:企业信息管理系统、网络信息系统、物联网信息系统、科学研究实验系统。

应用场合:企业信息管理系统针对企业、机关内部的业务平台如办公自动化系统、事

务管理系统等;网络信息系统针对互联网络平台上的各种信息系统;物联网信息系统针对各

种传感器设备及监控系统;科学研究实验系统针对科学大数据。

2.3基本流程:对采集到的海量数据进行数据挖掘处理之前,需要先对原始数据进行必要

的数据清洗、数据集成、数据变换和数据归约等多项处理工作,必要时可以进行多次数据预

处理。

作用:改进原始数据的质量.满足后续的数据挖掘算法进行知识获取的目的,达到客

户应用的挖掘需求。

2.4数据清洗的基本处理过程:数据分析、确定数据清洗规则和策略、数据检测、数据清

洗、数据评估和干净数据回流六个步骤。

2.5箱1:60,61,65

箱2:70,73,81

箱3:85,90,92

平均值平滑处理:箱1:62,62,62箱2:75,75,75箱3:89,89,89

边界值平滑处理:箱1:60,60,65箱2:70,70,81箱3:85,92,92

2.6最小.最大值规范化:适用于已知属性的取值范围,对原始数据进行线性变换的场合。

z-score规范化:基于属性的平均值和标准差进行规范化的方法,适用于属性的最大值

和最小值未知,或者孤立点左右了最小•最大规范化的场合。

小数定标规范化:值域区间[-1,1]。

2.7(1)最小-最大值规范化:%转换到[0.0,1.0]区间,为0.25。

(2)z-score:其中标准偏差为15.36,94规范为-0.391。

(3)小数定标规范化:94规范为0.094。

2.8常见的大数据采集及处理平台类别:常见的大数据采集工具有Apache的Chukwa、

Facebook的Scribe>Cloudera的Flume>Linkedin的Kafka和阿里的TT(TimeTunnel)等。

应用场合:大多是作为完整的大数据处理平台而设计的,不仅可以进行海量日志数据

的采集,还可以实现数据的聚合和传输。

第3章

3.1传统存储分为直连式存储和网络连接存储。直连式存储是通过服务器内部直接连接磁

盘组,或者通过外接线连接磁盘阵列。这种方式通常需要通过硬件RAID卡或者软RAID的

方式实现磁盘的冗余保护,防止由于磁盘故障导致整个存储系统的不可用而丢失数据。网络

连接是通过以太网方式接入并进行访问的存储形式,是一台在网络上提供文档共享服务的网

络存储服务器。存储设备可以直接连接在以太网中,使用者可以通过某种方式(例如linux

下的mount命令)将存储服务挂载到本地进行访问,在本地呈现的就是一个文件目录树。

3.2名称节点是HDFS系统中的管理者,负责管理文件系统的命名空间,记录每个文件中

各个块所在的数据节点的位置信息,维护文件系统的文件树及所有的文件和目录的无数据。

数据节点存储所有具体数据并根据需要检索数据块,受客户端或名称节点调度,数据节点定

期向名称节点发送它们所存储的块的列表。同时,它会通过心跳定时向名称节点发送所存储

的文件块信息。

3.3为了保证系统的容错性和可用性,HDFS采用了多副本方式对数据进行冗余存储,通常

一个数据块的多个副本会被分配到不同的数据节点上。在读取数据时,为了减少整体的带宽

消耗和降低整体的带宽时延,HDFS会尽量让读取程序读取离客户端最近的副本。如果读取

程序的同一个机架上有一个副本,那么就读取该副本:如果一个HDFS集群跨越多个数据中

心,那么客户端也将首先读取本地数据中心的副本。

3.4NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的

统称。NoSQL技术引入了灵活的数据模型、水平可伸缩性和无模式数据模型,典型的NoSQL

数据库通常包括键值数据库、列族数据库、文档数据库和图数据库,这些数据库旨在提供易

于扩展和管理的大量数据。

3.5CAP理论可简单描述为:一个分布式系统不能同时满足一致性(consistency)、可用性

(availability)和分区容错性(partitiontolerance)这3个需求,最多只能同时满足两个。

3.6HBase使用坐标来定位表中的数据,也就是说,每个值都是通过坐标来访问的。需要根

据行键、列族、列限定符和时间戳来确定一个单元格,因此可以视为一个“四维坐标”。

3.7每个Region服务器负责管理一个Region集合,通常在每个Reg沁n服务器上会放置

107000个Region。当存储数据量非常庞大时,必须设计相应的Region定位机制,保证客

户端知道哪里可以找到自己所需要的数据。每个Region都有一个RegionlD来标识它的唯一

性,这样,一个Region标识符就可以表示成“表名+开始主键+RegioMD”。

3.8当客户端提出数据访问请求时,首先在Zookeeper集群上查找-ROOT-的位置,然后客

户端通过-ROOT-查找请求所在范围所属.META.的区域位置,接着,客户端查找.META.区域

位置来获取用户空间区域所在节点及其位置;最后,客户端即可•直接与管理该区域的Region

服务器进行交互。一旦客户端知道了数据的实际位置(某Region服务器位置),该Client会

宜接和这个Region服务器进行交互,也就是说,客户端需要通过“三级寻址”过程找到用

户数据表所在的region服务器,然后直接访问该Region服务器获得数据。

3.9数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-

Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策,数据仓库是在数

据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的。一个典

型的数据仓库主要包含4个层次:数据源、数据存储和管理、数据服务、数据应用.

3.10基本架构包括:

1.数据源:是数据仓库的数据来源,包括了外部数据、现有业务系统和文档资料等。

2.数据集成:完成数据的抽取、清洗、转换和加载任务,数据源中的数据采用ETL工

具以固定周期加载到数据仓库中。

3.数据存储和管理:这一层次主要涉及对数据的存储和管理,包括数据仓库、数据集

市、数据仓库检测、运行与维护工具和无数据管理等。

4.数据服务:为前端工具和应用提供数据服务,可以宜接从数据仓库中获取数据供前

端应用使用,也可以通过OLAP服务器为前端应用提供更加复:杂的数据服务。

5.数据应用:这一层次直接面向最终用户,包括数据查询工具、自由报表工具、数据

分析工具、数据挖掘工具和各类应用系统。

第4章

4.1分类用于找出一组数据对象的共同特点并按照一定的模式将其划分为不同的类。分类

的目的是分析输入数据,通过训练集中的数据表现出来的特性构造出一个分类函数或分类模

型,该模型常被称为分类器,用于将未知类别的样本数据映射到给定类别中。

分类技术也因此被广泛的应用于如欺诈检测、目标营销、医疗诊断、人脸检测、故障诊

断和故障预警等。

4.2数据分类过程总体可以分为两个阶段:

第一阶段,建立描述预先定义的数据类或概念集的分类器。这是学习阶段(或训练阶

段),其中分类算法通过分析或从训练集“学习”来构造分类器。通过对训练数据中各数据

行的内容进行分析,从而认为每一行数据是属于一个确定的数据类别,其类别值是由一个属

性描述(类标号)。

第二阶段,使用模型进行分类。首先评估分类器的预测准确率,选取独立于训练集数据

的测试集,通过第一阶段构造出的分类器对给定测试集的数据进行分类。将分类出的每条测

试记录的类标号与学习模型对该记录的类预测进行比较,如果分类器的性能达到预定要求,

就用该模型对类标号未知的数据记录进行分类。

4.3决策树算法采用不同的度量准则,主要有以下三种:信息增益、增益率和基尼指数。

信息增益准则倾向于选择具有大量不同取值的属性,从而产生许多小而纯的子集。信息增益

率会导致数据集划分不平衡,其中一个分区比其它分区小的多。基尼指数偏小于多值属性,

当类的数量很大时会有困难,还倾向于导致相等大小的分区和纯度。

4.4有准确率、精确率、召回率、假正率、真负率、假负率、F度量和ROC曲线与AUC曲

线等。

4.5

4.6幸存可能性为0.0347,遇难可能性0.0261。

与4.5题结果对比:略。

4.7(1)0.116;(2)0.496;(3)0.002347o

4.8最近邻:由于%=+1,因此戈的类标号为+1;

k•近邻(k=3):由于丫2=+1,丫7=-1,=一1,因此%的类标号为一1。

第5章

5.1参见5.1节。

5.2参见5.2节。

5.3(1)绘制学习时间与测试成绩的散点图;

70

0-----------------------------------------------------------------------------------------

00.511.522.533.5

学习时间(小时)

(2)凤=-0.157和方=19.029

(3)R2=0.867

5.4(1)y=0.032241+0.069986%+0.429138々

(2)R2=0.854

5.5与一元线性回归模型单个自变量相比,当多元线性回归模型自变量数目增多时,若自

变量均与因变量相关性很强,得到的回归方程拟合效果会更接近真实情况.

5.6(1)散点图:

(2)y=29.62721+0.032633X

(3)R2=0.9931

5.7非线性关系的处理分为三种情况:第一种是自变量X和因变量Y之间的关系通过函数

替换转为线性,然后利用线性回归模型的求解方法估计回归参数,并作出回归诊断;第二种

是当自变量X与因变量Y之间的非线性关系对应的描述函数形式不明确时,采用多项式回

归分析方法,进而转化为多元线性逐步回归来进行求解;第三种是自变量X与因变量Y之

间的非线性关系对应的描述函数形式很明确,但回归参数是未知的,大能像第一种情况那样

通过函数替换转化为线性关系,需要采用比较复杂的拟合方法或者数学模型来求解,通常利

用泰勒级数展开,并进行数值迭代来近似逼近实际曲线。

5.8常见的非线性函数有双曲线、半对数、双对数、三角函数、指数函数、累函数等,其线

性化方法参见532节。

5.9(1)y=1100.13+42.1707^+5.7678x,2

(2)平均绝对百分误差MAPE为4.105。

(3)

SUMMARYOUTPUT

回归统计

MultipleR0.999689365

RSquare0.999378827

AdjustedR0.999201349

怀准误差8Z1.0954:347

观测值10

方差分析

SSMSFgnificanceF

7.59E+093.8E+095631.0015.97E-12

计4719384674197.7

7.6E+09

Coefficients标准1天差tStatP-valueLower95%Upper95%~F限95.S上限95.0%

Intercept____1100.129724983.39551.1187050.300181-1225.233425.491-1225.233425.491

XVariable42.1706999832.2061.3094050.231736-33.9844118.3258-33.9844118.3258

XVariable5.7677973660.22860325.230663.92E-085.2272386.3083575.2272386.308357

5.10多项式回归模型用来解决生活中一大类非线性回归问题,常用亍描述经济生活中的生

产成本关系,这些因变量与自变量之间的关系通常都无法用线性回归模型来表示,但是可以

用多项式回归方程加以描述。根据泰勒级数展开的原理,任何曲面、曲线、超曲面问题,在

一定范围内,都可以通过增加高次项来无限逼近其实数据,因此可用适当阶数的多项式方程

来近似描述。

基本原理:多项式回归问题通常可以使用变量代换法转化为多元线性回归问题来处理,

参照线性回归模型的求解思路,使用最小二乘法(OLS)完成对多项式回归模型的参数估计。

第6章

6.1相同点:都是根据研究对象的特征对它们进行分类。

不同点:分类是一种监督式学习方法,预先已经划分好类别;聚类属于非监督式学习,

预先未定义类别,是通过样本集合发现数据自身的内部结构,建立起一种有意义的或者有用

的归类方法。

6.2连续属性:距离,相似系数

二值离散属性:匹配距离,相似系数

多值离散属性:简单匹配法,转换为多个二值离散属性

6.3(答案不唯一)

选择“北京”、“青海”、“新疆”为初始聚类中心,得到聚类结果为:

Cl=(北京,山西,内蒙古,辽宁,吉林,黑龙江,上海,广西,贵州,云南,陕西,

福建,新疆}

C2={天津,青海}

C3={河北,浙江,广东,江苏}

6.4两个簇:Cj={h,ij}9G={a,"c,d,e,/,g}

6.5最近距离法:

第一步:

■V/X2&X5X3X4X6

XI00.650.570.460.32

X2&X50.6500.150.240.11

X30.570.1500.560.04

X40.460.240.5600.26

X60.320.110.040.260

第二步:

X112&巧X3&X6X4

XI00.650.320.46

X2&X50.6500.110.24

X3&X60.320.1100.26

X40.460.240.260

第三步:

XiX2&X5&X3&X6X4

XI00.320.46

X2&X5&JC3&JC60.3200.24

X40.460.240

第四步:

XiX2&X5&X3&X6&X4

XI00.32

X2&X5&X3&JC6&J:40.320

最远距离法:

第一步:

X2&X5

XlX3X4x6

Xl00.900.570.46032

X2&X50.9000.340.520.19

Xi0.570.3400.560.04

X40.460.520.5600.26

X60.320.190.040.260

第二步:

XIX2&X5X3&X6X4

Xi00.900.570.46

X2&X50.9000.340.52

X3&X60.570.3400.56

X40.460.520.560

第三步:

XiX2&XS&X3&X6X4

Xi00.900.46

X2&X5&X3<SLX60.9000.56

X40.460.560

第四步:

X1&X4X2&X5&X3&X6

X1&X400.90

X2&X5&X3&X60.900

(图略)

6.6

根节点

CFfl/=(2,0.65,0.2225)C%=(3,2.3,1.85)

6.7外部准则法、内部准则法和相对准则法。

6.8对象的轮廓系数为

b-a0.61-0.1

xx==0.836

max(4,8J0.61

b-a_0.64-0.1

22=0.844

max(a2,b2)0.64

b-a_0.63-0.26

邑=3=3

max(a3,b3)0.63

,二/_=。.62-0.26=0581

max(a4,b4)0.62

数据集的轮廓系数为

1S0.836+0.844+0.587+0.581

=0.712

*计-----4-----------------------

6.9图6.10:DH=4.072

图6.11:DH=3.376

图6.11的聚类效果更好

第7章

7.1(1)

m3m3mo1mk3

0303mk3ok3

n2k5me2oe3

k5e4my2ke4oke3

e4y3ok3ky3key2

Cl=y3Ll=C2=oe3L2=C3=

d1oy2

a1ke4

u1ky3

c2ey2

I1

L3={o,k,e)

FP-growth:数据库的第一次扫描与Apriori算法相同,得到L1。再按支持度计数的递减序排

序,得到:L={(K:5),(E:4),(M:3),(O:3),(Y:3)},扫描每个事务,按以上L的排序,从根节点开

始,得到FP树

项条件模式基条件FP树条件的频繁模式

y({k,e,m,o:l),{k,e,o:1),k:3{k,y:3}

{k,m:l}}

o{{k,e,m:l),{k,e:2}}k:3,e:3{k,o:3}»{e,o:3J,{k,e,o:3}

m{{k,e:2},{k:l}}k:3{k,m:3)

e{k:4}k:4{k,e:4)

效率比较:Apriori算法的计算过程必须对数据库作多次扫描,而FP算法在构造过程中只需

要扫描一次数据库,再加上初始时为确定支持度递减排序的一次扫描,共计只需两次扫描。

由于在Apriori算法中的自身连接过程中产生候选项集的代价非常高,而FP算法不需要产

生任何候选项集。

(2)

Vxe数据库事务,buys(X,"e叫)Abuys(X,iteir^)=>buys{X,itern^)

VxGtransation^buys(X,")Abuys(X,nF)=>buys(X,"e")[s=0.6,c=l]

VxGtransation^"e")八b〃)s(X,"o")nbuys{X^'k'')[s=0.6,c=l]

7.2(1)首先将实际的DBS问题转换成逻辑值

SEXAGEKNOWLEDGEOCCUPATIONWAGES

12345678910

TID

malefemale>=40<40硕博本科教师非教>5000<5000

士师

1001010101010

2000101101010

3001001010101

4001010101010

5001001101010

6001001010101

(2)转换成数据库中记录的属性项取值集合

TIDItemsTIDItems

100135,7,9400135,7,9

2002,4,5,7,95001,4,5,7,9

3001,4,6,8,106001,4,6,8,10

由最小支持度min_sup=0.5,得出频繁1-项集Ll={{1},{4},{5},{7},{91}。

(3)由频繁1-项集得到频繁2-项集L2={{1,4),{1,5},{1,7},{1,9}{5,7},{5,9},{7,9}}o

(4)计算频繁2•项集中各项之间的支持度和置信度得出下表:

ItemsSup(ImUIn)Sup(Im)Sup(In)conf(ImUIn)

”,4}3/65/64/63/5

{1,5}3/65/64/63/5

{1,7}3/65/64/63/5

{⑶3/65/64/63/5

(5,7)4/64/64/61

{5,9}4/64/64/61

{7,9}4/64/64/61

由min_sup=0.5,min_conf=0.7产生的二项关联规则为/(5)=>7(7);/(5)=>/(9);/(7)=>7(9)

(5)由频繁2-项集得到频繁3-项集L3={{1,5,7},{1,5,9},{1,7,9},{5,7,9}}

(6)计算频繁3•项集的置信度和支持度,得到3项集关联规则:

/(5)=>/(1,7);/(7)=>/(1,5);/(1,5)=>/⑺;/(1,7)nZ(5);Z(5,7)=>/(I);

1(5)=/(i,9);Z(9)=Z(l,5);7(l,5)=Z(9);/(i,9)=Z(5);Z(5,9)=7(1);

7(7)=>/(1,9);7(9)=>Z(l,7);7(l>7)=>Z(9);7(l,9)=>7(7);/(7,9)=>/(I);

/(5)=>7(7,9);Z(7)=>Z(5,9);Z(9)=>/(5,7);/(5,7)=>/(9);/(5,9)=>/(7);

7(7,9)=>/(5)

(7)由频繁3-项集L3得到频繁4-项集L4={157,9},计算4项集的可信度得到4相关联规

则为:

/(5)=>7(1,7,9);7(7)=>7(1,5,9);7(9)=>7(1,5,7);/(1,5)=>7(7,9)

7(1,7)=>/(5,9);/(1,9)=>7(5,7);7(5,7)=>7(1,9);/(5,9)=>7(1,7)

7(7,9)=>7(1,5);/(1,5,7)=/(9);Z(1,5,9)=/(7);/(5,7,9)=Z(l);/(1,7,9)=>7(5)

7.3(1)根据规则,support=200(]/5000=40%,confidence=2000/3000=66.7%o所以该关联规

则是强规则。

)corr{hotdog\hamburger}=P({hotdog,hambuger])/(P({hotdog})P({hambuger}))

=0.4/(0.5x0.6)=1.33>l

所以,买hotdog不是独立于买hamburgers。两者存在正相关关系。

(3)全置信J®=sup(hotdogUhamburgcrs)/max{sup(A),sup(B))=0.4/0.6=0.67

最大置信度=max{confidence(hotdog-*hamburgers),confidence(hamburgers-»holdog)}

=max{0.4/0.6,0.4/0.5}=0.8

Kulc(hotdog,hamburgers)=(0.4/0.6+0.4/0.5)/2=0.73

Cosine(hotdog,hamburgers)=J0.67x0.8=0.732

Lift(holdog,hamburgers)=0.4/(0.6*0.5)=1.33

根据数据显示,hotdog和hamburgers之间存在正相关的关系。

第8章

8.1数据可视化是根据数据的特性,将大型数据以直观、生动、易理解的图形图像方式呈

现给用户便于人们理解数据,有效提高数据分析的效率和效果。

8.2首先用户应该理解数据源及数据,明确数据可视化的目的,需要可视化的数据要呈现

出怎样的效果。其次要进行数据的比较,了解数据所要反映的问题,根据数据特性建立指标,

最后要遵循简单法则,数据可视化的结果一定要以简单直观的方式呈现给用户,并要注重可

视化数据的艺术性,符合审美规则以吸引读者的注意力。

8.3数据可视化可以将大量复杂数据以图形图表的方式展现出来,从而使人们从中获得大

量有价值的信息。

数据可视化可以使人们从海量数据中获取数据之间不同模式或过程的联系与区别。有助

于人们更加方便快捷地深层次的理解数据,提升数据分析效率,改善数据分析效果。

数据可视化能够使人们有效地利用数据,使用更多的数据资源,从中获取更多的有用信

息,提出更好解决方案。

数据可视化可以增强数据对人们的吸引力,极大地提高了人们理解数据知识的效率,增

强独者的阅读兴趣。

8.4数据可视化工具应具有以下特征:

(1)实时简单。能高效地收集和分析数据,并对数据信息进行实时更新,适应于互联网时

代信息多变的特点。

(2)多种数据源:能够方便接入各种系统和数据文件,包括文本文件、数据库及其他外部

文件。

(3)数据处理:具有高效、便捷的数据处理能力。

(4)分析能力:必须具有数据分析能力,用户可以通过数据可视化实现对图表的支持及扩

展性,并在此基础上进行数据的钻取、交互性和高级分析等。

(5)协作能力:应具有可以实现共享数据,协同完成数据分析流程的平台,以便管理者可

以基于该平台沟通问题并做出相应决策。

8.5参考代码:

importinatplotlib.pyplotaspit

name_list=['excellence','good','middle','pass']

num_listl=[4,17,12,2]

num_list2=[2,15,18,l]

x=list(range(len(num_listl)))

total_width,n=0.8,2

width=total_width/n

plt.bar(x,num」isll,width=width,label=rclassr,fc='y')

foriinrange(len(x)):

x[ij=x[i]+width

plt.bar(x,num_list2,width=width,label='class2',tick_label=name_list,fc='r')

plt.legend()

plt.show()

第9章

9.1来源:业务支撑系统、运营支撑系统、管理支撑系统和深度包检测DPI。

业务支撑系统的数据更适合于进行客户画像。

9.2参见9.1.3节。

9.3企业内部应用:网络管理和优化、市场与精准营销、客户关系管理、企业运营管理等。

对外应用:电信运营商将数据封装成服务,向第三方开放数据或提供大数据分析服务。

9.4提示:1、根据MOS的取值为原始数据建立新标签,将回归问题转化为二分类问题;

2、使用sklearn提供的RandomForestClassifier。类建立模型。

9.5提示:使用skleam.metrics库中提供的calinski_harabaz_score()函数进行计算。

k取9时CH值最大,表明此时聚类效果较好。

9.6提示:skleam提供了DBSCAN类、BIRCH类和AgglomerativeClustering类。以BIRCH

类为例,它的定义如下:

classskleam.cluster.Birch(*threshold=0.5,branching_factor=50,n_clusters=3,

compute_labels=True,copy=True)

参数threshold:存放在叶子节点中的子簇的最大半径

branching_factor:非叶节点拥有的最大子节点数

注意:BIRCH算法的性能受到threshold、branching_factor和n_clusters三个参数的影响,训

练模型时,需要搜索最优参数组合。

9.7参考代码

#利用手肘法确定最佳聚类数

SSE=[1#存放每次结果的误差平方和

SSE_dl=[]柢se的一阶导数

SSE_d2=[]#Sse的二阶导数

models=\\#保存每次的模型

forkinrange(2,9):

estimator=KMeans(n_clusters=k,random_state=10)#构造聚类器

estimator.fit(data_PCA)

SSE.append(estimator.inertia_)

models.append(estimator)

#画出k与SSE的关系图

X=range(2,9)

plt.xlabcl('k')

plt.ylabeK'SSE')

plt.plot(X,SSE,'o-')

plt.show()

#求二阶导数,通过SSE方法计算最佳k值

SSE_lcngth=lcn(SSE)

foriinrange(1,SSE_Ienglh):

SSE_dl.appcnd((SSE[i-1]-SSE[i])/2)

foriinrange(1Tlen(SSE_d1)-1):

SSE_d2.append((SSE_dl[i-1]-SSE_dl[i])/2)

最佳分簇数:4

9.8分析客户流失原因、建立客户流失预测模型、制定客户挽留策略。

9.9提示:导入机器学习库sklcarn中的决策树tree包,调用DecisionTreeClassifier。方法构

造决策树模型,并用数据集中的全部特征(除去customerlD)训练模型,最后通过

feature」mportances_属性观察特征重要性排序,结果如下图所示。

1)Totalcharges0.199292

2)Monthlycharges0.191795

3)Contract_Month-to-month0.164864

4)tenure0.118317

5)InternetService_Fiberoptic0.049027

6)gender0.024013

7)Dependents0.019844

8)PaperlessBilling0.019484

9)PaynnentMethod_E1ectroniccheck0.019203

10)TechSupport0.018324

11)OnlineBackup0.017889

12)OnlineSecurity0.017190

13)PaymentMethod_Mailedcheck0.016362

14)Partner0.016203

15)SeniorCitizen0.015962

16)DeviceProtection0.015816

17)MultipleLines0.014497

18)StreamingMovies0.013358

19)PaymentMethod_Banktransfer(automatic)0.012451

20)PayTnentMethod_Creditcard(automatic)0.010442

21)StreamingTV0.009290

22)InternetService_No0.008215

23)Contract_Oneyear0.004436

24)PhoneService0.003555

25)InternetService_DSL0.000169

26)Contract_Twoyear0.000000

9.10提示:PCA处理过程可参考9.4节。

第10章

10.1准确率=(50+222)/(50+8+32+222)=272/312=87%

精确率=50/82=61%

召回率=50/58=86%

=2x61%x86%rw

E=----------

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论