版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第4章Python应用:居民消费支出影响因素分析核心知识包括:相关分析;一元线性回归、多元线性回归;变量筛选、逐步回归、残差分析、残差图;居民消费支出影响因素回归分析。CONTENTS目录4.1 一元线性回归4.2 多元线性回归4.3 应用实例——居民消费支出影响因素分析4.3.1 准备工作4.3.2 一元线性回归分析4.3.3
多元线性回归分析4.3.4
逐步回归分析4.3.5
残差图回归分析(regressionanalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。01PARTONE4.1 一元线性回归4.1 一元线性回归一元线性回归也称为简单线性回归,模型中只有一个自变量和一个因变量,且二者的关系可用一条直线近似表示。主要有两个目标:一是检验自变量在解释因变量时的显著性;二是给定自变量,预测因变量。其数学公式可表示为:其中,
表示因变量,
表示截距,
表示回归系数,
表示自变量,
表示扰动项。扰动项
一般假设服从均值为0的正态分布。4.1 一元线性回归一元线性回归的原理就是拟合一条直线,使实际值与预测值之差(即残差)的平方和最小。即:其中,
表示线性回归的预测值,
表示实际值。通过最小二乘法可得:4.1 一元线性回归线性回归拟合优度指标:
越大,模型拟合效果越好。需要检验回归系数是否为0,不为0则为显著。设原假设:
;备择假设:
。统计量:02PARTTWO4.2 多元线性回归4.2 多元线性回归其中,
是因变量,
是自变量,
代表偏回归系数,
是随机误差项,令
,
,上式记为:由最小二乘法,目标是使残差最小。
,
求解得。使用调整后的评价回归的优劣程度,即:当有截距项时,
等于1,反之等于0;
为用于拟合该模型的观察值数量;
为模型中参数的个数。还可以使用AIC、BIC、P值等进行评价。4.2 多元线性回归需要检验:(1)偏回归系数是否为0,不为0则为显著。原假设:
;备择假设:
。(2)回归系数是否全部为0。原假设:
;备择假设:回归系数不都为0。统计量服从F分布:
,其中
表示可解释的变异,
表示不可解释的变异。03PARTTHREE4.3 案例分析4.3
案例分析数据来源于2021年《中国统计年鉴》,数据以居民的消费性支出为因变量y,其他11个变量为自变量;其中x1是居民的食品花费,x2是衣着花费,x3是居住花费,x4是生活用品及服务花费,x5是交通通信花费,x6是医疗保健花费,x7是文教娱乐花费,x8是职工平均工资,x9是地区的人均GDP,x10是地区的消费价格指数,x11是地区的失业率。在这所有变量里面,x1至x9以及y的单位是元,x11是百分数,x10没有单位,因为其是消费价格指数。部分数据如右图:020304054.3 案例分析4.3.2 一元线性回归分析4.3.3 多元线性回归分析4.3.4 逐步回归分析4.3.5 残差图014.3.1 准备工作4.3 案例分析4.3.1 准备工作首先引入所需要的包:导入数据:描述性分析:结果分析:
y
x1
...
x10
x11count31.000000
31.000000...
31.000000
31.000000mean26080.7612907634.019355...102.3838713.290323std
6043.744309
1519.588470...0.467687
0.580434min
20331.9000005304.400000...101.500000
2.10000025%22530.9000006629.500000...102.150000
2.80000050%24315.2000007194.300000...102.300000
3.30000075%27043.7500008689.400000...102.650000
3.650000max44839.300000
11515.100000...103.6000004.600000importmatplotlib.pyplotaspltimportnumpyasnpimportpandasaspdimportstatsmodels.apiassmfromstatsmodels.formula.apiimportolsfilename=r'C:\Users\LENOVO\Desktop\Linear1.xlsx'data=pd.read_excel(filename)print(data.describe(include='all'))比如,居民消费支出y的均值为26080.76,标准差为6043.74,最小值为20331.9,最大值为44839.3,25%分位数为22530.9,50%分位数为24315.2,75%分位数为27043.75。其他变量以此类推。4.3 案例分析4.3.1 准备工作相关性分析:结果分析:yx1x2...x9x10x11y1.0000000.8238980.275984...0.919567-0.348950-0.096938x10.8238981.0000000.034571...0.694428-0.211025-0.088251x20.2759840.0345711.000000...0.235787-0.3452550.133188x30.9572150.7127480.190224...0.933721-0.360224-0.138964x40.8353290.6521910.556369...0.725616-0.271996-0.105099x50.7746990.6855570.374215...0.622800-0.233168-0.138018x60.5361140.1174510.273621...0.564891-0.3043130.100871x70.7379270.5425160.071798...0.635152-0.0923470.000065x80.8684990.6565530.296088...0.828843-0.401231-0.144377x90.9195670.6944280.235787...1.000000-0.344101-0.017143x10-0.348950-0.211025-0.345255...-0.3441011.0000000.020281x11-0.096938-0.0882510.133188...-0.0171430.0202811.000000可以看到,跟因变量y相关性比较高的自变量有x1,x3,x8,x9等。corr1=data[['y','x1','x2','x3','x4','x5','x6','x7','x8','x9','x10','x11']].corr(method='pearson')print(corr1)4.3 案例分析4.3.2 一元线性回归选取因变量居民消费性支出(y)与自变量人均GDP(x9)做一元线性回归:结果分析:可以看出,回归系数0.1774,显著;截距1.352e+04,显著。回归方程如下:即人均GDP每增加1个单位,居民消费支出y增加0.1774单位。模型的summary会输出三个表格展示模型概况,包括基本信息、回归系数及显著性、其他模型诊断信息。模型
为0.846,调整
为0.84,F值为158.8,显著。对数似然值为-284.43,AIC和BIC值分别为572.9、575.7。D-W值为2.539,接近2,可以认为模型基本满足不存在残差自相关的条件。其他单变量回归可以类似分析。
OLSRegressionResults=================================================Dep.Variable:yR-squared:0.846Model:OLSAdj.R-squared:0.840Method:LeastSquaresF-statistic:158.8Date:Sat,08Oct2022Prob(F-statistic):2.73e-13Time:14:22:27Log-Likelihood:-284.43No.Observations:31AIC:572.9DfResiduals:29BIC:575.7DfModel:1CovarianceType:nonrobust=================================================
coef
stderr
t
P>|t|
[0.0250.975]------------------------------------------------------------------------------Intercept1.352e+041086.83312.4420.000
1.13e+041.57e+04x9
0.1774
0.014
12.6030.0000.149
0.206
===============================================Omnibus:1.359
Durbin-Watson:2.539Prob(Omnibus):0.507
Jarque-Bera(JB):1.282Skew:
0.439
Prob(JB):
0.527Kurtosis:
2.529
Cond.No.
1.93e+05================================================filename=r'C:\Users\LENOVO\Desktop\Linear1.xlsx'data=pd.read_excel(filename)result1=ols('y~x9',data=data).fit()#模型拟合print(result1.summary())#模型描述4.3 案例分析4.3.2 一元线性回归接下来进行y和x7的一元线性回归:结果分析:
OLSRegressionResults==================================================Dep.Variable:yR-squared:0.545Model:OLSAdj.R-squared:0.529Method:LeastSquaresF-statistic:34.67Date:Sat,08Oct2022Prob(F-statistic):2.17e-06Time:14:22:27Log-Likelihood:-301.20No.Observations:31AIC:606.4DfResiduals:29BIC:609.3DfModel:1CovarianceType:nonrobust==================================================coefstderrtP>|t|[0.0250.975]------------------------------------------------------------------------------Intercept6709.44123373.1571.9890.056-189.4391.36e+04x77.97961.3555.8880.0005.20810.751==================================================Omnibus:8.814Durbin-Watson:1.834Prob(Omnibus):0.012Jarque-Bera(JB):7.315Skew:1.107Prob(JB):0.0258Kurtosis:3.875Cond.No.1.13e+04==================================================filename=r'C:\Users\LENOVO\Desktop\Linear1.xlsx'data=pd.read_excel(filename)result2=ols('y~x7',data=data).fit()#模型拟合print(result2.summary())#模型描述4.3 案例分析4.3.3 多元线性回归接下来对所有变量做多元线性回归,先导入数据并显示数据:结果分析:yx1x2x3x4...x8x9x10x11041726.38751.41924.017163.12306.7...178178164889101.72.6130894.79122.21860.47770.01804.1...114682101614102.03.6223167.46234.61667.45996.01540.6...7732348564102.13.5320331.95304.41671.04452.31149.4...7473950528102.93.1423887.76690.62123.55149.31472.9...8531072062101.93.8filename=r'C:\Users\LENOVO\Desktop\Linear1.xlsx'data=pd.read_excel(filename)print(data.head())4.3 案例分析4.3.3 多元线性回归建立多元线性回归模型:结果分析:OLSRegressionResults==============================================Dep.Variable:y
R-squared:1.000Model:OLS
Adj.R-squared:1.000Method:LeastSquare
sF-statistic:
1.448e+04Date:
Sat,08Oct2022Prob(F-statistic):7.82e-35Time:
14:22:27
Log-Likelihood:-173.36No.Observations:31
AIC:370.7DfResiduals:
19
BIC:387.9DfModel:
11CovarianceType:nonrobust==============================================
coefstderrtP>|t|[0.0250.975]------------------------------------------------------------------------------Intercept1719.94124006.3550.4290.673-6665.4571.01e+04x11.06250.02249.2740.0001.0171.108x21.16780.09012.9790.0000.9791.356x31.03280.01856.3660.0000.9941.071x40.96820.1257.7600.0000.7071.229x51.05770.03927.2040.0000.9761.139x61.18300.05322.4170.0001.0731.293x70.97520.05617.3920.0000.8581.093x8-0.00280.002-1.5800.131-0.0070.001x9-0.00190.001-1.2640.222-0.0050.001x10-22.920938.627-0.5930.560-103.76757.926x1159.446730.2761.9640.064-3.921122.815==================================================Omnibus:5.470Durbin-Watson:2.377Prob(Omnibus):0.065Jarque-Bera(JB):3.862Skew:0.798Prob(JB):0.145Kurtosis:3.664Cond.No.3.34e+07==============================================可以看到,调整为1,通过了F检验,D-W值为2.377。result3=ols('y~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11',data=data).fit()#模型拟合print(result3.summary())#模型描述4.3 案例分析4.3.4 逐步回归
file=r'C:\Users\LENOVO\Desktop\Linear1.xlsx'data=pd.read_excel(file)data.columns=['y','x1','x2','x3','x4','x5','x6','x7','x8','x9','x10','x11']deflooper(limit):cols=['x1','x2','x3','x4','x5','x6','x7','x8','x9','x10','x11']foriinrange(len(cols)):data1=data[cols]x=sm.add_constant(data1)#生成自变量y=data['y']#生成因变量model=sm.OLS(y,x)#生成模型result=model.fit()#模型拟合pvalues=result.pvalues#得到结果中所有P值pvalues.drop('const',inplace=True)#把const取得pmax=max(pvalues)#选出最大的P值ifpmax>limit:ind=pvalues.idxmax()#找出最大P值的indexcols.remove(ind)#把这个index从cols中删除else:returnresultresult=looper(0.05)print(result.summary())注意x1到x11这11个变量被看作是一个整体,y与这个整体有显著的线性关系,但不代表y与其中的每个自变量都有显著的线性关系,我们在这里要找出那些与y的线性关系不显著的自变量,然后把它们剔除,只留下关系显著的。代码如下:4.3 案例分析4.3.4 逐步回归
defforward_select(data,response):remaining=set(data.columns)remaining.remove(response)selected=[]current_score,best_new_score=float('inf'),float('inf')whileremaining:aic_with_candidates=[]forcandidateinremaining:formula="{}~{}".format(response,'+'.join(selected+[candidate]))aic=ols(formula=formula,data=data).fit().aicaic_with_candidates.append((aic,candidate))aic_with_candidates.sort(reverse=True)best_new_score,best_candidate=aic_with_candidates.pop()ifcurrent_score>best_new_score:remaining.remove(best_candidate)selected.append(best_candidate)current_score=best_new_scoreprint('aicis{},continuing!'.format(current_score))else:print('forwardselectionover!')breakformula="{}~{}".format(response,'+'.join(selected))print('finalformulais{}'.format(formula))model=ols(formula=formula,data=data).fit()return(model)candidates=['y',"x1",'x2','x3','x4','x5','x6','x7','x8','x9','x10','x11']data_for_select=data[candidates]lm_m=forward_select(data=data_for_select,response='y')print(lm_m.summary())也可以选择AIC作为决策的标准,采用向前逐步回归法,代码如下:4.3 案例分析4.3.4 逐步回归筛选变量以后回归结果如下:OLSRegressionResults==============================================Dep.Variable:y
R-squared:1.000Model:OLS
Adj.R-squared:1.000Method:LeastSquares
F-statistic:
2.027e+04Date:
Sat,08Oct2022Prob(F-statistic):4.95e-42Time:15:29:49
Log-Likelihood:-178.11No.Observations:31
AIC:372.2DfResiduals:23
BIC:383.7DfModel:7CovarianceType:nonrobust==============================================
调整为1;通过了F检验,方程显著(回归系数不全为0),说明回归方程有意义;D-W值为2.32,接近2,说明模型不存在残差自相关。回归方程中与因变量y线性相关程度比较高的自变量x9被删除,其原因可能是x9与其他自变量存在严重的多重共线性。coefstderrtP>|t|[0.0250.975]------------------------------------------------------------------------------const-583.9531169.978-3.4350.002-935.580-232.327x11.06600.02150.5010.0001.0221.110x21.24680.08414.8310.0001.0731.421x31.00190.010101.3350.0000.9811.022x40.84290.1207.0440.0000.5951.090x51.02580.03926.4560.0000.9461.106x61.15590.04724.4490.0001.0581.254x71.04220.04722.3610.0000.9461.139==================================================Omnibus:11.136Durbin-Watson:2.320Prob(Omnibus):0.004Jarque-Bera(JB):10.405Skew:1.113Prob(JB):0.00550Kurtosis:4.761Cond.No.1.26e+05==================================================可以看出,不显著的变量已经被自动删除了,回归方程为:4.3 案例分析4.3.5 残差图生成的模型可以使用predict产生预测值,而resid可以保留残差:结果如下:
predict
resid041776.005425-49.705425130787.885536106.814464223188.720479-21.320479320355.404636-23.504636423959.986545-72.286545
DD=pd.DataFrame([lm_m.predict(data),lm_m.resid],index=['predict','resid']).T.head()print(DD)接下来我们观察残差图,以一元线性回归y~x9为例。importmatplotlib.pyplotaspltdata['Pred']=result1.predict(data)data['resid']=result1.residdata.plot('y','resid',kind='scatter')plt.show()4.3 案例分析4.3.5 残差图对被解释变量y取对数并重新建模,其散点图如下:结果如下:
DD=pd.DataFrame([lm_m.predict(data),lm_m.resid],index=['predict','resid']).T.head()print(DD)对被解释变量x9和解释变量y都取对数并重新建模,其散点图如下:model=ols('lny~lnx7',data=data)#生成模型result5=model.fit()#模型拟合data['Pred']=result5.predict(data)data['resid']=result5.residdata.plot('lny','resid',kind='scatter')plt.show()4.3 案例分析4.3.5 残差图可以比较下三种情况下的
:结果如下:{'y~x9':0.8456028043426387,'lny~x9':0.8202961716821042,'lny~lnx9':0.7793736482095444}r_sq={'y~x9':result1.rsquared,'lny~x9':result4.rsquared,'lny~lnx9':result5.rsquared}print(r_sq)感谢观看第5章Python应用:贷款违约预测核心知识包括:单变量Logistic回归、多变量Logistic回归;变量筛选、逐步Logistic回归;决策树建树、剪树、Quinlan系列决策树和CART决策树;ID3算法及C4.5算法;决策树可视化;贷款违约预测Logistic模型、违约概率;贷款违约预测决策树模型。CONTENTS目录5.1 Logistic回归5.1.1 Logistic函数5.1.2 Logistic回归模型5.1.3 应用Logistic模型预测银行贷款违约5.2 决策树5.2.1 信息增益5.2.2 信息增益率5.2.3 基尼指数5.2.4 决策树的剪枝5.2.5 应用决策树建模预测银行贷款违约贷款违约预测是风险管理领域常见的问题之一,因变量取违约或者不违约,适合用Logistic回归或者决策树方法处理。logistic回归是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。决策树是一种机器学习的方法,是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,生成算法有ID3,C4.5和C5.0等。01PARTONE5.1 Logistic回归Logistic回归属于概率型非线性回归,分为二分类和多分类的回归模型。对于二分类的Logistic回归,因变量只有“是、否”两个取值,记为1和0。假设当自变量为
,
取“是”的概率为
,则取“否”的概率为
。0102035.1 Logistic回归5.1.1 Logistic函数5.1.2 Logistic回归模型5.1.3 应用Logistic模型预测银行贷款违约5.1.1 Logistic函数Logistic回归中因变量取值只有1-0(是或否、发生或不发生)。假设自变量
作用下,记
取1的概率是
,取0概率是
。取1和0的概率之比为
,称为事件的优势比(odds),对odds取自然对数即得Logistic变换:令
,则
即为Logistic函数。当
在(0,1)之间变化时,odds的取值范围是
,则
的取值范围是
。5.1.2 Logistic回归模型模型为:因为
的取值范围是
,因此自变量
可在任意范围内取值。记
,得到:其中
:在没有自变量,即
全部取0,
与
发生概率之比的自然对数;
:某自变量
变化时,即
与
相比,
优势比的对数值。5.1.3
案例分析以下是一份银行贷款违约数据(截取部分),拟使用Logistic模型预测银行贷款违约情况;其中因变量y代表是否违约,是个二分变量,取值为1表示违约,0表示不违约。自变量分别为:x1表示贷款人年龄;x2表示教育水平;x3表示工龄;x4表示贷款人地址;x5表示收入;x6表示负债率;x7表示信用卡负债;x8表示其他负债。5.1.3 案例分析1.准备工作首先引入所需要的包:导入数据:将数据集随机划分为训练集合测试集,其中训练集用于模型的训练,测试集用于检验模型:结果分析:
训练集样本量:560测试集样本量:140随机抽样设置的训练集与测试集样本大致比例为8:2。importnumpyasnpimportpandasaspdimportstatsmodels.apiassmimportstatsmodels.formula.apiassmffilename=r'C:\Users\LENOVO\Desktop\example\Linear22.xlsx'data=pd.read_excel(filename)print(data.head())train=data.sample(frac=0.8,random_state=12345).copy()test=data[~data.index.isin(train.index)].copy()print('训练集样本量:%i\n测试集样本量:%i'%(len(train),len(test)))5.1.3 案例分析2.
单变量Logistic回归我们首先使用单自变量建立一元Logistic模型,代码如下:结果分析:可以看到,当仅使用x6进行Logistic回归时,使用summary可以查看模型的基本信息、参数估计及检验。可以看到x6的系数为0.1310,P值显著。回归方程为:其中x6代表负债率,代表违约概率。(2)式除以(1)式,
即,负债率越高,每增加一个单位后的违约发生比是原违约发生比的1.14倍。其他的单变量也可以类似分析。GeneralizedLinearModelRegressionResults==================================================Dep.Variable:yNo.Observations:560Model:GLMDfResiduals:558ModelFamily:BinomialDfModel:1LinkFunction:logitScale:1.0000Method:IRLSLog-Likelihood:-282.51Date:Wed,30Jun2021Deviance:565.03Time:21:57:20Pearsonchi2:555.No.Iterations:4CovarianceType:nonrobust==================================================coefstderrzP>|z|[0.0250.975]------------------------------------------------------------------------------Intercept-2.50850.216-11.6030.000-2.932-2.085x60.13100.0168.3450.0000.1000.162==================================================formula='''y~x6'''lg=smf.glm(formula=formula,data=train,family=sm.families.Binomial(sm.families.links.logit)).fit()print(lg.summary())5.1.3 案例分析3.
多变量Logistic回归接下来考虑引入全部自变量的多元Logistic回归:结果分析:可以看到,x3,x4,x6,x7比较显著,而其他变量不显著。可以删除不显著的变量。也可以使用变量筛选方法:向前法、向后法或逐步法。筛选的原则一般选择AIC、BIC或者P值。GeneralizedLinearModelRegressionResults==================================================Dep.Variable:yNo.Observations:560Model:GLMDfResiduals:551ModelFamily:BinomialDfModel:8LinkFunction:logitScale:1.0000Method:IRLSLog-Likelihood:-227.13Date:Thu,01Jul2021Deviance:454.27Time:15:25:37Pearsonchi2:559.No.Iterations:6CovarianceType:nonrobust==================================================coefstderrzP>|z|[0.0250.975]------------------------------------------------------------------------------Intercept-1.25290.686-1.8260.068-2.5970.092x10.01380.0200.7010.483-0.0250.053x20.14420.1341.0740.283-0.1190.407x3-0.22870.035-6.4530.000-0.298-0.159x4-0.08780.025-3.4530.001-0.138-0.038x5-0.00650.008-0.8070.420-0.0220.009x60.07260.0322.2480.0250.0090.136x70.55070.1174.7110.0000.3220.780x80.05340.0790.6790.497-0.1010.207==================================================formula='''y~x1+x2+x3+x4+x5+x6+x7+x8'''lg_m=smf.glm(formula=formula,data=train,family=sm.families.Binomial(sm.families.links.logit)).fit()print(lg_m.summary())5.1.3 案例分析4.
逐步回归下面使用向前法进行逐步回归,代码如右:defforward_select(data,response):remaining=set(data.columns)remaining.remove(response)selected=[]current_score,best_new_score=float('inf'),float('inf')whileremaining:aic_with_candidates=[]forcandidateinremaining:formula="{}~{}".format(response,'+'.join(selected+[candidate]))aic=smf.glm(formula=formula,data=data,family=sm.families.Binomial(sm.families.links.logit)).fit().aicaic_with_candidates.append((aic,candidate))aic_with_candidates.sort(reverse=True)best_new_score,best_candidate=aic_with_candidates.pop()ifcurrent_score>best_new_score:remaining.remove(best_candidate)selected.append(best_candidate)current_score=best_new_scoreprint('aicis{},continuing!'.format(current_score))else:print('forwardselectionover!')breakformula="{}~{}".format(response,'+'.join(selected))print('finalformulais{}'.format(formula))model=smf.glm(formula=formula,data=data,family=sm.families.Binomial(sm.families.links.logit)).fit()return(model)candidates=['y',"x1",'x2','x3','x4','x5','x6','x7','x8']data_for_select=train[candidates]lg_m1=forward_select(data=data_for_select,response='y')print(lg_m1.summary())5.1.3 案例分析4.
逐步回归结果分析:aicis569.0270696141556,continuing!aicis520.5990422729102,continuing!aicis478.56644475676023,continuing!aicis466.5141907846284,continuing!forwardselectionover!finalformulaisy~x6+x3+x7+x4可以看到,不显著的变量已经被自动删除了。变量筛选有时候还需要结合对业务的理解。对于回归方程及系数的解释,类似于一元Logistic回归。GeneralizedLinearModelRegressionResults===========================================Dep.Variable:yNo.Observations:560Model:GLMDfResiduals:555ModelFamily:BinomialDfModel:4LinkFunction:logitScale:1.0000Method:IRLSLog-Likelihood:228.26Date:Thu,01Jul2021Deviance:456.51Time:15:22:15Pearsonchi2:536.No.Iterations:6CovarianceType:nonrobust===========================================coefstderrzP>|z|[0.0250.975]-------------------------------------------------------------------------Intercept-0.84710.275-3.0820.002-1.386-0.308x60.08840.0204.3330.0000.0480.128x3-0.22700.031-7.3820.000-0.287-0.167x70.52500.0915.7520.0000.3460.704x4-0.07690.021-3.5790.000-0.119-0.035-------------------------------------------------------------------------5.1.3 案例分析5.
模型判断接下来,可以预测,输出违约概率:结果分析:50.221121230.114302290.496134320.282920340.079916Name:proba,dtype:float64。train['proba']=lg_m1.predict(train)test['proba']=lg_m1.predict(test)print(test['proba'].head())计算模型的准确性如下:test['prediction']=(test['proba']>0.5).astype('int')acc=sum(test['prediction']==test['y'])/np.float(len(test))print('Theaccurancyis%.2f'%acc)结果如下:Theaccurancyis0.83。02PARTTWO5.2 决策树决策树属于经典的十大数据挖掘算法之一,利用像树一样的图形或决策模型来辅助决策,可以用于数值型因变量的预测和离散型因变量的分类,在分类、预测、规则提取等领域有广泛应用。决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国奶嘴夹市场调查研究报告
- 2025年中国前防尘盖市场调查研究报告
- 广州广东广州海洋地质调查局招聘交流选调人员笔试历年参考题库附带答案详解
- 2025至2031年中国脱水提升机行业投资前景及策略咨询研究报告
- 2025年测油液位计项目可行性研究报告
- 2025至2031年中国柠檬梅行业投资前景及策略咨询研究报告
- 2025年家用迷你型数字电视机顶盒项目可行性研究报告
- 2025至2031年中国光电缆附件行业投资前景及策略咨询研究报告
- 2025年全面双丝光针织面料项目可行性研究报告
- 2025年不锈钢不粘锅项目可行性研究报告
- 多源数据整合
- 新人教版高中数学必修第二册第六章平面向量及其应用教案 (一)
- 《预防流感》主题班会教案3篇
- 校园招聘活动策划方案(6篇)
- 期末 (试题) -2024-2025学年教科版(广州)英语四年级上册
- 解读国有企业管理人员处分条例课件
- 湖南省长沙市一中2024-2025学年高一生物上学期期末考试试题含解析
- 小孩使用手机协议书范本
- 榆神矿区郭家滩煤矿(700 万吨-年)项目环评
- 2024年200MW-400MWh电化学储能电站设计方案
- 余土外运施工方案
评论
0/150
提交评论