基于R语言数据挖掘课程期末论文_第1页
基于R语言数据挖掘课程期末论文_第2页
基于R语言数据挖掘课程期末论文_第3页
基于R语言数据挖掘课程期末论文_第4页
基于R语言数据挖掘课程期末论文_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术与实验课程论文数据挖掘技术与实验课程论文题目 全国近20年来人口增长原因分析数据挖掘技术与实验课程论文数据挖掘技术与实验课程论文摘 要的增长产生显著影响。R软件是一种开源的免费数据分析软件,功能强大,是数据分析工作者的首选软件之一。关键词:R语言;多元线性回归分析;方差分析。目 录引言 1选题的背景和意义 1研究方法与思路 1正文 2前言 2数据分析 2数据预处理 2回归分析 4方差分析 8结论 13参考文献 13数据挖掘技术与实验课程论文数据挖掘技术与实验课程论文II引言选题的背景和意义二孩政策,是中国实行的一种计划生育政策,规定符合条件的夫妇允许生育“二胎”。因为是二孩政策,故第一胎为多孩时,不可生第二胎。201111;20131210在经历了迅速从高生育率到低生育率的转变之后,我国人口的主要矛盾已经不再是增长过快,而是人口红利消失、临近超低生育率水平、人口老龄化、出生性别比失调等问题。国内20多位顶尖人口学者历经两年的研究指出,我国的人口政策亟待转向,尤其是生育政策应该调整。研究方法与思路人数和医疗发展程度有关。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。所以可以采用方差分析,得到所有因素中影响程度最大的那一个。正文前言2015-2014(万人(万对(万元(万人医院数(个)R数据处理年份人口总数 年份人口总数 婚姻登记居民消费水平参加生育保险医院数(个)(万人)(万对)(元)人数(万人)1995年121121934.123301500.2156631996年122389938.727652015.6158331997年123626914.129782485.9159441998年124761891.731262776.7160011999年125786885.333462929.8166782000年126743848.537213001.6163182001年12762780539873455.1161972002年12845378643013488.2178442003年129227811.446063655.4177642004年129988867.251384383.8183932005年130756823.157715408.5187032006年13144894564166458.9192462007年132129991.475727775.3198522008年1328021098.387079254.1197122009年1334501212.4951410875.7202912010年13409112411091912335.9209182011年1347351302.361313413892219792012年1354041323.591469915428.7231702013年1360721346.931619016392247092014年1367821306.741777817038.725860txtR(万对居民消费水平(万元),参加生育保险人数(万人),医院数(个)”依次命名为X1、X2、X3、X4,把“人口总数(万人)”,Y。在R软件内打开txt:人口增长<-read.table(file="人口增长.txt",header=T,sep="")人口增长年份 Y X1 X2 X3 X41 1995年121121 934.10 2330 1500.22 1996年122389 938.70 2765 2015.6158333 1997年123626 914.10 2978 2485.9159444 1998年124761 891.70 3126 2776.7160015 1999年125786 885.30 3346 2929.8166786 2000年126743 848.50 3721 3001.6163187 2001年127627 805.00 3987 3455.1161978 2002年128453 786.00 4301 3488.2178449 2003年129227 811.40 4606 3655.417764102004年129988 867.20 5138 4383.818393112005年130756 823.10 5771 5408.518703122006年131448 945.00 6416 6458.919246数据挖掘技术与实验课程论文132007年132129 991.40 7572 7775.319852142008年1328021098.30 8707 9254.119712152009年1334501212.40 951410875.720291162010年1340911241.001091912335.920918172011年1347351302.361313413892.021979182012年1354041323.591469915428.723170192013年1360721346.931619016392.024709202014年1367821306.741777817038.725860回归分析绘制散点图先利用pairs函数,绘制如图1-1所示的矩阵散点图。pairs(~Y+X1+X2+X3+X4,data=人口增长,main="人口增长相关矩阵散点图")IV数据挖掘技术与实验课程论文数据挖掘技术与实验课程论文PAGE\*ROMANPAGE\*ROMANV(万人归模型进行回归。建立回归模型建立回归模型为Y0

X11

X2

X33

X。4 4。Rlm语句:Fit<-lm(Y~X1+X2+X3+X4,data=人口增长)coefficients(Fit)(Intercept)X1X2X3X4130652.757898-24.032044-2.2838413.2472610.886581说明建立的线性回归方程为:Y130652.75824.032X2.284X3.247X0.887X1 2 3 4参数检验查看人流量Y线性回归方程的参数检验结果:Call:lm(formula=Y~X1+X2+X3+X4,data=人口增长)Residuals:Median3QMax-201.8Median3QMax-201.8458.61368.0-1080.5 -477.6Coefficients:EstimateStd.ErrortvaluePr(>|t|)数据挖掘技术与实验课程论文数据挖掘技术与实验课程论文I(Intercept)1.307e+057.716e+0316.9333.47e-11***X1-2.403e+013.216e+00-7.4721.97e-06***X2-2.284e+004.293e-01-5.3198.58e-05***X33.247e+003.435e-019.4541.04e-07***X48.866e-014.180e-012.1210.051.Signif.codes: 0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’Residualstandarderror:731.9on15degreesoffreedomMultipleR-squared: 0.9809, AdjustedR-squared: 0.9757F-statistic:192.1on4and15DF,p-value:1.09e-12192.1,概率p1.09e-12水平α0.05,pα,拒绝原假设,选择线性模型合理。X4t0.051,t统计量的标准误(分母)为2.121X4后重新建模。Fit<-lm(Y~X1+X2+X3,data=人口增长)Call:lm(formula=Y~X1+X2+X3,data=人口增长)Residuals:Min 1Q Median 3Q Max-1135.05 -490.66 -80.94 465.84 1797.51Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)1.464e+052.365e+0361.902<2e-16***X1-2.786e+012.937e+00-9.4865.70e-08***X2-1.678e+003.539e-01-4.7420.000221***X33.330e+003.767e-018.8401.48e-07***Signif.codes: 0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’Residualstandarderror:807.9on16degreesoffreedomMultipleR-squared: 0.9751, AdjustedR-squared: 0.9704F-statistic: 209on3and16DF, p-value:4.859e-13coefficients(Fit)(Intercept)X1X2X3146375.839081-27.863955-1.6779833.330386现在回归方程的显著性检验和回归系数的显著性检验均通过,所以该模型可用。这是个三元线性回归方程,方程表达式为:Y146375.83927.864X1.678X3.330X1 2 3小结(万个(万对(万元),参加生育保险人数(万人),医院数(个)”有一定关系。方差分析X1Yaov(Y~X1,dataCall:aov(formula=Y~X1,data=人口增长)Terms:X1ResidualsSumofSquares 232695651186969574Deg.ofFreedom 1 18Residualstandarderror:3222.918Estimatedeffectsmaybeunbalanced1<-aov(Y~X1,data=人口增长)anova1)AnalysisofVarianceTableResponse:YDfSumSqMeanSqFvaluePr(>F)X11232695651232695651 22.4020.000166***Residuals1818696957410387199Signif.codes: 0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1数据挖掘技术与实验课程论文数据挖掘技术与实验课程论文PAGE\*ROMANPAGE\*ROMANXX1232695651,186969574,11910387199。F22.402,p0.000166α0.05,则因概率p小于α,拒绝原假设,即认为不同年份的婚姻登记(万对)口总数具有影响。X2Yaov(Y~X2,dataCall:aov(formula=Y~X2,data=人口增长)Terms:X2ResidualsSumofSquares 340784192 Deg.ofFreedom 1 18Residualstandarderror:2093.389Estimatedeffectsmaybeunbalanced2<-aov(Y~X2,data=人口增长)anova2)AnalysisofVarianceTableResponse:YDf SumSq MeanSqFvalue Pr(>F)X2 1340784192340784192 77.7645.96e-08***Residuals18 78881033 4382280Signif.codes: 0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1X2340784192,78881033,1184382280。F77.764,p5.96e-08α为0.05,则因概率p小于α,拒绝原假设,即认为不同年份的居民消费水平(万元)对人口总数具有影响。X3Yaov(Y~X3,dataCall:aov(formula=Y~X3,data=人口增长)Terms:X3ResidualsSumofSquares 349641867 Deg.ofFreedom 1 18Residualstandarderror:1972.356Estimatedeffectsmaybeunbalanced3<-aov(Y~X3,data=人口增长)数据挖掘技术与实验课程论文数据挖掘技术与实验课程论文Ianova3)AnalysisofVarianceTableResponse:YDfSumSqMeanSqFvalue Pr(>F)X31349641867349641867 89.8782.017e-08***Residuals18700233583890187Signif.codes: 0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1X3349641867,70023358,1183890187。F89.878,p2.017e-08。若显著性水平αp(人)对人口总数具有影响。X4Yaov(Y~X4,dataCall:aov(formula=Y~X4,data=人口增长)Terms:X4ResidualsSumofSqu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论