数据挖掘r语言知识学习归纳报告_第1页
数据挖掘r语言知识学习归纳报告_第2页
数据挖掘r语言知识学习归纳报告_第3页
数据挖掘r语言知识学习归纳报告_第4页
数据挖掘r语言知识学习归纳报告_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘r语言知识学习概括报告数据挖掘r语言知识学习概括报告26/26数据挖掘r语言知识学习概括报告.成绩:总结报告课程名称:数据挖掘R语言任课教师:姓名:专业:计算机科学与技术班级:学号:.计算机科学与技术学院2018年6月19日一、数据预办理针对不同解析目标,选择合适的字段,并将字段值办理成适于解析的形式。必要时还需对原数据集进行统计变换后形成易于解析的形式。为每条数据增添字段:所属地域。根据下列图中区分的美国四大地域,将每条数据中表示的案件发生地在该字段上区分为东北部、中西部、南部和西部四个值。首先导入数据:gundata-read.csv(d:/gun.csv,sep=,strings

2、AsFactors=FALSE,header=TRUE,quote=”)然后将需要的字段取出来,在这里取出了一下几个字段:标号字段名含义数据种类1incident_id犯法记录idnumeric2date犯法日期dateTime3state犯法案件所在的州string4city_or_county犯法案件所在的市string6n_killed死亡人数numeric7n_injured受伤人数numeric15latitude犯案地点的纬度numeric.17longitude犯案地点的经度numericgundata,c(incident_id,date,state,city_or_count

3、y,n_killed,n_injured,congressional_district,latitude,longitude,state_house_district,state_senate_district)gd-subset(gundata,select=c(incident_id,date,state,city_or_county,n_killed,n_injured,congressional_district,latitude,longitude,state_house_district,state_senate_district)然后根据州字段将所有数据区分为四个地域阿拉巴马州A

4、labama阿拉斯加州Alaska亚利桑那州Arizona阿肯色州Arkansas加利福尼亚州California科罗拉多州Colorado哥伦比亚特区Columbia康涅狄格州Connecticut特拉华州Delaware佛罗里达州Florida佐治亚州Georgia夏威夷州Hawaii爱达荷州Idaho.伊利诺州Illinois印弟安纳州Indiana爱荷华州Iowa堪萨斯州Kansas肯塔基州Kentucky路易斯安那州Louisiana缅因州Maine马里兰州Maryland麻塞诸塞州Massachusetts密歇根州Michigan明尼苏达州Minnesota密西西比州Mississ

5、ippi密苏里州Missour蒙大拿州Montana内布拉斯加州Nebraska内华达州Nevada新罕布希尔州NewHampshire新泽西州NewJersey新墨西哥州NewMexico纽约州NewYork北卡罗来纳州NorthCarolina北达科他州NorthDakota.俄亥俄州Ohio奥克拉荷马州Oklahoma俄勒冈州Oregon宾西法尼亚州Pennsyivania罗德岛州RhodeIsland南卡罗来纳州SouthCarolina南达科他州SouthDakota田纳西州Tennessee德克萨斯州Texas犹他州Utah佛蒙特州Vermont弗吉尼亚州Virgina华盛顿州Wa

6、shington西佛吉尼亚州WestVirginia威斯康辛州Wisconsin怀俄明州Wyoming东北部Maine,NewHampshire,Vermont,Massachusetts,RhodeIsland,Connecticut,NewYork,Pennsyivania,NewJersey中西部Wisconsin,Michigan,Illinois,Ohio,Indiana,Missour,NorthDakota,South.Dakota,Nebraska,Kansas,Minnesota,Iowa南部Delaware,Maryland,DistrictofColumbia,Virgi

7、na,WestVirginia,NorthCarolina,SouthCarolina,Georgia,Florida,Kentucky,Tennessee,Mississippi,Alabama,Oklahoma,Texas,Arkansas,Louisiana西部Iowa,Montana,Wyoming,Nevada,Utah,Colorado,NewMexico,Arizona,Alaska,Washington,Oregon,California,Hawaiifor(iin1:length(gd,1)if(gdi,3=Maine|gdi,3=NewHampshire|gdi,3=Ver

8、mont|gdi,3=Massachusetts|gdi,3=RhodeIsland|gdi,3=Connecticut|gdi,3=NewYork|gdi,3=Pennsylvania|gdi,3=NewJersey)gdi,9=东北部elseif(gdi,3=Wisconsin|gdi,3=Michigan|gdi,3=Illinois|gdi,3=Ohio|gdi,3=Indiana|gdi,3=Missouri|gdi,3=NorthDakota|gdi,3=South.Dakota|gdi,3=Nebraska|gdi,3=Kansas|gdi,3=Minnesota|gdi,3=I

9、owa)gdi,9=中西部elseif(gdi,3=Delaware|gdi,3=Maryland|gdi,3=DistrictofColumbia|gdi,3=Virginia|gdi,3=WestVirginia|gdi,3=NorthCarolina|gdi,3=SouthCarolina|gdi,3=Georgia|gdi,3=Florida|gdi,3=Kentucky|gdi,3=Tennessee|gdi,3=Mississippi|gdi,3=Alabama|gdi,3=Oklahoma|gdi,3=Texas|gdi,3=Arkansas|gdi,3=Louisiana)gd

10、i,9=南部elseif(gdi,3=Iowa|gdi,3=Montana|gdi,3=Wyoming|gdi,3=Nevada|gdi,3=Utah|gdi,3=Colorado|gdi,3=NewMexico|gdi,3=Arizona|gdi,3=Alaska|gdi,3=Washington|gdi,3=Oregon|gdi,3=California|gdi,3=Hawaii)gdi,9=西部然后用fix(gd)将第九列的字段改正为part:.最后办理完的数据为以下格式:最后将数据存储下来,备用:write.csv(gd,f:/GunData.csv,s=FALSE).

11、保留的数据格式如下:.共有23w多条数据,其中部分数据有字段为空值,将在后续解析中删除。二、基本统计解析)统计各州发生枪支案件的总数。)统计各地域发生枪支案件的总数。)解析各地域枪支案件的散布特点。)按年度统计各州发生枪支案件的数目。)解析四大地域的经纬度范围2)推断性统计:选择合适的R函数进行如下假定查验,并得出结论。1)解析死亡人数与受伤人数间是否拥有有关性。2)解析南部地域的案件数和其他地域的案件数是否拥有显著差别。3)解析死亡人数与案件数是否有关;受伤人数与案件数是否有关。、统计各州发生枪支案件的总数。.建立一个table,能够显示出各州的案件数然后绘制一个直方图,显示出各个州的案件数

12、就能够直观的看出各个州的案件数量。、统计各地域发生枪支案件的总数:绘制一个条形图,能够直观的看出各个地域的案件总数。首先建立一个table,counts-table(gd$part),然后利用绘图函数,绘制条形图barplot(counts,main=gunvolience,xlab=part,ylab=num,col=c(red.,yellow,green,blue),ylim=c(0,120000)结果如下列图:能够看出南部人数最多,10w+,其次是中西部,东北部和西部的数量差不多。、解析各地域枪支案件的散布特点。首先取出数据中东北部地域的数据gd1-gg,10=东北部,gd2-gg,10

13、=南部,gd3-gg,10=中西部,gd4-gg,10=西部,然后生成四个tablecount1-table(gd1$state)count2-table(gd2$state)count3-table(gd3$state)count4-table(gd4$state).然后绘制各地域的案件散布图.解析东北部地域的枪支案件散布,利用barplot函数,barplot(count1,main=东北部,)barplot(count2,main=南部)barplot(count3,main=中西部)barplot(count4,main=西部)能够看出主要集中在纽约和宾夕法尼亚州,西部全部集中在加州,

14、南部散布的还算平均,佛罗里达多一些,中西部集中在波士顿。.、按年度统计各州发生枪支案件的数目。根据日期中的年度,将数据区分为13,14,15,16,17,18六段数据,先将数据排序后,找到每年数据的第一条,然后分片取数据gt13-g1:276,gt14-g277:51813,gt15-g51814:105715,gt16-g105716:159395,gt17-g159396:219007,gt18-g219008:231226,然后统计各年度的受伤人数、死亡人数、案件数。length(gt13,1)1276length(gt14,1)151537length(gt15,1)153902len

15、gth(gt16,1)153680length(gt17,1)159612length(gt18,1)112219.能够看出13年犯案数是276例,14年51537,15年53902,16年53680,17年56912,18年12219例。然后分别建立table,然后就能够看到各个州的案件数。Table(gt14$state)Table(gt17$state)、解析四大地域的经纬度范围将数据根据地区分为四部分,然后根据经度和纬度数据绘制散点图。gd1-gg,10=东北部,.gd2-gg,10=南部,gd3-gg,10=中西部,gd4-gg,10=西部,plot(gd1,9,gd1,8,col=

16、blue,main=东北部,xlab=经度,ylab=纬度,xlim=c(-125,-65),ylim=c(30,50).plot(gd2,9,gd2,8,col=blue,main=南部,xlab=经度,ylab=纬度,xlim=c(-125,-65),ylim=c(30,50).plot(gd3,9,gd3,8,col=blue,main=中西部,xlab=经度,ylab=纬度,xlim=c(-125,-65).plot(gd4,9,gd4,8,col=blue,main=西部,xlab=经度,ylab=纬度,xlim=c(-125,-65).2)推断性统计:选择合适的R函数进行如下假定查

17、验,并得出结论。1)解析死亡人数与受伤人数间是否拥有有关性。2)解析南部地域的案件数和其他地域的案件数是否拥有显著差别。3)解析死亡人数与案件数是否有关;受伤人数与案件数是否有关。1、利用R语言中的cor()函数,能够计算数据之间的有关性先取出数据中的死亡人数和受伤人数字段,分别为,6和,7,因为字段中的格式为字符串形式,现用as.numeric函数将字符串格式强制转变为数值型。然后利用cor函数Cor(g,6,g,7)计算有关性。这里a是前面的,6死亡人数数据,b是,7受伤人数数据,取10000条计算(取.全部会显示NA),结果为负值。多次取值取数据越大数值绝对值越小。2、生成各地域案件数t

18、able,并画出各地域案件数的条形图countscounts东北部南部西部中西部352201027853401658572plot(counts,main=gunvolience,xlab=part,ylab=num,col=c(red,yellow,green,blue),ylim=c(0,120000)能够看出南部的案件数显著的比其他地域的要多好多。、首先按地域统计受伤,死亡人数与案件数的有关性。将数据分为按地域字段分为四个部分,使用前面的gd1,gd2,gd3,gd4。.统计各州的案件数总和和受伤,死亡人数总和,然后进行计算。k1-sum(as.numeric(gd1$n_killed)

19、,na.rm=TRUE)k2-sum(as.numeric(gd2$n_killed),na.rm=TRUE)k3-sum(as.numeric(gd3$n_killed),na.rm=TRUE)k4-sum(as.numeric(gd4$n_killed),na.rm=TRUE)i1-sum(as.numeric(gd1$n_injured),na.rm=TRUE)i2-sum(as.numeric(gd2$n_injured),na.rm=TRUE)i3-sum(as.numeric(gd3$n_injured),na.rm=TRUE)i4-sum(as.numeric(gd4$n_injured),na.rm=TRUE)l1-length(gd1,1)l2-length(gd2,1)l3-length(gd3,1)l4c3=c(i1,i2,i3,i4).cor(c1,c2)cor(c1,c3)cor(c2,c3)能够看出数据之间是有关的,有关系数均约等于1。.数据挖掘1)聚类:针对如下目标进行聚类解析,并针对生成的聚簇,解析每个聚簇中数据的特点。1)根据死亡人数、受伤人数对所有城市(city)区分聚簇,解析各聚簇中死亡人数和受伤人数的散布特点,以及各聚簇中的城市是否拥有几大地域齐集的特征。)根据死亡人数、受伤人数、犯案数对所有州区分聚簇,解析各聚簇特点。2)时间序列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论