【r与数据库】r +数据库=非常完美_第1页
【r与数据库】r +数据库=非常完美_第2页
【r与数据库】r +数据库=非常完美_第3页
【r与数据库】r +数据库=非常完美_第4页
【r与数据库】r +数据库=非常完美_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

【与数据库】6数0据;库6非0常;完美前言经常用处理数据的分析师都会对包情有独钟,它强大的数据整理功能让原始数据从杂乱无章到有序清晰,便于后期进一步的深入分析,特别是配合上数据库的使用,更是让分析师如虎添翼,轻松搞定难以驾驭的数据容量,下面我们通过一个实用案例来具体看看如何将和数据库完美融合在一起。在以后的博客中我们还会陆续讲解包的各种功能和用语言访问数据库的方法。包可以配合一系列数据库使用,如:l这里我们着重探讨l数据的介绍首先我们来熟悉一下即将用到的数据,在美国,药品的检疫是个严谨的过程,当患者在服用药物后有任何不适反应,都可以将情况反映给相关部门(),而这些收集来的数据也对大众公开,可以下载和分析。在这篇博客里我们会用到有关患者的人口统计信息和针对某种症状患者使用了特定药物,因为中美药物间的差别,我们暂时没有加入所用药品的信息,如果读者感兴趣,可以自行调整分析的范围,这里作者用较少数据力求让读者快速理解如何用来读取网络数据,将其存入数据库,并融合数据集,然后做深入分析。系统准备下载数据首先我们建立循环语句来下载上半年的季度性数据(如果空间允许,还可以建立双循环下载多于一年的数据解析下载数据,构建人口统计信息和反应症状数据集创建数据库这里我们没有给出路径,数据库于是会被建在之前已设好的工作文件夹中上载数据集到建好的数据库中copy_to(my.db,demography,temporary=FALSE)#uploadingdemographydata##Source:sqlite3.8.6[adverse.events]##From:demography[606,551x7]####primaryidcaseidevent_dtagesexwtoccr_country##(int)(int)(int)(dbl)(chr)(dbl)(chr)##13503293335032932000011839.000F83.0US##2366558823665588NA35.000FNADE##33867118338671182002101554.000F70.0US##4387757133877571NANAMNAGB##5387834433878344NA66.000MNAIT##64095463440954632004020465.476FNAJP##741149942411499420001117.000FNA##841352566413525620030346.000FNAUS##94194388241943882004032175.000F60.8##1042207644422076420040418.000FNAUS##.......................copy_to(my.db,indication,temporary=FALSE)#uploadingindicationdata##Source:sqlite3.8.6.建.立.与已有数据库的链接并检索所存数据表访问数据库包的命令可以借助语言来对数据库中的数据进行整理,首先我们用来从数据库中导入数据caseidevent_dtagesexwtoccr_country##13503293335032932000011839.000F83US##2366558823665588NA35.000FNADE##33867118338671182002101554.000F70US##4387757133877571NANAMNAGB##5387834433878344NA66.000MNAIT##64095463440954632004020465.476FNAJPindication=tbl(my.db,'indication')head(indication)##primaryidindi_drug_seqindi_pt##1350329331TOC\o"1-5"\h\zMultiplesclerosis##2350329332Multiplesclerosis##3350329333Depression##4350329334Hypercholesterolaemia##5350329335Benignneoplasmofthyroidgland##6350329336DepressionFR=filter(demography,occr_country=='FR')#FilteringdemographyofpatientsfromFranceFR$query##SELECT'primaryid','caseid','event_dt','age','sex','wt','occr_country'##FROM'demography'##WHERE'occr_country'='FR'##explain(FR)####SELECT'primaryid','caseid','event_dt','age','sex','wt',

通过检索美国患者的信息可以看到包的通过检索美国患者的信息可以看到包的命令自行产生的数据库检索语句包的命令皆可用于修理数据库中的数据,我们还可以用包中的功能()将多重命令链接在一起数据分析可视化外行人经常认为数据分析师的工作不明觉厉,绘制漂亮高大上的图表,然后从纷繁的数据中探索趋势现象,但业内的人都有这样的体会,很多工作都是洗数据的“体力活”,和真正的数据分析相比,占据了分析师的大量时间和精力。比如我们在做下面几个数据分析例子前,完全可以再多花些时间将数据整理的更完善,这一块我们将会在以后的文章中详解。我们注意到由于美国患者人数的众多,使得其他国家的差异在横轴上不再明显,于是我们剔除美国的影响,以便观察不适反应报告较多的其他国家的差异or='blue',fill='orange')+xlab('')+ggtitle('TopTenNon-USCountries')+theme(plot.title=element_text(size=rel(1.6),lineheight=.9,family='Times',face='bold.italic',colour='darkgreen'))+coord_flip()+ylab('TotalNumberOfReports')+theme(axis.title.x=element_text(size=15,lineheight=.9,family='Times',face='bold.italic',colour='blue'))+theme(axis.text.y=element_text(size=12,family='Times',face='bold.italic',colour='blue'))indication%>%group_by(indi_pt)%>%summarise(count=n())%>%arrange(desc(count))%>%head(5)##indi_ptcount##1Productusedforunknownindication463524##2Diabetesmellitus53742##3Rheumatoidarthritis47780##4Multiplesclerosis30946##5Plasmacellmyeloma29256indication%>%group_by(indi_pt)%>%summarise(count=n())%>%arrange(desc(count))%>%head(6)%>%tail(-1)%>%mutate(indi_pt=factor(indi_pt,levels=indi_pt[order(desc(count))]))%>%ggplot(aes(x=indi_pt,y=count))+我们剔除了计数最多的一项,即不明确患者症状图表表明针对肥胖的药物记录了最多的不适症状,在美国这一现象比较符合预期,众所周知的人口肥胖问题使相关药物使用较为普遍年龄的分布基本分布函数,和都能

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论