版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
R语言对BRFSS数据的探索摘要
该项目包括探索真实世界的数据集-疾病预防控制中心2013年的行为风险因素监测系统-并创建了三个学生选择的研究问题的报告。
所选择的研究问题及其各自的结果如下:
•被访者对其身体质量指数(BMI)的健康状况有何看法?性别是否有区别?
是的,健康知觉与BMI之间有明显的关系,也有性别差异。
•作为一名幼儿的父母,如何影响报告的睡眠时间?这在性别上有什么不同的报道?
◦作为一个年幼的父母,导致报告的睡眠减少,包括男女之间的差异。
•是否对与一年中调查时间有关的一般健康认知做出反应?各州之间有什么分歧?
冬季和非冬季的反应在国家层面上没有显着差异,但是在各州的反应方面存在差异。
建立
初始阶段包括加载所需的软件包和数据。加载包library(ggplot2)library(dplyr)加载数据
数据从本地文件加载load("brfss2013.RData")dim(brfss2013)##[1]491775330从上面可以看出,数据集由近500,000个观察值和330个可能的变量组成。
并不是所有的观测数据都包含了所有的变量,因此数据质量在下面的每个问题上分别进第1部分:数据
BRFSS的背景
根据CDC网站,“行为风险因素监测系统(BRFSS)是美国首屈一指的与健康有关的电话调查系统,收集美国居民的健康相关风险行为,慢性健康状况和使用预防性服务。
BRFSS成立于1984年,拥有15个州,现在收集所有50个州,哥伦比亚特区和三个美国领土的数据。
BRFSS每年完成40多万次成人访谈,成为世界上最大的连续进行的健康调查系统。“
方法
根据疾病预防控制中心的数据,“BRFSS是一项跨部门的电话调查,国家卫生部门每月通过固定电话和移动电话进行一次标准化问卷调查,并获得CDC的技术和方法支持。在进行BRFSS座机电话调查时,调查员从一个随机选择的家庭成人中收集数据。在进行BRFSS调查问卷的移动电话版本时,调查员从通过使用移动电话参与并居住在私人住宅或学院住房的成年人那里收集数据。
关于概化,因果关系和偏见的观察
虽然课程材料简要地提到了更高级的统计内容(因果推断),但考虑到作者对于因果关系的现有知识,可以做出以下陈述:
•关于泛化能力的话题:由于调查的广度-在美国所有50个州和其他美国领土上,由CDC与各州卫生机构协调,-它似乎捕获了足够的随机样本,使其可归纳为广泛的美国人口。
•因果关系:考虑到BRFSS是一种观察性练习-没有明确的随机分配治疗-所有指出的关系可能表明联系,但不是因果关系。
另外,考虑到BRFSS的方法,对于偏见有一些担忧:
•通过电话调查,有可能低报几种类型的个人:
◦那些无法使用固定电话或手机的人。
◦原则上不接受电话调查的人。
◦调查时没有调查的地方。
•由于面试问题的答案没有得到确认,受访者可能会以各种方式改变他们的回答:
报告不需要的行为和特征,而低报不受欢迎的行为和特征。
系统地夸大身高或收入等特征。
自从被要求将细节记忆到30天或更长时间之前,请不要忘记关键信息。
•最后,参与国家机构之间的访谈实践和问题集可能存在不一致之处。详情请见CDC网站。
为了将来的参考,如果数据集包括关于每次采访的细节以及采集的时间,这将是有用的。这将进一步了解那些可能或不可能参与调查的人。
第2部分:研究问题
研究问题1:
被访者对其身体质量指数(BMI)的健康状况有何看法?性别之间有什么区别?
这是一个很有意思的问题,因为它寻求将自己的健康状况与客观的整体健康状况联系起来。
BMI不是没有争议(例如见这里),但它被广泛认可。性别之间的差异也很有趣,因为人们可以梳理出社会内部不同的看法和压力。
分析使用以下变量完成:
genhlth-对应于一般健康
•X_bmi5cat-将BMI分为4类的计算变量。
BMI来源于报道的身高和体重。
•性别-报告的性别
研究问题2:
作为一个年幼的孩子的父母如何影响报告的睡眠时间?这在性别上有什么不同的报道?
这是一个很有意思的问题,可以估计作为幼儿的家长对受访者的影响。了解这一点有助于帮助他人更好地理解父母,并可能同情父母。了解这种影响在男性和女性之间是否明显不同也是有用的。
分析使用以下变量完成:
•sleptim1-报告每晚睡眠时间
•rcsrltn2-被访者与同一家庭随机孩子的关系
•X_impcage-将儿童年龄分为4个可能类别的推算变量。
•性别-报告的性别
研究问题3:
是否对与一年中调查时间有关的一般健康认知做出了回应?各州之间有什么分歧?
这个问题看季节方面可能如何影响反应。在这种情况下,感兴趣的是冬季月份对整体健康反应的潜在影响。作为后续研究,它考虑了美国各州考虑可能存在的区域差异。
分析使用以下变量完成:
genhlth-对应于一般健康
•imonth-进行面试的月份
•X_state-受访者的居住状态
第3部分:探索性数据分析
研究问题1:
被访者对其身体质量指数(BMI)的健康状况有何看法?
性别是否有区别?##从数据集中选择适当的变量并省略NAsq1<-select(brfss2013,genhlth,sex,X_bmi5cat)%>%na.omit()dim(q1)##[1]4632743prop.table(table(q1$genhlth,q1$X_bmi5cat),2)####UnderweightNormalweightOverweightObese##Excellent0.199902430.260194960.173738870.07933813##Verygood0.263934630.350698680.354012380.26824837##Good0.261495300.246675140.306984510.37088006##Fair0.158311990.097516400.119437590.19913468##Poor0.116355650.044914840.045826650.08239876在初始加载数据(超过46万个观测值)之后,我们可以初步了解反应的频率,然后考虑它们的比例。
解释上表的方法是,对于每一栏(“低体重”,“正常体重”,...),表示他们的健康状况为“优秀”,“非常好”的受访者的比例是多少,换句话说,
列总和为1。
一个更容易的图形表示可以看到下面:g<-ggplot(q1)+aes(x=X_bmi5cat,fill=genhlth)+geom_bar(position="fill")g<-g+xlab("BMIcategory")+ylab("Proportion")+scale_fill_discrete(name="ReportedHealth")g有一些有趣的趋势可以观察到:
•“优秀”健康报告的比例从低体重增加到正常体重,然后从正常体重显着下降到肥胖。
这表明有可能意识到整体健康状况。
•“优秀”减少的幅度似乎比报告“健康欠佳”的人增加了。
这可能表明缺乏对良好健康状况的认识/教育。
性别的影响呢?g<-ggplot(q1)+aes(x=sex,fill=genhlth)+geom_bar(position="fill")+facet_grid(.~X_bmi5cat)g<-g+xlab("BMIcategoryperGender")+ylab("Proportion")+scale_fill_discrete(name="ReportedHealth")g在这种情况下,我们可以观察到以下情况:
•当BMI分类为“体重不足”或“正常体重”时,女性的健康状况比男性高。
这可能意味着健康与苗条的更强关联,反映更广泛的社会意见。
•当BMI分类为“超重”或“肥胖”时,女性健康状况的比例低于男性。
这可能表明体重过度敏感是整体健康的一个组成部分。
总之,分析似乎表明,考虑到研究问题:是的,健康知觉与BMI之间有明显的关系,以及性别差异。但是,鉴于所进行的分析,这些关系不能用来推断因果关系。
研究问题2:
作为一个年幼的孩子的父母如何影响报告的睡眠时间?
这在性别上有什么不同的报道?q2<-select(brfss2013,sleptim1,sex,rcsrltn2,X_impcage)table(q2$sleptim1)####0123456789##122810763496142613343610619714246914110223800##10111213141516171819##1210283336751994473673693516413##2021222324103450##6431043511Theinitialdataloadindicatesthattherearecodingerrorsinthedata.Thecleanupinvolvesremovingreportedsleeptimeslongerthan16hoursperday.Thiswasanarbitrarydecisionbasedonthedata.q2_pop<-select(q2,sex,sleptim1)%>%na.omit()%>%filter(sleptim1<=16)dim(q2_pop)##[1]4840562q2_parent<-na.omit(q2)%>%filter(rcsrltn2=="Parent"&sleptim1<=16)%>%mutate(young=X_impcage%in%c("0-4Yearsold","5-9Yearsold"))dim(q2_parent)##[1]578575Thisdataloadperformstwodataselectionoperations:First,itselectsthepropercolumnsfromtheoriginaldatasetintotheq2dataframe.Itthencreatestwoseparatedataframesforanalysis:q2_pop:forthebroaderpopulation,omittingmiscodedvalues.q2_parent:leveragestheRandomChildSelectionsetofquestionsfromtheBRFSSandselectsthosethatidentifiedthemselvesas“Parents”.Furthermore,itaddsacolumnforidentifyingchildrenlessthan10yearsold.Itisimportanttonotethatwhilethebroadpopulationisapproximately480,000samples,theRandomChildSelectionmoduleoftheBRFSSyieldsalittlelessthan60,000samples.Forthegeneralpopulation,wehavethefollowingreportedsleepdistribution(redlinecorrespondstomean):summarize(q2_pop,avg=mean(sleptim1),sd=sd(sleptim1))##avgsd##17.0427841.431061g<-ggplot(q2_pop)+aes(x=sleptim1)g<-g+geom_histogram(binwidth=1,color="black",fill="white")g<-g+xlab("SleepTime(hrs)")+ylab("ReportedCount")gFortheparentsgroups,thecharacteristicsofthedistributionare:summarize(q2_parent,avg=mean(sleptim1),sd=sd(sleptim1))##avgsd##16.8545211.315791Andforparentsofsmallchildren,thedistributionlookslike:filter(q2_parent,young==TRUE)%>%summarize(avg=mean(sleptim1),sd=sd(sleptim1))##avgsd##16.8477451.31827Finally,lookingatgenderdifferencesforparentsofsmallchildren:filter(q2_parent,young==TRUE)%>%group_by(sex)%>%summarize(avg=mean(sleptim1),sd=sd(sleptim1))###Atibble:2x3##sexavgsd##<fctr><dbl><dbl>##1Male6.7558621.230122##2Female6.9096991.371082Lookingatthecharacteristicsofthedistribution,andtheoriginalresearchquestion,itappearsthattherearedifferencesbetweenthegendersinreportedhoursofsleepbothbetweenthegeneralpopulationandthosethatrespondedasbeingparentsofsmallchildren.Itisexpectedthatfurtherstatisticaltechniqueswillallowustoquantifythesignificanceofsuchdifferences.Researchquesion3:Areresponsestogeneralhealthperceptionrelatedtothetimeofyearofthesurveywasconducted?Howdoanydifferencesshowupacrossstates?#DefineWintermonthswinter<-c("December","January","February")q3<-select(brfss2013,genhlth,imonth,X_state)%>%na.omit()%>%mutate(winter=imonth%in%winter)dim(q3)##[1]4897904prop.table(table(q3$genhlth,q3$winter),2)####FALSETRUE##Excellent0.173930760.17643433##Verygood0.324012810.32724673##Good0.307692720.30641019##Fair0.137051710.13362268##Poor0.057312000.05628606Theinitialdataloadforthisquestionresultedinapproximately490,000samples.Aspertheresearchquestion,thevariablesextractedwerethegeneralhealthreported,themonththeinterviewtookplace,andtherespondent’sstateofresidence.Forthisanalysis,anextracolumnwasaddedindicatingiftheinterviewtookplaceinthemonthstypicallyassociatedwithwinter.Lookingattheproportiontable(lookingdownbothFALSEandTRUEcolumns),thereportedhealthisverysimilarregardlessofstatusof“wintercollection”.Thiscanbealsovisualizedinthefollowingplot:g<-ggplot(q3)+aes(x=winter,fill=genhlth)+geom_bar(position="fill")g<-g+xlab("Winterinterviewperstate")+ylab("Proportion")+scale_fill_discrete(name="ReportedHealth")gInterestingly,whenwelookatstate-specificdata,aslightlydifferentpictureappears.AsampleofUSstateswasselectedforfurtheranalysis:#Definestatesofintereststates<-c("Alaska","California","Massachusetts","NewHampshire","Wyoming")q3_states<-filter(q3,X_state%in%states)dim(q3_states)##[1]436084group_by(q3_states,X_state,winter)%>%summarise(count=n())##Source:localdataframe[10x3]##Groups:X_state[?]####X_statewintercount##<fctr><lgl><int>##1AlaskaFALSE3432##2Alas
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 长沙卫生职业学院《管理沟通(英语)》2023-2024学年第一学期期末试卷
- 云南农业大学《建筑工业化与装配式结构》2023-2024学年第一学期期末试卷
- 孩子里程碑的教育模板
- 保险业基础讲解模板
- 述职报告创新实践
- 职业导论-房地产经纪人《职业导论》点睛提分卷3
- 年终工作总结格式要求
- 二零二五版LNG液化天然气装运合同3篇
- 二零二五年度汽车后市场担保合作协议合同范本集锦:维修保养服务2篇
- 二零二五版国际金融公司劳务派遣与风险管理协议3篇
- 浙江省金华市婺城区2024-2025学年九年级上学期期末数学试卷(含答案)
- 天津市河西区2024-2025学年高二上学期1月期末英语试题(含答案无听力音频及听力原文)
- 水利工程安全应急预案
- 沪教版小学数学三(下)教案
- 2024-2025年度村支书工作述职报告范文二
- 继电保护多选试题库与参考答案
- 品管圈PDCA改善案例-降低住院患者跌倒发生率
- 2024年江西水利职业学院单招职业技能测试题库及答案解析
- 《交换机基本原理》课件
- 向电网申请光伏容量的申请书
- 2024-2030年中国硫磺行业供需形势及投资可行性分析报告版
评论
0/150
提交评论