




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1 中上海市药械化稽查办案数据,利用抽样的方法(抽取容量为200的样本) ,对其某一方面的特性进行分析、研究。这里在 R里采用简单随机抽样抽取容量为200 的样本数据,程序如下:#简单随机抽样data=read.csv(G:/d.csv)head(data)#将数据集读入R 中,并查看前六行数据library(sampling)# 加载抽样包N=length(data,3)# 总体个数n=200#需要抽取样本个数set.seed(1)yangben=srswor(n,N)#在总样本量N 中抽取 n 个样本,返回其位置yangben=getdata(data,yangben)#取出抽到样本的数据
2、write.csv(srs,file= 药械化稽查办案信息抽取样本1.csv)#将抽到的数据读入本地文件 class(yangben)#查看抽到的数据类型抽到的样本前几个部分展示如下接下来, 我们对其中某些特性进行统计分析,首先, 我关注的是所在区县, 程序展示如下:a=table(yangben$所属区县)#统计 17 个区县出现的频数barplot(a,main = 区县出现频数分布图)#绘出所在区县分布图,x 轴所对应的区县分别为(NA 宝山 长宁 崇 明 奉贤 虹口 黄浦 嘉定 金山 静安 闵行 浦东 普陀 青浦 松江 徐汇 杨浦 闸北 )a1=sort(a)#按升序排列 a2=sor
3、t(a,decreasing =T)#按降序排列barplot(a1,main = 区县出现频数升序分布图)#绘出所在区县按升序排列的分布图,x 轴所对应的区县分别1 / 9 / 9为 (NA 闵行 黄浦 嘉定 宝山 松江 普陀 徐汇 长宁 闸北 静安 虹口 青浦 杨浦 浦东 金山 崇明 奉贤 ) TOC o 1-5 h z barplot(a2,main = 区县出现频数降序分布图)a3=prop.table(table(yangben$所属区县)barplot(a3,main = 所在区县比例分布图)#使用比例的形式来呈现相同的观察并绘制分布图par(mfcol=c(2,2)# 准备画四个
4、图的地方barplot(a,main = 区县出现频数分布图); barplot(a1,main = 区县出现频数升序分布图)barplot(a3,main = 所在区县比例分布图); barplot(a2,main = 区县出现频数降序分布图)par(mfcol=c(1,1)# 取消 par(mfcol=c(2,2)a4=a114:18;barplot(a4,col=c(2:6)# 查看分布最多的五个区县,并将这五个区县的分布用不同的颜色表示a5=sort(a3);sum(a514:18)barplot(a5) ;par(mfcol=c(1,2);barplot(a4,col=light b
5、lue,sub = 比例最高的五个区县比例分布图);barplot(a514:18,col=light green);par(mfcol=c(1,1)通过程序结果可知,各区县被处罚的频数和分布图如下:NA 宝山 长宁 崇明 奉贤 虹口 黄浦 嘉定 金山 静安 闵行 浦东 普陀 青浦 松江 徐汇 杨浦 闸北110617271171522838718138910NA 闵行 长宁 黄浦 普陀 静安 浦东 徐汇 杨浦 宝山 闸北 虹口 松江 嘉定 崇明 青浦 金山 奉贤136778889101011131517182227通过频数分布图和比例分布图可以观察到这17 各区县违法行为出现的频率并不相同,并
6、且差异比较大。计算所占稽查违法行为所占比例最高的五个区县分别为嘉定、崇明、 青浦、金山、奉贤,并且这五个区县所占比例和为0.495 ,基本占了样本数据的一半,所以在后期检测中要着重对这五个区县进行稽查,或者对这五个区县有关部门提出整改意见,以便对这些区县的企业有一定监督作用。 下面对 处罚决定时间分析程序代码及分析结果如下:datetime=yangben$处罚决定时间#将抽取样本的处罚决定时间提取出来赋给datetimeb=format(as.POSIXct(datetime),%Y)# 先使用as.POSIXct()函数将datetime 转换成日期时间的变量格式,使用 format()
7、函数从日期时间变量中单独取出年部分c=table(b,yangben$所属区县)#使用table()这个命令构造出一个列联表rownames(c)=c(2014,2015,2016) TOC o 1-5 h z barplot(c,legend.text=rownames(c),sub = 每一年各区县违规企业分布)barplot(c,legend.text=rownames(c),col = c(6,5,8),sub = 每一年各区县违规企业分布)#同上,只是柱状的颜色发生变化barplot(c,beside=T,legend.text=rownames(c),col = c(6,5,8),
8、sub = 每一年各区县违规企业分布)#每一年各区县违规企业分布 par(mfcol=c(1,2) barplot(c,legend.text=rownames(c),col = c(6,5,8),sub = 每一年各区县违规企业分布(1)barplot(c,beside=T,legend.text=rownames(c),col = c(6,5,8),sub = 每一年各区县违规企业分布(2)par(mfcol=c(1,1)# 取消 par(mfcol=c(2,2) 结果展示:对一级分类进行统计后得到的列联表结果如下:bna宝山长宁崇明奉贤虹口黄浦嘉定金山静安闵行浦东普陀青浦松江徐汇杨浦闸北
9、20141001300010010000012015010116546832241337582016096518639135153510141进而对每一年各区县的违法行为进行绘图分析结果如下、首先,通过上述图形可以看出奉贤区和金山区整体犯罪行为虽然最多,但并不是每年都最多,甚至有些年份跟其他区县相比还是比较少的,这大概是因为2016 年整体增长的太多造成的;其次,可以看到奉贤区、金山区、浦东区违法行为明显是呈逐年递增趋势;所以,我们可以预测如果这三个区县有关部门不对管辖范围内的企业进行管制,2017 年的违法行为将呈急剧增长趋势。、 像青浦、 崇明、 闸北这些区县2016 年比 2015 年的
10、数据有明显的下降趋势;像奉贤、4 / 9 / 9松江、 金山这些区县2016 年比 2015 年出现了明显的涨幅波动,所以, 有关部门可以约谈相关区县负责人学习交流出现这种趋势的原因,总结经验,进而采取措施使得2017年数据总体都呈下降趋势。而其中一些波动趋势时增时减的区县需要自己寻找问题。下面对 一级分类进行研究,程序代码及分析结果如下:d=yangben$一级分类#提取样本的一级分类d1=table(yangben$一级分类)#对一级分类进行频数统计 TOC o 1-5 h z d2=sort(d1);d3=prop.table(table(yangben$ 一级分类)d4=sort(d3
11、);plot(yangben$ 一级分类)#一级分类有十类par(mfcol=c(2,2)# 准备画四个图的地方barplot(d1,main = 一级分类各类别频数分布图);barplot(d2,main = 一级分类各类别频数升序分布图)barplot(d3,main = 一级分类各类别比例分布图);barplot(d4,main = 一级分类各类别比例分布图)par(mfcol=c(1,1)# 取消 par(mfcol=c(2,2)频数及比例列联表如下:na 化妆品经营化妆品生产药品连锁药品零售药品批发药品生产医疗器械经营医疗器械生产医院制剂22322116391029130na 化妆品
12、经营化妆品生产药品连锁药品零售药品批发药品生产医疗器械经营医疗器械生产医院制剂0.1100.1600.1050.0050.3150.0450.0500.1450.0650.000通过上图可以分析得出,在药品零售、化妆品经营、医疗器械经营这三个大类抽到的样本比较多,所以以后在稽查的过程中可以对着些行业进行中重点稽查。最后,我们将一级分类和处罚决定时间结合、所属区县与处罚时间结合起来进行分析程序代码及分析结果如下:e=format(as.POSIXct(datetime),%y%m)# 提取处罚时间的年月f=table(e,yangben$一级分类)par(mfrow=c(1,1),mai=c(1
13、,1.8,0.5,0.5),las=2)#mai 参数设定边界宽度,las 设定标尺的方向barplot(f,horiz = T,col=colnames(factor(e),names.arg = colnames(factor(e)library(ggplot2)ggplot(yangben,aes(x=factor(1),fill=d)+geom_bar()+coord_polar(theta=y)# 条形图转化为饼图a fena化妆品经营化妆品生产药品连锁药品零售药品批发药品生产医疗器械经营医疗器械生产医院制剂14061000000000140900100000001410000010
14、000014111000110000141200002000001501100000000015020000001000150311002001001504000000010015052110211210150610002210101507000131000015080120110010150900105002001510422031020015111330612010151211005012201601031021001016020000100210160321002001001604171050000016053200200020160610205003201607120040011016
15、0801102004006002020130002203020000220101500130010000009600626从这个图首先可以大致看出药品零售、化妆品经营、医疗器械经营所占的比例比较大;其次,可以发现不同年份不同月份出现的频率也不尽相同,像药品零售在15年 6 月份之后出现的情况明显增多,但整体各分类的趋势并不显著,只能简单察觉到16 年比15年有增多是趋势。ggplot(yangben,aes(x=factor(1),fill=d)+ geom_bar()+coord_polar(theta=y)将上面所画出的条形图转化为饼 图可以更好的展现出各部分的比 例关系如左图所示同样可以
16、使用pie 函数对所属区县绘制扇形图如左图所示首先要手动对定性数据进行频数统计,并将其转化为数据框形式a-data.frame(table(yangben$所属区县 )pie(a$Freq,labels=a$Var,radius=1)为了使图形更加立体,需要绘制三维饼图,在R 中,只需要加载plotrix 包,就可以使用pie3D 函数绘制三维饼图library(plotrix)pie3D(a$Freq,labels=a$Var,radius=1.2,explode=0.1)对于违法事实、违法证据、违法案由、违反规定、处罚依据、处罚措施、案件名称、处罚种类方式、履行方式等这些文字性记述的资料,我们需要采取文本挖掘技术进行分析,接下来我们着重使用词云图对违法事实、违法证据、违反规定、处罚依据、处罚措
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年矿业工程师职业资格考试试卷及答案
- 2025年建筑工程管理专业考研试题及解答
- 2025年宏观经济学基础知识与应用考试试题及答案
- 2025年公共关系与广告传播考试试题及答案
- 2025年中国邮政集团有限公司甘肃省分公司校园招聘笔试模拟试题含答案详解
- 2025年中国电信集团有限公司北京分公司招聘笔试模拟试题含答案详解
- 物管公司客户管理制度
- 特殊学校老师管理制度
- 特种专业车辆管理制度
- 特色餐饮加盟管理制度
- 胸腔穿刺术护理查房
- 全过程咨询项目管理
- 2024年广东省广州市白云山风景名胜区管理局分支机构第一次公开招聘考试真题及答案
- DB65T 8020-2024 房屋建筑与市政基础设施工程施工现场从业人员配备标准
- 2024年江西省水利投资集团有限公司招聘考试真题
- 2024年贵州省普通高校招生信息表(普通类本科批-物理组合)
- 2025年个人与企业投资合同模板
- 《中南大学》课件
- 幼儿园教师考核评价量化表
- 医院反腐倡廉廉洁行医专题党课宣讲课件
- 2025版《VOCs废气处理设施安全检查表》(全)
评论
0/150
提交评论