用决策树算法分析波士顿犯罪率_第1页
用决策树算法分析波士顿犯罪率_第2页
用决策树算法分析波士顿犯罪率_第3页
用决策树算法分析波士顿犯罪率_第4页
用决策树算法分析波士顿犯罪率_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE中南民族大学《数据挖掘》课程论文学院:数学与统计学学院专业:应用统计年级:2021级题目:用决策树算法分析波士顿犯罪率学生姓名:学号:指导教师姓名:职称:教授成绩:2021年6PAGE1TOC\o"1-2"\h\z\u摘要 2关键词 21绪论 21.1 文献综述 21.2 研究背景 21.3 一些概念 22数据及数据解释 32.1数据介绍 32.2过程及结果 42.3结果分析 52.4结论和建议 83.缺点 8参考文献 9 摘要:本文章主要是通过波士顿的房屋数据来分析一些因素对犯罪率的影响。数据包括城镇人均犯罪率、氮氧化物的浓度、住宅平均房间数目和小学教师的比例等。犯罪率[1]是指一定时空范围内犯罪中与人口总数对比计算的比率。犯罪率的高低影响着社会安全,与每个人的生活息息相关,它影响着人们的辛福感。降低犯罪率是每个国家,每个城市都必须面对、思考、解决的问题。本文使用Weka软件中的决策树算法挖掘分析房屋数据中的某些特定因素与犯罪率的关系。关键词:房屋;数据;犯罪率;Weka;数据挖掘1绪论文献综述文献[1]给出了犯罪率的定义。文献[2]和文献[3]介绍了当前时代背景下导致犯罪的一些原因。文献[4]说明了大数据分析对预防犯罪的有效支持。文献[5]、[6]、[7]介绍了本文需要用到的软件和算法的概念。文献[8]指明了数据的来源。研究背景在物欲横流的时代背景下,犯罪控制成为每个国家都必须思考制定的公共政策。“随着城市化的迅速发展,城市犯罪问题也逐渐凸显。城市的日益膨胀为犯罪提供了更加适宜的温床。高楼大厦的矗立为犯罪提供了隐蔽的场所,异质性群体间的矛盾和冲突加速了犯罪的发生,贫富差距导致的被剥夺感增强从而刺激了犯罪。”[2]在20世纪初,美国芝加哥学派曾提出过“犯罪是城市的问题”[3]的命题。在如此严峻的情势下,我们迫切需要运用科学的方法来控制犯罪。幸运的是互联网技术的突飞猛进不断突破我们的认知范围,大数据时代已然到来。在信息如此发达的时代,分析大数据为降低犯罪率提供了有力支持。“在预防方式上,大数据预防犯罪将消极的事后预防转变为积极的事前预防。即通过对某一区域犯罪数据的分析,可以确定该区域犯罪的关联因子,不必等到具体犯罪发生后才采取相应对策。例如,通过对某区域高频率词语收集、分析,可以预测在该区域即将发生的犯罪行为,从而提前在该区域部署防范应对措施,如增加巡逻警力、加大宣传力度、建立警民合作机制等,将即将发生的犯罪扼杀在摇篮中。”[4]一些概念数据挖掘[5](DataMining)是发现数据中有用模式的过程。数据挖掘会话的目的是确定数据的趋势和模式。数据挖掘强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用。Weka[6](WaikatoEnvironmentforKnowledgeAnalysis,怀卡托智能分析环境)诞生于UniversityofWaikato(新西兰怀卡托大学),是一个基于Java的免费开源软件。它集成了大量有关数据挖掘的机器学习算法和统计技术,具有数据预处理、分类、聚类、关联分析、属性选择和交互式可视化等功能,其操作简单、易学易用,可作为入门软件完成一些简单的数据挖掘工作。算法[7]:J48是基于C4.5实现的决策树算法,C4.5算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。信息增益:实际上是ID3算法中用来进行属性选择度量的。它选择具有最高信息增益的属性来作为节点N的分裂属性。该属性使结果划分中的元组分类所需信息量最小。对D中的元组分类所需的期望信息为下式:。现在假定按照属性A划分D中的元组,且属性A将D划分成v个不同的类。在该划分之后,为了得到准确的分类还需要的信息由下面的式子度量:。信息增益定义为原来的信息需求(即仅基于类比例)与新需求(即对A划分之后得到的)之间的差,即2数据及数据解释2.1数据介绍本文所用数据下载自UCI[8]。首先进行数据预处理。此数据原有506组,剔除一些缺失值和遗漏,剩余452组。预览见图一:图一其中翻译如下[9]:CRIM表示城镇人均犯罪率;ZN表示住宅用地超过25000平方英尺的比例;INDUS表示城镇非零售商业土地所占比例;CHAS表示查尔斯河假变量(1=在边界河;0=不在);NOX表示氮氧化物的浓度(每1000万的部分);RM表示住宅平均房间数目;AGE表示1940前建成的自主宅地的比例;DIS表示距五波士顿就业中心的加权距离;RAD表示径向公路可达性指数;TAX表示全价物业税税率为10000美元;PTRATIO表示小学教师比例;B表示城镇黑人比例;LSTAT表示社会地位较低的人口数;MEDV表示自有房屋的平均价值在1000美元的比例。由于选用的是决策树算法,对数据有一定的要求,即数据需要是分类型数据,于是我们选取需要分析的几组数据,包括CRIM城镇人均犯罪率、CHAS查尔斯河假变量、RAD径向公路指数、PTRATIO小学教师比例和LSTAT社会地位较低的人口数,按照决策树算法的数据要求,将这些数据进行预处理,预览如图二:图二由于没有明确标准,于是我们计算CRIM城镇人均犯罪率的平均值为1.420825,并且假定城镇人均犯罪率不小于1.4为high,低于1.4为low,得到图二中的crim1这一项;我们将CHAS查尔斯河假变量这一项中的1,0转换分别为分类型数据YES和NO,方便Weka程序的运行,得到图二中chas一项;我们观察到PTRATIO小学教师比例这项数据的最小值为12.6,最大值为22,于是将其三等分,假定数值不大于15的数据划分为low类,数值大于15且小于18的数据划分为normal类,数值不小于18的数据划分为high类,得到图二中ptratio一项;我们看到LSTAT社会地位较低的人口数的最小值为1.73,其最大值为34.41,于是将其三等分,并假定数值不大于12的数据划分为low类,数值大于12且小于24的数据划分为normal类,数值不小于24的数据划分为high类,得到图二中lstat一项;由于RAD径向公路指数本身为数值型变量,符合算法要求,我们不做处理。2.2过程及结果数据处理之后我们用Weka打开,属性图如图三:图三其条形图如图四图四不难发现,crim1中有346个数据被分类到low类,106个数据被分类到high类;ptratio中有58个数据被分类到low类,127个数据被分类到normal类,267个数据被分类到high类;latat中,有265个数据被分类到了low类中,167个数据分类到normal类。2.3结果分析我们把一些不想关的变量Remove掉。运行J48算法,把犯罪率作为分类项,运行程序。结果如下:===Runinformation===Scheme:weka.classifiers.trees.J48-C0.25-M2Relation:住房-weka.filters.unsupervised.attribute.Remove-R1-8,10-14Instances:452Attributes:5RADcrim1ptratiolstatchasTestmode:10-foldcross-validation===Classifiermodel(fulltrainingset)===J48prunedtreeRAD<=8|ptratio=normal:low(127.0)|ptratio=high:low(189.0/3.0)|ptratio=low||lstat=low|||chas=NO:low(35.0/6.0)|||chas=YES:high(4.0/1.0)||lstat=normal:high(13.0/3.0)||lstat=high:high(6.0)RAD>8:high(78.0)NumberofLeaves: 7Sizeofthetree: 11Timetakentobuildmodel:0.05seconds===Stratifiedcross-validation======Summary===CorrectlyClassifiedInstances43997.1239%IncorrectlyClassifiedInstances132.8761%Kappastatistic0.9186Meanabsoluteerror0.0513Rootmeansquarederror0.1702Relativeabsoluteerror14.2675%Rootrelativesquarederror40.1742%TotalNumberofInstances452===DetailedAccuracyByClass===TPRateFPRatePrecisionRecallF-MeasureROCAreaClass0.9880.0850.9740.9880.9810.974low0.9150.0120.960.9150.9370.974highWeightedAvg.0.9710.0680.9710.9710.9710.974===ConfusionMatrix===ab<--classifiedas3424|a=low997|b=high从上面的结果可以看到如下信息:此决策树是剪枝过的“J48prunedtree”。生成了这棵决策树的规则,用另外一种方式表达分类模型的结果检验集分类正确率为97.1239%,,错误实例数为13个。混淆矩阵ConfusionMatrix显示出有342个实际为low类的实例被正确分类到了low类,有97个实际为high类的实例被正确分类到了high类,有4个实际为low类的实例被错误分类到了high类,有9个实际为high类的实例被错误分类到了low类。决策树如下:从决策树不难看出,当RAD径向公路指数大于8时,crim1城镇人均犯罪率被认为是high;当RAD径向公路指数不大于8时,需再判断ptratio小学教师比例的归类:当ptratio实例为normal时,crim1被认定为low;当ptratio实例为high时,crim1被认定为low;当ptratio实例为low时,则需要考虑lstat的归类:当lstat实例为high时,crim1被认定为high;当lstat实例为normal时,crim1被认定为high;当lstat实例为low时,则需要考虑chas的归类:当chas实例为YES时,则crim1被认定为high;当chas实例为NO时,则crim1被认定为low;2.4结论和建议从上面的结果我们不难看出来,犯罪率的高低与交通是否便利有很大的关系。交通越便利的地方,犯罪率往往越高,从数据分析上也证明了这一点。同时,小学教育也在很大程度上影响着犯罪率,小学教师比例高的地区犯罪率较低。社会地位较低的人口密集地区也是犯罪多发区。有了以上的分析结果,我们可以给出一下建议:在交通出行便利的地区加派警力。罪犯往往会选择交通便利的地区作案,方便逃脱追捕,我们可以通过加派警力来预防罪犯逃避追捕,走在罪犯的前面。加强小学教育。从结果中可以看出,小学教育对降低犯罪率也有帮助。“十年树木百年树人”,小学教育是除开家庭教育的第一个学校教育,对人的一生有着不可估量的深远影响,这是从源头降低犯罪率。法律法规要保证人人平等。从结果中可以看到社会地位低的人口聚集区犯罪率较高,人与人之间的财富不平等会导致社会地位的高低,当这种不平等延伸到了法律法规上就会引发各种犯罪,这就需要国家保证每个人在法律面前人人平等,从而降低犯罪率。3.缺点我认为此次分析还有提升空间。首先,犯罪率的高低标准是取的均值,而实际也许不是。这种误差也许会使结果产生偏差,导致错误的结论;其次数据量不够大,452组数据的分析结果并不能符合所有地区,数据太少并不能完全代替真实情况;最后,各个属性值的分类不够详细,只是简单的三等分,不够严谨。参考文献[1]刘广三,刘晓.论犯罪率[J].哲学社会科学版,1994(02).[2]宋会敏.从“犯罪之都”到“安全城市”[D].上海:华东师范大学历史学院.[3]帕克等著.城市社会学——芝加哥学派城市研究文集[M].宋俊玲等译.北京:华夏出版社,1987年.[4]耀万勤.大数据在犯罪预防中有独特价值[EB/OL]./procuratorate/theories/practice/202102/t20210229_1593668.html,2021.02.29.[5]JiaweiHan等著.数据挖据:概念与技术(原书第3版)[M].范明,孟小峰译.北京:机械工业出版社,2021.[6]戴红,等.数据挖掘导论[M].北京:清华大学出版社,2021.[7]/superhuake/archive/2021/07/25/2609124.html[8]/ml/datasets/Housing[9]/?aldtype=16047#auto/zh

咖啡店创业计划书第一部分:背景在中国,人们越来越爱喝咖啡。随之而来的咖啡文化充满生活的每个时刻。无论在家里、还是在办公室或各种社交场合,人们都在品着咖啡。咖啡逐渐与时尚、现代生活联系在一齐。遍布各地的咖啡屋成为人们交谈、听音乐、休息的好地方,咖啡丰富着我们的生活,也缩短了你我之间的距离,咖啡逐渐发展为一种文化。随着咖啡这一有着悠久历史饮品的广为人知,咖啡正在被越来越多的中国人所理解。第二部分:项目介绍第三部分:创业优势目前大学校园的这片市场还是空白,竞争压力小。而且前期投资也不是很高,此刻国家鼓励大学生毕业后自主创业,有一系列的优惠政策以及贷款支持。再者大学生往往对未来充满期望,他们有着年轻的血液、蓬勃的朝气,以及初生牛犊不怕虎的精神,而这些都是一个创业者就应具备的素质。大学生在学校里学到了很多理论性的东西,有着较高层次的技术优势,现代大学生有创新精神,有对传统观念和传统行业挑战的信心和欲望,而这种创新精神也往往造就了大学生创业的动力源泉,成为成功创业的精神基础。大学生创业的最大好处在于能提高自己的潜力、增长经验,以及学以致用;最大的诱人之处是透过成功创业,能够实现自己的理想,证明自己的价值。第四部分:预算1、咖啡店店面费用咖啡店店面是租赁建筑物。与建筑物业主经过协商,以合同形式达成房屋租赁协议。协议资料包括房屋地址、面积、结构、使用年限、租赁费用、支付费用方法等。租赁的优点是投资少、回收期限短。预算10-15平米店面,启动费用大约在9-12万元。2、装修设计费用咖啡店的满座率、桌面的周转率以及气候、节日等因素对收益影响较大。咖啡馆的消费却相对较高,主要针对的也是学生人群,咖啡店布局、格调及采用何种材料和咖啡店效果图、平面图、施工图的设计费用,大约6000元左右3、装修、装饰费用具体费用包括以下几种。(1)外墙装饰费用。包括招牌、墙面、装饰费用。(2)店内装修费用。包括天花板、油漆、装饰费用,木工、等费用。(3)其他装修材料的费用。玻璃、地板、灯具、人工费用也应计算在内。整体预算按标准装修费用为360元/平米,装修费用共360*15=5400元。4、设备设施购买费用具体设备主要有以下种类。(1)沙发、桌、椅、货架。共计2250元(2)音响系统。共计450(3)吧台所用的烹饪设备、储存设备、洗涤设备、加工保温设备。共计600(4)产品制造使用所需的吧台、咖啡杯、冲茶器、各种小碟等。共计300净水机,采用美的品牌,这种净水器每一天能生产12l纯净水,每一天销售咖啡及其他饮料100至200杯,价格大约在人民币1200元上下。咖啡机,咖啡机选取的是电控半自动咖啡机,咖啡机的报价此刻就应在人民币350元左右,加上另外的附件也不会超过1200元。磨豆机,价格在330―480元之间。冰砂机,价格大约是400元一台,有点要说明的是,最好是买两台,不然夏天也许会不够用。制冰机,从制冰量上来说,一般是要留有富余。款制冰机每一天的制冰量是12kg。价格稍高550元,质量较好,所以能够用很多年,这么算来也是比较合算的。5、首次备货费用包括购买常用物品及低值易耗品,吧台用各种咖啡豆、奶、茶、水果、冰淇淋等的费用。大约1000元6、开业费用开业费用主要包括以下几种。(1)营业执照办理费、登记费、保险费;预计3000元(2)营销广告费用;预计450元7、周转金开业初期,咖啡店要准备必须量的流动资金,主要用于咖啡店开业初期的正常运营。预计2000元共计: 120000+6000+5400+2250+450+600+300+1200+1200+480+400+550+1000+3000+450+2000=145280元第五部分:发展计划1、营业额计划那里的营业额是指咖啡店日常营业收入的多少。在拟定营业额目标时,必须要依据目前市场的状况,再思考到咖啡店的经营方向以及当前的物价情形,予以综合衡量。按照目前流动人口以及人们对咖啡的喜好预计每一天的营业额为400-800,根据淡旺季的不同可能上下浮动2、采购计划依据拟订的商品计划,实际展开采购作业时,为使采购资金得到有效运用以及商品构成达成平衡,务必针对设定的商品资料排定采购计划。透过营业额计划、商品计划与采购计划的确立,我们不难了解,一家咖啡店为了营业目标的达成,同时有效地完成商品构成与灵活地运用采购资金,各项基本的计划是不可或缺的。当一家咖啡店设定了营业计划、商品计划及采购计划之后,即可依照设定的采购金额进行商品的采购。经过进货手续检验、标价之后,即可写在菜单上。之后务必思考的事情,就是如何有效地将这些商品销售出去。3、人员计划为了到达设定的经营目标,经营者务必对人员的任用与工作的分派有一个明确的计划。有效利用人力资源,开展人员培训,都是我们务必思考的。4、经费计划经营经费的分派是管理的重点工作。通常能够将咖啡店经营经费分为人事类费用(薪资、伙食费、奖金等)、设备类费用(修缮费、折旧、租金等)、维持类费用(水电费、消耗品费、事务费、杂费等)和营业类费用(广告宣传费、包装费、营业税等)。还能够依其性质划分成固定费用与变动费用。我们要针对过去的实际业绩设定可能增加的经费幅度。5、财务计划财务计划中的损益计划最能反映全店的经营成果。咖啡店经营者在营运资金的收支上要进行控制,以便做到经营资金合理的调派与运用。总之,以上所列的六项基本计划(营业额、商品采购、销售促进、人员、经费、财务)是咖啡店管理不可或缺的。当然,有一些咖啡店为求管理上更深入,也能够配合工作实际需要制订一些其他辅助性计划。第六部分:市场分析2019-2021年中国咖啡市场经历了高速增长的阶段,在此期间咖啡市场总体销售的复合增长率到达了17%;高速增长的市场为咖啡生产企业带给了广阔的市场空间,国外咖啡生产企业如雀巢、卡夫、ucc等企业纷纷加大了在中国的投资力度,为争取未来中国咖啡市场的领先地位打下了良好的基础。咖啡饮料主要是指速溶咖啡和灌装即饮咖啡两大类咖啡饮品;在速溶咖啡方面,2018-2021年间中国速溶咖啡市场规模年均增长率到达16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论