数理统计学课程设计_第1页
数理统计学课程设计_第2页
数理统计学课程设计_第3页
数理统计学课程设计_第4页
数理统计学课程设计_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.PAGE2Word资料.Word资料关于中小型银行大数据的统计分析学院专业*****班级***学号*****姓名指导教师沈阳航空航天大学年月目录TOC\o"1-3"\h\u8936前言 119990一、采集样本及数据整理 2244171、数据的搜集方法及说明 284942、数据整理:给出频数、频率分布表及说明 5123303、画出直方图和折线图并给出说明 596594、画出经验分布函数 715981二、假定总体服从正态分布,给出,的估计 895581、矩估计法 8179332、极大似然估计 827202三、参数区间估计 1057641、方差未知,求数学期望的置信区间 108442、数学期望,均未知,求方差的置信区间 1029631四、参数的假设检验 1170901.样本统计数据的t检验 1179082.样本统计数据的检验 1112130五、非参数假设检验 1319994六、结论 1526124参考文献 16Word资料前言数理统计是一门对随机现象进行有限次的观测或试验的结果进行数量研究,并依之对总体的数理规律性作出具有一定可靠性推断的应用数学学科。也就是说,数理统计学是统计学的数学基础,它是研究怎样有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断和预测,直至为采取一定的决策和行动提供依据和建议的数学分支。近几十年来,数理统计的广泛应用是非常引人注目的。在社会科学中,选举人对政府意见的调查、民意测验、经济价值的评估、产品销路的预测、犯罪案件的侦破等,都有数理统计的功劳[1]。在经济领域,从某种商品未来的销售情况预测,甚至整个国家国民经济状况预测及发展计划的制定都要用到数理统计知识[2]。在自然科学、军事科学、工农业生产、医疗卫生等领域,哪一个门类都离不开数理统计。它的用处之大不胜枚举。笼统地说,数理统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域内的活动,都得在不同的程度上与数据打交道,都有如何收集和分析数据的问题,因此也就有数理统计学用武之地。可以这么说,现代人的生活、科学的发展都离不开数理统计。从某种意义上讲,数理统计在一个国家中的应用标志着这个国家的科学水平[3]。数理统计可以看做是概率论的推广应用,其众多内容都是建立在概率论基础之上的[4]。但是,数理统计作为纯数学的一个方向,如果仅仅研究数理统计的数学性质,就脱离了数学在科学研究中应有的价值。正如数学以其逻辑性和严密性被其他学科作为有力工具运用于分析应用中一样,数理统计也因为其逻辑性和严密性被引用到银行的领域中。本文就是对这方面的应用,通过用计算机领域中的信息安全技术,对全国中小型银行的大数据处理个数的统计。其间分别进行了数据模型的选择和建立,数据的采集,数据的整理,对数据进行的统计推断,给出矩法估计、极大似然估计、给出参数估计区间、给出的t检验和检验,进行非参数拟合优度检验,从而得出相应的结论。一、采集样本及数据整理1、数据的搜集方法及说明众所周知,数据的搜集方法有直接搜集方法和间接搜集方法,直接搜集是直接向调查对象搜集反映调查单位的原始资料数据。而我采用的是间接搜集方法,也就是通过网络搜集到已经加工整理过的、能够说明总体现象的数据。本文采集的是2012年5月1日中国部分中小型银行利用信息安全技术对大数据处理个数。如表1-1所示:表1-1中国部分中小型银行数据统计地区银行名称截止时间大数据(亿)湖北孝感市商业银行2011-10-178.54辽宁丹东市商业银行2011-10-1162.33湖南岳阳市商业银行2011-10-1399.56浙江象山县绿叶城市信用社2011-10-1457四川宜宾市商业银行2011-10-1702.22黑龙江牡丹江市商业银行2011-10-1850.5云南曲靖市商业银行2011-10-11000.55山西晋中市商业银行2011-10-11023.4山西阳泉市商业银行2011-10-11233.85四川遂宁市商业银行2011-10-11355.7湖北黄石市商业银行2011-10-11379.6山东枣庄市商业银行2011-10-11388重庆重庆三峡银行2011-10-11501陕西宝鸡市商业银行2011-10-11503.8河南信阳市商业银行2011-10-11722辽宁鞍山市商业银行2011-10-11795.1河北邢台市商业银行2011-10-11800湖北荆州市商业银行2011-10-11800河南安阳市商业银行2011-10-11800河南焦作市商业银行2011-10-11801.23内蒙古乌海市商业银行2011-10-11803.47山东济宁市商业银行2011-10-11810河南许昌市商业银行2011-10-11810.32辽宁抚顺市商业银行2011-10-11812.11内蒙古呼和浩特市商业银行2011-10-11812.75江西九江银行2011-10-11815.56河北秦皇岛市商业银行2011-10-11816河南平顶山市商业银行2011-10-11928.38青海青海银行2011-10-11946.5湖南湘潭市商业银行2011-10-11958.78湖南株洲市商业银行2011-10-12000湖南衡阳市商业银行2011-10-12000福建泉州市商业银行2011-10-12012.87江西赣州银行2011-10-12055.47河南南阳市商业银行2011-10-12106辽宁阜新市商业银行2011-10-12107湖北宜昌市商业银行2011-10-12111.64广西桂林市商业银行2011-10-12165.8黑龙江齐齐哈尔市商业银行2011-10-12178浙江湖州市商业银行2011-10-12186.8河北沧州市商业银行2011-10-12207.54河南新乡市商业银行2011-10-12217广东湛江商业银行2011-10-12225浙江浙江泰隆商业银行2011-10-12227.56河北张家口市商业银行2011-10-12231.08广西柳州市商业银行2011-10-12240.77河北冀中银行2011-10-12244浙江嘉兴市商业银行2011-10-12247广西广西北部湾银行2011-10-12247.56河北廊坊银行2011-10-12247.81辽宁营口银行2011-10-12249辽宁葫芦岛市商业银行2011-10-12258.36山东东营市商业银行2011-10-12503浙江浙江民泰商业银行2011-10-12507山东德州市商业银行2011-10-12534辽宁朝阳市商业银行2011-10-12548黑龙江大庆市商业银行2011-10-12556.6浙江浙江稠州市商业银行2011-10-12577.56山西大同市商业银行2011-10-12589.4山东莱芜市商业银行2011-10-12601.63浙江金华市商业银行2011-10-12605山东临商银行2011-10-12609河南洛阳市商业银行2011-10-12627福建厦门市商业银行2011-10-12631.23山东日照市商业银行2011-10-12643.8山西太原市商业银行2011-10-12652山东潍坊市商业银行2011-10-12668.4浙江台州市商业银行2011-10-12675.71山东威海市商业银行2011-10-12677.6宁夏宁夏银行2011-10-12679.97浙江绍兴市商业银行2011-10-12680新疆乌鲁木齐市商业银行2011-10-12681.5山东齐商银行2011-10-12682江西南昌银行2011-10-12688.5山东烟台市商业银行2011-10-12689甘肃兰州市商业银行2011-10-12699浙江温州银行2011-10-12871贵州贵阳市商业银行2011-10-12886.74河南郑州市商业银行2011-10-12900山东青岛市商业银行202901辽宁锦州市商业银行2011-10-12926.7福建海峡银行2011-10-12936.21云南富滇银行2011-10-12945.31湖北汉口银行2011-10-12977.54山东齐鲁银行2011-10-12998.13河北石家庄市商业银行2011-10-13005重庆重庆银行2011-10-13009.87吉林吉林银行2011-10-13015.24黑龙江哈尔滨银行2011-10-13044.76内蒙古包商银行2011-10-13100.9湖南长沙银行2011-10-13108.56四川成都银行2011-10-13112.53广东东莞银行2011-10-13118浙江杭州市商业银行2011-10-13119.68辽宁大连银行2011-10-13520辽宁盛京银行2011-10-13531.26广东广州银行2011-10-13533.6天津天津银行2011-10-13,546.72安徽徽商银行203,547.10江苏南京银行2011-10-13,548.60浙江宁波银行2011-10-13,712.00广东深圳平安银行2011-10-13,716.00江苏江苏银行2011-10-13,855.42上海上海银行2011-10-13,988.50北京北京银行2011-10-14,417.65从表1-1中,可以非常明显得看到各中小型银行的大数据处理个数,下面我们对各银行做下讨论与研究。2、数据整理:给出频数、频率分布表及说明从上面的表中看到,银行大数据(单元:亿)的样本观察值的最小值是湖北省孝感市商业银行的个数,最大值是位于北京市的北京银行,取a=78,b=4418,全距L=4418-78=4340,把数据分布的区间(78,4418]等分为10个子区间,等组距为,i=1,2,…10。通过计数求出落在各子区间的大数据个数,则得频数和频率分布,列入表1-2。表1-2大数据频数和频率分布表序号大数据子区间组中值频数频率12345678910(78,512](512,946](946,1380](1380,1814](1814,2248](2248,2682](2682,3116](3116,3550](3550,3984](3984,4418]295729116351597203124652899333337674201425142522208320.040.020.050.130.240.210.190.080.030.0213、画出直方图和折线图并给出说明由于等组距,故在横轴上截取子区间,且各子区间的宽度等于组距434,第i个小矩形的高为组频数,由此从直方图的分布上可以大致看出大数据的分布。直方图1-1和折线图1-2所示。图1-1频数-大数据子区间直方图图1-2频数-大数据子区间折线图由图1-1和图1-2可见,直方图大致呈对称形状,可以认为大数据近似服从正态分布,其数学期望大致在2300附近。画出经验分布函数由于依赖顺序统计量的观察值,所以是一个随机变量,它的可能取值为:,,…,,1,故表示n次独立试验中,事件发生的频率。样本X1,X2,…Xn中n个随机变量相互独立,导致事件发生的概率等价于进行n次伯努力试验,事件发生k次的概率,即其中是总体X的分布函数。二、假定总体服从正态分布,给出,的估计1、矩估计法从总体中随机抽取25个样本:162.33,702.22,1233.85,1501,1795.1,1800,1928.38,2000,2107,2217,2240.77,2247.81,2507,2577.56,2627,2668.4,2681.5,2699,2926.7,2998.13,3015.24,3108.56,3533.6,3716,4417.65将样本值代入,得出和的矩估计值:的矩估计值为=2376.5的矩估计值为=810220.12、极大似然估计对正态总体,是二维参数,设有样本,,…,则似然函数及其对数分别为将分别关于两个分量求偏导并令其为0,即得到似然方程组解此方程组,可得的极大似然估计为将之代入第二方程,得出的极大似然估计所以的极大似然估计量为的极大似然估计量为将样本值代入,得出,的极大似然估计值=2376.5=810353.15三、参数区间估计1、方差未知,求数学期望的置信区间当已知时,选取样本的函数服从标准正态分布,即给定置信水平0.95,使分位数为,上式等价于则的置信水平为0.95的置信区间为2、数学期望,均未知,求方差的置信区间选取样本的函数为给定置信水平0.95,使从分布表查出分位数为,,于是样本方差为844117.9则的置信水平为0.95的置信区间为四、参数的假设检验1.样本统计数据的t检验假设所有银行所处理的大数据个数都为2400亿个。(1)原假设和备择假设,(2)选取检验统计量当原假设为真时,检验统计量为(3)确定拒绝域给定显著水平,使查t分布表得临界值为,则拒绝域为或。(4)样本标准差为,计算检验统计量的观察值,(5)作判断由于,因此接受原假设。认为所有银行所处理的大数据均为2400亿个。2.样本统计数据的检验(1)原假设和备择假设,(2)选取检验统计量当原假设为真时,检验统计量为(3)确定拒绝域样本方差为844117.9,给定显著性水平,使则拒绝域为(0,10.856]或[42.980,)。计算检验统计量的观察值(5)作判断因为,所以接受原假设。非参数假设检验拟合优度检验频率分布如表1-2所示,通过画直方图,粗略知大数据个数服从正态分布,数学期望大致在2300左右。检验在显著性水平下,各银行的大数据个数X是否服从正态分布。原假设和备择假设为,不真其中,均为未知参数。,的极大似然估计值分别为=2376.5,以表1-2为基础,原假设为真时,计算随机变量X落在各小区间的概率。…等价检验假设,,…,计算结果列于表5-1。表5-1各区间概率序号大数据子区间频数12345678910(78,512](512,946](946,1380](1380,1814](1814,2248](2248,2682](2682,3116](3116,3550](3550,3984](3984,4418]1425222080.01920.03670.07760.13410.17670.18880.16080.10930.06010.025114.080518.553519.82416.88411.47650.64960.00572.23990.23890.57511.05311.74051056.5028合并后的区间个数为k=7,随机变量分布中含有两个未知参数,因此当原假设为真时,检验统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论