版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SPSS数据分析教程SPSS数据分析教程1第4章 概率论初步2目录4.1离散型随机变量的仿真 4.1.1均匀分布的随机数4.1.2正态分布的随机数4.2理论分布4.2.1二项分布的分布函数和概率4.2.2连续分布的随机变量正态分布4.3经验分布4.4抽样分布4.5置信区间3本章学习目标用仿真方法从总体中抽取随机样本:生成服从某种分布的随机数;得到观测值的理论分布、经验分布;理解抽样分布的形状;掌握如何求置信区间;学习如何从数据集中选择符合条件的个案。44.1 离散型随机变量的仿真 54.1.1 均匀分布的随机数 假设我们有一个正方形,它被均匀的分为4个相同大小的小正方形。现在从正方形的中心上方
2、随机地投掷一颗玉米粒1000次,假设每次投掷的玉米粒都等可能的落在4个小正方形中的一个之中。问题是:落在1号、2号、3号和4号正方形中的情况如何呢? 1 2 4 36模拟投掷的过程 (1)第1步:设置随机数种子 选择【转换】【随机数字生成器】,勾选“设置起点”,并在“固定值”下的“值”中输入一个用户给定的数值。 第2步:生成均匀分布的随机数,等可能的产生1,2,3和4这四个数共计1000个. 选择【转换】【计算变量】,在“目标变量”框中输入变量名“Spinn”,在“数字表达式”框中输入TRUNC(RV.UNIFORM(1,5),然后单击【确定】按钮.7模拟投掷的过程 (2)第3步:然后分析这四
3、个数出现的次数和相对频率。 选择【分析】【描述统计】【频率】 8随机数分析(1)9随机数分析(2)104.1.2 正态分布的随机数 正态分布的随机变量是连续型随机变量,它的可能取值是所有实数。数据分析的许多模型和理论都要求数据服从正态分布,因此正态分布的随机数在模拟中有广泛的应用。 11一、生成正态分布的随机数第1步:设置随机数种子为123456 第2步:选择【转换】【计算变量】, 应用函数RV.Normal(0,1)。SET SEED=123456. COMPUTE Rnorm01= RV.NORM(0,1). SAVE OUTFILE=D:SPSSIntrodataSim_norm.sav
4、 /COMPRESSED. EXECUTE12生成随机数示意图13二、分析这些正态随机数的性质绘制随机数的序列图,有几种方法方法1:选择【图形】【图表构建程序】,选择“条” 方法2:选择【分析】【预测】【序列图】方法3:选择【图形】【旧对话框】【线图】1415该样本数据的确是从正态分布的总体中随机抽取的呢? 绘制随机数的带有正态曲线的直方图 164.2 理 论 分 布除4.1中的均匀分布和正态分布外,常见的分布还有二项分布、负二项分布、泊松分布、指数分布、t分布等。SPSS软件中提供了这些常见分布的分布函数、概率分布函数和概率密度函数。SPSS的PDF与非中心PDF函数族提供了相关分布的概率分
5、布函数或者概率密度函数,CDF与非中心CDF函数族提供了相关分布的累积概率分布函数(或简称分布函数)。而逆DF函数族则给出了相应分布的分位数。 174.2.1 二项分布的分布函数和概率 如果随机试验只有两个可能的结果,设该试验中成功的概率为p。如果将该试验独立地重复进行次n次,这一串重复的独立试验称为重n贝努力试验。如果用X表示在这次试验中成功的次数,则随机变量X服从二项分布,其分布函数为 18CDF.BINOM(x,10,0.25),该函数用于计算出x所对应的累计概率,即: (1)这里x表示不大于的最大整数。PDF.BINOM(x,10,0.25)计算而X取某个特定值i的概率为: (2)19
6、由上面(1)式计算出的为分布函数的值;如果是离散随机变量,(2)式给出的为概率值,它是随机变量X取各个离散值0,1,2,10的概率 。函数CDF.BINOM(x,10,0.25)用于计算n=10,p=0.25的二项分布下x的分布函数值或者称为累计概率。20二项分布的概率分布图214.2.2 连续分布的随机变量正态分布 连续型随机变量的任何两个可能取值之间都有无限多个可能的取值,因此所有可能取值是不能列举的,也不能给随机变量的某可能取值赋给一个唯一的概率值。一般考虑连续型随机变量的分布函数(即累积概率函数(Probability Cumulative Function,CDF)和密度函数(Pro
7、babilitty Density Function,PDF)。22SPSS的CDF函数族给出的就是分布函数的值。 CDF.NORMAL(x,0,1)是给出均值为0,标准差为1的正态分布变量x的累计概率分布函数值。PDF.NORMAL(x,0,1)是给出均值为0,标准差为1的正态分布变量x的密度函数值。23可以画出累计概率分布函数的线图24可以画出正态分布变量x的密度函数的线图25比较不同参数的正态分布函数264.3 经 验 分 布把观测到的样本数据的相对频率分布称为经验分布,根据概率的频率定义,当样本量足够大时,频率稳定到概率。实际问题中样本数据所服从的分布常常是未知的,我们只能通过样本数据
8、的经验分布来了解数据的分布情况。SPSS描述性统计菜单的的频率过程中把频率称为百分比,而把结果出现的次数称为频率。 27频率数据GSS2004.sav,它记录了美国2004年社会调查的数据,有调查对象的年龄、性别、受教育年限、最高学历、子女个数等。这里我们考察调查对象子女个数的分布情况。 28频率表选择【分析】【频率】,把变量“CHILDS”选到右侧的“变量(V)”框中。29相对频率直方图304.4 抽 样 分 布由于样本选择的随机性,样本统计量也是随机变量,不同的样本,样本统计量的取值也可能不同。 每个随机变量都有其分布性质,例如描述性统计量均值、方差、分位数等。样本统计量的分布称为抽样分布。31模拟从同一个分布已知的总体中随机抽取若干不同的样本,然后观察样本统计量的分布情况。从一个均值为50、标准差为10的正态总体中随机抽取80个容量为50的样本。32Sample80.sps INPUT PROGRAM. VECTOR X(80). LOOP #I = 1 TO 50. LOOP #J=1 TO 80. COMPUTE X(#J)=RV.NORMAL(50, 10). END LOOP. END CASE. END LOOP. END FILE. END
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国植脂奶油行业竞争状况及营销前景预测研究报告
- 2024-2030年中国平衡原纸行业竞争状况及投资盈利分析研究报告
- 国网公司课程设计招聘
- 2024年幼儿园防汛值班工作制度
- 钻采仪器相关行业投资规划报告范本
- 2024至2030年中国FRP阻燃型采光板数据监测研究报告
- 2024至2030年中国桉木木地板数据监测研究报告
- 2024至2030年中国功夫茶具行业投资前景及策略咨询研究报告
- 2024年小学联席会议制度范文(二篇)
- 2024年学校后勤工作管理制度例文(三篇)
- 2024年国家公务员考试《行测》真题卷(副省级)答案及解析
- 教育局职业院校教师培训实施方案
- 2024年新华社招聘应届毕业生及留学回国人员129人历年高频难、易错点500题模拟试题附带答案详解
- 江苏省南京市秦淮区2023-2024学年八年级上学期期中语文试题及答案
- 2024年个人车位租赁合同参考范文(三篇)
- (完整版)新概念英语第一册单词表(打印版)
- 签申工作准假证明中英文模板
- 员工履历表(标准样本)
- 2024年山东省济南市中考数学真题(含答案)
- 山东省青岛市黄岛区2023-2024学年六年级上学期期中语文试卷
- 二手门市销售合同范本
评论
0/150
提交评论