教育统计学 课件第6-7次课-数据的统计描述与数据的表示;第8次 概率与概率分布_第1页
教育统计学 课件第6-7次课-数据的统计描述与数据的表示;第8次 概率与概率分布_第2页
教育统计学 课件第6-7次课-数据的统计描述与数据的表示;第8次 概率与概率分布_第3页
教育统计学 课件第6-7次课-数据的统计描述与数据的表示;第8次 概率与概率分布_第4页
教育统计学 课件第6-7次课-数据的统计描述与数据的表示;第8次 概率与概率分布_第5页
已阅读5页,还剩176页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

教育统计学数据的统计描述与数据的表示学部本科科生课课程北京师范大学教育学部胡咏梅第一节描述统计的原理第二节数据的表示第三节描述统计的SPSS操作contents31.一班、二班学生数学(英语、物理)

平均成绩分别是多少?2.一班、二班学生数学成绩最高分分

别是多少?3.哪个班学生数学成绩更整齐(或更

分散)?4.从两个班成绩来看,这次数学考试

是偏难还是偏易?5.从两个班学生数学、物理成绩来看,

是否数学成绩高的学生,其物理成绩

也高?概括描述数值数据一个变量的问题:解释数值数据的特征

l

集中趋势l

变异程度(或离散程度)l

分布形状两个以上变量的问题:l

相关分析第一节

描述统计的原理4数值数据的特征标准差半四分位距峰度中位数分布形状集中量数差异量数方差众数全距偏态平均数s1.概念:描述统计是通过图表或统计量对数据进行整理、分析,以对数据

分布形态、数字特征和随机变量之间关系进行估计和描述的方法。它包括

集中趋势分析、离散趋势分析和相关分析三部分。2.特点:以简单明了的统计量或统计图表来描述庞大的数据。一、描述统计集中量数是描述数据集中趋势的统计量。(一)平均数(二)中位数(三)众数二、集中量数

1.概念:平均数是取某一变量的所有数值的总和除以数据个数所得到的值。又称算术平均数。2.

公式:

总体平均数为

μ

,

数据个数为N;

样本平均数为

X,数据个数为n;Xi

表示第

i个数据;n表示数据的数量;Σ

是累加求和符号,即

Xi

=

X1

+

X2

+

X

3

+

+

X

ni

=

1

(一)平均数(Mean)

(二)中位数(Median)

1.概念:中位数是指按数值的大小顺序排列在一起的一组数据中居于中间位置的数。2.

求法(1)将所有数据按大小顺序排序。n+

1(2)如果数据的个数为奇数,中数为位于这列数据第2

位置上的数。如果数据的个数为偶数,中数为位于这列数据第

位置和第

+

1

位置上的两

个数值的平均数。3.例子:

3,6,

8,

9,

12,

15,

16;3,6,

8,

9,

12,

151.概念:众数是指一组数据中出现次数最多的那个数值。2.

例子:50,55,

60,

60,

60,

65,

66,

70,

903.注意:一组数据可能没有众数或有多个众数。

(三)众数(Mode)

101.定类变量:众数口没有单位、没有顺序口例:9个学生的居住地:3,2,

1,

1,

1,

1,3,2,

21为北京,2为上海,3为广州2.定序变量:中位数、众数口无单位,有顺序口例:

9个学生的年级:3,3,2,2,

2,

1,

1,

1,

1口例:9个学生的成绩排名:

1,2,2,4,5,5,7,8,9(四)集中量数的使用时机3.定距/定比变量:平均数、中位数、众数口有单位,有顺序口例:数学成绩:78,56,89,58,67,97,85,83,97口例:量表得分:5,5,

4,

4,

3,

2,

2,

2,

1(四)集中量数的使用时机测量层次集中量数众数中位数平均数定类变量√定序变量√√定距/定比变量√√√优点不受极端值的影响,

计算方法简便。对数值变化不敏感,

较少受极端值影响,

计算方法较为简便。测量最为精确,考虑到每一个样本,具有代表性。缺点测量过于粗糙,无法反映所有样本

的状况。无法反映所有样本

的状况。易受极端值的影响。

(五)集中量数的测量特性与优缺点假如某班1小组期末考试数学成绩为:83

,52

,96

,79

,83

,88

,64

,79

,83

,69试用平均数、中位数、众数分别描述数学成绩的集中趋势。练习一

10=

77

.683

+

52

+

96

+

79

+

83

+

88

+

64

+

79

+

83

+

691.

平均数题解1s=位置位置

+

1=6中位数

原数据:83排序数据:

52排序位置:

183795888362.

中位数(Median)798387979496693699610648375264283889题解3.

众数原数据:83

52

96

79

83

88

64

79

83

69排序数据:

52

64

69

79

79

83

83

83

88

96排序位置:12

3

45

6

7

8

910题解

题解差异量数是描述数据离散趋势的统计量。(一)全距(二)半四分位距(三)标准差和方差三、差异量数1.概念:全距是一组数据中最大值与最小值之差。

R=

Xmax

-Xmin2.全距反映了数据波动的最大范围。3.不考虑数据如何分布,取决于数据的极端值。4.

注意:全距越大,说明观察值分布越分散,反之就越集中。(一)全距(Range)

1.

百分位数(Percentile)指以一定顺序排列的一组观测值中某个百分位置所对应的数值。百分位数用Pp表示,作为下标的p表示百分位置。例:P80表示第80百分位数,P80=

60分在一组观测值中,小于这个数值的观测值个数占80%

,大于它的占20%。

(二)半四分位距(Semi-interquartilerange)20第i个四分位数的位置:Qi

=

Q1是第一四分位数

(P25)

,是处于(n+1)/4位置上的观测值,即25%的观测值比Q1

小。Q2是第二四分位数(P50

)

,中位数,处于2(n+1)/4=(n+1)/2的位置上,即50%的观测值比

Q2

小。Q3是第三四分位数(P75)

,处于3(n+1)/4

的位置上,即75%的观测值比Q3

小。25%

25%

25%

25%是将一组已排序的数据按个数四等分的百分位数。分别是位于25%

、50%

、75%的百2.

四分位数(Quartile)Q1

Q2

Q3分位数。3.

四分位距(IQR

,又称四分差)指排序数据处于中间50%数据的全距。公式:为第三和第一四分位之差IQR=

Q3–Q14.半四分位距(SIQR

,又称绝对中位差)是四分位距的一半。

半四分位距越大,代表分数的离散程度越大。1.标准差:刻画数据到平均数的平均距离的一种统计量。2.方差:标准差的平方。口标准差是最常用和最重要的变异性测量。口

表示全部观测值相对于平均数的平均变异程度。(三)标准差(StandardDeviation)和方差(Variance)3.公式推导目标:测量到平均数的标准距离步骤1:求每个数到平均数的距离(离差)数据的离差

=X

-μ例:对于一个μ

=50的样本分布,如果X=53

离差=53

-

50=

3如果X=45

离差=45–50=-5离差:符号(+或

-)与数字步骤2:求离差的平均数(将离差相加,再除以N)

例:下面这组N=4的数据,和是∑X=

12,平均数是

μ

=12/4=3,对于每个数据,离差为X8

1

3

0X-μ

+5-20-3∑(X-μ)=

0注意:离差总和为零。因此无法测量离散程度。2s然后:用这个平方值计算平均离差平方,称为方差。总体方差

=

平均离差平方=

方差是离差的平方的平均数。注意:距离的平方的平均数不是对离散程度的最好描述。

步骤4:标准差为方差的平方根。标准差步骤3:去掉符号(+和-)

去掉符号的标准方法:将每个数据的离差平方。↓↓找出平方后的距离

的平均数(方差)找出距离(每

个数值与平均

数之间的距离)如果计算所有

距离的平均数,

总会得到零标准差:距离平

均数的标准距离计算方差的平方根将每个距离平方

离差平方和

=(X1

-

X)2

+

(X2

-

X)2

+

…+

(X3

-

X)2n

-

1总体方差公式

样本方差公式

()(

)()

1X

X

X

X

X

Xn一

+

+

+

一=一总体标准差公式:标准差为方差的平方根样本标准差公式22223…1测量层次离散量数全距四分位距标准差/方差定类变量定序变量√√定距/定比变量√√√优点计算方法简便,适用于大部分测量尺度。对极端值较不敏

感,能表现定序变量

的变异情形。测量最为精确,考虑到每一个样

本,具有代表性。缺点测量过于粗糙,无法反映所有样本状况,

易受极端值的影响。稳健性较好,不

过无法反映所有

样本的变异状况。当样本量较小时,

易受极端值的影

响。(四)变异量数的测量特性与优缺点30假如某班1小组期末考试数学成绩为:83

,52

,96

,79

,83

,88

,64

,79

,83

,69试用全距、四分位距、方差、标准差分别描述数学成绩的离散程度。练习二题解

1.全距和四分位距原始数据:835296

79

83

88

64

79

83

69排序数据:526469

79

79

83

83

83

88

96排序位置

12

3

4

5

6

7

8

9

10o

全距

=X最大

-X最小=96-52=44o

Q1

的位置

(n+1)/4=2.75≈3

,Q1

=69o

Q3

的位置

3(n+1)/4=8.25≈

8

,Q3

=83o

四分位距

=Q3

-Q1

=83-69

=

14S

=

i

1

,

其中

77

.6i(2X)21-nXS2

=

(83-

77.6)2

+

(52-

77.6)2

+…(69-

77.6)2

=

160.210-12.样本方差(Sample

Variance)原数据:835296

79

83

88

64

79

83

69题解

··160

.2

=

12

.73.样本标准差(Sample

Standard

Deviation)题解一、统计表和统计图的一般说明二、数据表示中的错误第二节

数据的表示35(一)统计表1.统计表的结构及其

编制的原则和要求2.统计表的种类(二)统计图1.统计图的结构及其绘

制规则2.统计图的主要种类一、统计表和统计图的一般说明数学语文英语1班8488952班9089923班8693874班9690891.统计表的结构及其编制的原则和要求标题,表号,标目,线条,数字,表注(一)统计表

例:

表4.

1四年级各班各科学期平均成绩注:4班是实验班。年份19981999200020012002总和录取人数132154144123125678简单表,组合表,复合表(1)简单表举例:只按一个标志分组。标志是年份表4.2

元培中学各年的高考录取人数2.统计表的种类优良中及格差总和1班8251520502班9201531483班515227352总和226052124150

(2)组合表举例:按二个标志分组表4.3

元培中学五年级的体育达标结果按班级和

成绩分组1班

2班

3班优

及格

差男

(3)复合表举例:按三个标志分组表4.4

元培中学五年级的体育达标结果按班级,成绩,

和性别分组5048521501310629108102857122412109316521324390145223701120022班级总和总和例:成

级人数图4.1

四年级数学考试成绩1.统计图的结构及其绘制规则标题,图号,标目,图形,图注(二)统计图

2.统计图的主要种类图4.2四年级数学考试成绩(1)条形图2.统计图的主要种类图4.3

四年级数学考试成绩(2)柱形图(3)圆形图(饼图)2.统计图的主要种类图4.4四年级数学考试成绩2.统计图的主要种类图4.s

元培学校高考入学率的变化(4)折线图4s2.统计图的主要种类(5)散点图(加趋势线)图4.7

文化课学习成绩与体育成绩的关系(6)复式条形图——按两个标志分组2.统计图的主要种类图4.8四年级数学考试成绩应用普遍程度统计:o

圆形图(5%)o

条形图(25%)o

柱状图和线形图(50%)o

散点图(10%)o

其它(10%)选择图的形式选择合适的统计图

示例:各高校4种科研合作类型的科研质量对比图(篇均被引次数作为科研质量指标)o

以上是各高校4种科研合作类型的科研质量对比图(篇均被引次数作为科研质量指标),第一个图是雷达图,优点是不同合作类型直接比较得

很清楚,缺点是具体到每个高校的数据不清晰;第二个图是做的簇状条

形图,4种合作类型的条形图均从起点开始,缺点是对比条形太多,不

易看清是哪类合作;第三个图是堆积条形图,就是4个合作类型的篇均

被引次数放在一个直条图上(此图相对最合适),优点是简洁,可以看

清四类合作篇均被引次数的相对差异。选择合适的统计图1.使用花哨(Junk)图表2.数据比较时没有可靠的相对基准3.压缩或扩大纵轴4.纵轴上无零点二、数据表示中的错误在报纸、杂志上的图表里通常都会加上花哨的图标和符号以增加吸引力,这种做法常常会掩盖或曲解数据应传递的准确信息。

最低小时工资(wage)

1960:

$1.00

1970:

$1.60

1980:

$3.101.花哨图表(ChartJunk)最低小时工资

$1960

1970

1980

19904201990:

$3.8053某校2000-2003年初中升高中的比例百分比某校2000-2003年初中升高中人数2.无相对基准30%20%

10%

0%300200100000年

01年

02年

03年00年

01年

02年

03年人数通常百分比之间较为可比,而绝对数之间比较却可能产生误解。实例:比较各校毕业班的升学情况,应当采用升入高一级学校的百分比,

而不是升入高一级学校的学生总数。相对基准(RelativeBasis)季度销售

季度销售$

$50

25

0

1季

2季

3季

4季

1季

2季

3季

4季3.压缩纵轴20010003.扩大纵轴(单元刻度值过小)2023-3-52023-3-5合理的纵轴刻度月销售量$一

十一4.纵轴无零点一

十一454239366040200月销售量$一、单选题的统计分析二、复选题的统计分析三、排序题的统计分析四、量表题的统计分析第三节

描述统计的SPSS操作(一)频数分析(二)输出描述性统计量(三)列联表分析一、单选题的统计分析62

数据文件4-1.sav为某小学五年级学生语文成绩等级得分

1为“>=90”分,2为“80-90”分,3为“70-79”分,4为“60-69”分,5为

“<=59”分。

假如我们统计语文成绩五个等级各组的人数和比例,并以柱状图和饼

图来表示。(一)频数分析

(1)打开数据文件:4-1.sav(2)单击Analyze—Descriptive

Statistics—Frequencies(3)将“语文成绩等级”变量选入Variable(s)列表框中(4)勾选左下角“Display

frequency

tables”64(一)频数分析

(5)输出结果

66(6)使用Excel作图:柱状图和饼图

a.

SPSS输出结果复制到Excel中6768b.

选中变量列和有效百分比列,单击“插入”

,选中“柱形图”。a.将SPSS输出结果复制到Excel中b.选中变量列和有效百分比列,单击插入,选中图形(6)使用Excel作图:柱状图和饼图

69l

保留两位小数点l

带有百分号c.

其他要求:70制作圆饼图71721.研究问题:求出样本观测量在数学、英语测验成绩的描述性统计量。2.数据:4-1.sav(二)输出描述性统计量

(1)打开数据文件:4-1.sav(2)单击Analyze—Descriptive

Statistics—Descriptives(3)将“数学”和“英语”变量选入Variable(s)列表框(4)单击Options

,选中相应选项7s(5)SPSS输出结果

78l

单击Statistics

,选中相应选项l

单击Analyze—Descriptive

Statistics—Frequenciesl

将“数学”和“英语”变量选入Variable(s)列表框中方式二:

79l

SPSS输出结果1.研究问题:输出班级变量与性别变量的列联表,并用柱状图表示(三)列联表分析

2.数据:4-1.sav(2)单击Analyze—Descriptive

Statistics—Crosstabs(3)将“班级”选入Row(s)

,将“性别”选入Column(s)(4)单击Cells

,选中

Row,Column,Total等选项(1)打开数据文件4-1.sav

81(5)SPSS输出结果

8a.将SPSS输出结果复制到Excel中b.建立数据表格,选中行、列变量类别及数据,单击插入-三维柱形图。(6)使用Excel作图:柱状图或条形图84c.点击图形网格线,点击右键,再单击“删除”

,去掉网格线。8s6d.

单击柱形,点右键,单击“添加数据标签”。8788e.

单击左上角菜单栏中的“切换行列”。(6)使用Excel作图:柱状图或条形图

练习一遍刚才的演示l求出班级变量与性别变量的列联表,并用柱状图表示。l

要求:数字保留2位小数点,带有百分号%练习三二、复选题的描述统计

(一)频数分析(二)列联表分析91

数据文件4-2.sav中涉及一题:“您未来选择孩子就读的中学时,会考虑哪

些因素?”

该题可复选,共四个选项:学校办学口碑、校长领导风格、学校升学率、

交通因素。

a1m1表示选项“学校办学口碑”

,a2m2表示选项“校长领导风格”,a3m3

表示选项“学校升学率”

,a4m4表示选项“交通因素”

,以上四个变量均

为二分变量,1表示选中,0表示未选中。

统计各选项勾选的次数及百分比,并用柱状图表示(一)频数分析

o

(1)读取数据文件4-2.sav;o

(2)按Analyze—Multiple

Response—Define

Variable

Sets

…顺序逐一单

击鼠标键,打开Define

Multiple

Response

Sets主对话框o

(3)

将所有选项变量选入变量集中编计数输入命新

a1

。点击Add

,增加生成新的虚拟变量$a93单击Analyze—Multiple

Response—Frequencies复选题的频数分析使用Excel作图:柱状图或条形图

a.将SPSS输出结果复制到Excel中b.建立数据表格,单击插入,选中图形96c.选中百分比数据列,点击菜单栏右上角的“排序和

筛选”

,选中“升序”

,并选中“扩展选定区域”

97c.

选项排序练习一遍刚才的演示l求全体样本在复选题一“您未来选择孩子就读的中学时,会考虑哪些因

素?”各选项勾选的次数及百分比,并用柱状图排序表示。l

要求:数字保留2位小数点,不带有百分号。练习四

数据文件4-2.sav

统计不同年龄父母样本在题项“您未来选择孩子就读的中学时,会考虑

哪些因素?”各选项勾选的个数、百分比情况,并用条形图表示。(二)列联表分析(1)单击Analyze—Multiple

Response—Crosstabs(2)将需要分析的变量age选入行变量栏,并定义取值范围。由于age变量

为三分变量,1表示“35岁以下”

,2表示“36-44岁”

,2表示“45岁以

上”,因此定义取值范围最大值为3

,最小值为1。101

单击Options

,打开设置

103结果报表

104a.将SPSS输出结果复制到Excel中b.建立数据表格,单击插入,选中图形使用Excel作图:柱状图或条形图105三、排序题的描述统计

“对于子女小学高年级的学习科目,您重视的重要性次序为何?

(请按不满意程度

排序,1-最重视的学科,2-次重视的学科,3-第三重视的学科,4-第四重视的学科,

5-最不重视的学科)

”。

在数据文件4-2.sav中,a2m1为“语文”变量,a2m2为“数学”变量,a2m3为“英

语”变量,a2m4为“

自然”变量,a2m5为“社会”变量,它们均为分类变量,1

表示最重视的学科,2表示次重视的学科,3表示第三重视的学科,4表示第四重视

的学科,5表示最不重视的学科。

了解全体样本“对于子女小学高年级的学习科目重视的重要性次序”情况并用柱

状图表示。(1)打开数据文件:4-2.sav(2)单击Analyze—Descriptive

Statistics—Descriptives(3)将科目变量选入Variable(s)列表框中(4)单击Options

,选中均值、标准差等描述性统计量107SPSS输出结果

使用Excel作图:柱状图或条形图

a.将SPSS输出结果复制到Excel中b.建立数据表格,单击插入,选中图形练习一遍刚才的演示l了解全体样本对于题项二“对于子女小学高年级的学习科目”

,重视

的重要性次序,并用条形图表示。l

要求:数字保留2位小数点,并排序练习五110(一)量表层面的加总(二)量表层面单题平均分(三)量表的描述统计四、量表题的描述统计n

数据文件4-3.savn该数据反映教师工作满意度水平,将“教师工作满意度”分为对领导

与管理的满意度、对学校发展环境的满意度、对付出-回报合理性的满

意度、对自我实现的满意度和对人际关系满意度五个维度。n

“对领导与管理的满意度”维度包含b1至b5变量5个题项,现对该维度

进行加总。(一)量表层面的加总

(1)打开数据文件:4-3.sav(2)单击Transform—ComputeVariable(3)在Compute

Variable对话框中输入加总变量名称(factor1)及计算公

式(sum

b1to

b5或b1+b2+b3+b4+b5)。113n

数据文件:4-3.savn

对“对领导与管理的满意度”维度计算单题平均分。(1)单击Transform—ComputeVariable;(2)在Compute

Variable对话框中输入单题平均分变量名称(ave1)及计

算公式(factor1/5)(二)量表层面的单题平均分

o

若我们要对量表“对领导与管理的满意度”维度进行描述统计即对新生成

的维度总分(factor1)和维度的单题平均分(ave1)进行描述,需要进行

如下操作:o

(1)读取数据文件4-3.sav;o

(2)单击Analyze—Descriptive

Statistics—Descriptives;o

(3)将新变量选入Variable(s)列表框中。(三)量表的描述统计116SPSS输出结果

作业及练习

1.假如某班学生体育测试成绩如下:83,50,87,79,83,88,65,79,83

。试用平均数、中位数、众数分别描述数学成绩的集中趋势,用全距、四分位距、方差、标准差分别描述数学成绩的离散程度。2.利用SPSS软件,将下列两种数据分别制成频数分布表,并绘制条形图,给出它们的四分位数的

值,对它们的成绩分布情况进行比较。甲班学生的数学成绩:60,63,96,52,59,45,32,82,68,68,62,70,76,91,72,86,77,69,88,86,95,71,75,72,57,75,84,90,53,40,47,87,97,71,75,82,87,64,74,81乙班学生的数学成绩:48,61,78,39,40,60,72,65,43,76,52,50,54,55,64,99,67,63,74,67,75,85,78,96,66,44,88,82,58,95,67,77,89,56,73,62,88,63,50,913.使用数据文件“exe4-1.sav”

,给出教师性别变量与年龄变量的列联表,并用柱形图表示(要求:数字保留2位小数点,带有百分号“%”)。4.使用数据文件“exe4-1.sav”

,“教师学校认同感”维度包含a1至a6共6个题

项,求出“教师学校认同感”维度总分和单题平均分,并进行描述统计分析。作业及练习概率与概率分布学部本科科生课课程教育统计学

北京师范大学教育学部胡咏梅随机现象与随机事件概率的两种定义(统计、古典)概率的性质概率的加法、乘法定理事件的概率计算随机变量及其概率分布二项分布及其计算正态分布及其性质正态分布表的使用正态分布在考试成绩中的应用37contents什么是随机现象?在一定条件下,事先可以断言必然会发生某种结果的现象,叫做确定性

现象。确定性现象又分两种情况:一是在一定条件下必然会发生的现象,简称

必然现象。二是在一定条件下必然不会发生的现象,简称为不可能现象。

在一定条件下,事先不能断言会出现哪种结果的现象,叫做随机现象。1.随机现象与随机事件什么是随机试验?对随机现象的一次观察叫做一次随机试验。随机试验反映了随机现象的两

个显著特点:(1)一次试验之前,不能预言发生哪一种结果,这说明随机现象具有偶

然性。(2)在相同条件下,进行“大数次”的重复试验,试验结果会呈现某些

统计规律,这说明随机现象具有规律性。1.随机现象与随机事件什么是随机事件?o

随机试验的各种可能的结果,我们称为随机事件,简称事件。o

“正面朝上”是一个事件A,

“反面朝上”是另一个事件B。1.随机现象与随机事件频率o

设在N次重复试验中事件A发生的次数为n

,则称n/N为事件A发生的频率,

记作FN(A)。o2.概率的定义

(5.1)次数n与频率

FN事

件试

数频率所逼

近的定值1000020000300004000050000正面向上249460.49890.5000反面向上250540.50110.5000n487599221494119934FN0.48750.49610.49800.498451251007815059200660.51250.50390.50200.5016表

1抛硬币的大数次试验所呈现的频率向定值逼近的情况nFN概率o

将随机事件A发生的可能性大小称作随机事件A发生的概率,记作P(A)。o

概率的统计定义o

概率的古典定义

2.概率的定义

o

概率的统计定义与频率是密切相关的,若随机试验满足以下条件:①

每次试验中某一事件发生的可能性不变;②

试验能大量重复,且每次试验相互独立。o

此时,事件A发生的概率就是事件A发生的频率的稳定值。2.概率的统计定义定义1在N次重复试验中,当N无限增大时,事件A发生的频率n/N稳定在一个确定的常数附近,我们就用这个常数来表示事件A发生的概率,记

作P(A)。

(5.2)例:A表示事件“随机抛扔质地均匀的硬币,出现正面朝上”

,则:P(A)=0.50002.概率的统计定义

概率的古典定义要求随机试验满足以下两个条件:①每次试验中所可能出现的结果的个数是有限的。这些结果叫作基本事

件。②每次试验中每个基本事件的出现是等可能的,即每个基本事件出现的

可能性是相等的。2.概率的古典定义定义2

若某项试验的所有可能结果只有有限个,设共有n个,并且这些结果的出现具有等可能性。如果这些结果中的m个出现将导致事件A发生,

则事件A的概率为:

(5.3)n2.概率的古典定义例如,抛硬币这个随机试验,其基本事件只有两个:A=“正面朝上”,

B=“反面朝上”

,而且这两个事件出现的可能性相等,所以抛硬币时出

现事件A的概率为:1

2.概率的古典定义学生从三道题中任选两题有三种可能的结果:第一题和第二题;第一题和第三题;第二题和第三题。所以,基本事件数n=3。如果用A表示事件“恰好抽到第一题和第二题”

,则A只包含前述三个结果中的一个。因此,m=

1

。于是,事件A发生的概率为:P(A)=1/3。例5-1:某学生从教师准备好的三道试题中随机抽出两道题,问恰好抽到第一题和第二题的概率是多少?事件的概率计算

例5-2:在一个盒子中有10个球,分别标有1

、2

、10

,现在随机地取出一个球,求此球的号码为偶数的概率。解:用A表示“抽到偶数球

”这一事件。基本事件数n为10

,事件A

包含的基本事件的个数m为5

(即抽到2

、4

、6

、8

、10号球)

,所以抽到

偶数球的概率为:P(A)

=

=

=

事件的概率计算以上两种定义的概率都具有以下基本性质:①

非负性:

P(A)≥0。②正规性:

必然事件Ω发生的概率为:P(Ω)=1③

事件A的逆事件

A(即“A不发生”这一事件)发生的概率:

P(A)=

1-P(A)。3.概率的性质例5-3:在五选一的单项选择题中,每题有5个备选的答案,即n=5

,但只

有1个是正确答案,即m=

1

,如果一个答题者不具备答此题的知识,他完全凭随机猜测,那么他回答正确的概率P(A),

回答错误(即逆事件A

的概率

=

1-P

事件的概率计算•

加法定理设A1

,A2

,

An

是n个互不相容的事件,即它们中任何两个都不

可能同时发生。则“A1

,A2

,

An

中至少有一个发生”这个事件的概

率是这n个互不相容事件的概率之和,即:P(A1+A2

+

…+An)=P(A1)+P(A2)+

…+P(An)(5.4)其中A1

+A2

+

…+An表示“A1

,A2

,

An

中至少有一个发生”这一事

件。4.概率的加法和乘法定理例5-4:有一个盒中有红色粉笔8支,蓝色粉笔7支,白色粉笔5支,问任意摸得一支红色或蓝色粉笔的概率是多少?解:设摸出一支红色粉笔的事件为A

,摸出一支蓝色粉笔的事件为B

事件A和事件B是互不相容的。由于盒中共有20支粉笔,所以,

即任意摸得一支红色或蓝色粉笔的概率是

4

。事件的概率计算根据加法定理•

乘法定理设A1

,A2

,

An

是n个相互独立的事件,即它们中任何一个事件是

否发生都不会影响其它事件的发生。则“n个相互独立的事件同时发生”这一事件的概率是n个相互独立事件的概率之积,即:P(A1A2…An)=P(A1)•P(A2)

…P(An)(5.5)其中A1A2…An

表示“n个相互独立的事件同时发生”这一事件。4.概率的加法和乘法定理例5-5:某年级举行数学竞赛,其中有10道四选一的单项选择题,若一考生全凭随机猜测,则他将这10道题全猜对的概率有多大?解:设Ai表示“该生猜对第i题”这一事件,i=

1,2,

,

10

。显然,这10

个事件相互独立,且P(Ai

,i=

1,2,

,

10

。根据乘法定理,

即他将这10道题全猜对的概率是0.00000094

,这个概

率是相当小的,接近于0。事件的概率计算•

随机变量表示随机现象各种结果的变量称为随机变量,即随机变量是随机事件

的数量化表示。随机变量每取一个数值,就表示一个随机事件,变量取

不同的数值就表示不同的事件。例如,某班有男女生各若干名,如果从班上随机抽取1人,则抽得学

生的性别是一个随机现象(可将性别作为随机变量)

,结果可能是男,

也可能是女。如果我们用1表示“男

,0表示“

,则这两个事件

“抽得一名男生”和“抽得一名女生”

)便各有一个数值与之对应。6.随机变量及其概率分布o

随机变量按其取值是否连续,可以分为非连续型随机变量和连续型随机

变量。o

在非连续型随机变量中,如果它的取值可以按照一定次序一一列举出来,

则称之为离散型随机变量。例如,从10人中抽出2人参加数学竞赛,抽取的结果按性别分共有三种

情况,如果用上述方法加以量化,即用0表示“抽到2个女生”

,用1表

示“抽到2个男生”

,用2表示“抽到1男1女”

,则变量可能取的值为0

1与2

,我们当然可以将它们一一列举出来。因此,抽出2人的性别变量

是离散型变量。6.随机变量及其概率分布对离散型随机变量X

,当我们把它们可能取的每一个值xi

和与之对应

的概率P(X=xi)=pi

列入表中,则我们就能够全面地展示离散型随机变量X

的概率分布,从而掌握它的取值规律。XPx1

x2

xi

…p1

p2

pi

…离散型随机变量的概率分布连续型随机变量可取的值是充满整个取值区间的。因此,人们研究连续型随机变量的概率分布时,所考察的都是它在一个个区间上的取值的

概率。连续型随机变量在区间[x1,

x2]中取值的概率用P(x1≤X≤x2

)

表示,其分

布规律由密度函数f(x)

决定。

(5.6)连续型随机变量及其概率分布

o

二项分布是一种离散型随机变量的概率分布,在实际中有着广泛的应

用。它适用于n次独立试验即贝努里(Bernoulli)概型问题,贝努里概

型具有以下的特点:1)n次试验是相互独立的(所谓相互独立是指各次

试验的结果彼此间没有什么影响)。2)每次试验都是在相同的条件下进行,并且只有两

个结果A和A:P(A)=p,P(A)=1-p=q。7.离散型变量的分布--二项分布如果用随机变量X表示在n次独立试验中事件A发生的次数,则有P(X

=

k)

=

C

pk

qn-k

(p>0,q=

1-p,k=0,

1,2,

,n)(5.7)称X服从二项分布。7.离散型变量的分布--二项分布例5-6:有10道是非题,若一考生完全不懂,全凭猜测作答,问分别答对5道题、6道题的概率各为多少?至少猜对1道题的概率又是多少?解:把考生回答一道题看作一次试验,则回答10道题是10次相互独立的试验,每次试验只有两个结果,记答对的概率为p

,答错的概率为q

,则

p=q=

1/2。贝努里(Bernoulli)概型用随机变量X表示10次试验中答对的题数,由公式(5.7)得:猜中5道题的概率为:

猜中6道题的概率为:

二项分布

至少猜中1道题的概率为:P(至少猜中1道题)=

1-P(10道题全答错)=

1-P(X=0)=

1-

C

p

0

q

10=

1-

|((

,)|

=0.9990210100二项分布

可以证明,二项分布的均值、方差和标准差分别为:μ

=np

(5.8)σ

2

=npq

(5.9)

(5.

10)理论上可以证明,当n充分大时,二项分布近似于正态分布。二项分布的均值、方差和标准差•正态分布的特征正态分布的密度函数:

(5.

11)其中μ和σ

2分别为正态分布的均值和方差。我们将该分布记作

X~N(μ,σ

2

)

。2当

μ

=0,

σ

2

=1时,分布密度为

。此时,我们称随机变量X

服从标准正态分布,记作X~N(0,

1)。8.正态分布及其性质正态分布的密度曲线•

曲线呈钟形,且位于x轴的上方。•以直线

x=μ为对称轴,向左、右无限延伸,且以x轴为渐近线。即当

x→+∞

时,f(x)→0

,但曲线始终不与x轴相交。•

x

=

μ

时,曲线处于最高点,即当x=μ

时,f(μ)

=

为最大值;曲线呈现“

中间高,两边低”的形状。正态分布的特征正态曲线与x轴之间的面积等于1

,而且曲线f(x)与两直线x=x1

、x=x2

(

x1<x2

)

及x轴所围成的面积等于随机变量x落入区间(x1

,x2)的概率,即概

率P(x1

<x<x2)为图中阴影部分的面积。正态分布的特征

正态分布N(μ,σ2

)是由均值

μ

和标准差

σ唯一决定的分布。如下图所示。正态分布

则Z~N(0,1)

。利用(5.

12)式可将各种形状的正态曲线转换成前图所示的标准正态曲线。正态分布表包括以下三列:第一列表示曲线底线即横轴上的位置,用Z表示。对于正态分布x

~N(μ,σ

2

)而言σ正态分布表的使用

若x

~

N(μ,σ

2

)

,令

(5.

12)第二列是纵高Y

,即曲线的高度。对于某Z0值纵高Y的值由

计算。第三列是上图中阴影部分的面积,用P表示,即P(0<Z≤Z0)。P如Z=

1时,P=0.3413;

Z=2时,P=0.4772;

Z=3时,P=0.4987。9.正态分布表的使用使用正态分布表时要注意以下两个问题:(1)

正态分布表只列出Z≥0

所对应的纵高和面积。当Z≤0时,可根据正

态曲线的对称性,在正态分布表中查出-Z所对应的面积和纵高即可。即P(Z0<Z≤0)=P(0<Z≤-Z0),例如,P(-1<Z<0)=P(0<Z<1)。(2)对服从正态分布N(μ,σ

2

)的变量x

,先进行变换

z=(x

-μ)

/

σ转化为

Z值后,才能查表。9.正态分布表的使用例5-7:设X服从正态分布X~

N(μ,σ

2

)

,求以下事件的概率。(1)P(μ—σ≤

x≤μ

+

σ)(2)

P(μ—

2σ≤x≤μ

+

3σ)(3)

P(μ—

2.79σ≤x≤μ

+

2.79σ)

9.正态分布表的使用

(1)P(μ—σ≤x≤

μ

+

σ)=P(—σ

x

—μ

σ)

σ=P(—1≤Z≤1)=2P(0≤Z

≤1)=2

×

0.3413=0.6826(2)

P(μ-

2σ≤

x≤

μ

+

3σ)=P(-2σ

x

3σ)

σ=P(-2≤

Z≤3)=P(-2≤Z≤0)

+

P(0<

Z≤3)=0.4772+

0.4987=0.9759(3)

P(μ一

2.79σ≤x≤μ

+

2.79σ)=P(一2.79σ

≤x

μ

≤2.79σ)

σ=P(一2.79≤Z

≤2.79)=2P(0<Z

≤2.79)=2

×

0.4974=0.9948例5-8:Z~N(0,

1)

,已知下列概率,求对应的Z值。(1)P(0<Z≤Z0)=0.3765(2)P(-Z0<Z≤Z0)=0.2661(3)

P(Z

≥Z0

)=0.059.正态分布表的使用(1)P(0<Z≤Z0)=0.3765解:从正态分布表中第三列找出与概率0.3765相近的值为0.37698

,对应

的Z0

1.

16

。(2)P(-Z0<Z≤Z0)=0.2661解:由对称性,P(0<Z≤Z0)=1/2P(-Z0<Z≤Z0)=0.2661/2=0.

13305,查表第三列得与之相近的数为0.

13307

,因而所对应的Z0=0.34.9.正态分布表的使用(3)P(Z≥Z0

)=0.05P(0<Z≤Z0)=1/2-P(Z≥Z0)=0.5-0.05=0.495,查表第三列0.495所对应的Z0

2.58。标准分数标准分数又称为Z分数,它以标准差为单位,反映了一个分数在团体中所

处的位置。若已知一个总体,则这个总体中的原始分数的标准分数用下式计算:

(5.

13)其中Z为标准分数,x

为原始分数,μ

为总体平均数,σ

为总体标准差。10.正态分布在考试成绩中的应用若总体的μ

σ

未知,我们通常用样本平均数和样本标准差来代替,即用如下公式计算标准分数:

(5.

14)其中Z为标准分数,x为原始分数,x

为样本平均数,S为样本标准差。易证,标准分数Z的均值为0

,方差为1

。若x服从正态分布x~N(μ,σ

2

)

,

则其标准分数z=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论