版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、概率与正态曲线,1.研究随机性和规律性的两个例子 1)20世纪50年代,小儿麻痹症育苗的研究。,问题是:56和138之间的差别是否超过了随机性所能解释的范围。,2)1970,美国越战的征兵,问题是:73和110之间的差别是否超过了随机性所能解释的范围。,思考题 拧松水龙头,让其刚好到只有水滴下来,计算并记录15分钟内每个20秒里的水滴数。利用你的数据,请说出该水滴在什么方面是随机的?什么方面又是有规律的?,1)随机性和规律性是统计学的两个重要概念。规律性本身包含着随机性。统计可以定义为在随机性中寻找规律性,当两种规律之间的差异超出了随机性本身的影响(或者解释范围),变化趋势就发生了。 2)概率
2、为我们从数据中得出结论提供了基础,统计学家利用概率判断数据间的差异是否超出了随机性本身的影响。 3)统计很少对总体进行直接的研究,都是通过对具有代表性的样本的研究,来对总体的信息进行推断。,一、概率论发展简史,1. 概率论的起源,Pascal(16231662),Fermat, (16011665),1654年,赌金分配问题,赌金分配问题 梅雷说:有一次他与某赌友(代称为A先生)掷骰子时,各押32个金币为赌注,双方约定如果谁先赢得3局,就可以把赌金全部拿走,但因为梅雷临时有事,所以赌局不得不中途中断。此时梅雷已经赢得2局,而A先生只赢1局,如何公平分配赌金?,起点,费马:,帕斯卡尔:,1655
3、年,荷兰数学家惠更斯 (Christopher Huygens) 访问巴黎时,了解到帕斯卡尔与费马的通信研究,对这类问题产生兴趣,后来,他撰写骰子游戏(Dice Game, 1657) 来探讨机率问题的原理,其中包含许多习题,被许多人认为是机率史上第一本教科书。提出了期望的概念。 1713年,瑞士数学家伯努利(Jacob Bernoulli,1654 1705)出版了猜度术一书,提出了大数定理 。,1765年,法国数学家棣莫弗(A.DeMoivre,16671754)的机会的学说一书出版,1733年就发现了正态曲线,以及论述了不存在运气。 1933年,俄罗斯数学家科尔莫戈罗夫(19031987
4、)以德文出版的经典性著作概率论基础,标志着概率论的公理化完成,这就是我们现在看到的概率论的情形。,2. 概率论专有名词,随机实验(Random trial):满足如下三个条件就可以称之为随机实验:(1)在同一条件下可无限次重复;(2)实验结果有多个,且不确定;(3)事前不知实验结果(outcome)。抛硬币 基本事件(Elementary event):一次随机实验的可能结果,称为基本事件或者基本随机事件。 若随机实验E是“抛两次硬币”,其基本事件就是“+、”,“+、+”,“,”,“,+”。 样本空间(Sample space):所有基本事件所组成的集合,称为样本空间或基本空间。 接上例,其样
5、本空间就是集合“+、”,“+、+”,“,”,“,+”。,随机事件(Random event): 简称事件,指一些由基本事件所组成的集合。 例如,接上例,事件“两次出现相同面”,就有两个基本事件组成:+、+”,“,”。 不相容事件(Mutually exclusive events): 在随机试验中,不能同时发生或其交集为空集的几个事件,称为不相容事件。反之为相容事件 接上例,事件“两次同时出现正面”和“两次同时出现反面” 就是不相容事件。“至少出现一次正面”和“至少出现反面”就是两个相容事件,3. 概率的含义 概率(Probability)是一个0到1之间的数,描述了一个事件发生的经常程度。小
6、概率(接近于0)的事件很少发生,而大概率(接近于1)的事件则经常发生。 概率对统计的意义:对于统计,概率告诉我们,在样本数据的基础上,如果试验重复多次,各种结果发生的经常程度是多大。,.5,0,1,不可能,必然,4.获得概率的基本方法,利用机会均等法则(Equality likely approach) 使用相对频次(Relative frequency)的方法 利用主观概率(Subjective approach),4.1 利用机会均等法则 如果试验有n种可能的结果,使某特定事件出现的结果数量为k,那么(k/n)就是出现该事件的概率。 思考题:一副扑克52张(大、小王去掉),洗均匀,随机取一
7、张牌,那么该张牌是梅花的概率是多少?,k,n,要注意两点:,(1)分清楚你求解问题中什么是你的n,什么是你的k。 (2) 其实我们在这样做的时候,就已经接受了两个前提假设:a)实验的可能结果是已知的;b)由于对称性,每一个结果的可能性都是相同的。往往这两个前提假设不一定满足.,思考题 再求以下问题的概率中,以上的哪个前提假设不满足: 1)一场赛马比赛,有6匹马,求某一匹马胜出的概率。 2)求解生男孩和女孩的概率,14讲小结,一、霍桑实验中的群体实验,这个实验的目的就是要看看,当每个工人的工作情况不但与自己的报酬、而且与同伴的报酬紧密关联时,工人会如何办?怎样协作?,实验条件: (1)人员:14
8、名男职工,其中9名绕线工,3名是焊接工,2名检验工; (2)计件工作制度,但却不是按个人的产量计酬,而是按集体的总产量计酬;报酬由厂方直接支付给个人,而不是交由小组自行分配。这样,工人完成的工作数额,不但决定着自己的工资,而且直接影响着一起干活的同事们的收入。 实验结果:工人每天只完成了60006600个焊接点(标准每个工人应该完成7312个焊接点),且天天如此。为什么?,解释1:可能是这些工人的智力或者动作协调性有问题。 再做研究,研究测试结果否定了这一解释。 合理的解释: 工人们自动限制产量的理由是,如果他们过分努力地工作,就可能造成群体内同伴的失业,或者公司会制定出更高的生产定额来。所以
9、群体会迫使其中的个体进行一致限产。也就是工人会受到非正式组织的影响。 证实在工人当中存在着一种非正式的组织,而且这种非正式的组织对工人的生产率有着极其重要的影响,总结一下该研究的研究过程,二、变量(variable),变量简单的说就是事物的特征或者属性。 研究者在研究项目开始的时候,就要确定他们所要研究的变量是什么。 变量的值(value)通常是对某一个特定单位的度量,这种单位常常被视为一个个体(element)。什么是个体取决于你的研究问题。,21 变量的测量层次 1)思考题:请回答以下收集到的数据,可以进行“”,“、” ,“,”中的哪些运算? (1)五个人的性别:1,0,0,1,1(1:男
10、性;0:女性) (2)五个人的身高:170,173,165,180,161(单位:厘米) (3)七天的气温(摄氏温度):15,24,27,18,34,30,19。 (4)五个人对一项政策满意程度的评分: 5,3,3,4,2 (1:十分不满意;2:不满意;3:一般或中立;4:满意;5:十分满意),2)思考题: (1)我们用一个量表测量人们对一项法律的态度,如果1表示不赞成,2表示无所谓,3表示赞成,对于3个人我们测得的值分别为:3、1、2,这些数据为_数据。 (2)测量10个大学生所在的年级,如果用1表示大一、2表示大二、3表示大三、4表示大四、5表示其他。测量的值为:1、3、4、1、2、3、2
11、、1、1、4,这些数据为_数据。 (3)测得5个人的第一次结婚年龄(单位:周岁)为:20、22、24、30和26,这些数据为_数据。,三、频数分布数列,1.统计分组后,每个组分配的总体单位数称为频数或次数(f)。 频数/总体单位总数=频率。 2.意义 整理了杂乱无章的数据,同时显示出一批数的分布情况,是数理统计学中随机变量及其概论分布概念在实际中的应用。,例1,家庭所拥有的电视机数对于广告行业来说是一个重要的信息,下面的数据是随机抽取的50户家庭中每个家庭所拥有的电视机数。 1 1 1 2 6 3 3 4 2 4 3 2 1 5 2 1 3 6 2 2 3 1 1 4 3 2 2 2 2 3
12、0 3 1 2 1 2 3 1 1 3 3 2 1 1 3 1 5 1 你能从中发现什么?,思考题: (1)如果要让你去获取你所在楼层的家庭拥有的电视机数量的分布,你怎么去获取? (2)如果要让你去获取广州市家庭拥有的电视机数量的分布,你怎么去获取?,四、集中趋势分析,集中趋势是数据分布的中心,描述集中趋势的指标有算术平均数( )、几何平均数( )、中位数( )、众数( )等。,众数 中位数,平均数,位置平均数,数值平均数,算术平均数 调和平均数 几何平均数,1.平均数的分类,2.算术平均数的计算公式,算术平均数 1.简单算术平均数: 假定变量X有N个观察值:X1,X2,X3,XN,那么它的平
13、均数 的计算公式是: 2.加权算术平均数:,例1:应用条件:资料未分组,各组出现的次数都是1。5名学生的学习成绩分别为:75、91、64、53、82。则平均成绩为: =73(分),例2:某车间20名工人加工某种零件资料:,=,16(件),1)概念 调和平均数是变量值倒数的算术平均数的倒数,故又称倒数平均数。 调和平均数是算术平均数的一种,它是根据变量值的倒数计算的。,3.调和平均数及计算公式,原来只是计算时使用了不同的数据!,(1)简单调和平均数,2)调和平均数的计算公式,例1.某蔬菜市场三种蔬菜的日销售数据如表,计算三种蔬菜该日的平均价格。,(2)加权调和平均数,例2.设某公司下属三个部门的
14、销售资料如下表,若缺少销售额资料而有利润额资料,如下表 某公司下属三个部门销售情况,则三个部门的平均利润率可以用各部门利润额除以销售利润率得到销售额,然后用各部门利润之和除以总销售额,便可得到平均利润率。其计算公式:,【例3】水果甲级每元1公斤,乙级每元1.5公斤,丙级每元2公斤。问: (1)若各买1公斤,平均每元可买多少公斤? (2)各买6.5公斤,平均每元可买多少公斤? (3)甲级3公斤,乙级2公斤,丙级1公斤,平均每元可买多少公斤? (4)甲乙丙三级各买1元,每元可买几公斤? 【例4】自行车赛时速:甲30公里/小时,乙28公里/小时,丙20公里/小时,全程200公里,问三人平均时速是多少
15、?若甲乙丙三人各骑车2小时,平均时速是多少?,调和平均数 (例题分析),【例3】解 (1) (2),【例3】解 (3) (4),【例4】解,4. 几何平均数的计算公式,几何平均数 1.简单几何平均数: 2.加权几何平均数: ,例:1.某产品经过三个流水连续作业的车间加工生产而成,本月第一车间的产品合格率为90%,第二车间的产品合格率为80%,第三车间的产品合格率为70%。则全厂的总合格率为:,这样平均合格率为,例2:设某笔为期20年的投资按复利计算收益,前10年的年利率为10%,中间5年的利率为8%,最后5年的年利率为6%。求平均年利率。 解答:假设初始投资额为a,则20年后的本利和为A。则
16、Aa(1+10%)10(1+8%)5(1+6%)5 所谓的平均年利率,设为r,就是要使得a(1+r)20=A, 即a(1+r)20= a(1+10%)10(1+8%)5(1+6%)5,几何平均数、算术平均数和调和平均数的关系 几何平均数、算术平均数和调和平均数之间存在着一定的数量关系。这种数量关系表现在:根据同一资料所计算的三种平均数,几何平均数大于调和平均数而小于算术平均数,只有当所有变量值都相同时,三种平均数才相等。用数学公式表示,它们之间的关系为:,5.众数,1.众数的含义:总体中出现次数最多、频率最高的标志值。 2.确定众数的方法。 (1)单项数列确定众数 21(件),众数的缺点,只考
17、虑出現次数最多的资料,忽略了其他数值大小,故较不具敏感性 除非知道全部的資料,否則我们无法由两组已知众数,求出合并后的众数,故不适合代数运算。 众数不具存在唯一性,可能只有一个、可能不只一个、也可能不存在,众数(不惟一性),无众数原始数据: 10 5 9 12 6 8,一个众数原始数据: 6 5 9 8 5 5,多于一个众数原始数据: 25 28 28 36 42 42,(2)由组距数列确定众数 下限公式:,上限公式:,6.中位数,1)概念 中位数是将总体各单位标志值按大小顺序排列 后,处于中间位置的那个数值。 2)意义 中位数是处于统计数列中间位置的数值。由于 其位置居中,不受极端数值大小的
18、影响,因而 有时直接利用它来代表现象的一般水平。,例1:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9,中位数 1080,例2:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10,3)由组距分组数列确定中位数,(1)确定“中位数组”。 向上累计次数等于 (2)假
19、定中位数组内分布是均匀的,计算出中位数来。,向上累计时,向下累计时,中位数计算公式,众数、中位数、平均数的特点和应用,众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用,比较众数、中位数和算术平均数的相对位置,MeMo,MeMo,=Me=Mo,可以看出,对于单峰的分布,,对称态(正态分布):,左偏态:,右偏态:,比较众数、中位数和算术平均数的相对位置,众数、中位数和算术平均数的关系,在非对称分布时,算术平均数受极端值的 影响最大,中位数只受极端值的位置影响,不
20、受其数值影响;众数不受极端值的影响。 (1)当次数分布呈右偏(正偏)时,算术平均数受极大值影响最大 。 (2)当次数分布呈左偏(负偏)时,算术平均数受极小值影响最大 。,各种平均数的比较,(一)算术平均数、几何平均数和调和平均数三者的关系。(证明略) (二)数值平均数和位置平均数的比较 (1)数值平均数对于数据的概括能力比位置平均数强。 (2)数值平均数和位置平均数对数据变化的“灵敏度”“耐抗性”不同。 (3)数值平均数和位置平均数使用的数据类型不同。,六、离散趋势分析,离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。差异越大,平均数的代表性越差;反之,越好。 意义: 例:某车间有
21、两个生产小组,都是7名工人,各人日产件数: 甲组:20,40,60,70,80,100,120; 乙组:67,68,69,70,71,72, 73; 甲、乙两组的平均每人日产量都为70件。 虽然两组平均日产量相等,但甲组各工人日产件数相差很大,分布很散。 乙组各工人日产件数相差不大,分布相对集中。平均数70件对甲组来说代表性不如对乙组的代表性大。,离散趋势测度经常用到的指标有:极差、四分位差、方差与标准差、平均差、变异系数、偏态系数。 1.极差: 例如:假定两组学生身高资料如下:(单位:cm)甲组:160,165,170,175,180。 乙组:168,169,170,171,172。 缺点:
22、易受极端值的影响。 改进方法:计算四分位差。,2.四分位差,1.四分位差用数列中第3/4位次与1/4位次的变量值之差除以2来表示。 2.意义: 剔除了极端值,说明50%数据分布的范围; 与中位数配合说明数据分布是否对称。 若分布对称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2 若不相等,则是非对称的。,3.平均差,概念 总体中各单位对其平均数的离差绝对值的算术平 均数,通常用“A.D.”表示。 意义 平均差能够综合反映总体中各单位标志值变动的影 响。平均差越大,表示标志变异程度越大,则平均数的 代表性就越小;反之,平均差越小,表示标志变异称度 越小,则平均数的代表性就越大。,特点: 平均差是
23、根据全部变量计算出来的,所以对整个变量 值的离散程度有较充分的代表性。但平均差计算由于 采用取离差绝对值的方法来消除正负离差,因而不适 合于代数方法的演算,使其应用受到限制。 计算公式: (1)未分组资料: (2)分组资料:,例:假定某车间两个小组工人的月工资(元)资料如下。甲:800,900,1000,1100,1200。乙:900,950,1000,1050,1100。,4.方差和标准差,概念 标准差又称“均方差”,是总体各样本标志值与其算术 平均数的离差平方的算术平均数的算术平方根,通常 用“ ” “ ”表示。 标准差的平方就是方差。 意义 其意义与平均差基本相同,也是根据各个标志值对其
24、 算术平均数求其平均离差后再来计算的,但是由于用 离差平方的方法来消除正负离差,因此在数学处理长 比平均差更为合理和优越。,4.方差与标准差:,方差: 未分组资料: 分组资料: 标准差 未分组资料: 分组资料:,例:假定某车间两个小组工人的月工资(元)资料如下。甲:800,900,1000,1100,1200。乙:900,950,1000,1050,1100。,5.变异系数与偏态系数,变异系数(标准差系数) Pearson偏态系数以平均数与众数之差除以标准差来衡量偏斜程度,用SK表示。其计算公式为: 当SK=0时, 呈对称分布; 当SK0时, 分布是右偏(正偏)的;当SK0时, 分布是左偏(负
25、偏)的。,SK是无量纲的量,取值通常在-3+3之间,其绝对值越大,表明偏斜程度越大。当分布呈右偏态时,SK0,故也称正偏态;当分布为左偏态时,SK0,故也称负偏态。但除非是分组频数分布数据,否则SK公式中的众数M0有很大的随易性。,例1:两种投资组合:甲、乙,表中是9笔过去半年期投资报酬率,请问哪种投资组合的风险大?,注意,两者的标准差相同:0.05696,但是 CV甲58.25% CV乙91.45% 所以乙的风险较大。,例2:某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg,比较其变异度?,七、抽样,统 计 量 参 数 样本容量:n
26、总体容量:N 样本平均数: 总体平均数: 样本比例: p 总体比例:P 样本标准差:s 总体标准差: 样本方差: S2 总体方差:2,总体与样本,1.抽样基本概念,全及总体和样本总体 全及总体简称总体,是指根据研究的目的所确定的研究事物的全体,也就是抽样调查所确定的调查对象,又叫母体,全及总体单位数一般用N表示. 样本总体简称样本,它是从全及总体中随机抽取出来的那部分单位组成的集合体,又叫子体。样本总体的单位数一般用n表示.,1.抽样基本概念,根据全及总体计算的反映总体数量特征的指标称为全及指标,又叫参数。常用的总体参数有总体平均数和总体标准差(或总体方差)。 总体平均数: = 总体方差(或总
27、体标准差): =,1.抽样基本概念,样本指标是指根据样本总体计算的指标,又叫统计量。 样本平均数: 样本方差或样本标准差 S2 = n-1为样本变量自由度,抽样平均数的平均误差例题:,某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其工资水平资料如下:,计算样本平均数和抽样平均误差,解:列表计算,计算平均数即平均工资:,抽样调查的优点: (1)经济性。 (2)时效性强。抽样调查可以迅速、及时地获取到所需要的信息。 (3)准确性高。 抽样调查的一个原则: “确信锅里的汤被搅拌均匀”。,2.抽样调查的方法 概率抽样(Probability sampling) 非概率抽样
28、(Nonprobability sampling),2.1概率抽样(Probability sampling),1)简单随机抽样(simple random sampling) 就是等概率抽样,每个个体以相同的概率被抽中。这也可以分为重复抽样和不重复抽样两种形式。 2)分层抽样(Stratified sampling) 在抽样之前将总体划分为不同的层(群),然后在各个层中抽取一定数量的元素组成样本。 分层抽样的时候应该是各个层内之间的元素的差异比较小,而使层之间的元素比较大。各个层的划分要根据研究者的判断和研究目的。,概率抽样(Probability sampling),3)等距离抽样(sys
29、tematic sampling,系统抽样) 首先将总体中的个体按照某种顺序排列起来,然后按照某种规则确定一个随机起点,然后,每隔一定的间隔抽取一个元素,直到抽满n个元素形成一个样本为止。 4)整群抽样(Cluster sampling) 就是首先将总体划分为若干个群,然后以这些群为抽样单位从中抽出部分群,在对抽选出的群中的所有元素进行观察。 思考题:假如你要调查广州市市区内的居民月收入,假设抽样容量为1000。你如何展开抽样?,1)便利抽样(Convenience sampling) 研究者出于收集数据的便利,而不考虑抽样的概率,所进行的抽样。例如:街头访谈、电话访谈、向自己的亲朋好友收集数
30、据。 这种样本数据收集过程都加入了某中人为的干扰和选择,所以从方便样本中得出的结果对于总体信息的推论程度是有限的。 思考题: 有时候杂志要求读者回答某些问题并寄回答案,从而构成一个样本。 请问这个样本能不能代表读者群总体?为什么?,2.2非概率抽样(Nonprobability sampling),2)判断抽样(Judgment sampling) 是指经过专家考虑后,以适当的方式进行抽样。 例如:研究青少年吸毒问题。,3.抽样误差,一般而言,样本统计量的分布就叫作抽样分布 抽样平均误差就是抽样平均数(或抽样成数)的标准差。反映抽样平均数(或抽样成数)与总体平均数(或总体成数)的平均误差程度。 抽样误差= 数据收集、整理、记录和制表过程中产生的误差是非抽样误差。,影响抽样误差大小因素,总体方差或总体标准差的大小(正比例) 样本容量的大小(反比例) 抽样组织方式和抽样方法,(一)抽样平均误差,抽样平均误差是反映抽样误差一般水平的指标。常用抽样平均的标准差或抽样成数的标准差作为衡量误差一般水平的尺度。 计算公式:,例1:从某厂生产的10000只日光灯管中随机抽取100只进行检查,假如该厂日光灯管平均使用寿命的标准
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2030年中国蚝油酱行业市场营销模式及未来发展潜力预测报告版
- 2024-2030年中国草甘膦原粉行业供需状况发展战略规划分析报告
- 2024-2030年中国花肥行业产量预测及发展可行性分析报告
- 2024-2030年中国航空租赁行业发展模式规划研究报告版
- 2024-2030年中国胆道用药行业竞争状况及投资价值评估报告
- 2024-2030年中国聚氯乙烯接缝膏项目可行性研究报告
- 2024-2030年中国聚丁二酸丁二醇酯行业供需趋势及发展可行性分析报告
- 2024-2030年中国线棒行业需求分析及投资战略研究报告版
- 2024-2030年中国纸箱清废机行业运营状况与需求趋势预测报告
- 2024年色浆基体树脂项目评估分析报告
- 2024-2025学年二年级上学期数学期中模拟试卷(苏教版)(含答案解析)
- 入团志愿书(2016版本)(可编辑打印标准A4) (1)
- 浙江省公路山岭隧道机械化装备应用指导手册
- (完整word版)拼音练习jqx和ü、üe的相拼
- 医疗质量检查分析、总结、反馈5篇
- 桅杆工艺技术及施工要求
- (完整版)六年级下册体育教学计划与教案
- 北京地铁受电弓的维护与故障检修-毕业设计说明书
- 幼儿园教育和家庭教育的有效结合研究
- 集团公司两金管理评价办法
- 电影的声音分析PPT课件
评论
0/150
提交评论