北京大学统计学经典课件第二章——统计回顾和分析方法

上传人：3*** IP属地：湖北上传时间：2021-11-05 格式：PPT 页数：77 大小：441.50KB 积分：30 举报 版权申诉

已阅读5页，还剩72页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、本课内容包含本课内容包含统计回顾统计回顾方差分析方差分析主成分分析和因子分析主成分分析和因子分析聚类分析聚类分析判别分析判别分析典型相关分析典型相关分析对应分析对应分析列联表列联表 Logistic回归回归 Poisson对数线性模型对数线性模型时间序列分析时间序列分析。统计基本概念回顾随机性和规律性现实中的随机性和规律性现实中的随机性和规律性从中学起，我们就知道自然科学的许多定律，例从中学起，我们就知道自然科学的许多定律，例如物理中的牛顿三定律，物质不灭定律以及化学如物理中的牛顿三定律，物质不灭定律以及化学中的各种定律等等。中的各种定律等等。但是在许多领域，但是在许多

2、领域，很难用如此确定的公式或论述很难用如此确定的公式或论述来描述一些现象。来描述一些现象。比如，人的寿命是很难预先确比如，人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活的人可能比一个很少得病、生活习惯良好的人活得长。得长。因此，可以说，活得长短是有一定随机性的因此，可以说，活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基。这种随机性可能和人的经历、基因、习惯等因、习惯等无数说不清的因素无数说不清的因素都有关系。都有关系。现实中的随机性和规律性现实中的随机性和规律性

3、但是从总体来说，我国公民的平均但是从总体来说，我国公民的平均年龄却是非常稳定的。而且女性的年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。平均年龄也稳定地比男性高几年。这就是这就是规律性规律性。一个人可能活过这个平均年龄，也一个人可能活过这个平均年龄，也可能活不到这个年龄，这是可能活不到这个年龄，这是随机的随机的。但是总体来说，平均年龄的稳定性，但是总体来说，平均年龄的稳定性，却说明了却说明了随机之中有规律性随机之中有规律性。这种。这种规律就是统计规律。规律就是统计规律。概率和机会概率和机会你可能经常听到概率（你可能经常听到概率（probability）这个）这个名词。例如在天

4、气预报中会提到降水概名词。例如在天气预报中会提到降水概率。大家都明白，如果降水概率是百分率。大家都明白，如果降水概率是百分之九十，那就很可能下雨；但如果是百之九十，那就很可能下雨；但如果是百分之十，就不大可能下雨。分之十，就不大可能下雨。因此，从某种意义说来，因此，从某种意义说来，概率描述了某概率描述了某件事情发生的机会。件事情发生的机会。显然，这种概率不可能超过百分之百，显然，这种概率不可能超过百分之百，也不可能少于百分之零。换言之，也不可能少于百分之零。换言之，概率概率是在是在0和和1之间的一个数之间的一个数，说明某事件发，说明某事件发生的机会有多大。生的机会有多大。有些概率是无法精

5、确推断的有些概率是无法精确推断的比如你对别人说你下一个周末去公园比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分说出为什么是百分之八十而不是百分之八十四或百分之七十八。之八十四或百分之七十八。其实你想说的是你很可能去，但又没其实你想说的是你很可能去，但又没有完全肯定。有完全肯定。实际上，到了周末，你或者去，或者实际上，到了周末，你或者去，或者不去；不可能有分身术把百分之八十不去；不可能有分身术把百分之八十的你放到公园，而其余的放在别处。的你放到公园，而其余的放在别处。有些概率是可以估计的有些概率是可以估计的

6、比如掷骰子。只要没有人在骰子上做比如掷骰子。只要没有人在骰子上做手脚，你得到手脚，你得到6 6点的概率应该是六分之点的概率应该是六分之一。得到其他点的概率也是一样。一。得到其他点的概率也是一样。得到得到6 6的概率或者机会是可以知道的，的概率或者机会是可以知道的，但掷骰子的结果还但掷骰子的结果还只可能是六个数目只可能是六个数目之一。之一。这个已知的规律就反映了规律性，而这个已知的规律就反映了规律性，而得到哪个结果则反映了随机性。得到哪个结果则反映了随机性。如果你掷如果你掷10001000次骰子，那么，大约有次骰子，那么，大约有六分之一的可能会得到六分之一的可能会得到6 6；这也是随机这也

7、是随机性呈现有规律的一个体现。性呈现有规律的一个体现。变量变量做任何事情都要有做任何事情都要有对象对象。比如一个班上注册。比如一个班上注册的学生有的学生有200人，这是一个固定的数目，称为人，这是一个固定的数目，称为常数（常数（constant）或者常量。或者常量。但是，如果猜测今天这个班有多少人会来上但是，如果猜测今天这个班有多少人会来上课，那就没准了。这有随机性。课，那就没准了。这有随机性。可能有请病可能有请病假或事假的，也可能有逃课的。这样，就要假或事假的，也可能有逃课的。这样，就要来上课的人数是个来上课的人数是个变量变量(variable)。另外对于某项政策同意与否的回答，也有另

8、外对于某项政策同意与否的回答，也有“同意同意”、“不同意不同意”或者或者“不知道不知道”三种三种可能值；这也是变量，只不过可能值；这也是变量，只不过不是数量不是数量而已。而已。变量变量当变量按照随机规律所取的值是数量时该变量称当变量按照随机规律所取的值是数量时该变量称为为定量变量或数量变量定量变量或数量变量（quantitative variable）；）；因为是随机的，也称为随机变量（因为是随机的，也称为随机变量（random variable）。）。象性别，观点之类的取非数量值的变量就称为象性别，观点之类的取非数量值的变量就称为定定性变量或属性变量或分类变量性变量或属性变量或分类变量（

9、qualitative variable，categorical variable）。）。这些定性变量也可以由随机变量来描述，比如男这些定性变量也可以由随机变量来描述，比如男性和女性的数目，同意某政策人数的比例等等。性和女性的数目，同意某政策人数的比例等等。只有当变量用数量来描述时，才有可能建立数学只有当变量用数量来描述时，才有可能建立数学模型，才可能使用计算机来分析。模型，才可能使用计算机来分析。数据数据有了变量的概念，什么是数据呢？拿掷骰子来说，掷骰有了变量的概念，什么是数据呢？拿掷骰子来说，掷骰子会得到什么值，是个随机变量；而每次取得子会得到什么值，是个随机变量；而每次取得1至至6点

10、中点中任意点数的概率它在理论上都是六分之一（如果骰子公任意点数的概率它在理论上都是六分之一（如果骰子公平）。这依赖于在掷骰子背后的理论或假定；而在实际平）。这依赖于在掷骰子背后的理论或假定；而在实际掷骰子过程中，如果掷掷骰子过程中，如果掷100次，会得到次，会得到100个由个由1至至6点组点组成的数字串；再掷成的数字串；再掷100次，又得到一个数字串，和前一次，又得到一个数字串，和前一次的结果多半不一样。这些试验结果就是数据。所以说次的结果多半不一样。这些试验结果就是数据。所以说,数据是关于变量的观测值数据是关于变量的观测值. 通过数据可以验证有关的理论或假定通过数据可以验证有关的理论或假定（

11、比如每一次得到（比如每一次得到每个点的概率是不是每个点的概率是不是1/6等等）。对于顾客是否喜欢某等等）。对于顾客是否喜欢某种饮品的调查也类似，但这里不象掷骰子那样事先可以种饮品的调查也类似，但这里不象掷骰子那样事先可以大致猜测顾客喜欢与否的概率。在问了大致猜测顾客喜欢与否的概率。在问了1000人之后，可人之后，可能有能有364人说喜欢，而人说喜欢，而480人说不喜欢，其余的人可能不人说不喜欢，其余的人可能不回答，或说不知道，或从来没有喝过这种饮料。这些数回答，或说不知道，或从来没有喝过这种饮料。这些数目就是数据。当然，它仅仅反映了目就是数据。当然，它仅仅反映了1000个被问到的人的个被问到的

12、人的观点；但这对于估计整个消费群体的观点还是有用的。观点；但这对于估计整个消费群体的观点还是有用的。统计和计算机统计和计算机现代生活越来越离不开计算机了。最早使现代生活越来越离不开计算机了。最早使用计算机的统计当然更离不开计算机了。用计算机的统计当然更离不开计算机了。事实上，事实上，最初的计算机最初的计算机仅仅是为科学计算仅仅是为科学计算而建造的。大型计算机的最早一批用户就而建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计包含统计。而现在统计仍然是进行数字计算最多的用户。算最多的用户。计算机现在早已脱离了仅有计算功能的单计算机现在早已脱离了仅有计算功能的单一模式，而

13、成为一模式，而成为百姓生活的一部分百姓生活的一部分。计算机的使用，也从过去必须学会计算机计算机的使用，也从过去必须学会计算机语言到只需要语言到只需要“傻瓜式傻瓜式”地点击鼠标。结地点击鼠标。结果也从单纯的数字输出到包括漂亮的表格果也从单纯的数字输出到包括漂亮的表格和图形的各种形式。和图形的各种形式。统计软件统计软件统计软件的发展，也使得统计从统计统计软件的发展，也使得统计从统计学家的圈内游戏变成了大众的游戏。学家的圈内游戏变成了大众的游戏。只要你输入你的数据，点几下鼠标，只要你输入你的数据，点几下鼠标，做一些选项，马上就得到令人惊叹的做一些选项，马上就得到令人惊叹的漂亮结果了。漂亮结果了。

14、你可能会问，是否傻瓜式的统计软件你可能会问，是否傻瓜式的统计软件使用可以代替统计课程了？使用可以代替统计课程了？当然不是。数据的整理和识别，方法当然不是。数据的整理和识别，方法的选用，计算机输出结果的理解都不的选用，计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。象使用傻瓜相机那样简单可靠。统计软件统计软件有些诸如法律和医学方面的软件都有不少警告，有些诸如法律和医学方面的软件都有不少警告，不时提醒你去咨询专家。不时提醒你去咨询专家。但统计软件则不那么负责。只要数据格式无误、但统计软件则不那么负责。只要数据格式无误、方法不矛盾而且不用零作为除数就一定给你结果，方法不矛盾而且不用零作为

15、除数就一定给你结果，而且而且没有任何警告没有任何警告。另外，统计软件另外，统计软件输出的结果太多输出的结果太多；即使是同样的；即使是同样的方法，不同软件输出的内容还不一样；有时同样方法，不同软件输出的内容还不一样；有时同样的内容名称也不一样。这就使得使用者大伤脑筋。的内容名称也不一样。这就使得使用者大伤脑筋。即使是统计学家也不一定能解释所有的输出。因即使是统计学家也不一定能解释所有的输出。因此，就应该特别留神，明白自己是在干什么。此，就应该特别留神，明白自己是在干什么。不不要在得到一堆毫无意义的垃圾之后还沾沾自喜要在得到一堆毫无意义的垃圾之后还沾沾自喜。统计软件统计软件统计软件的种类很多。

16、有些功能齐统计软件的种类很多。有些功能齐全，有些价格便宜；有些容易操作，全，有些价格便宜；有些容易操作，有些需要更多的实践才能掌握。还有些需要更多的实践才能掌握。还有些是专门的软件，只处理某一类有些是专门的软件，只处理某一类统计问题。面对太多的选择往往给统计问题。面对太多的选择往往给决策带来困难。这里介绍最常见的决策带来困难。这里介绍最常见的几种。几种。统计软件统计软件 SPSS：这是一个很受欢迎的统计软件；它容易操作，这是一个很受欢迎的统计软件；它容易操作，输出漂亮，功能齐全，价格合理。对于非统计工作者是输出漂亮，功能齐全，价格合理。对于非统计工作者是很好的选择。很好的选择。 Excel：

17、它严格说来并不是统计软件，但作为数据表格它严格说来并不是统计软件，但作为数据表格软件，必然有一定统计计算功能。而且凡是有软件，必然有一定统计计算功能。而且凡是有Microsoft Office的计算机，基本上都装有的计算机，基本上都装有Excel。但要。但要注意，有时在装注意，有时在装Office时没有装数据分析的功能，那就时没有装数据分析的功能，那就必须装了才行。当然，画图功能是都具备的。对于简单必须装了才行。当然，画图功能是都具备的。对于简单分析，分析，Excel还算方便，但随着问题的深入，还算方便，但随着问题的深

18、入，Excel就不就不那么那么“傻瓜傻瓜”，需要使用函数，甚至根本没有相应的方，需要使用函数，甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。统计软件来处理。 SAS：这是功能非常齐全的软件；尽管价格不菲，许多这是功能非常齐全的软件；尽管价格不菲，许多公司还是因为其功能众多和某些美国政府机构认可而使公司还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量用。尽管现在已经尽量“傻瓜化傻瓜化”，仍然需要一定的训，仍然需要一定的训练才可以进入。对于基本统计课程则不那么方便。练才可以进入。对于基本统计课程则

19、不那么方便。统计软件统计软件 S-plus：这是统计学家喜爱的软件。不仅由于其：这是统计学家喜爱的软件。不仅由于其功能齐全，而且由于其强大的编程功能，使得研功能齐全，而且由于其强大的编程功能，使得研究人员可以编制自己的程序来实现自己的理论和究人员可以编制自己的程序来实现自己的理论和方法。它也在进行方法。它也在进行“傻瓜化傻瓜化”以争取顾客。但仍以争取顾客。但仍然以编程方便为顾客所青睐。然以编程方便为顾客所青睐。 R软件：软件：这是一个这是一个免费的免费的，由志愿者管理的软件。，由志愿者管理的软件。其编程语言与其编程语言与S-plus所基于的所基于的S语言一样，很方语言一样，很方便。还有不断加入

20、的各个方向统计学家编写的统便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是的软件包和程序。这是发展最快发展最快的软件，受到世的软件，受到世界上统计师生的欢迎。界上统计师生的欢迎。是用户量增加最快的统计是用户量增加最快的统计软件软件。对于一般非统计工作者来说，主要问题是。对于一般非统计工作者来说，主要问题是它没有它没有“傻瓜化傻瓜化”。统计软件统计软件 Minitab：这个软件是很方便的功能强大而又齐全的软这个软件是很方便的功能强大而又齐全的软件，也已经件，也已经“傻瓜化傻瓜化”，在我国用的不如，在

21、我国用的不如SPSS与与SAS那那么普遍。么普遍。 Statistica：也是功能强大而齐全的也是功能强大而齐全的“傻瓜化傻瓜化”的软件，的软件，在我国用的也不如在我国用的也不如SAS与与SPSS那么普遍。那么普遍。 Eviews：这是一个主要处理回归和时间序列的软件。这是一个主要处理回归和时间序列的软件。 GAUSS：这是一个很好用的统计软件，许多搞经济的这是一个很好用的统计软件，许多搞经济的喜欢它。主要也是编程功能强大。目前在我国使用的人喜欢它。主要也是编程功能强大。目前在我国使用的人不多。不多。 FORTRAN：这是应用于各个领域的历史很长的非常优这是应用于各个领域的历史很长的非常优秀的

22、编程软件，功能强大，也有一定的统计软件包。计秀的编程软件，功能强大，也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。作不那么容易。 MATLAB：这也是应用于各个领域的以编程为主的软这也是应用于各个领域的以编程为主的软件，在工程上应用广泛。编程类似于件，在工程上应用广泛。编程类似于S和和R。但是统计。但是统计方法不多。方法不多。统计软件统计软件当然，还有其他的软件，没有必当然，还有其他的软件，没有必要一一罗列。其实，聪明的读者要一一罗列。其实，聪明的读者只要学会使用一种只要学会使用一种“傻瓜式傻瓜式”软软件

23、，使用其他的仅仅是举一反三件，使用其他的仅仅是举一反三之劳；最多看看帮助和说明即可。之劳；最多看看帮助和说明即可。如果只有英文帮助，那还可以顺如果只有英文帮助，那还可以顺便提高你的英文阅读能力。便提高你的英文阅读能力。想想看想想看举出你所知道的统计应用例子。举出你所知道的统计应用例子。举出日常生活中随机性和规律性的举出日常生活中随机性和规律性的例子。例子。你使用过统计软件或者利用过其他你使用过统计软件或者利用过其他软件中的统计功能吗？你有什么经软件中的统计功能吗？你有什么经验和体会？验和体会？数据的收集二手数据二手数据每天翻开报纸或打开电视，就可以看每天翻开报纸或打开电视，就可以看到各种数据

24、。比如高速公路通车里程、到各种数据。比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据（确罪率、房价、流行病的有关数据（确诊病例、疑似病例、死亡人数和出院诊病例、疑似病例、死亡人数和出院人数等等）；当然还有国家统计局定人数等等）；当然还有国家统计局定期发布的各种国家经济数据、海关发期发布的各种国家经济数据、海关发布的进出口贸易数据等等。从中可以布的进出口贸易数据等等。从中可以选取对自己有用的信息。选取对自己有用的信息。这些间接得到的数据都是这些间接得到的数据都是二手数据二手数据。第一手数据第一手数据获得第一手数据并不象得到二

25、手数据那么轻松。获得第一手数据并不象得到二手数据那么轻松。某些在华的外资企业每年至少要花三四千万元来某些在华的外资企业每年至少要花三四千万元来收集和分析数据。收集和分析数据。他们调查其产品目前在市场中的状况和地位并确他们调查其产品目前在市场中的状况和地位并确定其竞争对手的态势；定其竞争对手的态势；他们调查不同地区，不同阶层的民众对其产品的他们调查不同地区，不同阶层的民众对其产品的认知程度和购买意愿以改进产品或推出新品种争认知程度和购买意愿以改进产品或推出新品种争取新顾客；取新顾客；他们还收集各地方的经济交通等信息以决定如何他们还收集各地方的经济交通等信息以决定如何保住现有市场和开发新市

26、场。市场信息数据对企保住现有市场和开发新市场。市场信息数据对企业是至关重要的。业是至关重要的。他们很舍得在这方面花钱。因为这是企业生存所他们很舍得在这方面花钱。因为这是企业生存所必需的，绝不是可有可无的。必需的，绝不是可有可无的。观测数据观测数据和和试验数据试验数据上面所说的数据是在上面所说的数据是在自然的未被控制的自然的未被控制的条件下观测到的，称为观测数据条件下观测到的，称为观测数据(observational data)。而对于有些问题，而对于有些问题，比如在不同的医疗手比如在不同的医疗手段下某疾病的治疗结果有什么不同、不段下某疾病的治疗结果有什么不同、不同的肥料和土壤条件下某农作

27、物的产量同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物有没有区别、用什么成分可以提高某物质变成超导体的温度等等。质变成超导体的温度等等。这种在人工这种在人工干预和操作情况下收集的数据就称为试干预和操作情况下收集的数据就称为试验数据验数据(experimental data)。总体和样本总体和样本要想了解北京市民对建设北京交通设要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点，工具为主还是以小汽车为主的观点，需要进行调查；需要进行调查；调查对象是调查对象是所有北京市民所有北京市民，调查，调查

28、目的目的是希望知道市民中对这个问题的不同是希望知道市民中对这个问题的不同看法各自占有的看法各自占有的比例比例。显然，显然，不可能去问所有的北京市民，不可能去问所有的北京市民，而只能够问一部分而只能够问一部分；并且根据这一部；并且根据这一部分的观点来理解整个北京市民的总体分的观点来理解整个北京市民的总体观点。观点。总体和样本总体和样本这种情况下，称所有（每个）北京市这种情况下，称所有（每个）北京市民对这个问题的观点为一个民对这个问题的观点为一个总体总体(population)，而调查时问到的那部分，而调查时问到的那部分市民的观点为市民的观点为该总体的该总体的一个样本一个样本(sample)。

29、当然，也有可能调查所有的人（比如当然，也有可能调查所有的人（比如人口普查），那叫做人口普查），那叫做普查普查(census)。总体是包含所有要研究的个体总体是包含所有要研究的个体(element)的集合。而样本是总体中选中的一部的集合。而样本是总体中选中的一部分。分。随机样本随机样本在抽取样本时，如果总体中的每在抽取样本时，如果总体中的每一个体都有同等机会被选到样本一个体都有同等机会被选到样本中，这种抽样称为简单中，这种抽样称为简单随机抽样随机抽样（simple random sampling），），而这样得到的样本则称为而这样得到的样本则称为随机样随机样本本（random samp

30、le）。）。随机样本随机样本就北京交通问题的调查为例，在随就北京交通问题的调查为例，在随机抽样的情况下，如果样本量（机抽样的情况下，如果样本量（sample size，也就是样本中个体的，也就是样本中个体的数目）在总体中的比例为数目）在总体中的比例为1/5000，那么，无论在东城区或者在延庆县那么，无论在东城区或者在延庆县，无论在白领阶层还是蓝领阶层被，无论在白领阶层还是蓝领阶层被问到的人的比例都应该大体是问到的人的比例都应该大体是1/5000。也就是说，也就是说，这种比例在总体的任何这种比例在总体的任何部分是大体不变的。部分是大体不变的。方便样本方便样本在实践中，得到随机样本不容易。很

31、多搞调查的在实践中，得到随机样本不容易。很多搞调查的人就采取人就采取简单简单的办法。的办法。还以北京的交通问题的调查为例。假定按照随机还以北京的交通问题的调查为例。假定按照随机选出的电话号码进行调查。这样肯定节省时间和选出的电话号码进行调查。这样肯定节省时间和资源，但这样得到的就不是一个随机样本了。资源，但这样得到的就不是一个随机样本了。如果按照随机选择的数字（无论号码本上有没有）如果按照随机选择的数字（无论号码本上有没有）打电话，那很多电话是空号或单位电话；显然这打电话，那很多电话是空号或单位电话；显然这种样本也不是随机样本，它称为方便样本种样本也不是随机样本，它称为方便样本（conve

32、nience sample）。）。在调查中，即使选择对象的确是随机的，最理想在调查中，即使选择对象的确是随机的，最理想的情况所得到的样本也只代表那些愿意回答问题的情况所得到的样本也只代表那些愿意回答问题人的观点所组成的总体；人的观点所组成的总体；没有回答问题的人的观没有回答问题的人的观点永远不会被这种调查的样本所代表。点永远不会被这种调查的样本所代表。方便样本方便样本这种不回答的问题是抽样调查特有的问这种不回答的问题是抽样调查特有的问题。题。在其他问题中，也有使用方便样本的情在其他问题中，也有使用方便样本的情况。比如在肺癌研究中，人们往往看到况。比如在肺癌研究中，人们往往看到吸烟和肺癌的

33、关系的数据；这些数据并吸烟和肺癌的关系的数据；这些数据并不是整个人群中采集的随机样本；它们不是整个人群中采集的随机样本；它们可能只是医院中的病人记录中得到的。可能只是医院中的病人记录中得到的。在杂志和报纸上也有问卷，但得到的只在杂志和报纸上也有问卷，但得到的只是拥有这份报刊，而且愿意回答的人的是拥有这份报刊，而且愿意回答的人的观点。观点。误差误差假定在某一职业人群中女性占的比例为假定在某一职业人群中女性占的比例为60%60%。如果在这。如果在这个人群中抽取一些随机样本，这些随机样本中女性的比个人群中抽取一些随机样本，这些随机样本中女性的比例并不一定是刚好例并不一定是刚好6060，可能稍微

34、多些或稍微少些。这，可能稍微多些或稍微少些。这是很正常的，因为样本的特征不一定和总体完全一样。是很正常的，因为样本的特征不一定和总体完全一样。这种差异不是错误，而是必然会出现的这种差异不是错误，而是必然会出现的抽样误差抽样误差（sampling errorsampling error）。）。刚才提到在抽样调查中，一些人因为种种原因没有对调刚才提到在抽样调查中，一些人因为种种原因没有对调查作出反映（或回答），这种误差称为查作出反映（或回答），这种误差称为未响应误差未响应误差（nonresponse errornonresponse error）。）。而另有一些人因为各种原因回答时并没有真实反

35、映他们而另有一些人因为各种原因回答时并没有真实反映他们的观点，这称为的观点，这称为响应误差响应误差（response errorresponse error）。）。和抽样误差不一样，未响应误差和响应误差都会影响对和抽样误差不一样，未响应误差和响应误差都会影响对真实世界的了解；应该在设计调查方案时尽量避免。真实世界的了解；应该在设计调查方案时尽量避免。抽样调查的一些常用方法抽样调查的一些常用方法在抽样调查时，最理想的样本是前面提到在抽样调查时，最理想的样本是前面提到的随机样本。的随机样本。但是但是由于实践起来不方便由于实践起来不方便，在大规模调查，在大规模调查时一般不用这种全部随机抽样的

36、方式，而时一般不用这种全部随机抽样的方式，而只是在局部采用随机抽样的方法。只是在局部采用随机抽样的方法。下面介绍几种抽样方法。这里没有深奥的下面介绍几种抽样方法。这里没有深奥的理论；读者完全可以根据常识判断在什么理论；读者完全可以根据常识判断在什么情况下简单的随机样本不方便以及下面的情况下简单的随机样本不方便以及下面的每个方法有什么好处和缺陷。对于它们具每个方法有什么好处和缺陷。对于它们具体的设计、实施与数据分析，有许多专门体的设计、实施与数据分析，有许多专门的书籍，就不在这里赘述了。的书籍，就不在这里赘述了。一些抽样方法一些抽样方法 1 分层抽样分层抽样（stratified sampl

37、ing）。这是）。这是先把要研究的总体按照某些性质分类先把要研究的总体按照某些性质分类（stratum），再在各类中分别抽取样本。），再在各类中分别抽取样本。在每类中调查的人数通常是按照这该类人在每类中调查的人数通常是按照这该类人的比例，但出于各种考虑，也可能不按照的比例，但出于各种考虑，也可能不按照比例，也可能需要加权（加权就是在求若比例，也可能需要加权（加权就是在求若干项的和时，对各项乘以不同的系数，这干项的和时，对各项乘以不同的系数，这些系数的和通常为些系数的和通常为1）。）。比如可以按照教育比如可以按照教育程度把要访问的人群分成几类；再在每一程度把要访问的人群分成几类；再在每一类中调查

38、和该类成比例数目的人。类中调查和该类成比例数目的人。这样就这样就确保了每一类都有成比例的代表。确保了每一类都有成比例的代表。一些抽样方法一些抽样方法 2.整群抽样整群抽样（cluster sampling）。这是）。这是先把总体划分成若干群（先把总体划分成若干群（cluster），再），再（通常是随机地）从这些群中抽取几（通常是随机地）从这些群中抽取几群；然后再在这些抽取的群中对个体群；然后再在这些抽取的群中对个体进行抽样。进行抽样。比如，在某县进行调查，比如，在某县进行调查，首先在所有村中选取若干村子，然后首先在所有村中选取若干村子，然后只对这些村子的人进行调查。只对这些村子的人进行调查。显

39、然，显然，如果各村情况差异不大，这种抽样还如果各村情况差异不大，这种抽样还是方便的。否则就会增大误差了。是方便的。否则就会增大误差了。一些抽样方法一些抽样方法 3.3.多级抽样多级抽样（multistage samplingmultistage sampling）。在）。在群体很大时，往往在抽取若干群之后，再群体很大时，往往在抽取若干群之后，再在其中抽取若干子群，甚至再在子群中抽在其中抽取若干子群，甚至再在子群中抽取子群，等等。最后只对最后选定的最下取子群，等等。最后只对最后选定的最下面一级进行调查。面一级进行调查。比如在全国调查时，先比如在全国调查时，先抽取省，再抽取市地，再抽取县区，再抽

40、抽取省，再抽取市地，再抽取县区，再抽取乡、村直到户。取乡、村直到户。在多级抽样中的每一级在多级抽样中的每一级都可能采取各种抽样方法。因此，整个抽都可能采取各种抽样方法。因此，整个抽样计划可能比较复杂，也称为多级混和型样计划可能比较复杂，也称为多级混和型抽样。抽样。一些抽样方法一些抽样方法 4.系统抽样系统抽样（systematic sampling）。）。这是先把总体中的每个单元编号，然这是先把总体中的每个单元编号，然后随机选取其中之一作为抽样的开始后随机选取其中之一作为抽样的开始点进行抽样。如果编号是随机选取的，点进行抽样。如果编号是随机选取的，则这和简单随机抽样是等价的。在选则这和简单随

41、机抽样是等价的。在选取开始点之后，通常从开始点开始按取开始点之后，通常从开始点开始按照编号进行所谓等距抽样；也就是说，照编号进行所谓等距抽样；也就是说，如果开始点为如果开始点为5号，号，“距离距离”为为10，则，则下面的调查对象为下面的调查对象为15号、号、25号等等。号等等。抽样方法的选择不能一概而论抽样方法的选择不能一概而论实际上每个抽样通常都可实际上每个抽样通常都可能是各种抽样方法的组合。能是各种抽样方法的组合。既要考虑精确度，还要根既要考虑精确度，还要根据客观情况考虑方便性、据客观情况考虑方便性、可行性和经济性。不能一可行性和经济性。不能一概而论。概而论。计算机中常用的数据形式计算

42、机中常用的数据形式数据是由一些变量和它们的观测值所组成。下面数据是由一些变量和它们的观测值所组成。下面就是调查人们对某个问题观点的一个数据的方阵就是调查人们对某个问题观点的一个数据的方阵形式。其中有形式。其中有6 6个变量：观点（观测值为支持、个变量：观点（观测值为支持、反对和不知道三种）、教育程度（有高中低三种反对和不知道三种）、教育程度（有高中低三种取值，用取值，用H H、M M、L L表示）、月收入（取值为实际表示）、月收入（取值为实际数字）、性别（取值有男女两个，用数字）、性别（取值有男女两个，用M M和和F F表示）表示）以及地区号（用数字以及地区号（用数字1 1，2 2，3 3，

43、4 4表示）等。该表表示）等。该表一共有一共有13641364个观测值（问卷回答）。可以看出这个观测值（问卷回答）。可以看出这些变量有定性（属性）变量，也有定量（数值）些变量有定性（属性）变量，也有定量（数值）变量。按照这个数据的格式，每一列为一个变量变量。按照这个数据的格式，每一列为一个变量的不同观测值；而每一行则称为一个观测值，它的不同观测值；而每一行则称为一个观测值，它是个由数量值和属性值组成的向量，每一个值相是个由数量值和属性值组成的向量，每一个值相应于一个变量。应于一个变量。思考思考 1 1 举出一些观测数据和试验数据的例子。举出一些观测数据和试验数据的例子。 2 2 举出简单随机

44、样本的例子。举出简单随机样本的例子。 3 3 根据你的经验，举出总体和样本的一些具根据你的经验，举出总体和样本的一些具体例子。体例子。 4 4 举出调查抽样时可能发生的各种影响调查举出调查抽样时可能发生的各种影响调查结果的问题，并且提出你认为可以减少或避免这结果的问题，并且提出你认为可以减少或避免这些问题的建议。些问题的建议。 5 5 根据你的直觉，本章提到的几种抽样方法根据你的直觉，本章提到的几种抽样方法的优缺点是什么？原因何在？的优缺点是什么？原因何在？ 6 6 举出一些书报上发表的数据例子，并指出举出一些书报上发表的数据例子，并指出那些是变量，哪些是观测值。那些是变量，哪些是观测值。数据

45、的描述如同给人画像一样直方图直方图比如某个地区（地区比如某个地区（地区1 1）学校高三男生）学校高三男生的身高；有的身高；有163163个度量如何用图形来表个度量如何用图形来表示这个数据，使人们能够看出这个数示这个数据，使人们能够看出这个数据的大体分布或据的大体分布或“形状形状”呢？一个办呢？一个办法就是画一个直方图法就是画一个直方图(histogram)(histogram)。地区1高三男生高度200.0195.0190.0185.0180.0175.0170.0165.0160.0155.0150.0403020100Std. Dev = 10.91 Mean = 170.9N = 16

46、3.00盒型图盒型图比直方图简单一些的是盒形图比直方图简单一些的是盒形图(boxplot(boxplot，又称箱图、箱线图、盒子，又称箱图、箱线图、盒子图图) )。后面图的左边一个是根据地区。后面图的左边一个是根据地区1 1高三男生的身高数据所绘的盒形图；高三男生的身高数据所绘的盒形图；其右边的图代表另一个地区（地区其右边的图代表另一个地区（地区2 2）的高三学生的身高的高三学生的身高 175163N =地区地区2地区1高三男生身高210200190180170160150140323259250248596158茎叶图茎叶图地区地区1 1高

47、三男生身高高三男生身高数据的茎叶图数据的茎叶图 HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 011111112233

48、3 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19 . 56 3.00 Extremes (=198) Stem width: 10.00 Each leaf: 1 case(s)散点图散点图往往人们得到的数据有两个变量的，比如美国男士往往人们得到的数据有两个变量的，比如美国男士和女士初婚年限的数据。该数据描述了自和女士初婚年限的数据。该数据描述了自19001900年到年到19981998年男女第一次结婚延续的时间的中位数。当然，年男女第一次结婚延续的时间的中位数。当然，不可能将所有人的婚姻年限都给出来。所以，每年不可能将所有人的婚姻年限都给出来。

49、所以，每年就取了一个中间的值就取了一个中间的值( (中位数中位数) )作为代表。自作为代表。自19001900到到19601960年是每十年一个值，以后到年是每十年一个值，以后到19901990是每五年取一是每五年取一个数，个数，19951995年以后是每年一个数。这里的一个变量年以后是每年一个数。这里的一个变量为记录年份，另一个是结婚时间长短。由于分男士为记录年份，另一个是结婚时间长短。由于分男士和女士，因此有两二维数据。这时可以以一个变量和女士，因此有两二维数据。这时可以以一个变量为横坐标（如年份），另一个为纵坐标（这里是结为横坐标（如年份），另一个为纵坐标（这里是结婚年限）来点图。这种图

50、称为散点图（婚年限）来点图。这种图称为散点图（scatter scatter plotplot）。还可以看出在二十世纪六十年代婚姻年限）。还可以看出在二十世纪六十年代婚姻年限降低，而后来又升高。而男子的年限平均比女性长。降低，而后来又升高。而男子的年限平均比女性长。这个图是用这个图是用SPSSSPSS画的。画的。 200019801960194019201900282726252423222120女男定性变量的点图定性变量的点图定性变量（或属性变量，分类变量）定性变量（或属性变量，分类变量）不能点出直方图、散点图或茎叶图，不能点出直方图、散点图或茎叶图，但可以描绘出它们各类的比例。下面但可以描

51、绘出它们各类的比例。下面用用SPSS绘的图表示了说世界各种主要绘的图表示了说世界各种主要语言的人数的比例语言的人数的比例阿拉伯语4.27%德语2.13%俄语4.59%法语2.15%马来印2.94%孟加拉语 3.59%葡萄牙语 3.24%其他33.14%日语2.10%西班牙语 7.09%印地语8.27%英语8.57%中国北方17.93%饼图语种中国北方英语印地语西班牙语日语其他葡萄牙语孟加拉语马来印法语俄语德语阿拉伯语Mean3000200010000母语日常使用条形图汇总统计量汇总统计量或或概括统计量概括统计量(summary statistic) 汇总统计量（位置）汇总统计量（位置）均值

52、均值(mean) 中位数中位数(median) (第一，第三第一，第三)四分位数四分位数(点点)(first quantile, third quantile ) k百分位数百分位数(k-percentile) 众数众数(mode)汇总统计量（尺度）汇总统计量（尺度）(scale statistic) 极差（极差（range) 四分位间距四分位间距(四分位极差四分位极差) (interquantile range) 标准差标准差(standard deviation) 方差方差(variance) -3-2-10123020406080 x-3-2-10123020406080y两个尺度不同的

53、数据的直方图，左边的标准差大约只有右边的一半两个尺度不同的数据的直方图，左边的标准差大约只有右边的一半数据的标准得分数据的标准得分 (standard score) 两个水平类似的班级（一班和二班）上同一门课，但是两个水平类似的班级（一班和二班）上同一门课，但是由于两个任课老师的评分标准不同，使得两个班成绩的由于两个任课老师的评分标准不同，使得两个班成绩的均值和标准差都不一样均值和标准差都不一样(数据：数据：grade.sav)。一班分数的。一班分数的均值和标准差分别为均值和标准差分别为78.53和和9.43，而二班的均值和标准，而二班的均值和标准差分别为差分别为70.19和和7.00。那么

54、得到。那么得到90分的一班的张颖是不分的一班的张颖是不是比得到是比得到82分的二班的刘疏成绩更好呢？怎么比较才能分的二班的刘疏成绩更好呢？怎么比较才能合理呢？虽然这种均值和标准差不同的数据不能够直接合理呢？虽然这种均值和标准差不同的数据不能够直接比较，但是可以把它们进行标准化，然后再比较标准化比较，但是可以把它们进行标准化，然后再比较标准化后的数据。一个标准化的方法是把原始观测值（亦称得后的数据。一个标准化的方法是把原始观测值（亦称得分，分，score）和均值之差除以标准差；得到的度量称为）和均值之差除以标准差；得到的度量称为标准得分标准得分(standard score)。 10097N =

55、班级二班一班得分1101009080706050402110097N =班级二班一班标准得分3210-1-2-3-421思考思考 1 1 根据你的经验，给出定性和定量变量的例根据你的经验，给出定性和定量变量的例子。子。 2 2 对于问题对于问题1 1中你的例子，试图画出各种描述中你的例子，试图画出各种描述性图形并计算汇总统计量。性图形并计算汇总统计量。 3 3 举例说明众数、中位数和均值的优缺点。举例说明众数、中位数和均值的优缺点。 4 4 举例说明尺度统计量说明了数据的什么特举例说明尺度统计量说明了数据的什么特性。性。 5 5 标准得分实际上是对原始数据的一种标准化。标准得分实际上是对

56、原始数据的一种标准化。试举出标准得分的用处。试举出标准得分的用处。统计推断从数据得到对现实世界的结从数据得到对现实世界的结论的过程论的过程估计估计总体它代表我们所关心的那部分现实世界。总体它代表我们所关心的那部分现实世界。而在利用样本中的信息来对总体进行推断而在利用样本中的信息来对总体进行推断之前人们一般对代表总体的变量假定了分之前人们一般对代表总体的变量假定了分布族。比如假定人们的身高属于正态分布布族。比如假定人们的身高属于正态分布族；对抽样调查假定了二项分布族等等。族；对抽样调查假定了二项分布族等等。这些模型基本上是根据经验来假定的，所这些模型基本上是根据经验来假定的，所以仅仅是对现实世

57、界的一个近似。在假定以仅仅是对现实世界的一个近似。在假定了总体分布族之后，进一步对总体的认识了总体分布族之后，进一步对总体的认识就是要在这个分布族中选择一个适合于我就是要在这个分布族中选择一个适合于我们问题的分布；由于分布族成员是由参数们问题的分布；由于分布族成员是由参数确定的，如果参数能够估计，对总体的具确定的，如果参数能够估计，对总体的具体分布就知道得差不多了。体分布就知道得差不多了。估计估计一种是点估计一种是点估计(point estimation)，也就是用，也就是用估计量的实现值来近似相应的总体参数。估计量的实现值来近似相应的总体参数。另一种是区间估计另一种是区间估计(inte

58、rval estimation)；它；它是包括估计量在内（有时是以估计量为中是包括估计量在内（有时是以估计量为中心）的一个区间；该区间被认为很可能包心）的一个区间；该区间被认为很可能包含总体参数。含总体参数。点估计给出一个数字，用起来很方便；而点估计给出一个数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；区间估计给出一个区间，说起来留有余地；不象点估计那么绝对。不象点估计那么绝对。无偏估计无偏估计(大样本性质大样本性质) 区间估计的置信度区间估计的置信度( (大样本性质大样本性质) )估计估计注意置信区间的论述是由区间和置信注意置信区间的论述是由区间和置信度两部分组成。有些新

59、闻媒体报道一度两部分组成。有些新闻媒体报道一些调查结果只给出百分比和误差（即些调查结果只给出百分比和误差（即置信区间），并不说明置信度，也不置信区间），并不说明置信度，也不给出被调查的人数，这是不负责的表给出被调查的人数，这是不负责的表现。因为降低置信度可以使置信区间现。因为降低置信度可以使置信区间变窄（显得变窄（显得“精确精确”），有误导读者），有误导读者之嫌。如果给出被调查的人数，则内之嫌。如果给出被调查的人数，则内行可以由推算出置信度（由后面给出行可以由推算出置信度（由后面给出的公式），反之亦然。的公式），反之亦然。一个描述性例子一个描述性例子一个有一个有10000个人回答的调查显示，

60、同意某个人回答的调查显示，同意某种观点的人的比例为种观点的人的比例为70%（有（有7000人同人同意），可以算出总体中同意该观点的比例意），可以算出总体中同意该观点的比例的的95%置信区间为（置信区间为（0.691，0.709）；另一）；另一个调查声称有个调查声称有70%的比例反对该种观点，的比例反对该种观点，还说总体中反对该观点的置信区间也是还说总体中反对该观点的置信区间也是（0.691，0.709）。到底相信谁呢？实际上，）。到底相信谁呢？实际上，第二个调查隐瞒了置信度（等价于隐瞒了第二个调查隐瞒了置信度（等价于隐瞒了样本量）。如果第二个调查仅仅调查了样本量）。如果第二个调查仅仅调查了50个人，有

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

北京大学统计学经典课件第二章——统计回顾和分析方法

文档简介

温馨提示

最新文档

评论

北京大学统计学经典课件第二章——统计回顾和分析方法

文档简介

温馨提示

最新文档

评论

相关文档