统计学是一组概念.docx_第1页
统计学是一组概念.docx_第2页
统计学是一组概念.docx_第3页
统计学是一组概念.docx_第4页
统计学是一组概念.docx_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学是一组概念、原则和方法。用于 a收集数据; b分析数据;c由数据得出结论科学是以方法为特征的,而不是它的研究对象 心理学之所以成为科学就是因为以了科学的方法研究问题 统计学是心理学研究结果表达的有效语言 作为仪式的统计学 心理学三种类型的研究问题与统计 类型一:特征描述 类型二:差异比较 类型三:关系分析 总体:是由具有某些共同特质(characteristic)的元素(element)或个体所组成的群体,是研究人员所要研究观察的对象的全体集合。 样本:是由总体中抽取部份元素而组成的集合,是总体的一部份。 参数:描述总体情况的一些统计指标,通常基于对样本的观察或测量的推断而获得。参数是我们想要获取的,是统计的核心。 例如通过普查得到中国大学生平均身高即为参数; 统计量:对样本直接观察或测量所得的数值,通常用来推论参数。例如用随机方法抽出部分大学生测得的平均身高即为统计量。样本统计量的总体参数符号名称样 本总 体定义从总体中抽出的部分单位数研究对象的全部单位总数特征统计量参数符号样本容量: n 样本平均数:样本比例:样本标准差:s样本方差总体容量: N总体平均数:总体比例: p总体标准差:总体方差: 描述统计与推断统计 描述统计(descriptive statistics)是来描绘或总结的观察量的基本情况的统计总称。描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示。 推断统计(inferential statistics)是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。 变量 总体确定之后,研究者应对每个观察单位的某项特征进行测量或观察,该特征称为变量。如“身高”、“体重”、“性别”、“智商”等。 变量的测定值或观察值称为变量值或观察值,亦称为数据(data)。 描述统计与推断统计的关系 美国统计学家史蒂文斯 ( S.S. stevens) 1968年按照变量的性质和数学运算的功能特点,将变量的统计测量尺度划分为定类尺度、定序尺度、定距尺度和定比尺度四类 测量尺度 测量的尺度决定了我们可以从测量数据中得到的回答的类型。 数据的信息水平。 称名测量(nominal scales) 在于表明一件事物不同于另一件事物; 没有数量的特征; E.g. 性别(1、2),城乡(1、2 顺序测量(ordinal scales) 在于表明一个序列中的位置; 不能说明两者之间差别多少; E.g.比赛排名等,常见的量表 等距和等比测量(interval & ratio scales) 有固定的测量单位:元、分钟等 等距和等比量表的差异:零点 等距:人为的零点(e.g.温度) 等比:绝对零点(时间、金钱etc.) 常量与变量 一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。 但是,开车后,坐在这节车厢的旅客有多少就没准了。这有随机性。该车厢的乘客数为变量(variable)。 一个学校的注册在校男女生比例是固定的,为常量 但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。 自变量和因变量 IV(independent variable):为了解释因变量的差异或变化而操作的变量; DV (dependent variable):研究者感兴趣的观察或测量的结果,以评估IV的作用。 数据:泛指对客观事物的数量、属性、位置及其相互关系的抽象表示。 信息:人们对数据进行系统组织、整理和分析,使其产生相关性,但没有与特定用户行动相关联,信息可以被数字化; 作为知识层次中的中间层, 信息数据处理 知识:是信息、文化脉络以及经验的组合。 智慧(Wisdom) -知识的选择,应对的行动方案可能有多种,但选择哪个靠智慧。 数据的整理 在获得原始数据资料之后,需要使用一定的方法对数据进行整理和综合,目的是从大量的原始数据资料中提炼所需要的信息,使之可以提供概要信息并能反映对象总体的基本数量特征,便于人们的理解和使用。表格和图形是整理和反映统计资料的主要工具。 频数分布 频数分布(Frequency distribution):对一数据集的表格汇总法,显示若干无重叠组别中每一组的项目频数(或个数)。 相对频数分布(Relative frequency distribution):一数据集的表格汇总法,显示在若干无重叠组别中每一组的项目总数的相对频数,即分数或比例。 直方图(Histogram):一种通过在横轴上放置组间隔,在纵轴上放置频数来描述数量数据的频数分布、相对频数分布或百分数频数分布。 直方图与条形图 条形图是用宽度相同的条形的高度或长度来表示数据变动的图形。直方图是用矩形的宽度和高度来表示频数分布的图形。 直方图中的直方条显示出不能分开、连续的;条形图中的直方条显示是可以分开的。 百分数频数分布(Percent frequency distribution):一数据集的表格汇总法,显示几个无重叠组别中每一组的项目总数的百分率。 条形图(Bar graph):一种图形方法,描述在品质数据的频数分布、相对频数据分布或百分数频数分布中表示的信息。 饼形图(Pie chart):一种描述品质数据汇总的图形方法,建立于把一个圆细分成与每一组的相对频数相对应的扇型的基础上。 累积频数分布(Cumulative frequency distribution):对数量数据集的表格法汇总,显示数值小于或等于每一组组上限的项目数。 累积相对频数分布:对数量数据的表格法汇总,显示数值小于或等于每一组组上限的项目分数或比例。 累积百分数频数分布:对数量数据的表格法汇总,显示数值小于或等于每一组组上限的项目的百分率。 探索性数据分析技术由简单算术和易画的图形组成,可以用于快速地汇总数据。 茎叶显示(Stem-and-leaf display):一种同时排列数量数据顺序并提供分布形态的深入信息的探索性数据分析技术。茎叶图由两部分组成:茎(stem)与叶(leaf) 茎:通常由每组数的高位数值(leading digits)形成,按组竖立在左边; 叶:通常由每组数的低位数值(last digits)形成,按组横排在“茎”的右边。 坐标轴:坐标轴最大最小的取值十分有艺术性,想要让数值看起来夸张点,就把最大最小值之间的范围缩小点,反之亦可。 趋势线:趋势线是画龙点睛,简直就是专门为了误导别人而设计的。 1. 直线型趋势线,只取头尾两值的连线,中间的忽略不计 2. 移动平均线:移动平均线的周期的取值会导致图形巨大差异 颜色:作为障眼法, 1.假如有多条线,有一条比较难看,那么就把这条的颜色跟背景设置成类似,这样看起来就不是很明显了。 2.假如有条线下面很难看,那么可以把背景颜色改成双色,下面的背景颜色跟线接近甚至一样,在多条线的时候效果更好, APA统计表规范 1.整个统计表应以“置中”的方式放在内文的中间。 2.而标题在表的正中央上方(标题和表之间不空行),标号(如“表1”)和标题的文字之间空一个全型格。 3.表格的安排,能使读者易于掌握重要的资料 4.通常文字解释先于图表 5.APA格式因供期刊论文之用,通常在表格内不画纵向直线,但为求美观,一般学位论文也可画纵向直线。 众数是一组数据分布的峰值,它是一种位置代表值,不受极端值的影响。缺点是不具有唯一性; 中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响; 均值是对于数值型数据计算的,而且利用了全部数据信息,它具有良好的数学性质,应用比较广泛。缺点是易受极端数据的影响。 对于偏态分布数据,均值代表性较差。当数据为偏态分布,特别是偏度较大时,应选择众数或中位数等位置代表值。 方差与标准差是表示一组数据离散程度的最好指标。其值越大说明离散程度大,其值小说明数据比较集中。 反应灵敏。容易计算;简单明了;适合代数运算; 受抽样变动的影响小,不同样本的标准差或方差比较稳定; 具有可加性。可以把总变异分解为不同来源的变异。 每个观测值加上相同常数C后,计算得到的标准差不变; 每个观测值都乘以一个相同常数C后,计算得到的标准差是原来标准差的C倍 标准差系数(Coefficient of variation):衡量数据集相对变异程度的量度,以标准差除以平均数再乘以100得到。 Z分数(z-Score):以距平均数的离差( )除以标准差s所得的值。Z分数是标准化的数值,指数据值 xi 距离平均数 的标准差的个数。 z分数经常被称为是标准化分数。比如,z1=1.2 表示 x1 比样本平均数大1.2个标准差。z2=-0.5 表示x2比样本平均数小0.5个标准差。 两个不同数据集的项有相同的z分数,则可以说它们有相同的相对位置,因为它们都与平均数的距离有相同个数的标准差。 切贝谢夫定理(Chebyshers theorem) 在任意一个数据集中,至少有(1-1/z2)的数据项与平均数的距离都在 z 个标准差之内,其中z是任意大于1的值。 z = 2,3,4个标准差时,这一定理的含义: 至少0.75,即75的数据项与平均数的距离在z=2个标准差之内。 至少0.89,即89的数据项与平均数的距离在z=3个标准差之内。 至少0.94,即94的数据项与平均数的距离在z=4个标准差之内。 假设100名学生统计学课程考试,平均分数为70,标准差为5,那么有多少学生的分数在6080之间?有多少学生的分数在58-82之间? 对于60-80之间,到60比平均数低两个标准差而80比平均数高两个标准差。利用切贝谢夫定理,至少有0.75即75的数据项与平均数的距离在两个标准差之内。 对于58-82之间,我们由(58-70)/5=-2.4知,58比平均分低2.4个标准差,又由(82-70)/5=2.4知,82比平均分高2.4个标准差。应用切贝谢夫定理,z =2.4得到:即至少有8 2 . 6的学生的分数在5 88 2之间。 经验法则(Empirical rule) 对于钟形或山峰形分布(正态分布)的数据: 约68的数据项与平均数的距离在1个标准差之内。 约95的数据项与平均数的距离在2个标准差之内。 几乎所有的数据项与平均数的距离在3个标准差之内 异常值(Outlier)检测 可能是一个数据项被错误地记录了 可能是一个数据项被错误地包含在这个数据集中 可能就是一个反常的值,它被正确地记录并且的确属于这个数据集 利用z 分数来检测异常值时,任何z 分数小于-3或大于+3的值都可作为异常值。 在实践中,为了精确定义概率,人们使用了不同的方法,但并没有达成一致。经常地,会用到下列3种方法之一: (1) 古典法。(2) 相对频数法。(3) 主观法。 古典法(Classical method):在随机试验中有这样一类随机试验,试验的结果只有有限多个,且这些试验结果出现的可能性都是等可能的,称这样的试验为古典型随机试验。 对于古典型随机试验,如果试验的全部结果有n个,其中有且仅有mmn个结果导致随机事件A发生,则称比值m/n为随机事件A的概率。记作P(A)=m/n 相对频数法(Relative frequency method):一种以试验或历史数据为基础的概率分配方法。是一种定义概率的经验方法。 例:假设在某产品市场评估试验中,共联系了400名潜在顾客,结果有100人购买了该产品,300人未购买。事实上,我们相当于把联系某一顾客的试验重复了400次,而结果中有100次是产品被购买。 因此,我们可以利用相对频数作为某一名顾客购买该产品概率的估计。对于顾客购买该产品的结果,我们分配以 100 / 400 = 0.25 的概率。 主观法(Subjective method):一种以主观判断为基础的概率分配方法。常常用在不太可能重复试验的情况下。 例如,考虑皇马队将进行的下一场足球赛,该队获胜的概率是多少?试验的结果即获胜、失利和平局并不一定是等可能发生的。此外,由于参赛队伍在近几年中并未有几次交手,所以对于将要举行的比赛也没有相对频数的数据可用。因此,为了估计球队获胜的概率,我们必须对其进行主观评价 简单事件:可以用一个特征描述。 E.g. 如果某人对“购买计划”感兴趣,则事件是“计划购买”和“不计划购买”。 所有可能事件的集合叫做样本空间 联合事件:具有两个特征的事件 E.g. “计划购买并实际购买”则是联合事件。 以列联表的方式观察样本空间 列联表:为了研究两个分类变量对数据进行分类,使用一个表示两个变量的交叉分组表格 简单概率:某一简单事件发生的概率,记作P(A);在列联表中,也称为边际概率。 E.g. 任选一户家庭,已购DVD的概率P(已购DVD)=108/300 联合概率:涉及两个或多个事件的情形。 E.g.任选一户家庭,已购HDTV和已购DVD的概率P(已购HDTV和已购DVD)=38/300 已购HDTV 已购DVD 是 否 合计 HDTV 38 42 80 非HDTV 70 150 220 合计 108 192 300 事件A的补(Complement of event A):由所有不包含在 A的样本点构成的事件。 P(A)+P(Ac)=1 例:假设某采购部声称供货商运来的货物中无残次品的概率为90,利用补,我们可以推断出货物中有残次品的概率为 1-0.90 = 0.10 事件A和事件B的并(Union of A and B):所有的属于A或B或同时属于二者的事件。A和B的并记作AB。 事件A和事件B的交(Intersection of A and B):同时属于A和B的事件。A和B的交记作AB。 A或B的概率等于A的概率和B的概率之和减去A和B的概率,即 P(AB)=P(A)+P(B)-P(AB) 如果P(AB)=0,两个事件为互斥事件。对于互斥事件加法公式简化为 P(AB)=P(A)+P(B) 经验法则:当n /N0.05时,一般可忽略有限总体修正系数。 样本均值的标准差反映了样本均值与总体均值的平均误差,故称之为抽样平均误差(或抽样标准误),如公式所示,抽样平均误差与总体标准差成正比变化,与样本容量的平方根成反比变化。 拒绝(否定)域 根据虚无假设H0确定的抽样分布内一端或二端的小区域,如果样本统计量的值在此区域范围内,则拒绝虚无假设H0。 显著度(显著性水平) 拒绝域在整个抽样分布中所占的比例; 表示样本统计量的值落在拒绝域内的机会; 虚无假设为真时,拒绝它的概率。 表示为(alpha)常用的值有0.01, 0.05, 0.10 由研究者事先确定 单侧和双侧检验 如果拒绝域只在一侧,称为单侧检验;如果拒绝域在两侧的位置,则称为双侧检验。 选择单侧检验与双侧检验主要根据研究假设而定。 在所选显著度相同的情况下,双侧检验比单侧检验更难拒绝虚无假设。 单侧假设如何设定? 虚无假设与备择假设的选择是有现实背景的,研究者研究问题的着眼点不同将导致不同的虚无假设;虚无假设始终是受到质疑的,同时也是受到保护的,而备择假设才是研究者真正想得到结论。 假设检验中的决策是针对虚无假设的,而结论是针对备择假设的。由于虚无假设是受到保护的,所以,肯定它并不具有说服

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论