第五周计算机语言学课件_第1页
第五周计算机语言学课件_第2页
第五周计算机语言学课件_第3页
第五周计算机语言学课件_第4页
第五周计算机语言学课件_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信息技术与语言(yyn)研究龚箭2014年秋季学期(xuq)(第五周)共四十九页统计(tngj)中的基本概念共四十九页样本(yngbn)和总体总体 (population) :是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体,即研究对象的某项指标的取值的集合或全体研究中实际观测或调查的一部分个体称为样本(yngbn)(sample)为了使样本能够正确反映总体情况,对总体要有明确的规定;总体内所有观察单位必须是同质的;在抽取样本的过程中,必须遵守随机化原则;样本的观察单位还要有足够的数量共四十九页中位数中位数(median)又称中数,是样本数据由低到高按顺序排列后,中间位置的数值如果

2、一组数据的个数是奇数,则中位数正好是中间位置的数据值;如果一组数据是偶数,则中位数定义为中间位置两个数据的平均值例如(lr)由:10、11、13、15、18等五个数构成的一组数据的中位数为13;由2、3、4、8、10、11等六个数构成的一组数据的中位数为(4+8)/ 2 = 6共四十九页平均数平均数(mean)又称均值(jn zh)或均数,是一组数据中各个数值的总和除以数值的个数得到的结果例如由10、11、13、15、18等五个数构成的一组数据的平均数为( 10+11+13+15+18 )/ 5 = 13.4;由2、3、4、8、10、11等六个数构成的一组数据的平均数为( 2+3+4+8+10

3、+11 )/ 6 = 6.333中位数和平均数都反映一组数据的集中趋势(central tendency),但其数值未必相同,如果一组数据呈中心对称分布的话,中位数与平均数相同平均数易受极端值(extreme value)的影响,而中位数在某些情况下是表示数据典型值的具有稳健性(robust)的指标共四十九页众数(zhn sh)众数(mode)是一组数据中出现频次数最高的数值众数是除中位数和平均数外,另一个用来测量集中趋势的指标(zhbio)例如由3、5、7、7、9、11等数组成的一组数据中,7出现的频次最高,所以这组数据的众数为7在统计分析中,平均数最为常用,在计算标准差和方差等统计量时都要

4、用到共四十九页数据的集中(jzhng)趋势和变异性数据的集中趋势和变异性(variability)是数据分析中互相联系的两个方面中位数、平均数、众数用来测量(cling)一组数据的集中趋势,而方差(variance,简称V,或用s/S)和标准差(standard deviation,简称s或S或sd或SD)则用来衡量一组数据的变异性或离散性(dispersion)共四十九页方差(fn ch)方差(variance)等于(dngy)各数值与平均数的差值的平方和除以样本容量减一: x是样本中的数值,x是样本的平均数,n为样本容量,n-1为自由度(degree of freedom)共四十九页标准差

5、标准差(standard deviation)就是将方差(fn ch)开方后所得到的统计量方差和标准差越大,说明数据越分散,偏离集中趋势指标值的程度就越大;方差和标准差越小,说明数据就越集中,偏离集中趋势指标值的程度就越小由于方差改变了原数值的单位,标准差保留了原数值的单位,因此方差主要用于统计计算,而标准差更便于用于对数据的解释共四十九页平均数标准误差样本平均数标准误差(standard error of the mean,简称SEM或SE),是对样本统计(tngj)量与总体参数之间的抽样误差(sampling error)的测量,反映样本平均数的离散程度样本容量越大,标准误差越小,样本平均

6、数越接近总体平均数,样本的代表性也就越好共四十九页标准分标准差的一个重要应用是将原始分数标准化,得到标准分(standard score),标准分又称 Z分数(Z-score),是原始分与平均数(分)的差值除以标准差得到的数值,即 其中x为原始分, x为平均数(分),S为标准差标准分有正负值之分,能够表明原始分数偏离(pinl)平均数的方向和程度,不仅可以表示原始数据在同一分布中的位置,还可以用来比较不同分布中原数据的相对大小共四十九页置信区间在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定

7、概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面(qin mian)所要求的“一定概率”举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之2.5。 (百度百科)共四十九页统计(tngj)显著性统计显著性(statistical significance), 是指零假设为真的情况下拒绝零假设所要承担的风险水平,又叫概率水平,或者显著性水平(significance level)假设两个群体之间的任何

8、差异是由于系统因素而不是偶然(u rn)因素造成的,如果我们控制了可能影响两个群体之间的差异的所有其他因素,余下的为我们所推断的因素就是造成这两个群体差异的可能原因,而这个因素不能够100%保证,所以有一定的概率值,叫显著性水平在统计假设检验中,公认的小概率事件的概率值被称为统计假设检验的显著性水平(),一般为0.05将观测数据服从零假设的概率与显著性水平比较,便可得到接受或者拒绝零假设的结论共四十九页正态分布正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重

9、大的影响力若随机变量X服从一个数学期望为 、方差为 的高斯分布,记为 N(,)正态分布曲线图取决于平均数和标准差,平均数决定图形的中间位置,标准差决定图形的高度和宽度(kund)标准差较大时,正态分布曲线短而宽;标准差较小时,正态分布曲线高而窄均值为0,标准差为1的正态分布又称为标准正态分布共四十九页正态分布共四十九页正态分布的特征(tzhng)正态分布的曲线是钟形的,较少有极端值平均数、中位数和众数相等,且位于分布的中心正态分布是单峰的(unimodal),即只有一个众数曲线在平均数周围是对称的(symmetric)曲线是连续(linx)的(continuous)曲线不与x轴相交,只会越来越

10、接近正态分布曲线下的总面积为1位于1个标准差范围内的正态曲线下的面积为总面积的68%,位于2个标准差范围内的正态曲线下面积约为95%,位于3个标准差范围内的正态曲线下面积为99.7%共四十九页共四十九页正态分布的检验(jinyn)许多统计检验的前提是样本数据必须服从正态分布,因而在做这些统计检验前必须考察样本数据是否服从正态分布考察样本数据是否服从正态分布可考察数据分布的峰度(kurtosis)和偏度(skewness)峰度是测定数据分布形态尖峰(jin fn)状(peakedness)或扁平程度(flatness)的统计量,峰度值为0代表正态分布;正值代表尖峰度高,数据集中于均值附近;负值代

11、表扁平度高,极端负值表明均值附近数据分布小于均值两侧偏度是测量数据分布形态对称性的统计量,偏度值为0时代表正态分布;偏度值为正值时,大量数据分布在左侧,分布的尾巴右偏(skewed right);偏度值为负值时,大量数据分布在右侧,分布的尾巴左偏(skewed left)共四十九页Skewness共四十九页正态分布的检验(jinyn)对数据是否服从正态分布,大样本还可以采用Kolmogorov-Smirnov(K-S)检验,小样本可以采用Shapiro-Wilk(W)检验K-S检验和W检验都可在SPSS中完成,样本容量为3n 5000,结果以W检验为准;样本容量n5000,结果以K-S检验为准

12、检验的零假设为数据服从正态分布,当显著性水平(shupng)设为0.05时,如果计算得到的p值大于0.05,则接受零假设,即数据服从正态分布共四十九页SPSS的基本操作共四十九页链接(lin ji): /s/1kTA7eYV 密码: q2xk 共四十九页数据录入共四十九页编号英语听力英语阅读词汇语法汉语阅读作文分数1作文分数216.0012.005.0031.006.008.0024.5022.008.0020.0010.008.0035.0016.0011.0034.009.008.00410.5020.005.0022.0012.008.00514.5014.006.0030.007.00

13、4.00共四十九页共四十九页数据整理 建立(jinl)新变量任务:读入“学生(xu sheng)英语成绩.sav”计算每位受试的英语作文成绩,建立新变量 wq(writing quality)计算每位受试的英语水平(总成绩),建立新变量 engprofi(English proficiency)共四十九页共四十九页共四十九页共四十九页共四十九页数据(shj)整理 变量分组对学生的英语水平进行排序,找到学生英语水平的中位数,即第40和41位的成绩根据(gnj)中位数将学生分为两组,高水平组(用1表示)和低水平组(用2表示)共四十九页共四十九页共四十九页共四十九页共四十九页数据(shj)整理 -

14、数据重组转置(transpose)操作将原数据中的行(个案,case)与列(变量,variable)对换,结果个案变成变量,变量变成个案任务1:读入“male_fmale_scores.sav”,其中(qzhng)变量“score_a”为男生成绩,“score_b”为女生成绩按性别将成绩(score)分成两个组,变量名为“group”,1代表男生,2代表女生共四十九页共四十九页共四十九页共四十九页共四十九页共四十九页共四十九页任务2:读入“before_after_scores.sav”,内容(nirng)为听力教改实验前后学生听力成绩需要将每个人的成绩按实验前后,放入新创建的变量“before”和“after”中共四十九页共四十九页共四十九页共四十九页共四十九页SPSS 链接(lin ji)链接(lin ji): /s/1pJBeQAv 密码: gd6c 共四十九页内容摘要信息技术与语言研究。为了使样本能够正确反映总体情况,对总体要有明确的规定。样本的观察单位还要有足够的数量。中位数(median)又称中数,是样本数据由低到高按顺序排列后,中间位置的数值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论