语言统计第十二章-卡方检验

上传人：r*** IP属地：北京上传时间：2024-08-24 格式：PPT 页数：28 大小：940.54KB 积分：2.4 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

语言统计第十二章卡方检验

6、《翠涛轩吕诚》[1]五月二十八日重过翠涛轩，清坐终日，薄暮而归，赋此盖书所见也，翠涛为竹而得名，余不能辞矣。幽人爱竹不吃笋，养得修篁个个长。五月六月雨不落，千枝万枝风自凉。苍雪逼人时展簟，翠涛惊梦午移床。涓涓清润乌皮几，楚楚高搀薜荔墙。密影扫阶敷琐碎，馀音拂水度笙璜。孙枝迸地浑疑占，老节凌霜色更苍。三径旋开真得计，七贤避世故佯狂。因怀梅友称三绝，却笑荷花似六郎。白鹤归时云动荡，青鸾啸处夜微茫。对之可使食无肉，衰矣空惭鬓有霜。隐几无心开卷帙，卷帘随意炷炉香。日中见斗瞻霄汉，月下吹箫引凤凰。物外襟怀差可共，闲中滋味淡相忘。不寻酒伴鸡豚社，误落诗名锦绣坊。时复开樽排合匝，每怜学子走。兴来坐久无聊赖，老去频过也不妨。他日成材惟汉简，於今触目尽琳琅。振衣散策归来后，江路迢迢又夕阳。7、《题朱九龄翠筠轩许恕》有脚不踏东华尘，有眼不看长安春。然天地至清气，多在丛篁流水滨。轩名翠筠俯空谷，个个梢长如玉立。一秋明月照潇湘，六月凉风洒淇澳。轩中之人清且闲，心不在乎山水间。左图右使移白日，四檐环佩声珊珊。不可一日无君子，澹然风致颇相似。翠实常分丹风雏，箨冠曾奉青霞士。北郭道人静者徒，爱看黄岩烟雨图。拟约嵩溪听萧瑟，醉来踏遍青珊瑚水仙由种植到挖球，需要在田间生长6-7个月。要长成一个理想的鳞茎，除上述基础工作外，主要靠养护。灌水：沟中经常要有流水，水的深度与生长期、季节、天气有关，花农有"北风多水，西南少水，雨天排水，晴天保水"的原则。一般天寒时，水宜深；天暖时，水宜浅；生长初期，水深维持在畦高的3/5处，使水接近鳞茎球基部。2月下旬，植株已高大，水位可略降低，晴天水深为畦高的1/3，如遇雨天，要降低水位，不使水淹没鳞茎球。在4月下旬-5月，要彻底去除拦水坝，排干沟水，直至挖球。追肥：水仙好肥。在发芽后开始追肥，3年生栽培，追肥宜勤，隔7天施1次，2年生栽培，每隔10天1次，1年生栽培半月施1次。上海天寒，为提高水仙的耐寒力，在入冬前要施1次磷钾肥。1月停肥，2月下旬至4月中旬继续追肥，以磷钾肥为主，5月停肥、晒田语言统计第十二章卡方检验语言统计第十二章卡方检验6、《翠涛轩吕诚》[1]五月二十八日重过翠涛轩，清坐终日，薄暮而归，赋此盖书所见也，翠涛为竹而得名，余不能辞矣。幽人爱竹不吃笋，养得修篁个个长。五月六月雨不落，千枝万枝风自凉。苍雪逼人时展簟，翠涛惊梦午移床。涓涓清润乌皮几，楚楚高搀薜荔墙。密影扫阶敷琐碎，馀音拂水度笙璜。孙枝迸地浑疑占，老节凌霜色更苍。三径旋开真得计，七贤避世故佯狂。因怀梅友称三绝，却笑荷花似六郎。白鹤归时云动荡，青鸾啸处夜微茫。对之可使食无肉，衰矣空惭鬓有霜。隐几无心开卷帙，卷帘随意炷炉香。日中见斗瞻霄汉，月下吹箫引凤凰。物外襟怀差可共，闲中滋味淡相忘。不寻酒伴鸡豚社，误落诗名锦绣坊。时复开樽排合匝，每怜学子走。兴来坐久无聊赖，老去频过也不妨。他日成材惟汉简，於今触目尽琳琅。振衣散策归来后，江路迢迢又夕阳。7、《题朱九龄翠筠轩许恕》有脚不踏东华尘，有眼不看长安春。然天地至清气，多在丛篁流水滨。轩名翠筠俯空谷，个个梢长如玉立。一秋明月照潇湘，六月凉风洒淇澳。轩中之人清且闲，心不在乎山水间。左图右使移白日，四檐环佩声珊珊。不可一日无君子，澹然风致颇相似。翠实常分丹风雏，箨冠曾奉青霞士。北郭道人静者徒，爱看黄岩烟雨图。拟约嵩溪听萧瑟，醉来踏遍青珊瑚水仙由种植到挖球，需要在田间生长6-7个月。要长成一个理想的鳞茎，除上述基础工作外，主要靠养护。灌水：沟中经常要有流水，水的深度与生长期、季节、天气有关，花农有"北风多水，西南少水，雨天排水，晴天保水"的原则。一般天寒时，水宜深；天暖时，水宜浅；生长初期，水深维持在畦高的3/5处，使水接近鳞茎球基部。2月下旬，植株已高大，水位可略降低，晴天水深为畦高的1/3，如遇雨天，要降低水位，不使水淹没鳞茎球。在4月下旬-5月，要彻底去除拦水坝，排干沟水，直至挖球。追肥：水仙好肥。在发芽后开始追肥，3年生栽培，追肥宜勤，隔7天施1次，2年生栽培，每隔10天1次，1年生栽培半月施1次。上海天寒，为提高水仙的耐寒力，在入冬前要施1次磷钾肥。1月停肥，2月下旬至4月中旬继续追肥，以磷钾肥为主，5月停肥、晒田第一节卡方分布第二节卡方检验第三节卡方检验的用途一、适合性检验二、正态性检验三、独立性检验第四节亚茨校正法在语言研究中，除了等距变量、顺序变量等变量之外，我们还会经常与称名变量打交道。这类变量是范畴型的或“是一非”型的，无法用某种单位进行测量。比如，英语中的词汇可以分为“动词”与“非动词”，名词可以分为“可数”与“不可数”，学生可以分为“男生”与“女生”等，这些都无法像测量学生的成绩那样进行测量。但是，我们可以对这类变量的次数或频率进行计数，比如冠词the、介词of、连接词and等在某文本中出现的次数，并比较次数的分布是否存在显著差异等。这就要用到卡方检验，因此，卡方检验是语言研究中最常用的非参数检验之一。计算卡方值的基本公式为(12.1)式中O——实际次数或观测次数；E——期望次数或理论次数。需要注意的是，在计算χ2时，只能用次数，而不能用比例。比如，在一个100个词长的文本中，有20个定冠词，占总词数的20%但在计算χ2值时，只能用20作为实际次数，而不能用20%或0.2。

卡方检验的零假设是：实际次数与期望次数之间没有差异，但是对于不同的用途（见下面的讨论），零假设的陈述方法略有不同。卡方检验一般是双尾检验，即其备择假设为：实际次数与期望次数之间有差异（不指出差异的方向）。当然，如果需要，也是能进行单尾检验的，只要把双尾检的显著水平减半即可。附表10中给出了对应于不同显著水平和自由度的χ2的临界值，如果计算出的χ2值（检验统计值）大于或等于临界值，就推翻零假设。第三节卡方检验的用途卡方检验主要有三个用途：适合性检验、正态性检验以及独立性检验。一、适合性检验适合性检验为单样本卡方检验，它只涉及一个变量，但数据要分成若干相互排斥的组或范畴。其目的是检验实际次数与期望次数是否吻合。如果值很大，就说明两者差异大，不吻合，反之就说明两者差异小，较为一致。通过检验，就可以知道两者之差异是否有显著意义，即是否可以推翻零假设。例如，在一个关于高考标准化试验的问卷调查中，有这样一个问题：大量采用客观选择题不利于考察学生的创造思维能力，我对这种观点：A.同意B.一般C.反对在所调查的500人中，有250人选在所A，150人选B，100人选C（实际次数），那么选择三个答案的人数有没有显著差异呢？假如它们之间没有差异，那么500个被调查者在三个答案上的次数分布就应是一样的，即500/3=166.7，这是期望次数。实际观察到的次数与根据假设所期望的次数是否吻合呢？这里只涉及一个变量，即对问题的回答情况，分成三个范畴或三组。我们将有关数据整理成表12.1在该例中，各组期望次数相等。对于这种情况，我们可以把公式(12.1)稍加改变，得出一个简便计算公式。这与用公式（12.1)所计算出的χ2值基本上是一样的（少量误差是由小数点进位所致）。适合性检验的χ2值的自由度是组数，本例中的数据被分为三组，所以自由度

设显著水平α为0.05，查卡方分布表（附表10），得临界值5.99。由于检验统计值χ2大于临界值，所以应推翻零假设，说明三种选择的实际次数与期望次数有显著差异，因而说明被调查者对此问题的态度是有倾向性的（从表中数据可以看出，被调查者更倾向于赞成问卷题中所提出的观点）。二、正态性检验

在语言研究中，由于许多参数检验都要求样本所来自的总体呈正态（如t检验）因此在进行这些检验之前，经常需要先检验一下样本是否真正来自正态分布总体。除了在第五章里介绍的方法之外，我们还可以用卡方检验。但是使用卡方检验进行正态性检验要求样本比较大。用卡方检验进行的正态性检验其实也是一种适合性检验，即检验实际次数分布与期望次数分布是否有显著差异。这里实际次数是指样本各组数据的实际次数分布，期望次数是指在假设样本来自正态总体的情况下各组数据所应该具有的次数。如果实际次数与期望次数没有差异或差异很小，就说明样本碗实来自正态总体；如果两者的差异显著，就说明样本所来自的总体分布不是正态。在进行正态检验之前，首先要把样本数据整理成分组次数分布表，其中第一列为数据的分组，第二列为每组的实际次数O。然后，假设样本来自的总体呈正态分布，计算每组的期望次数，这是正态检验的关键。期望次数的计算步骤如下：第一步：计算样本的平均值与标准差。第二步：把每组的上限转换成标准分Z（即上限离开平均值的标准差单位数），并从正态分布表中查出对应的正态曲线下的面积A。第三步：求每组的面积，该面积就是每组的期望次数的比例P。

第四步：用每组期望次数的比例乘以样本容量（即P×N),即得每组的期望次数E。需要特别注意的是，如果某组的期望次数低于5，就要与邻组的期望次数合并，直到合并后的期望次数等于或大于5，否则，就会影响卡方检验的可靠性。求出期望次数之后，就可用公式（12.1）计算χ2值。最后，根据设定的显著水平和自由度，查卡方分布表，以确定检验是否有显著意义。这类正态性检验的自由度为组数减3。三、独立性检验

独立性检验就是检验两个特征或两个分类标准是互相独立的还是互有联系的。用于独立性检验的数据一般整理成“列联表”的形式，即一个分类标准把数据分为若干列，另一个分类标准把数据分为若干行，行列交叉形成一个个的方格。每一行和每一列都有一个总计，书写在一行或一列的末尾，称为“边际总和”。所有边际总和加起来就是全部数据的个数或样本容量（N）。

列联表的行的数目一般用r表示，列的数目用k表示，因此一个列联表就可表示为r×k个。根据行和列的多少，列联表可以有2×2，2×3，3×3等多种形式。例如一个2×3的列联表是这样的：独立性检验的步骤如下：第一步：陈述零假设：两个分类标准完全独立。第二步：设显著水平α。第三步：假定零假设成立，计算每一个格里的期望次数E，方法是：用一个格所在的行总计乘以其所在的列总计，然后除以样本容量。公式为（12.3）例如上表中的第一格A的期望次数为（A+B+C）×（A+D）/N；第二格B的期望次数为（A+B+C）×（B+E）/N；第四格的期望次数为（D+E+F）×（A+D）/N，等等。按惯例，期望次数一般放在括号内，置于实际次数之后。第四步：用公式（12.1）计算χ2，即先计算每一格的，然后再把各格的结果累加。第五步：确定自由度：即行的数目减1乘以列的数目减1。第六步：在卡方分布表中查对应于α和df的临界值。如果χ2

大于临界值，就推翻零假设。第四节亚茨校正法

在独立性假设成立时，χ2接近卡方分布，如果期望次数较大，而且列联表大于2×2，χ2就十分接近卡方分布，卡方检验就比较可靠。否则，如果期望次数过小（低于5），列联表为2×2（自由度为1）χ2就会偏大，其分布就会偏离卡方分布，卡方检验也就不太可靠。在这种情况下，最好使用“连续性校正”，即通常所说的“亚茨校正法”。其实，对于2×2列联表，当期望次数不是很大时，最好都进行校正。具休校正方法是将公式（12.1）中的改为，即从O与E之差的绝对值减去0.5之后再平方（12.5）其实际效果是：如果OE，从O减去0.5，如果OE，则在O上增加0.5，这样就缩小了O与

人人文库> 全部分类> 应用文书 > 产品手册

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语言统计第十二章-卡方检验

文档简介

温馨提示

最新文档

评论

语言统计第十二章-卡方检验

文档简介

温馨提示

最新文档

评论

相关文档