统计思维和哲学运用_第1页
统计思维和哲学运用_第2页
统计思维和哲学运用_第3页
统计思维和哲学运用_第4页
统计思维和哲学运用_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计思维和哲学运用一. 统计的定义 英国大百科全书:“data science”,关于数据的科学。 与数据有关的学科有许多。 会计与统计: 会计侧重微观,是精密的,一角一分都要对上; 统计侧重宏观,误差是统计特征。统计和数学数学:演绎思维由一般到具体 大前提 海尔空调质量都是好的, 小前提 我买的空调是海尔牌的, 结论 我买的空调质量是好的。特征:前提正确,推理正确,结论必定正确。统计:基本是归纳思维由具体到一般 形式如: 他买的空调是海尔牌,质量好; 你买的空调是海尔牌,质量好; 我买的空调是海尔牌,质量也好; 所以海尔牌空调质量都是好的。 有误差,结论有风险,但结论如果正确则提供新鲜信息。

2、二. 统计与哲学基本观点偶然与必然。任何事情既是偶然又是必然,偶然包含在必然之中。回归模型回归模型是偶然和必然结合的体现。量变到质变。量变到一定的“度”就转为质变。假设检验:用统计量 t 与 比较,作出是否拒绝原假设的决策,这里的 就是“度”(临界值)。 个别与一般 以出生率为例,每个产妇生下的婴儿或男或女,但男婴女婴性别比约为107:100,这是世界各国普遍的统计规律,具有一般性。现象与本质美国人爱运动,表现为:数据特征穷人喜欢篮球较穷的人喜欢保龄球收入中等的人喜欢橄榄球收入中等偏上的人喜欢棒球高收入人喜欢网球大款喜欢高尔夫球本质:收入越高,喜欢的球越小数据特征统计学中充满辩证法既是不确定的

3、,又是可靠的;既是模糊的,又是清晰的;从偶然中探询必然;从现象中探询本质(规律);是科学,又是艺术。三. 数据功能泰坦尼克号相关数据(全船共2208 人)The Titanic Data CountCol %Row %DSA143896.5168.5166192.0631.492099C523.4947.71577.9452.2910914907182208CountCol %Row %DSF1268.4626.8134447.9173.19470M136491.5478.4837452.0921.52173814907182208CountCol %Row %DS11228.1937.542

4、0328.2762.46325216711.2158.6011816.4341.40285352835.4474.7917824.7925.21706Crew67345.1775.4521930.5024.5589214907182208DeVeauxGender By SurvivedClass By SurvivedAge By SurvivedSurvival by genderCountCol %死活女1268.4634447.91470男136491.5437452.0921.52173814907182208 c2 Test Odd Ratio Test按性别划分Tree mode

5、lData = $案例: 1. 谁首先打长途电话? 2. 谁是商家感兴趣的客户?(会员卡)StatisticsInformation About State 强国需知十三数 -商鞅 (390 B.C.) 我们每天产生大量的数据,用不好就变成数据垃圾 Descriptor Data Set Size in Bytes Storage Mode 很小 102一页纸 小 104几页纸 中等 106几张软盘 大 108硬盘 巨大 1010几个硬盘 超巨大 1012磁带存储架(Robotic Magnetic Tape Storage Silos) 海量数据 1015 数据存储室我们面临海量数据的挑战

6、数据挖掘数据 数据搜集 数据准备 数据质量挖掘 数据侦测 数据描述 数据分析数据挖掘成为当前一个热门的话题四. 关于抽样 样本和总体 调查的是样本,目标却是总体。 什么样的样本可以代表总体? 这是好的样本吗?全球性调查报告:中国人均性伴侣数全球排第一 “近日,2004年杜蕾斯全球性调查报告向社会发布。引人注目的是报告中显示中国人的平均性伴侣数最多,为193人,远远高于全球的平均数105人;而中国人平均每年性生活的频率却只有90次,排全球倒数第7位,低于全球平均水平103次。同时,报告还显示中国首次接受性教育的年龄为137岁,最接近世界平均水平,然而却只有22的调查对象认为青少年性教育由家人或监

7、护人完成。”资料来源:北京晨报,2004年11月25日矛盾:为什么性伴侣最多,性频率却不高?首次接受性教育的年龄走低,却不是由家长来完成性教育任务?中国青年报社会调查中心通过民意中国网,对3032人进行了一项调查,调查显示:91.2%的人认为目前青少年性教育缺失,其中53.7%的人认为“严重缺失”,调查称青少年性教育缺失学校责任最大 。资料来源:中国青年报,2010年8月3日问题在于,样本是怎样产生的?去年中国91%民众受到尊重对待 6月末,盖洛普在北京将最近4年在中国的民调成绩单公布于众,其中最主要的一项民调结果显示,2009年中国民众认为受到尊重对待的比例为91%,比2008年提升了两个百

8、分点,高于87%这一全球平均比例。资料来源:中国经济周刊 ,2010年08月03日但是,这一“好成绩”不仅没有得到广泛的认同,反而招来不少质疑。有媒体称,这跟现实感觉不符,有“被代表的嫌疑”。还有分析人士把这份调查结果看作是盖洛普抛出的“橄榄枝”,是“政府公关”。 美国总统竞选预测: 民主党候选人 共和党候选人 实际1968 汉佛莱(50%) 尼克松(50%) 尼(50.3%)1972 尼克松(62%) 尼(61.8%)1976 卡特(52%) 卡(53.6%)1980 里根(52%) 里(52.6%)1984 里根(56%) 里(53.1%) 布什(52%) 布(50.1%) 2000 戈尔

9、(45%) 小布什(51%) 小布什(51.7%) 2004 克里(49%) 小布什(49%) 小布什(51.9%)2008 奥巴马(55%) 麦凯恩(44%) 奥巴马(53%)该预测的挑战在于:不告诉无法告诉成功的案例好样本是可以抽出的,但要花气力。1. 概率抽样和非概率抽样概率抽样是严格意义上的抽样特征:随机原则 单元入样概率已知 可以计算抽样误差应用场合:用样本推断总体,描述性研究 非概率抽样 抽选样本时不是依据随机原则 几种有代表性的非概率抽样方式 重点调查: 有意选样: (个案研究) 方便选样:如拦截式调查,柜台调查等 自填式样本:如网上调查 非概率抽样特点: 简单、方便、快捷、成本

10、低,抽样技术要求不高,但不能用于对总体目标量的估计,特别是不能对调查的精度进行评估。目前问题: 把非概率抽样数据当概率抽样数据使用。抽样框总体的延伸,目标总体和抽样总体.目标总体:要研究的总体抽样总体:产生样本的总体抽样总体的具体体现抽样框,是抽取样本,计算样本单位入样概率的依据。良好抽样框的标志:一对一联接 “随机”和“随便”的区别 随机要有程序实现。 3. 抽样误差与非抽样误差 抽样误差:抽样随机性带来的,无法避免 可以计算 可以控制 计算抽样误差的水平(误差计算正确)可以体现设计人员的专 业水准。非抽样误差:什么是非抽样误差主要体现在三个方面: 抽样框误差 无回答误差(回答误差),无回答

11、误差更具一般性的理由 计量误差非抽样误差特点:难以测度,成因复杂非抽样误差的控制可以体现调查方的执行能力完美的调查是科学和艺术的结合科学体现在对抽样误差的把握艺术体现在对非抽样误差的掌控目前我国很多抽样调查项目,科学性不足,艺术性欠缺。误差的计算与控制是我们面临的严重挑战4. 平衡的艺术精度与费用之关系精度100%95%60%20%40% .费用5. 关于权数用样本做统计推断是观察结果和样本单元权数的结合。样本单元权数是入样概率的倒数,它反映了样本代表背后群体的规模。规范的数据处理程序是,首先找到初始权数,然后结合调查情况对初始权数进行调整,比较重要的有缺失数据的调整,样本结构的调整。目前问题

12、:数据处理中不考虑权数和权数调整。五.统计研究的特征确定选题并提出假说,设计调查方法,搜集资料,分析和检验,解释结果或假说。案例一:人口密度和人的行为的关系研究假说:人口密度过高可能产生负效应,引发犯罪和精神病理论依据:马尔萨斯人口论,其论点有“人口过剩是贫困的主要原因”,“过剩人口会造成社会病态”,实证依据:老鼠实验,需研究的问题:这类现象在人类中是否存在?难点:对人类无法使用象老鼠那样进行自相残杀的实验组A:采用实验问卷法,具体做法是1. 确定房间面积,招聘应试人员2. 设计调查问卷,反映受访者心态变化,如是否喜欢新增加的陌生人,是否容忍活动区域的减小3. 刚开始是一人一间房,以后逐次增加

13、,每增加新人,就回答一次问题4. 实验结果发现,高密度人群增加了人与人之间相互厌恶的倾向组B:文档调查,具体做法是1.按人口密度将分析区域划出若干块(实验区域为芝加哥市)2.查阅“芝加哥地方公众记事录”,里面有人口密度,犯罪率,精神病患者人数等宝贵资料存在的问题,表象上看,人口密度和犯罪数量相关。但人口密度和犯罪数量又与另外变量,如职业、种族、教育、收入等要素相关,人口密度高的地方犯罪率高,但人口密度高的地方居住者的教育水平、收入水平偏低,黑人比例高,职业差。是职业、文化程度、收入水平影响犯罪率?还是人口密度影响犯罪率?案例二 坏血病的原因调查17世纪初,英国海军患坏血病背景:海上帝国,坏血病

14、的威胁,国防部进行研究怀疑:维生素摄入量少实验方法:四艘军舰离港,一艘有橙汁供应,三艘没有结果:有橙汁供应水手身体状况良好,没有橙汁供应水手开始成批生病结论:缺乏维生素摄入是导致产生疾病的原因如何完善上述实验?问题一:患病原因可能是那三艘船上有导致生病的物质问题二:上有橙汁船的人可能就喜欢喝橙汁问题三:上船之前水手身体状况一样吗?实验法关键:分为实验组和对照组 两组其他情况相同,只有检测因素(是否喝橙汁)不同。实验者在哪个组应随机产生。 实验应采用“双盲”原则。如实验一种新药疗效,受试者不知道自己是在服药还是服替代品,医生也不应知道受试者的分组情况。 社会调查中很难严格控制其他因素,如想知道饮料颜色对销量是否有影响,如何设计实验就是一个挑战。案例三. 软件陷阱盲目使用统计软件的陷阱,抽样方法与分析方法不对应。例:欲分析家庭有线电视与购买个人电脑是否相互独立,随机抽取了500个家庭,调查结果如下表所示: 个人电脑 有 无 合计 有 119 188 307 无 88 105 193 合计 207 293 500有线电视运用传统的卡方检验,设原假设 :拥有个人电脑与拥有有线电视相互独立。经计算 。因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论