版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章概率统计简介胡良剑东华大学理学院第2学院楼543内容提要什么是统计学一个例子:学生体检数据分析统计学的昨天、今天和明天什么是统计学Statisticsisthestudyofthecollection,organization,analysis,interpretationandpresentationofdata.Whenanalyzingdata,itispossibletouseoneoftwostatisticsmethodologies:descriptivestatisticsorinferentialstatistics.----维基百科(://)统计学的主要内容描述统计学(Descriptivestatistics,第2章)概率论(Probability,第3-6章)推断统计学(Inferentialstatistics,第7-8章)一个例子为了研究东华大学毕业生身体情况,体育部随机抽查了90名男同学身高、体重数据,记录在Excel文件体检数据.xls-raw中.考虑以下问题:这90名男同学的身高、体重具有怎样的特征?是否可以据此估计:东华大学毕业男生平均身高、体重?需要作怎样的假设?概念总体(Population):当年东华大学毕业男生(约1800名);样本(Sample):90名学生;变量(Variable):学号、学院、身高、体重等;观察值(数据)(Data):变量的值统计推断(Inference):根据样本(Sample)推断总体(Population)。数据类型数值型(Numerical):身高Height(cm),体重Weight(kg);名称型(Named):序数型(Ordinal):学号Code,名义型(Nominal):学院College.第1步:数据清理去除、修补坏数据(Outlier)和缺失数据(MissingData)(行数据:删5行,修改3行);去除与问题无关的变量(列数据),可保存局部标识列(删College,保存Code作标识);得到体检数据.xls-trim第2步:数据描述这90名男同学的身高、体重具有怎样的特征?图形描述数字特征描述Histograms直方图首次使用安装:Excel2003-工具-加载宏-分析工具库Excel2023-文件-选项-加载项-分析工具库统计工具使用:Excel2003--工具-数据分析-直方图Excel2023-数据-数据分析-直方图直方图(Histograms)正态分布NormalDistribution中间多,两头小;对称中心特征Median中位数:上、下观察值占50%Mean均值:算术平均Mode众数:具有最大频率的观察值Variability差异性(离散性)特征Range极差=最大值-最小值Quartile四分位:Q0~Q4比该数小的观察值占0%,25%,50%,75%,100%Interquartilerange四分位差=Q3-Q1Standarddeviation标准差:距离均值的平均误差Skewness偏度:偏度小于0时,说明median<meanPercentile百分位数:指定比例的分位点用Excel计算方法1:Excel2003-工具-数据分析-描述统计Excel2023-数据-数据分析-描述统计方法2:Excel2003-插入-函数-统计-(选所需函数)Excel2023-公式-插入函数-统计-(选所需函数)Excel描述统计第3步:统计推断是否可以据此估计:东华大学毕业男生平均身高、体重?需要作怎样的假设?前提假设〔1〕样本量90个对于总体〔约1800个东华大学毕业男生〕来说足够大;〔2〕90个样本是从总体中随机抽取的,使得每个个体被抽到的可能性是一样的。统计推断由样本推断总体:平均身高173cm,平均体重60kg。前提假设非常重要随机调查(习题2):1936年的总统竞选中罗斯福以压倒性的优势击败了兰登,而《文学文摘却预测兰登获胜,该杂志的预测就基于一个机动车主的簿的样本进行的。你是如何看待《文学文摘》的预测错误?从1936年至少的时代变迁中,有没有什么因素让您认为当时《文学文摘》所用的方法在今天来讲预测情况会好一些?统计学的历史起源:统计学的英语词statistics是源于意大利语statista〔国民或政治家〕,代表对国家的数据进行分析的学问,也就是“研究国家的科学〞。先驱者:Graunt(英国1620-74),Halley(英国1656-1742)。奠基者:Bernoulli(荷兰1700-82),Gauss(德国1777-1855),Laplace(法国1749-1827)构造者:Galton(英国1822-1911),Pearson(英国1857-1936),Gosset(英国1876-1937),Fisher(英国1890-1962),Neyman(美国1894~1981)大数据(BigData)时代的统计学体量大,类型复杂,动态,全体。针对样本大的问题,统计学可以采用抽样减少样本量,到达需要的精度。关于维数高的问题,统计学可以采用选择、降维、压缩、分解。目前,人们习惯于根据“研究问题〞来驱动“收集数据〞。今后,大数据到处可得,人们将会用“数据〞驱动“研究问题〞。商业:啤酒与尿布美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购置自己爱喝的啤酒。这个发现为商家带来了大量的利润。金融:微博预测股市英国外汇交易员保罗•霍廷推出了一款利用Twitter来预测股票走势的对冲基金DerwentCapital,他们通过Twitter上的情绪性词语可以在一定程度用于预测道琼斯工业指数的变化。结果说明人们在网上的情绪变化会在2-6天后影响到指数的变化。推出的交易策略可以获得的年回报率高达15-20%。治安:犯罪前就执行逮捕总部位于美国犹他州桑迪市的监控中心曾经发现一个加州的假释者每天下午2点左右都出现在同一个路口。根据进一步调查显示,该路口是一个学校巴士停靠站。这里本该是学生聚集的地方,四处也并无其他公共设施,相对人群较为稀少,于是该公司将这个情况上报到更高的层级,并且将该报告通知给当地警察部门,已做好预警准备。最终在假释者试图诱拐一名学生时,便衣警察直接将其逮捕,数月的路径跟踪在公堂上成为了有力证据。大数据给统计学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 44596-2024中文域名编码技术要求
- 关注食品安全的演讲稿
- 国旗下讲话稿荐
- 关于新学期的计划模板集合七篇
- 天英学校家政服务员(中级)理论练习卷附答案
- 2017年四川省绵阳市中考语文试卷(教师版)
- 2024-2025学年上海外国语大学附属外国语学校松江云间中学八年级(上)月考数学试卷(10月份)(含解析)
- 语文统编版(2024)一年级上册汉语拼音-⑪ɑo ou iu 教案
- 第3章 水与膳食纤维课件
- 会计数据分析 TestBank Richardson1e-Chapter07-TB-AnswerKey
- 爱护公物-珍爱校园精选课件
- 内部审核检查表(采购部)
- 道路货物运输企业安全生产检查表参考模板范本
- DB11T 1998-2022 既有公共建筑节能绿色化改造技术规程
- 税负计算表(增值税)
- 2017年8月11日公安部遴选公务员面试真题及答案解析
- 2021年骨科规培考试试卷含答案
- 从美国投顾业务及头部公司特点看国内基金投顾业务发展
- 湘少版五年级上册英语阅读理解专项精选练习
- 01511现代管理实务 自考重点
- DB22∕T 2646.1-2017 吉林省水利工程定额 第1部分:工程设计概(估)算编制规定
评论
0/150
提交评论