版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学基础知识统计学研究对象:收集数据;分析数据
我该什么时间上网?收集数据时间上网比例时间上网比例时间上网比例0点14.50%8点11.80%16点31.20%1点5.60%9点22.50%17点27.70%2点4.20%10点24.60%18点22.10%3点2.60%11点22.60%19点31.30%4点2.50%12点22.60%20点44.00%5点1.60%13点24.30%21点43.90%6点1.70%14点28.60%22点35.00%7点2.70%15点31.40%23点22.20%互联网的用户人数及分布、信息流量分布、域名注册等信息以及用户每月实际花费的上网费用、用户平均每周上网时间、用户通常在什么时间上网等资料都可以从电讯局或网络公司的业务记录中获得。整理数据用户通常上网时间
展示数据。互联网上各时间段的使用比例
分析数据:晚上的八九点钟是上网的高潮,而清晨五六点钟则上网的人最少。
作出决策:为高效率改变一下习惯,早点起就可享受到在网上飞驰的感觉
统计学应用领域:
统计学为有史以来最大的公共健康试验——1954年脊髓灰质炎疫苗试验提供了有效的试验设计,为人类首次攻克脊髓灰质炎作出贡献。
天气预报就是应用大气变化的规律,根据当前及近期的天气形势,对未来一定时期内的天气状况进行预测,这种预测不过是未来天气状况的概率分布。1981年,首届国际《红楼梦》研讨会在美国召开,威斯康星大学讲师陈炳藻独树一帜,宣读了题为《从词汇上的统计论〈红楼梦〉作者的问题》的论文。他从字、词出现频率入手,通过计算机进行统计、处理、分析,对《红楼梦》后40回系高鹗所作这一流行看法提出异议,认为120回均系曹雪芹所作。(语言统计学)
大仲马有很多私生子,往往成为别人取笑讥讽的对象,最使他头痛的是巴黎统计学会的秘书长李昂纳,每次举统计数字的例子,总是说大仲马的情妇和私生子有多少。有一年该统计学会开年会,大仲马估计,李昂纳又要大放厥词,说他的坏话了。于是他请求参加年会,获得了批准,果然不出大仲马所料,李昂纳又举他的情妇和私生子的例子。李昂纳报告完毕,请大仲马致词。一向不愿在大庭广众之下发表演讲的大仲马,这次却破例登台说:“所有统计数字都是撒谎的,包括有关本人的数字在内。”听众哄堂大笑。
统计学家调侃数学家:你们不是说若X=Y且Y=Z,则X=Z吗!那么想必你若喜欢一个女孩,那么这个女孩喜欢的男生你也喜欢吧?数学家的幽默
数学家反问道:那么你把左手放到一锅100℃的开水中,右手放到一锅0℃的冰水里想来也没事吧!因为它们平均不过是50℃而已!”
统计学的内容
从统计方法的构成来分,统计学可以分为描述统计学和推断统计学
1.描述统计学(DescriptiveStatistics)
描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。2.推断统计学(InferentialStatistics)
推断统计学是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。第一节:统计学基本概念一、总体和样本总体:同质事物的全体,通计学上的总体指的是包含所有个体某种性状观测值的集合。总体容量(N):总体所包含个体数目的多少。无限总体:总体所包含的个体数目有无穷多个有限总体:由有限个个体构成的总体样本总体中抽取的若干个个体组成的集合。样本容量(n):样本所包含个体数目的多少大样本:n>30小样本:n<30二、参数和统计数参数:有总体中的观测值计算得到的特征数,它反映的是总体的特征和规律。比如总体平均数、总体方差、总体标准差等统计数:有样本中的观测值计算得到的特征数,它反映的是样本的特征和规律。比如;样本平均数、样本方差、样本标准差等三、数据和变量数据:组成总体或样本的观测值变量:相同性质的事物间表现出差异性和差异特征的数据,它们在一定范围内波动。变量:随机性变量:由于偶然因素引起数据产生波动性。非随机性变量:由于非偶然因素引起数据产生变化。变量:连续性变量:在一定范围内可以抽取所有可能取值的变量离散性变量:只能取固定数值的变量。四、误差和错误误差:观测值与真实值之间的差。误差偶然误差:无法控制的偶然因素所引起的误差。无法预知,不可避免,只能减小,不能完全消除。系统误差:有某些固定因素引起的误差,大小、符号、方向基本相同。校正后可以完全消除。错误:人为因素所引起的差错。四、准确性和精确性准确性:统计数与参数之间的相符性。精确性:样本内各观测值之间的接近程度。准确性与精确性之间有何关系?第二节统计特征数的计算一、集中性的度量(一)算术平均数:总体或样本中各个观察值的总和除以观察值个数所得的商数。加权平均数
某农场有5块小麦地,其面积分别是10、20、40、15、15亩,其产量分别是300、250、200、150、300公斤/亩,整个农场的平均产量是多少公斤/亩算术平均数的性质:算术平均数的作用:1、指出了总体或样本中观测值的中心位置。2、可以作为总体或样本的代表与其它的总体或样本作比较。(二)中数:将资料内所有观察值从大到小排序,居中间位置的观察值称为中数(median),计作Md。如观察值个数为偶数,则以中间二个观察值的算术平均数为中数。(三)众数资料中最常见的一数,或次数最多一组的中点值,称为众数(mode),计作MO。如棉花纤维检验时所用的主体长度即为众数。(四)几何平均数如有n个观察值,其相乘积开n次方,即为几何平均数(geometricmean),用G代表。(五)调和平均数如有n个观察值,观测值倒数平均数的倒数。例:土壤水分在毛细管中的上升速率,从土壤表面下30cm量起,第一个10cm、第二个10cm、第三个10cm土壤毛管水的上升速率分别为:8cm/min、6cm/min、4cm/min,求毛管水的平均上升速率。验证:二、变异性的度量X18.99.49.69.79.910.410.911.011.2X22.93.13.85.19.910.017.018.021.2这两个样本具有相同的算术平均数:10.11;相同的中数:9.9,都没有众数。(一)极差(range):又称全距,记作R,是资料中最大观察值与最小观察值的差数。
极差在一定程度上反映了数据的变异程度,但它只受两个极端值的影响,并不能反映其它观测值的变异程度,所以用极差来反映数据的变异程度是粗糙的,有缺陷的。(二)方差:平均离均差平方和。某一个观测值的变异程度所有观测值总的变异程度平均下来每一个观测值变异程度。自由度(df):是指样本内独立而能自由变动的观测值个数。
例如一个有5个观察值的样本,因为受统计数的约束,在5个离均差中,只有4个数值可以在一定范围之内自由变动取值,而第五个离均差必须满足。如一样本为(3,4,5,6,7),平均数为5,前4个离差为-2,-1,0和1,则第5个离均差为前4个离均差之和的变号数,即-(-2)=2。一般地,样本自由度等于观察值的个数(n)减去约束条件的个数(k)。。sample1X18.99.49.69.79.910.410.911.011.2sample2X22.93.13.85.19.910.017.018.021.2(三)标准差(四)变异系数例:比较甲乙两个生产单位的小麦产量的均衡性。甲:400430370kg/亩乙:175200225kg/亩MicrosoftExcel
对统计特征数的计算集中性度量的计算算术平均数:AVERAGE中数:MEDIAN众数:MODE几何平均数:GEOMEAN调和平均数:HARMAN变异性度量的计算极差:MAX(最大值)-MIN(最小值)方差(样本):VAR方差(总体):VARP标准差(样本):STDEV标准差(总体):STDEVP和:SUM离均差平方和:DEVSQ第三节次数分布
观测值如果不加整理,很难看出其中的规律,如果吧观测值按大小或数据类别进行分组,制成观测值的次数分布表或次数分布图,能初步明确观测值所蕴含的内部规律。一、离散型变量的次数分布例.现以某小麦品种的每穗小穗数为例,随机采取100个麦穗,计数每穗小穗数,未加整理的资料列成表。18151719161520181917171817161820191716181716171918181717171818151618181817201918171915171717161718181719191719171816181717191616171717151716181918181919201716191817182019161819171615161817181717161917100个麦穗的每穗小穗数
每穗小穗数在15—20的范围内变动,把所有观察值按每穗小穗数多少加以归类,共分为6组,组与组间相差为1小穗,称为组距。
每穗小穗数(
y
)次数(f)1561615173218251917205总次数(
n
)100100个麦穗每穗小穗数的次数分布表
如每穗小穗数主要分布在17~18个,以17个为最多200个稻穗每穗粒数的次数分布表每穗粒数(
y
)次数(即穗数f)26—30131—35336—401041—452146—503251—554156—603861—652566—701671—75876—80381—852合计200每穗粒数的变异幅度为27—83粒。这样的资料如以每一观察值为一组,则组数太多,资料的规律性就显示不出来。如每组包含若干粒数的幅度,例如以5粒为一组,则可使组数适当减少。经初步整理后分为12组(这里要求组距相等),资料的规律性就较明显,
二、连续性变量的次数分布100行水稻试验的产量为例,说明整理方法。17721519797123159245119119131149152167104161214125175219118192176175951361991161652149515883137801381511871261961342061379897129143179174159165136108101141148168163176102194145173751301491501611551111581311899114214015415216312320514915513120918397119181149187131215111186118150155197116254239160172179151198124179135184168169173181188211197175122151171166175143190213192231163159158159177147194227141169124159140行水稻产量(单位:克)
1.数据排序(sort)首先对数据按从小到大排列(升序)或从大到小排列(降序)
2.求极差(range)所有数据中的最大观察值和最小观察值的差数,称为极差,亦即整个样本的变异幅度。从表查到最大观察值为254g,最小观察值为75g,极差为254-75=179g。3.确定组数和组距(classinterval)
根据极差分将资料为若干组,每组的距离相等,称为组距。组数和组距是相互决定的,组距小则组数多;组距大,则组数少。
(1)观察值个数的多少;(2)极差的大小;(3)便于计算;(4)能反映出资料的真实面貌等方面。观察值数目分组时的组数 50 5—10 100 8—16 200 10—20 300 12—24 500 15—30 1000 20—40 样本容量与组数多少的关系在确定组数和组距时应考虑:140行水稻产量为例,样本内观察值的个数为140,查表可分为8—16组,假定分为12组,则组距为179/12=14.9g,为分组方便起见,可以15g作为组距。4.确定组限和组中值
组限的精度应该比观测值高一位:避免观测值正好落在组限上而无法归组。
第一组的下限应该比最小的观测值要小,最好是最小观测值接近或等于第一组的组中值:避免第一组中观测值较多。
每一组都有上限和下限,前一组的上限是后一组的下限,每一组的上限=下限+组距,每一组的组中值=(下限+上限)/2。确定组限组限的小数点最后一位最好是5分位或10分位数值:便于计算第一组:最小观测值是75,可以把它当做第一组的组中值。第一组的组限:67.5~82.5第二组的组限:82.5~97.5第三组的组限:97.5~112.5组别组限第1组67.5—82.5第2组82.5—97.5第3组97.5—112.5第4组112.5—127.5第5组127.5—142.5第6组142.5—157.5第7组157.5—172.5第8组172.5—187.5第9组187.5—202.5第10组202.5—217.5第11组217.5—232.5第12组232.5—247.5第13组247.5—262.5确定组中值组别组限组中值第1组67.5—82.575第2组82.5—97.590第3组97.5—112.5105第4组112.5—127.5120第5组127.5—142.5135第6组142.5—157.5150第7组157.5—172.5165第8组172.5—187.5180第9组187.5—202.5195第10组202.5—217.5210第11组217.5—232.5225第12组232.5—247.5240第13组247.5—262.52555、统计观测值落入每个区间的次数,制作次数分布表组别组限组中值次数(f)第1组67.5—82.5752第2组82.5—97.5907第3组97.5—112.51057第4组112.5—127.512013第5组127.5—142.513517第6组142.5—157.515020第7组157.5—172.516525第8组172.5—187.518021第9组187.5—202.519513第10组202.5—217.52109第11组217.5—232.52253第12组232.5—247.52402第13组247.5—262.52551n140140行水稻产量的次数分布表6、制作次数分布图第四节无偏估计
从容量N=3的总体,P={3,4,5},进行独立有放回的随机抽样,抽取所有容量n=2的样本。抽样结果样本平均数的平均数样本方差S2的平均数样本方差S2的平均数
从总体中随机抽取一定容量的所有可能样本,如果所有可能样本的某一样本统计数的平均值就(数学期望)等于总体的相应参数,称该统计数为相应参数的无偏估计值。无偏估计第五节概率和概率分布一、概率(一)事件必然事件:U不可能事件:V随机事件:A,B,C…简单事件复合事件事件的运算
事件的包含:事件A的发生必然导致事件B的发生,称事件A包含于B,计作AB
事件的和:事件A和事件B至少有一个发生而构成的新事件称为A和B得和计作
事件的积:事件A和事件B同时发生而构成的新事件称为A和B得积计作互斥事件:对立事件:独立事件:事件A的发生不受事件B的影响,反之亦然,称事件A和事件B是独立的。(二)频率
事件A在n次试验中出现了m次,m/n称为事件A发生的频率,计作(三)概率概率的统计学定义:某事件A在n次独立重复试验中出现m次,当试验次数n不断增大,事件A发生的频率就越来越接近某一固定数值p,那么p就是时间A发生的概率。种子数(n)1020502005001000发芽数(m)91947186458920发芽率(m/n)0.9000.9500.9400.9180.9160.920种子的发芽情况
某一随机试验,其基本事件空间是U={u1,u2,‥‥un},共有n个有限的基本事件,而且每一个事件都是等可能事件,而时间A在其中包含m个基本事件,那么时间A发生的概率:古典概率定义:例:一次投掷两枚硬币,计算至少有一枚正面向上的概率。(五)概率的运算法则互斥事件的和事件的概率等于各事件的概率之和。独立事件的积事件的概率等于各事件的概率之积。例:播种玉米种子时,每穴播种两粒,玉米种子的发芽率为90%,计算两粒都发芽的概率,一粒发芽的概率,至少有一粒发芽的概率。对立事件发生的概率与不发生的概率之和等于1。二、大数定律(一)伯努利大数定律
设m是n次独立试验中事件A出现的次数,p是每次试验中事件A发生的概率,那么对于无论多么小的一个正数ξ存在下列关系。(二)辛钦大数定理
设x1,x2‥‥xn是来自同一总体的随机变量,对于任意小的一个正整数ξ,存在:
总体上讲,只要样本容量足够大,样本统计数就越接近总体参数,所以大数定律是样本推断总体的基础。第六节概率分布一、离散型随机变量的概率分布(一)离散型随机变量的概率分布函数和概率累积函数概率分布函数
设X是离散型随机变量,x是X的任何一个可能取值,X取x时的概率P(X=x)称为离散型随机变量X的概率分布函数,计作f(x)。概率累积函数
设X是离散型随机变量,x是X的任何一个可能取值,X≤x时的概率P(X≤x)称为离散型随机变量X的概率累积函数,计作F(X)。
设一箱子中有10件产品,4件次品6件合格品,从中抽取4件,计算抽得次品的概率分布情况。抽得次品数离散型随机变量xx01234f(x)0.07140.38100.42860.11430.0047F(x)0.07140.45240.88100.99531.0000概率分布表(二)离散型随机变量的数学期望和方差数学期望次数
离散型随机变量X的概率分布函数,x是X的任何一个取值,那么定义为离散型随机变量X的数学期望(均值),计作E(X)。数学期望就是总体的平均数,是一个参数,反应的是总体的特征。数学期望的性质:方差平均离均差平方和。次数方差的性质:二项式分布对立事件:只能出现非此既彼得对立结果的事件。比如种子发芽与不发芽、硬币正面向上与反面向上、缺素症出现于不出现。例.投掷n枚硬币,计算其中x枚正面向上的概率正面向上事件A某一种情况下x枚正面向上的概率X枚N-X枚(三)离散型随机变量的理论分布从n枚硬币中抽出x枚的组合方式:投掷n枚硬币,计算其中x枚正面向上的概率二项式分布:在n次独立重复试验中所有可可能出现的次数所组成的集合,成为二项总体x={0、1、2……n},其概率分布函数:对立事件A二项式分布的形状和参数例:某批玉米种子的发芽率为90%,同时播下5粒种子,计算种子发芽的概率分布。
种子发芽情况概率分布例:某小麦品种在田间出现自然变异植株的概率为0.0045,试计算(1)调查100株,获得两株或两株以上植株的概率?(2)期望有99%的概率获得1株或1株以上变异植株,至少要调查多少株?出现变异植株的概率不出现变异植株的概率(二)泊松分布
在生物学研究中,有许多事件出现的概率很小(p很小,p<0.1)要观察到这类稀有事件,抽样次数或试验次数势必很大(n很大),利用二项式分布计算这类稀有事件出现的概率很困难。
例:某稀有事件出现的概率p=0.02,进行300次抽样,该稀有事件出现两次的概率有多大。
法国数学家poisson研究发现,在二项总体中,当n很大,p或q很小时,二项式分布趋近于另外一种分布——poission分布。二项式分布概率分布函数的极限。对立事件A进行n次独立重复试验,当n很大,p或q很小时,事件A在n次试验中出现的次数,可以看成一个离散型随机变量X,X={0,1,2‥‥n},X服从poisson分布。泊松分布的概率分布函数只取决于一个参数前例:MicrosoftExcel下的EXP函数可返回e的n次方。调查100株,获得两株或两株以上变异植株的概率。期望有99%的概率获得1株或1株以上的变异植株,至少要调查多少株。MicrosoftExcel下的LN函数可返回某数值的自然对数值。泊松分布的两个参数
不同λ值的泊松分布
泊松分布的形状完全由λ决定,λ很小时,泊松分布是偏斜的,随着λ的增加,逐渐对称,逐渐趋近正态分布。二、连续性随机变量的概率分布——正态分布正态分布的概率密度函数正态分布的概率累积函数正态分布曲线的特性
1.正态分布曲线是以x=为对称轴,向左右两侧作对称分布。2、x=μ时,f(x)最大,曲线处在最高点,︱x-μ︱越小,f(x)越大,︱x-μ︱越大,f(x)越小,3、f(x)>0,曲线位于轴上方。4、正态分布是一个曲线系统正态分布概率计算
标准正态分布:变量Z的两个参数标准正态分布的概率密度函数标准正态分布的概率累积函数正态分布的概率计算向标准正态分布概率计算的转化例:某土壤有机质含量x~N(1.08,0.132),计算土壤有机质含量落入[1.08,1.21]及[0.95,1.21]之间的概率。几个特殊区间的概率95%99%小概率原理统计学上把发生概率小于5%的事件成为小概率事件,小概率事件在一次试验中是几乎不可能发生的。第七节
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年中国学生公寓用电管理柜数据监测研究报告
- 2024至2030年中国多功能电脑擦行业投资前景及策略咨询研究报告
- 2024至2030年中国压冲标牌行业投资前景及策略咨询研究报告
- 2024年中国脱毒甘薯种苗市场调查研究报告
- 2024年中国瓦楞纸板粘合强度剥离器市场调查研究报告
- 2024年中国双捻机市场调查研究报告
- 2024八年级数学上册第五章平行四边形1平行四边形的性质第1课时平行四边形的边角性质习题课件鲁教版五四制
- 2024年广州客运资格证培训考试题答案详解
- 2024年石家庄客运从业资格证考些什么项目
- 2024年江苏客运资格证考试多少题及格
- 新闻传播与名誉权案例讨论
- GB 253-2008煤油
- 优化完善法律制度规定解读2021年新修订《军事设施保护法》PPT教学讲座
- 小学三年级下册综合实践活动.奇妙的水果-(16张)ppt
- 大鱼海棠课件
- 挤出机螺杆组合原理和应用教育课件
- 业绩考核薪酬激励课件
- 如何构建德育课程体系
- 国开作业《数字电子电路》实验1逻辑门电路功能测试参考69
- 广州市建设项目代建合同穗政合同示范文本004号
- 发动机大修过程检验单
评论
0/150
提交评论