参数估计与置信区间_第1页
参数估计与置信区间_第2页
参数估计与置信区间_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

我们总是希望能够从一些样本数据中去探究数据总体的表现特征, 在网站数据分析中也是如此,我们试图从最近几天的数据表现来推测目前网站的整体形势是怎么样的,有没有变好或者变差的信号,但当前几天的数据无法完全代表总体,所以这里只能使用“估计”。同时,网站的数据始终存在波动,将最近时间段的数据作为抽样样本很可能数据正好处于较低或者较高水平, 所以我们用样本得到的估计值不可能是无偏差的, 我们同时需要去评估这个估计值可能的变化区间。参数估计(ParameterEstimation)是指用样本的统计量去估计总体参数的方法,包括点估计和区间估计。点估计点估计(PointEstimation)是用抽样得到的样本统计指标作为总体某个未知参数特征值的估计,是一种统计推断方法。一般对总体参数的估计会包括两类:一种是用样本均值去估计总体均值,对应到网站数据中的数值型指标,比如网站每天的 UV,我们可以用近一周的日均UV去估计目前网站每天唯一访客数量的大体情况;另外一种是用样本概率去估计总体概率,对应到网站数据中的比率型指标,比如网站的目标转化率,我们可以用近3天的转化率去预估网站当天目标转化的水平;同时我们会计算样本的标准差来说明样本均值或者概率的波动幅度的大小, 从而估计总体数据的波动情况。点估计还包括了使用最小二乘法对线性回归做曲线参数的拟合, 以及最大似然估计的方法计算样本集分布的概率密度函数的参数。区间估计区间估计(IntervalEstimation)是依据抽取的样本,根据一定的正确度与精确度的要求,估算总体的未知参数可能的取值区间。区间估计一般是在一个既定的置信水平下计算得到总体均值或者总体概率的置信区间(ConfidenceInterval),一般会根据样本的个数和标准差估算得到总体的标准误差,根据点估计中用样本均值或样本概率估计总体均值或总体概率,进而得出一个取值的上下临界点。我们可以将样本标准差记作S,如果我们抽样获取的有n个样本,那么总体的标准差o就可以用样本标准差估算得到:从这个公式中我们可以看到大数定理的作用,当样本个数 n越大时,总体指标差o越小,样本估计值越接近总体的真实值。Excel的图表里面也提供了添加“误差线”的功能:一定置信水平下的置信区间, 置信区间(ConfidenceInterval)给出了一个总体参数的真实值在一定的概率下会落在怎么样的取值区间, 而总体参数落在这个区间的可信程度的这个概率就是 置信水平(ConfidenceLevel)当抽取的样本数量足够大时(一般 n>30),根据“中心极限定理”,我们可以认为样本均值近似地服从正态分布。根据Z统计量的计算公式:2=导假如在1-a的置信水平下,则总体均值 p的置信区间为:正一2^2x<z-I-Z中xa这里样本均值和标准差都可以根据抽样的结果计算得到, 所以在既定置信水平的条件下,我们只要查Z值表(Z-Score)得到相应的Z值就可以计算得到总体均值的置信区间。对于置信水平或者叫置信度的选择,在统计学中一般认为95%的置信度的结果具有统计学意义,但其实在互联网领域数据的分析中不需要这么高的置信度,我们有时也会选择 80%或者90%的置对于总体概率的估计,在具备足够样本数量的条件下,我们用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论