产品经理「深度」AB测试中的因果推断-随机化分流_第1页
产品经理「深度」AB测试中的因果推断-随机化分流_第2页
产品经理「深度」AB测试中的因果推断-随机化分流_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、编辑导语:在进行关键的产品决策时,我们会用到 A/B 测试,那到底怎么应用和推算这个模型?本文作者详细的介绍了在统计推断中对A/B 模型的应用。上一篇文章中我们介绍了用于A/B 测试因果推断的潜在结果模型,现在我们来看看在统计推断中如何应用这个模型,对试验的因果效果进行估计。前面我们说过,对于因果效果的估计,我们需要比较多个个体的实际观测到的潜在结果,其中一部分个体和另外一部分分别接受不同的处理,观测到不同的潜在结果。假如我们有两个用户参与这个雾霾小试验:小强和小明,观测到如下的结果。表面上来看,小强不戴口罩咳嗽100 分钟,小明戴口罩也是咳嗽100 分钟,我们也许就简单地得出一个结论:雾霾时

2、戴口罩没有用,咳嗽不会少。但是真实情况可能是:小强对雾霾的抵抗力比小明好很多,所以他不戴口罩咳嗽 100 分钟,戴口罩只咳嗽10 分钟;而身体较弱的小明不戴口罩会咳嗽200 分钟,戴口罩咳嗽100 分钟。那么真实的因果效果应该是戴口罩少咳嗽100分钟左右,我们从数据表面得出的戴口罩无用的结论是错误的。上面给出的是一个只有两个个体的简单例子,如果参与试验的个体很多,同样可能出现这样的状况。显然,个体之间是存在差异的,如果我们把抵抗力强的分派在一组,把抵抗力差的分派到另外一组,然后进行对比,结果就会和真实情况偏差很大,从而得出错误的结论。问题的关键在于参与试验的用户进行分组的方法,也就是哪些用户观

3、测到戴口罩的潜在结果,哪些用户观测到不戴口罩的潜在结果,这是对试验比较的结果影响很大的重要因素。我们把这个分组的过程称为用户分流/分派机制(assignment mechanism。)也就是说,多个个体参与试验并不足以保证我们进行有效的因果推断,我们必须掌握个体的分流机制这个关键信息或者对其进行有计划的控制。分流机制和因果效果的定义没有关系,但是它是潜在结果模型应用过程中的关键一步,是决定效果估计准确性的重要因素。我们通常需要在试验设计中选择一个好的分流方案,以使得因果效果的估计接近于它的定义,并且尽可能提升试验的统计功效。因果效果是通过潜在结果(只能观测到其中一个)的比较来定义的,和实际接受

4、到的处理无关。但是,因为我们只能观测到一半的潜在结果,无法得知个体的因果效果,在评估因果效果时就存在一个因果推断的困难:数据缺失问题,个体没有接受到的处理所对应的潜在结果的数据是缺失的。因此,解决问题的关键就是缺失数据的处理机制,在因果推断中就是分流机制。哪些个体应该接受哪些处理,或者说哪些潜在结果应该被观测到?分流机制的这些分派决定是非常关键的。我们再看看有4 个用户参与雾霾小试验的例子,这次试验增加了用户小芳和小刚,小芳和小强在一组,不戴口罩;小刚和小明在一组,戴口罩。观测到数据如下:这次从数据上看:不戴口罩咳嗽150 分钟(平均)、戴口罩咳嗽55 分钟(平均)、结论是戴口罩可以减少咳嗽时

5、间 95 分钟(平均)。和真实的个体因果效果对比我们可以看出,这个估计结果是很准确的。这次试验为什么可以推断出正确的结论呢?因为我们增加了试验用户小芳和小刚,而小芳的雾霾抵抗力和小明接近(相同),小刚的抵抗力和小强接近(相同);从而解决了数据缺失的问题:你可以把小芳的结果看作是小明没有观测到的不戴口罩情况下的潜在结果,把小刚的结果看作是小强没有观测到的戴口罩情况下的潜在结果。这里分流的关键在于把用户属性(抵抗力)差不多的小强 vs 小刚,以及小明 vs 小芳,分派到两个不同的组,接受不同的处理。如果反过来,把属性差不多的用户都放在同一个组,那么数据缺失问题还是没有得到解决,试验结论和上面两个用

6、户情况下的试验一样依然是错的。从这两个例子我们可以看出:我们不能脱离个体的分流机制而仅仅由个体观测到的潜在结果来进行因果推断。有效的推断要求我们必须考虑这个问题:为什么这些用户接受这个处理,另外的用户接受另一个处理?采用随机化分流方式的试验设计就是随机化试验(RandomizedExperiments),它是我们在A/B测试中进行统计推断的基础。传统的随机化试验 主要有三种类型:最简单的 Bernoulli 试验以类似于抛硬币的方式来决定每一个个体的分派;完全随机化试验中每个treatment分派到的个体数量是固定的,但个体的分 派是随机的;分层随机化则是在完全随机化的基础上,先通过协变量对总

7、体进行分层,然后在层内随机化分派。不同的随机化试验类型(随机化分流方式)导致不同的分派概率分布。以完全随机化试验为例,其个体概率如下:根据这个概率分布,我们就可以对总体的平均因果效果进行统计推断和估计了。让我们先从数学上正式地定义平均因果效果( Average Causal Effect),它 是我们试验和分析的最终目标。首先把总体中所有的个体编号为i=1,,N N是总体的容量。每个个体可接受一组处理中的一个,我们用 Ti 来表示个体i 可接受的处理的集合。大多数情况下,这个集合对所有个体都是相同的。在我们的小试验中, Ti 包括两个处理水平: 0 表示不戴口罩( control组),1表示戴

8、口罩(treatment组)。每个个体可接受的处理水平都有一个对应的潜在效果, Yi ( 0)和Yi( 1)、 Yi ( 1)和 Yi ( 0) 的比较(通常是差值),就是个体 i 的因果效果 了。个体的因果效果我们是无法直接得知的,也不是我们的关注重点。 我们通常关心的是总体中所有个体的因果效果的平均值,即平均因果效果。其中 TOC o 1-5 h z 分别是所有个体不戴口罩(0)的平均潜在结果,和所有个体戴口罩(1)的平均潜在结果。ACE 就是我们试验分析的目标,它等于 “戴口罩( 1)的平均潜在结果不戴口罩(0)的平均潜在结果” 。我们前面已经说过,每个个体的两个潜在结果只能观测到其中一

9、个,另外一个是不知道的,所以 Yi (0)和Yi ( 1) 里面有一半是没有观测值的,我们不能由 ACE 的定义公式直接计算出它的值。对ACE的一个很自然的估计量就是“treatmerfi观测到的平均潜在结果 一control 组观测到的平均潜在结果”假设参与试验的 N 个用户中有Nt 个分派到treatment 组,Nc 个在 control组,那么treatment组和control组的平均潜在结果分别是我们需要评估一下这个估计量的准确性,最基本的衡量标准就是它是否ACE 的无偏估计,即该估计量的期望是否等于ACE 。令指示变量Wi 表示个体 i 被分派的处理(取值0 或 1),估计量可改

10、写为:其期望值:如果分派机制 W 是完全随机化分派,那么随机变量Wi 的期望:因此可得:可知,在完全随机化试验中,我们根据直观得到的简单估计量是ACE 的无偏估计,是基本可用的。从上面的推断过程可以看出,个体的完全随机化分派机制在其中扮演了非常重要的角色,正是由于随机变量Wi 的概率分布的特点,使得ACE 的这个简单估计量是无偏估计。现在我们来看看这个ACE 估计量的精确性,也就是其抽样方差。根据随机变量Wi 的概率分布的特点,通过类似的方法,可得到 ACE 估计量的方差为:其中分别是潜在结果Yi ( 0)和Yi ( 1)的样本方差,而则是个体因果效果Yi(1) -Yi(0)的样本方差。如果总体中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论