应用潜在分类泊松回归模型及EM算法分析陈述偏好数据_第1页
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据_第2页
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据_第3页
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据_第4页
应用潜在分类泊松回归模型及EM算法分析陈述偏好数据_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统计计算案例1,吕晓玲应用潜在分类泊松回归模型及em算法分析陈述偏好数据:以网络购物使用次数为例1 .问题提出随着网络的兴起,网上购物已经在人们的生活中发挥着越来越重要的 作用。网上购物以其方便快捷等特点吸引了很多购物者,但是也有一些人 质疑网上购物安全性、不可触摸性等问题。影响人们选择网上购物的因素 有很多,不同的人对网上购物也有不同的态度。大学生是网络购物这个群 体的很重要的一部分,什么因素影响大学生对网络购物的选择?大学生由 于对网络购物的态度取向不同可分为多少潜在的类别?本文应用陈述偏 好方法(stated preference method)收集大学生网上购物的数据,并应 用潜在分类

2、泊松回归模型(latent class poisson regression model) 及em算法分析数据,回答以上两个问题。2 .数据收集源于心理学的陈述偏好调查已经被市场营销中研究消费者行为广泛 应用。虽然在进行每个具体研究时操作不尽相同,总的原则是事先设定儿 个重要因素,每个因素有若干水平,然后提出一些假想情景,每个情景是 这些因素不同水平的组合。受访者按照他们的喜好给不同的情景打分或者 排序。研究者应用模型分析数据,寻找各因素的重要性。为了确定影响网络购物的重要因素,我们首先开展了预调查,针对购 买商品的种类、价格、邮费、卖家信用度、介绍商品详细程度以及网上购 物节省时间和到货时间

3、等因素对大学生进行了调查,并应用简单统计分析 得到了对网上购物次数影响比较显著的四个因素,分别是购买商品的种 类、价格、卖家信誉度以及介绍商品的详细程度。具体因素和因素水平如 下所示:种类:服饰,化妆品,文体价格:50元,100元,150元,200元,250元卖家或网站的信誉度:1, 2, 3, 4, 5介绍商品的详细程度:1, 2, 3, 4, 5若每一种组合都进行调查则共有3x5x5x5 = 225组合,在这里运用了正 交设计的方法进行试验设计,共进行75种不同的组合,将这75种组合分 成25组,每组中包含3个场景(分别为3个不同的种类),每一个被调查 者将被给定3个不同的场景。每个被调查

4、者回答的问题是在特定的场景能 够在十次购物中选择网上购物的可能次数。我们总共访问了 197名在京大 学生,得到了在588种场景下他们对网络购物的使用情况的有效回答。3 .模型介绍市场营销中常用的分析陈述偏好数据的方法是联合分析(conjoint analysis),我们这里使用泊松回归模型,因为:(1)因变量不是受访者 对场景的排序,而是使用网络购物的次数,它是一个取值为离散整数的变 量,可以假设服从泊松分布;(2)可以对泊松回归模型进一步应用潜在分 类模型分析受访者的异质性。我们首先介绍泊松回归模型和潜在分类模 型,然后介绍如何应用最大似然法和em算法估计参数。令与为第i=个个体在面临第/(

5、/ = 1,j)种场景时的选择, 服从参数为乙的泊松分布。因为从平均的意义上来讲,4取值越大意味着 受访者越倾向于多次使用网络购物,所以in4可理解为该场景的效用 (utility),它是这个场景各因素水平和受访者个人特征的函数: 卜为=%,其中:为是k维协变量,。=为,4.,&是参数,体现了受 访者对协变量变化的反映,如果假设它是常数,则表明受访者是同质的(homogeneity),但我们知道,不同受访者对不同的协变量的重要程度看 法是不一样的,也就是说人群有异质性(heterogeneity),处理这种问题 的办法是假设。为一个随机变量,服从概率分布乃()。这里我们可以假设 %(6)为一个

6、连续的多元密度函数,但由于无法判定哪种形式以及在参数估 计的时候很难计算多维积分,所以一般来说我们不采取这种方式,取而代 之的是假设万(。)是一个离散的多元分布,取值为人然),相 应的概率密度是肛,s = 1,s , s的大小以及0(和再的取值均由数据估计得 到。我们称这种方法为潜在分类模型或者离散随机系数模型(discrete random-coefficient model)o在上述模型假定下,我们知道第i个个体在面临第/种场景时,给定参 数取值为优时,泊松分布的参数4j(o,) = exp(&j+z2/g。则第i个个体 k的无条件概率密度为:3;-1y)j -(1)如果使用最大似然法估计

7、参数,样本的似然函数可以写成:-1 5-1 7-1y ij(2)4.估计方法可以看到似然函数的形式很复杂,即使使用数值算法,也不容易找到 全局最优的最大似然估计。这里我们使用em算法。引入缺失变量:fl 如果第i个个体来自衰个潜在类其他(3)假定,明的分布为独立同分布,密度函数是肛,则,其中%乃=(即,孙)。完全对数似然函数可写成:s j 4(ojv,jexp(-2. (gj)4=口【口-、 二,r-1 1 ”1) ij -(4)5% =4, + zt% m %j-1 y-1i-l .v-1(5)其中, 甘 力!应用em算法,首先给定初始参数估计值。方,4,。之后的迭代 (。=0,1,.刀)过

8、程中,e步就是在给定观测数据和参数估计。3只出的情 况下,对完全对数似然函数以仆的分布求期望,因为(5)中完全对数似 然函数是0的线性函数,所以它的期望也是期望的线性函数。为了求明 给定观测数据和参数估计。;”产产的条件期望,我们需要寻找它的条件分s5布。因为因叼兀0,?)=立(4“卢,g(力0,即)=4严5,所以以出|为,。,)=(4/.,产4。则。的条件期望是: 5-1j-1% =%,。, = 4/2跖5-1(6)所以在e步得到的完全对数似然函数的期望是:elnlc i功的”嫡=之二噌5% +/噌in肛 f-1 j-1/- 5-1(7)m步即是最大化(7)式得到更新的。*,龙川。可以看到

9、m 式右侧第一 项仅及。了有关,并且和式的每一项及一个s对应,(7)式右侧第二项仅 及武力有关,可以单独优化,大大降低了似然函数的复杂度。此外,em算 法所得估计量的均方误差可以由louis公式计算而得。5.数据分析应用上述模型分析大学生网络购物数据,首先把分类变量(商品种类) 转化为0、1变量,即v (1种类为服饰v fl 种类为化妆品 一。 种类不是服饰2 - 10 种类不是不是化妆品当x和x2同时取。时,表示种类为文体。我们使用bic准则来确定s的取值。从开始,模型的bic开始下 降,并且到某一值时,开始上升。我们就选择使得bic取最小值的s。从 表1可以看出93。表2给出了模型在s=3

10、和s=1 (没有异质性)时的参数估计值。当s=1(假设受访者没有异质性时),受访者整体表现出更倾向于多次购买文体 类商品,使用次数随商品价格下降,增加卖家或网站的信誉以及介绍商品 的详细程度可以增加受访者的使用网络购物的次数。当5二3时,可以看到 受访者分为三类,在网络购物的使用次数上,几个因素对这三类受访者有 着不同的影响。根据表2的结果,第一类受访者(约占18. 89%)更倾向于 购买文体类商品,也倾向于购买价格便宜的商品,并重视卖家或网站的信 誉程度和介绍商品的详细情况;第二类受访者(约占48. 62%)不在乎商品 的种类、价格、以及介绍的详细情况,只注重网站的信誉;第三类受访者(约占3

11、2. 49%)更倾向于购买文体类商品,不重视商品的价格和卖家或网 站的信誉程度,但较看重介绍商品的详细情况。表1: bic准则潜在类别估计参数的个数-log likelihoodbic值161321. 6941340. 8242131257. 9951299. 4443201213. 4821277. 2504271203. 6211286. 518表2:参数估计值泊松回归模型(潜在类别s=3)泊松回归(s=l)类别1的类别2的类别3的加权均值概率p=o. 1889概率p=0. 4862概率p=0. 3249截距-0.11390. 17061. 2464*0. 46630. 5989*(0.

12、5127)(0. 1898)(0. 1959)(0. 2529)(0. 1056)类别(服-1.8109*-0. 1476-0. 2399*-0. 4918*-0. 3221*饰)(0. 3731)(0. 1069)(0. 09600)(0. 1537)(0. 05622)类别(化妆-2. 5615*0.01659-1. 7587*-1. 0472*-0. 7061*品)(0. 5693)(0. 09781)(0. 1894)(0. 2166)(0. 06369)商品的价-0. 5378*-0. 00466-0. 02828-0. 1131-0. 0801*格(0. 1724)(0. 0616

13、3)(0. 06243)(0. 08282)(0. 03469)卖家或网0. 3798*0. 2424*0. 056490. 2080*0. 1814*站的信誉度(0. 08954)(0. 03018)(0. 03384)(0. 04258)(0. 01772)介绍商品0. 1784*0. 050130. 1142*0. 09520*0. 09225*的详细程度(0.06997)(0. 02986)(0. 03644)(0. 03957)(0. 01749)注:括号中是参数估计的标准误差,其中*代表0.05的显著性水平,*代表0.01的显著性水平。6.总结本案例应用潜在分类的泊松回归模型及em算法分析了大学生对网络购物的使用情况。最终得到三类人群,他们对商品类型、价格、卖家或网 站的信誉度、以及介绍商品的详细程度有着不同的重视程度,网络营销者 可以根据此结果制定不同的营销策略。此外,我们还可以进一步根据模型 估计结果得

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论