零点知识库-统计讲座(数据准备-基础分析-高级分析)公安_第1页
零点知识库-统计讲座(数据准备-基础分析-高级分析)公安_第2页
零点知识库-统计讲座(数据准备-基础分析-高级分析)公安_第3页
零点知识库-统计讲座(数据准备-基础分析-高级分析)公安_第4页
零点知识库-统计讲座(数据准备-基础分析-高级分析)公安_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据分析技术在社会研究中的应用 Data Analysis in Social Research 演讲人:朱永明市场与民意研究中的数据分析技术基础介绍变量测量尺度数据库建立与数据准备基础统计分析方法多元高级统计方法统计分析软件SPSS和SAS市场营销11PMarketing 11PS外部营销External Marketing内部营销Internal Marketing战术Tactics战略Strategy企业层面社会层面人员服务(people service)市场竞争定位(positioning)优势价值选择(competition positioning)品牌价值定位(brand posi

2、tioning)政治权力(political)公共关系(public relations)业务优化(product)合理定价(price)渠道现场(place)广告促销(promotion)市场细分选择(partitioning)基础研究体系研究技能与技巧描述性分析因果关系探索性分析抽样设计定义问题研究设计测量尺度问卷设计调查实施数据分析营销调查/数据库观察法实验控制法因果关系模型二手资料定性研究定量消费者调查消费者/市场识别多变量分析技术企业信息消费者信息市场调查过程市场研究模型与技术数据挖掘Data Mining统计资料/营销信息专用模块和统计软件(结合现场软件展示)SPSSChaidWi

3、nAMOS、LISRELDecisionTimeWhat ifData MiningPCEDITEpiDataEnter Builder & Station其它软件数据库技术Access电子表格Excel撰写报告Powerpoint研究中的数据分析技术名称级-定类变量顺序级-定序变量间隔级-定距变量比例级-定比变量低高转换定性定量非数量型数量型离散型随机变量连续型随机变量统计分析方法的应用有时候按变量的测量等级来划分。变量测量尺度数据库建立与数据整理PCEDIT的演示SPSS的演示数据库建立与数据整理PCEDIT的演示Pcedit的启动建结构文件*.lay(重点为range和test if)录

4、入转库pctodbf(重点) pctospss(略)数据库建立与数据整理查错使用spss范围查错逻辑查错现场演示统计分析法基础数据处理分析技术频数分析 描述基础频次分布多重应答分析 多变量频次分析交叉分析 不同背景情况下的频次分布均值分析 平均得分的研究相关分析 两个变量的相关性大小多元方差分析 影响均值的背景变量是哪些统计分析法基础数据处理分析技术基础统计分析的现场演示频数分析 Statistic/Frequency多重应答分析 Statistic/Multiple Analysis交叉分析 Statistic/Crosstable均值分析 Statistic/Means相关分析 Stati

5、stic/Correlation 多元方差分析 Statistic/MANOVA多变量统计分析法高级数据分析技术一元与多元回归分析Regression Analysis主成份分析 Principal Component Analysis PCA因子分析 Factor Analysis FA (EFA & CFA)多维判别分析 Multiple Discrimination Analysis多维尺度分析 Multidimensional Scaling MDS MDA多元回归 Multiple Regression对应分析 Correspondence Analysis CA多元对应分析 Mul

6、tiple Correspondence Analysis MCA多维偏好分析 Multidimensional Preference Analysis MDPREF 非线性主成份分析 (Optimal Scaling)分类树 AnswerTreeCHAID&CART聚类分析 Cluster Analysis结合分析 Conjoint Analysis离散选择模型 Discrete Choice Model结构方程式模型 Structural Equation Model 预测与决策模型Decision Time & What ifY=a+bX因变量自变量(预测变量)截距斜率数学上下列方程在图

7、形上是一条直线X和Y线性回归 XYX和Y线性回归 dYi现场演示回归分析的问题决定系数R2方差分析表回归诊断残差图共线性问题变量转换异常值处理预测范围因变量是0-1定类变量:logistic regression现场演示主成份分析 Principal Component Analysis PCA0-1-21230-1-212-3第一主成份第二主成份沃尔沃奔驰BMW切诺基桑塔纳捷达富康红旗奥迪别克现代本田丰田赛欧主成份分析的基本概念x1x2Y1Y2x1x2X1与x2相关Y1与Y2不相关主成份分析的基本原理P个变量能够组成p个主成份。每个主成份是p个原始变量的线性组合。第一主成份解释p个变量的最大

8、变差。第二主成份解释p个变量的第二大变差。最后一个主成份解释变差最小。所有主成份彼此之间正交。线性组合后的主成份在几何空间上代表p个变量构成坐标系旋转后的新坐标系,新坐标轴代表了最大变差方向。主成份分析应用减少变量的个数。用于回归分析用于聚类分析用于偏好分析用于画出偏好图构造综合评价指数综合排序。因子分析 Factor Analysis FA (EFA & CFA)每升行驶里程可靠性能安全性能0-1-21230-1-212-3豪华型运动型经济型第一因子得分第二因子得分因子分析-factor Analysis一种简化数据的技术。 探索性因子分析。 证实性因子分析 因子分析就是要找到具有本质意义的

9、少量因子。 并用一定的结构/模型,去表达或解释大量可观测的变量。主要应用简化数据,减维技术。识别数据中潜在的不正直接观测的结构或维度。用产生的不相关的因子作为变量用于其它分析聚类分析、回归分析、判别分析等。识别变量中重要变量,用于其它分析。作偏好图。(两个因子)问卷设计的信度和效度。因子分析的基本步骤确定研究的问题数据准备考察相关矩阵选择抽取因子的方法取定因子的个数旋转因子最大方差法评价模型的拟合效果解释因子并命名因子得分用于其它分析多维偏好分析 Multidimensional Preference Analysis MDPREF每升行驶里程可靠性能安全性能0-1-21230-1-212-3

10、第一主成份第二主成份豪华型运动型经济型沃尔沃奔驰BMW切诺基桑塔纳捷达富康红旗奥迪别克现代本田丰田赛欧第二因子得分第一因子得分理想点模型每升行驶里程可靠性能安全性能0-1-21230-1-212-3第一主成份第二主成份豪华型运动型经济型沃尔沃奔驰BMW切诺基桑塔纳捷达富康红旗奥迪别克现代本田丰田赛欧第二因子得分第一因子得分理想点帕萨特聚类分析Cluster AnalysisDendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Labe

11、l Num +-+-+-+-+-+ 桑塔纳 1 -+-+ 红旗铭仕 10 -+ +-+ 捷达 14 -+ I 吉利 2 -+-+ +-+ 奥托 7 -+ I I I 奇瑞 4 -+-+ +-+ I 富康 11 -+ +-+ I I 夏利2000 12 -+-+ I I I I 羚羊 13 -+ +-+ +-+ I 赛欧 3 -+-+ I I 波罗POLO 5 -+ I I 宝来 6 -+ I 别克 15 -+-+ I 风神蓝鸟 16 -+ +-+ I 帕萨特 8 -+-+ +-+ 广州本田 9 -+ I 奥迪A6 17 -+谱系聚类分析和快速聚类Hierarchical & K-Mean Cl

12、uster Analysis聚类分析的基本概念 聚类分析(cluster analysis)顾名思义是一种分类的多元统计分析方法。 按照个体或样品(individuals, objects or subjects)的特征将它们分类,使 同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具 有尽可能高的异质性(heterogeneity)。 也可以对变量分类,但是更常见的还是对个体分类。 为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样品 或变量,常用的是样品)之间的联系的紧密程度。 常用的指标为“距离”和“相似系数”。 假定研究对象均用所谓的“点

13、”来表示。 在聚类分析中,一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一 类,将“距离”较大的点或“相似系数”较小的点归为不同的类。 需要一组表示个体性质或特征的变量,称之为分类变量。 根据个体或样本之间联系的紧密程度进行分类。 一般来说分类变量的组合都是由研究者规定的,不是像其它多元分析方 法那样估计推导出来的。 聚类分析前所有个体或样品所属的类别是未知的,类别个数一般也是未 知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。 严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需 要从样本去推断总体。 聚类分析一般都涉及不到有关统计量的分布,也不需

14、要进行显著性检验。 聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它 统计方法。聚类分析的基本概念Euclidean distance modelDimension 1210-1-2-3Dimension 2.5北京申办2008年奥运会两岸关系中国能否加入世贸组织国营和集体企业改组、依法治国教育体制改革打假澳门回归行业不正之风土地承包政策不变乱收费农村脱贫致富水灾后重建农村村务公开、民主选举减轻农民负担反腐败环境保护亚洲金融危机会否波及人民币是否贬值养老保险社会治安下岗再就业物价涨跌医疗改革住房货币化改革多维尺度分析MDS个人利益国家利益农民利益社会利益对维尺度分析-Multid

15、imensional Scaling 在市场研究领域主要研究消费者的态度,衡量消费者的知觉及偏好。涉及的研究对象非常广泛,例如:汽车、洗头水、饮料、快餐食品、香烟和国家、企业品牌、政党候选人等。通过MDS分析能够为市场研究提供有关消费者的知觉和偏好信息。 主要借助计算机统计分析软件,输入有关消费者对事物的知觉或偏好数据,转换为一组对象或对象特征构成的多维空间知觉或偏好图感知图。应用MDS,收集的数据值大小必须能够反应两个研究对象的相似性或差异性程度。这种数据叫做邻近。所有研究对象的邻近数据可以用一个邻近矩阵表示。反映邻近的测量方式:相似性-数值越大对应着研究对象越相似。差异性-数值越大对应着研

16、究对象越不相似。两个地点(位置)之间的实际距离。(测量差异性)两个产品之间相似性或差异性的消费者心理测量。两个变量的相关性测量。(相关系数测量相似性)从一个对象过渡到另一个对象的转换概率。例如概率反应了消费者对品牌或产品偏好的变化。(测量相似性)反映两种事物在一起的程度。例如:用早餐人们经常将两种食品搭配在一起。(测量相似性)多维判别分析 Multiple Discrimination Analysis MDA判别函数2判别函数1-1-21230-1-212-3价格水平交货速度产品质量销售力度价格弹性总体服务制造商形象新用户犹豫/转移用户重复购买用户 判别分析是一种进行统计判别和分类的统计技术

17、手段。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数。利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。 市场细分研究中,常涉及判别个体所属类型的问题。也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。因变量(dependent variable): 分组变量定性数据(个体、产品/品牌、特征)。自变量 (independent variable):判别变量定量数据(属性的评价得分)。判别分析确定分组变量与判别变量间的

18、关系 建立判别函数,找到自变量的最佳区分因变量的各个类别的线性组和。 也可以确定后验概率,计算每个个体落入各个类别的概率。 确定哪些判别变量x1、x2、x3、xk对区分类别差异的影响最大。 考察各个类别在判别变量方面是否存在显著差异。 确定判别变量是以什么形式影响因变量的, 即D是 x1 x2 x3 xk 什么形式的函数。 根据判别变量的值对个体进行分类。 对分析的准确程度进行评价。主要应用判别和细分市场用户和非用户经常购买者和非经常购买者新用户、流失用户和忠实用户忠诚用户和非忠诚用户新产品早期使用者和后期使用者消费者心目中喜欢的品牌和不喜欢的品牌消费者对我们的品牌和竞争品牌的不同属性偏好偏好

19、图市场细分新产品开发ABCDEFG价格合理性易于服用药效持久有效性对儿童有益药性温和感冒药品概念图/品牌图Logistic回归模型逻辑斯特回归 Logistic回归是一种进行统计判别和分类的统计技术手段。它可以就一定数量的个体的一个二分变量(因变量)和相应的其它多个自变量(预测变量)的已知信息,确定二分变量与其它预测变量之间的数量关系,建立Logistic非线性回归方程。利用回归方程进行预测和解释,在其他已知多元变量的信息、但未知分组的个体进行判别分组。 因变量(dependent variable): 0-1变量 二分变量(个体、产品/品牌、特征)。自变量 (independent vari

20、able):预测变量定量数据或定性(属性的评价得分)。 市场细分研究中,常涉及判别个体所属类别是两个分类的问题。例如:是否该给某个人发信用卡,是否是用户,成功和失败,疾病的诊断等,Logistic 回归可以很好地对这种差异进行鉴别。.6.4.2.0.5新疆宁夏青海甘肃陕西西藏云南贵州四川海南广西广东湖南湖北河南山东江西福建安徽浙江江苏上海黑龙江吉林辽宁内蒙山西河北天津北京200元以上101-200元51-100元50元以下南方区域北方区域话费高省话费低省固定 话费不同省分布情况对应分析 Correspondence Analysis对应分析的基本概念对应分析是一种数据分析技术,它能够帮助我们研

21、究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。是强有力的探索数据技术,主要适用于有多个类别的定类变量。可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。对应分析 Correspondence Analysis CA-1.5-1-0.500.511.52-1.5-1-0.500.511.5雪糕雪源清爽甘甜雪浪花洗衣机兴奋波澜欢快个性空调碳酸饮料期望毛毯保健食品天山绿中美纯纯水纯净玉泉果汁饮料春溪安闲高档新产品名称(品牌)测试Dimension 1.5Dimension 2.5其它有人值守公用IP卡IC卡小灵通30

22、0 卡200 卡固定 大学本科及以上大专高中/中专/技初中小学及以下女性男性高收入中高收入中等收入中低收入低收入46岁以上36-45岁26-35岁25岁以下拨打长途 方式用户特征分析对应分析可以回答以下问题 谁是我的用户? 还有谁是我的用户? 谁是我竞争对手的用户? 相对于我的竞争对手的产品,我的产品的定位如何? 与竞争对手有何差异? 我还应该开发哪些新产品? 对于我的新产品,我应该将目标指向哪些消费者?很多情况下,直接、简单地询问被访者选择品牌(属性/价格)问题是不现实的,甚至是没有用的。消费者往往考虑品牌(产品/服务)的所有属性都是重要的。现实生活中,消费者需要对品牌(产品/服务)作出权衡

23、。传统的市场研究方法在处理权衡问题是比较困难的。非常不重要 非常重要品牌123456789颜色123456789内部装饰123456789动力性123456789价格123456789例如:如果您要购买一辆汽车,下面哪些因素对您来讲是重要的?多变量分解技术结合分析结合分析是基于对产品/服务整体偏好的基础上,采用分解的方法。研究的产品/服务可以是市场上存在的,也可以是现实中不存在的。得到的结果能够更容易、更准确判断产品/服务各种属性的相对重要性。开发新产品的强有力市场研究工具。品牌市场占有率。研究价格弹性。市场细分。新产品开发产品重新定位全轮廓结合分析 Full Profile Conjoint

24、 Analysis属性 (Attributes)品牌描述产品/服务重要特征水平 (Level)赋予每一个属性的不同水平轮廓 (profile)产品/服务被描述为轮廓,每一个轮廓是由属性以及赋予每一个属性的不同水平组合构成ProfileA1B2C3Attribute ALevel A1, A2, or A3Level B1, or B2Level C1,C2, or C3Attribute BAttribute C属性和水平的选择属性价格颜色音响系统售后服务水平10万元人民币11.2万元人民币12.5万元人民币金属银灰色金属深蓝色金属正红色卡座两喇叭扬声系统CD机四喇叭扬声系统CD机六喇叭扬声系

25、统一年/两万公里两年/四万公里属性动力性ABS防抱死系统安全气囊水平五速手动档四速电控自动档有ABS防抱死系统无ABS防抱死系统有安全气囊无安全气囊可能的组合数=3324=432轮廓数(卡片)=(3+3+3+2+2+2+2)-7+1=11选定16种 HOLDOUT=4个 共计20张卡片赛欧轿车(正交实验设计) 价格 10万元人民币 颜色 金属银灰 音响系统 CD机六喇叭扬声系统 售后服务 两年/四万公里 动力系统 五速手动 ABS系统 有 安全气囊 有卡片14请问,您购买这种汽车的可能性是? 请选择下面的数字,数字越大代表您购买的可能性越大。肯定不购买123456789肯定购买赛欧轿车结合分析

26、研究模型效用值和属性相对重要性群体分析属性水平全体效用值全体属性相对重要性男性效用值男性属性相对重要性女性效用值女性属性相对重要性价格10万元人民币11.2万元人民币12.5万元人民币.2743.0712-.345518.13%.3219.1283-.450218.44%.1587-.0675-.091317.38%颜色金属银灰色金属深蓝色金属正红色.1840.1181-.302115.08%.1585.0972-.255715.40%.2460.1687-.414714.31%音响卡座两喇叭扬声系统CD机四喇叭扬声系统CD机六喇叭扬声系统-.2836-.1065.390016.63%-.28

27、59-.1070.393016.32%-.2778-.1052.382917.39%售后服务一年/两万公里两年/四万公里-.2422.24229.93%-.2390.239010.01%-.2500.25009.71%动力性五速手动档四速电控自动档-.0668.066811.40%.0208-.02089.34%-.2798.279816.42%ABS有ABS防抱死系统无ABS防抱死系统.4401-.440114.01%.4988-.498815.31%.2976-.297610.85%安全气囊有安全气囊无安全气囊.4905-.490514.82%.4841-.484115.19%.5060-

28、.506013.95%市场占有率变化分析金属银灰色为例 组合配置价格最大效用模型市场占有率(降价前)最大效用模型市场占有率(降价后)市场占有率变化21基本型SL10万元人民币34.72%33.33%-1.39%22选装型I SLX11.2万元人民币32.64%22.92%-9.72%23选装型II SLX AT12.5万元人民币32.64%+选装型II SLX AT11.2万元人民币43.75%+11.11%不同颜色占有率市场分析(基本型、选装型I、选装型II)颜色最大效用模型市场占有率金属银灰色49.54%金属深蓝色33.56%金属正红色16.90%研究人员可以根据不同的市场营销目的模拟不同

29、的市场(竞争环境),寻找最佳的市场营销方案估计市场占有率和市场变化针对每一个消费者分析该消费者的不同偏好结构根据消费者的不同背景资料,分析不同子总体的偏好结构根据消费者的效用值进行快速聚类分析,找出具有相同或相似偏好 的消费者,进行市场细分。 利润分析价格策略结合分析的数据分析是非常丰富全轮廓结合分析的评价费用:相对较高。复杂性:高。大量的设计和复杂的分析。效用值需要借助统计分析软件。可以处理产品/服务的属性有限,一般10个,太多被访者无法承受。结论:非常丰富。效用值和属性相对重要性。评估不同的产品组合。市场模拟,估计市场占有率,广泛用于解决“作假设推断”的问题 。数据质量:较高。可以得到准确

30、的,对产品/服务的属性的判断。大部分属性的评价比较有效。当价格与其它属性不存在交互作用时,效果很好。离散选择模型 Discrete Choice Model or Choice Based Conjoint Analysis 下面哪种汽车,您最有可能购买?(最喜欢、最偏好)捷达都市先锋自动档ABS安全气囊白色2年/4万公里保修 RMB富康998四速手动档ABS安全气囊墨绿色2年/4万公里保修 RMB桑塔纳2000五速手动档ABS安全气囊黑色2年/4万公里保修 RMB如果只有这里列出的汽车是我仅有的选择的话,我不可能购买任何一种1234指数函数Multinomial Logit Model 移动

31、通讯供应商(品牌)价格策略和市场占有率分析案例离散选择模型品牌和价格移动通讯服务商品牌+价格离散选择模型研究选择集5如果您选择移动通讯服务,您最可能选择下面使用哪一种?服务商移动全球通移动神州行联通130联通如意行联通CDMA任何服务都不选择价格/分钟0.50元0.60元0.40元0.30元0.60元(选中划勾)品牌:移动全球通、移动神州行、联通130、联通如意行、联通CDMA价格: 市场竞争环境:可能组合=44 44 4=1024 种正交实验设计=16个选择集 费用:最高。要求大样本量。复杂性:非常高。大量的设计和复杂的分析。选择概率,需要借助专用统计分析软件。可以处理产品/服务的属性有限,一般8个,太多被访者无法承受。结论:非常丰富。价格弹性曲线。评估不同的产品组合。市场模拟,估计市场占有率,广泛用于解决“作假设推断”的问题 。数据质量:较高。可以得到准确的,对产品/服务的属性的判断。大部分属性的评价比较有效。即使当价格与其它属性存在交互作用时,效果也很好。离散选择模型的评价

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论