几种统计算法实例计算_第1页
几种统计算法实例计算_第2页
几种统计算法实例计算_第3页
几种统计算法实例计算_第4页
几种统计算法实例计算_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1. Pearson相关系数:给出一个具体实例,写出计算过程。皮尔森相关系数(Pearson correlation coefficient)也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。样本的简单相关系数一般用r表示,其中n 为样本量, 分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取

2、值在-1与+1之间,若r0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关(比如曲线方式)。利用样本相关系数推断总体中两个变量是否相关,可以用t 统计量对总体相关系数为0的原假设进行检验。若t 检验显著,则拒绝原假设,即两个变量是线性相关的;若t 检验不显著,则不能拒绝原假设,即两个变量不是线性相关的。一个具体实例和计算过程(销售额与利润额的pearson相关系数)销售额435

3、8515862668590102111利润额9101218132521242225=71.6=17.9=0.825626116Correlations销售额利润额销售额Pearson Correlation1.826*Sig. (2-tailed).003N1010利润额Pearson Correlation.826*1Sig. (2-tailed).003N1010*. Correlation is significant at the 0.01 level (2-tailed).说明销售额与利润额的相关皮尔森相关系数为0.826,sig=0.0030.01,故满足显著性要求。2卡方检验:给

4、出卡方检验的一个具体实例,要求给出卡方统计量的计算过程,以及主要列联强度指标的计算方法。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。例题一,某机构欲了解现在性别与收入是否有关,他们随机抽样500人,询问对此的看法,结果分为“有关、无关、不好说,三种答案,图3中县调查得到的数据。(1)零假设H0:性别与收入无关。(2)确定自由度为(3-1)(2-1)=2,选择显著水平=0.05。原数据性别有关无关不知道合计男1206

5、050230女10011060270合计220170110500期望值性别有关无关不知道合计男101.278.250.6230女118.891.859.4270合计220170110500期望值F(男,有关)=220*230/500=101.2期望值F(女,有关)=220*270/500=118.8期望值F(男,无关)=170*230/500=78.2期期望值F(女,无关)=170*230/500=91.8期望值F(男,不知道)=110*270/500=50.6望值F(女,不知道)=110*270/500=59.4然后分别计算k(男,有关)=(120-101.2)2/101.2k(女,有关)=

6、(100-118.8)2/118.8k(男,无关)=(60-78.2)2/78.2k(女,无关)=(110-91.8)2/91.8k(男,不知道)=(50-50.6)2/50.6k(女,不知道)=(60-59.4)2/59.4=14.32483402性别有关无关不知道合计男3.4924901194.2358056270.0071146257.73541037女2.9750841753.6082788670.0060606066.589423648合计6.4675742947.8440844940.013175231 14.32483402而chiinv(0.05,2)=5.99153.8414

7、58821题三,T检验、方差分析:T检验:分别给出单样本、双样本、配对样本t检验的一个具体实例。T检验,亦称student t检验(Students t test),主要用于样本含量较小(例如n30),总体标准差未知的正态分布资料。T检验是用于小样本(样本容量小于30,适合正态分布)的两个平均值差异程度的检验方法。它是用T分布理论来推断差异发生的概率,从而判定两个平均数的差异是否显著。单样本T检验比较山区成年男子脉动次数样本均数所代表的未知总体均数和已知总体均数0。脉搏跳动7574727479787669777670737671787776747977统计量 自由度V=n-1One-Sampl

8、e StatisticsNMeanStd. DeviationStd. Error Mean脉动次数2075.052.892.647One-Sample TestTest Value = 72 tdfSig. (2-tailed)Mean Difference95% Confidence Interval of the DifferenceLowerUpper脉动次数4.71619.0003.0501.704.40从单样本统计表看出,均值为75.05次/分钟,标准差为2.892,标准误差为0.647次/分钟。从单样本T检验表中看出,T值为4.716,自由度为20-1=19;双侧检验显著性为00

9、.05,故拒绝原假设,认为山区成年健康男子的脉动与总体样本存在差异,平均差值为3.050,在95%的置信度的条件下其置信区间为1.70,4.40。多样本T检验两独立样本t检验就是根据样本数据对两个样本来自的两独立总体的均值是否有显著差异进行推断;进行两独立样本t检验的条件是,两样本的总体相互独立且符合正态分布;数据1.0034.001.0037.001.0028.001.0036.001.0030.002.0043.002.0045.002.0047.002.0049.002.0039.00Group Statistics组号NMeanStd. DeviationStd. Error Mean

10、数据1.00533.00003.872981.732052.00544.60003.847081.72047Independent Samples TestLevenes Test for Equality of VariancesFSig.数据Equal variances assumed.077.788Equal variances not assumed从小组统计表中看出,第一组有五个数据,均值为33.0000,标准差为3.87298,标准误差为1.73205。第二组有五个数据,均值为44.6000,标准差为3.84708,标准误差为1.72047。Independent Samples

11、 Testt-test for Equality of MeanstdfSig. (2-tailed)Mean DifferenceStd. Error Difference95% Confidence Interval of the DifferenceLowerUpper-4.7528.001-11.600002.44131-17.22967-5.97033-4.7528.000.001-11.600002.44131-17.22972-5.97028从F值对应的p=0.788值大于0.05,所以方差是相等的。由于t=-4.75215.50731306且sig均为0.0010.05,故认为

12、无相关性。配对样本T检验Paired Samples TestPaired DifferencesMeanStd. DeviationStd. Error Mean95% Confidence Interval of the DifferenceLowerUpperPair 1组一 - 组二-11.6004.5612.040-17.263-5.937tdfSig. (2-tailed)-5.6874.005从上表可以看出t=-5.6879.487729037且sig=0.005结论:拒绝原假设,认为三种人的转蛋白有明显差异。因子分析:掌握因子分析的基本原理,给出一个具体实例基本原理: 其中i的

13、取值区间为1,k而kp且变量共同度越大越能体现表明X对于F每一分量的依赖程度大。公共因子方差贡献(1,2,3.k)越大越好,把它计算出来再依次地排好先后顺序。就可以提炼出最有影响的公共因子。因子分析(Factor analysis):就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子来反映原资料的大部分信息的统计学分析方法。从数学角度来看,主成分分析是一种化繁为简的降维处理技术。 如下数据:数学化学语文历史英语10010059736799995363608710074817691100706576878768786485956376667983898979KMO and Bart

14、letts TestKaiser-Meyer-Olkin Measure of Sampling Adequacy.580Bartletts Test of SphericityApprox. Chi-Square25.716df10Sig.004巴特利特球度检验统计量观测值为25.726,p为0.004值接近0,显著性差异,可以认为相关系数矩阵与单位阵有显著差异,同时KMO值为0.580,根据Kaiser给出的KMO度量标准可知原有变量适合进行因子分析。从图中可知1.首先得出其相关矩阵Correlation Matrix数学化学语文历史英语Correlation数学1.000.721-.84

15、4-.788-.588化学.7211.000-.644-.706-.181语文-.844-.6441.000.797.860历史-.788-.706.7971.000.526英语-.588-.181.860.5261.000从图中可以看出语文、英语、历史三科的相关系数较大,其次数学和化学。这与我们的指标选取有很大的关系。2. 然后初始特征值及贡献Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of

16、 VarianceCumulative %dimension013.70474.07774.0773.70474.07774.0772.88917.78091.856.88917.78091.8563.2304.59196.4484.1733.45499.9015.005.099100.000Extraction Method: Principal Component Analysis.从图中可以看出前面两个因子的方差贡献率就超过90%,因此我们选择两个因子来概括整个指标体系。从碎石图中也同样可以看出。Rotated Component MatrixaComponent12数学.765-.52

17、9化学.965-.046语文-.594.791历史-.784.462英语-.114.988从旋转成分矩阵可以看出:公因子1得分越高,所有的英语、语文及历史成绩越差,而数学和化学成绩越高,所以公因子1代表的是语言文学类的反向指标及自然科学类的正向指标,可称为“理科能力”。公因子2得分越高,所有的英语、语文及历史成绩越高,而数学和化学成绩越低,所以公因子2代表的是语言文学类的正向指标及自然科学类的反向指标,可称为“文科能力”。经过旋转,可以看出公因子有了更合理的解释。Component Score Coefficient MatrixComponent12数学-.250.114化学-.205.67

18、2语文.261.235历史.242-.185英语.198.756得出因子的回归模型:F1=-0.25*Z1+0.205*Z2+0.261*Z3+0.242*Z4-0.198*Z5F2=0.114*Z1+0.672*Z2+0.235*Z3-0.185*Z4-0.756*Z5信息熵、信息增益:给出信息增益的一个具体实例。信息量:从N个可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识N个事件中特定的一个事件的过程中所需要提问是或否的最少次数.信息熵:当我们对一问题毫无了解时,对它的认识是不确定的,在对问题的了解过程中,通过各种途径获得信息,逐渐消除了不确定性,获得的信息越多,消除的不确定性

19、也越多。我们可以用消除不确定性的多少来度量信息量的大小。1948年,美国数学家、信息论的创始人Shannon在题为“通讯的数学理论”的论文中指出:“信息是用来消除随机不定性的东西”。并应用概率论知识和逻辑方法推导出了信息量的计算公式 。由此给出3个公理:公理1:信息量是事件发生概率的连续函数;公理2:信息量是有限值;公理3:如果事件A和事件B的发生是相互独立的,则获知事件A和事件B将同时发生的信息量是单独获知两事件发生的信息量之和。设事件发生的概率为P,则满足上述公理的信息量函数为: 其中为应用方便,可取c=1,a=e,单位为奈特(nat);信息量函数体现不确定的消除;设,M代表事件A所包含的

20、基本事件,N代表总的不确定性,M为A事件所包含的不确定性,从而当A事件发生时,共消除不确定性为N-M,分别将变量取对数,并不影响其大小的单调性,这样就可以将事件发生的概率联系起来,将lnN视为总的不确定性,将lnM视为事件A所包含的不确定性,从而获得事件A发生后,共消除不确定性为lnN-lnM=-lnP例:会堂有20排、每排20个座位。找一个人。甲告诉消息(A):此人在第10排;乙告诉消息(B):此人在第10排、第10座。总的不确定性:,从上式可以看出,I是P的单调递减函数;信息熵定义为“加权平均信息量”其中;信息量:信息熵也即加权平均信息量:;举个例子:假如在一场比赛中A获胜的概率为0.9,

21、B获胜的概率为0.1;那么其信息熵为信息增益(实例)Gain(A)=Entropy(After)-Entropy(before)我们要建立的决策树的形式类似于“如果天气怎么样,去玩;否则,怎么着怎么着”的树形分叉。那么问题是用哪个属性(即变量,如天气、温度、湿度和风力)最适合充当这颗树的根节点,在它上面没有其他节点,其他的属性都是它的后续节点。借用信息论的概念,我们用一个统计量,“信息增益”(Information Gain)来衡量一个属性区分以上数据样本的能力。信息增益量越大,这个属性作为一棵树的根节点就能使这棵树更简洁,比如说一棵树可以这么读成,如果风力弱,就去玩;风力强,再按天气、温度等

22、分情况讨论,此时用风力作为这棵树的根节点就很有价值。如果说,风力弱,再又天气晴朗,就去玩;如果风力强,再又怎么怎么分情况讨论,这棵树相比就不够简洁了。计算信息增益的公式需要用到“熵”(Entropy)。我们检查的属性是是否出去玩。在这个例子中,我们的输出属性(我们要检查的属性)“play”只有两个取值,同样地,如果输出属性的取值大于2,公式是对成的,一样的形式,连加就是,找到各个取值的个数,求出各自的比例。如果样本具有二元输出属性,其熵的公式为:Entropy(S) =-(p+)*log(p+)-(p-)*log(p-)其中,p+、p-分别为正例和负例占总记录的比例。输出属性取值大于2的情况,

23、公式是对称的。首先用Excel对上面数据的play变量的各个取值排个序(这个工作簿里把“play”这个词去掉),一共是14条记录,你能数出取值为yes的记录有9个,取值为no的有5个,我们说这个样本里有9个正例,5 个负例,记为S(9+,5-),S是样本的意思(Sample)。这里熵记为Entropy(S),计算公式为:Entropy(S)= -(9/14)*log(9/14)-(5/14)*log(5/14)=-(9/14)*LOG(9/14,2)-(5/14)*LOG(5/14,2)=0.940解释一下,9/14是正例的个数与总记录之比,同样5/14是负例占总记录的比例。log(.)是以2

24、为底的对数(我们知道以e为底的对数称为自然对数,记为ln(.),lg(.)表示以10为底的对数)。在Excel里我们可以随便找一个空白的单元格,键入以下公式即得0.940,其中“2”的含义与上同。然后再分别以Wind、Humidity、Outlook和Temperature作为根节点,计算其信息增益。以wind为节点:Entropy(weak)=-(6/8)*log(6/8,2)-(2/8)*log(2/8,2)=0.811278124Entropy(strong)=-(3/6)*log(3/6,2)-(3/6)*log(3/6,2)=1.0Gain(wind)=Entropy(s)-(6/1

25、4)*Entropy(weak)-(8/14)*Entropy(strong)=0.04784107类似以Humidity为节点:Entropy(High)=-(3/7)*log(3/7,2)-(4/7)*log(4/7,2)=0.985228136Entropy(normal)=-(6/7)*log(6/7,2)-(1/7)*log(1/7,2)=0.591672779Gain(Humidity)=Entropy(s)-(7/14)*Entropy(weak)-(7/14)*Entropy(strong)=0.151549543类似以Outlook为节点:Entropy(sunny)=-(3

26、/5)*log(3/5,2)-(2/5)*log(2/5,2)=0.970950594Entropy(rain)=-(3/5)*log(3/5,2)-(2/5)*log(2/5,2)=0.970950594Entropy(overcast)=0Gain(outlook)=Entropy(s)-(5/14)*Entropy(sunny)-(5/14)*Entropy(rain)-(0)*Entropy(overcast)=0.246463861类似以Temperature为节点:Entropy(hot)=-(2/4)*log(2/4,2)-(2/4)*log(2/4,2)=1Entropy(co

27、ol)=-(3/4)*log(3/4,2)-(1/4)*log(1/4,2)=0.811278124Entropy(mild)=-(4/6)*log(4/6,2)-(2/6)*log(2/6,2)=0.918295834Gain(temperature)=Entropy(s)-(4/14)*Entropy(hot)-(4/14)*Entropy(cool)-(6/14)*Entropy(mild)=0.028936607最后按照信息增益最大的原则选Outlook为根节点。子节点重复上面的步骤。这颗树可以是这样的,它读起来就跟你认为的那样。RFM:掌握RFM的基本原理,给出一个具体实例RFM模型

28、原理:根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)。RFM模型:R(Recency)表示客户最近一次购买的时间有多远,F(Frequency)表示客户在最近一段时间内购买的次数,M (Monetary)表示客户在最近一段时间内购买的金额。一般原始数据为3个字段:客户ID、购买时间(日期格式)、购买金额,用数据挖掘软件处理,加权(考虑权重)得到RFM得分,进而可以进行客户细分,客户等级分类,Customer Level Val

29、ue得分排序等,实现数据库营销!近度R:R代表客户最近的活跃时间距离数据采集点的时间距离,R越大,表示客户越久未发生交易,R越小,表示客户越近有交易发生。R越大则客户越可能会“沉睡”,流失的可能性越大。在这部分客户中,可能有些优质客户,值得公司通过一定的营销手段进行激活。频度F:F代表客户过去某段时间内的活跃频率。F越大,则表示客户同本公司的交易越频繁,不仅仅给公司带来人气,也带来稳定的现金流,是非常忠诚的客户;F越小,则表示客户不够活跃,且可能是竞争对手的常客。针对F较小、且消费额较大的客户,需要推出一定的竞争策略,将这批客户从竞争对手中争取过来。额度M:表示客户每次消费金额的多少,可以用最

30、近一次消费金额,也可以用过去的平均消费金额,根据分析的目的不同,可以有不同的标识方法。一般来讲,单次交易金额较大的客户,支付能力强,价格敏感度低,是较为优质的客户,而每次交易金额很小的客户,可能在支付能力和支付意愿上较低。当然,也不是绝对的。最后通过RFM分析将客户群体划分成重要保持客户、重要发展客户、重要挽留客户、一般重要客户、一般客户、无价值客户等六个级别五、后续分析针对性服务1. R=短 F=高 M=高 这类客户可以采用“重要保持”的措施。这类消费者的消费频次和客单价都高于均值,要保持这种消费者的有效方法是给予一定的长期优惠,如给予店铺VIP资格。2. R=短 F=低 M=低 这类用户最近有消费,但频次和客单价低于平均值。针对此客户重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论