清华大学《数据模型与决策》DMD(孙静) - 课程精髓及案例分析流程_第1页
清华大学《数据模型与决策》DMD(孙静) - 课程精髓及案例分析流程_第2页
清华大学《数据模型与决策》DMD(孙静) - 课程精髓及案例分析流程_第3页
清华大学《数据模型与决策》DMD(孙静) - 课程精髓及案例分析流程_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、DMD课程精髓:1、 从管理者的角度去分析问题,不要陷入数据处理中;2、 数据分析需要和经验相匹配,数据为管理和决策提供服务。3、 东西方的差距从15世纪开始拉大:1) 西方: 开始使用阿拉伯数字;(理性科学性)2) 东方: 仍然采用文字这种不精确的描述;(人性灵活性)4、 5大知识点:1) Decision Analysis(决策分析)Ø 决策树回溯的方法使“复杂问题简单化” 、提炼问题Ø who、where、when、why、what、how2) Sampling(抽样)Ø 从个体抽样共性、得出普遍规律的方法论。(自然科学中的哲学)Ø “断章取义”导

2、致统计学可以变化出完全不同的结果。Ø 理论的结果是基于“随机”的抽样。Ø 精确与粗燥的哲学:更加粗燥的t分布,得出的结果可能是更加精确的预测结果。Ø 实际的生活中,人们往往对有预期,却对没有预期,导致了很多问题。3) Simulaiton(仿真)Ø 减轻抽样需要投入的时间和经历,结果依赖于“可以信赖的假设”4) Regression(回归)Ø 回归反映的是量变因素,对于质变必须从管理上解释。5) Optimization(优化)Ø 模型的准确性只对自变量范围内有意义。DMD案例流程(供参考):一、 案例背景:5W+1Hwhowhenw

3、herewhat (要干什么)why (待分析的原始数据或者解决途径)how (怎样做,D.T)P25-规范的决策树key point:( -总体框架)Ø 有用的信息和数据(why);Ø 提炼问题(what:Unkown information and question); 二、 初步分析:根据决策树建模,即通常是分析框架、一个公式,或者一个目标key point:(清晰分析思路注意不要陷在数据里,有些可能无解,但要写明原因。)Ø 决策思路(D.T)说明是否做敏感性分析,是否另行设计决策树找出其他的解决办法,或从其他角度重新看这个问题把复杂的问题分解成若干问题,简

4、化问题;Ø 列出具体的分析思路和步骤;Ø 在思路基础上,找出相关需要的变量、函数和相互间的关系; 例子:(最后一个书商案例)决策变量: P书 Q页数 Q印刷 Q销售 目标函数: 销售收入总成本P书×Q销售f总成本(Q页数,Q印刷)约束: 1 毛利率1直接成本/销售收入1g直接成本(Q页数,Q印刷)/(P书×Q印刷) >= 40%2 25<= P书<=353 Q销售<= Q印刷4 所有变量>0 P书 需优化求解 Q页数 已知条件 Q印刷 需回归或仿真 Q销售 需回归或仿真f总成本(Q页数,Q印刷) 需回归g直接成本(Q页数,Q

5、印刷)需回归三、 数据处理:key point:(根据初步分析思路,进行数据处理,找出可以符合管理者角度意愿的证据。)Ø DMD的5个主要概念(决策分析、抽样、仿真、回归和优化)都可能会用到,基本概念和适用范围要基本明确。Ø 根据分析思路,逐个把数据处理过程简单介绍,有些东西即使不会或者没时间做也要写上(比如mean,SD,相关系数,变异系数,直方图,散点图等等)。Ø 如果有可能,指出数据的分布特性(如超几何、均匀、指数、柏松分布)Ø 实际考试中,可能没有时间做特别细致和准确地分析,能像惟锲那样在很短的时间内进行透彻地回归分析太难了,所以把做法和思路写清

6、楚最重要。可能用到工具包括:1、 抽样:1) 不要误用总体;2) 抽样数量应该不少于30;二项分布应该同时满足n×p>=5和n×(1p)>=5,否则应该质疑正态分布特性;3) 实际操作可以用直方图看看其是否满足正态分布;例子:(最后一个书商案例)对邮件抽样调查的结果应该产生质疑,比如他的总体可能有问题。 2、 仿真在样本缺乏,但有样本分布规律时使用仿真,随机产生数据作为分析样本(excel:工具数据分析随机数发生器)1) 随机数>1000;2) 对产生后的随机数分析均值,标准差,置信区间等。3、 回归适用于找出变量之间的相互关系、影响销售的重要因素等等(e

7、xcel:工具数据分析回归)1) 回归最适合呈现的是“可以量变”的规律,对于质变的规律必须另辟蹊径。2) n>=5*(k+2) ,n是样本数,k是自变量数目;3) 首先明确因变量和自变量,通过相关系数大致观察规律;(excel:工具数据分析相关系数)4) 明确一些关键回归值的意义:(SFR2P-VALUE)ü SF:小于10%代表回归效果显著ü R2:代表总波动中有多少可以用回归模型进行解释,越大越好ü P-VALUE:大于10%说明有多重共线性的可能,需要删除,但删除要谨慎,删除前先看相关系数,如果相关系数大(>0.7),则说明有几个因素强相关。强相

8、关的因素删除时保留一个(与因变量相关系数大者)。删除后的数据再次作回归,观察回归效果,重复以上工作,直到回归效果各项参数均ok时,找出X1、X2等因素与Y强相关。ü 截距P-VALUE大于10%,可认为B0=0.5) 可以得出公式Y=B0+B1*X1+B2*X2(根据题意,不一定必须要) 6) 根据统计结果,用管理经验进行验证解释(rough pridciton range±C×SD) 如sale(B0+B1*X1,SD)4、 优化用于将定性的问题定量化,做出量化决策,找到紧约束条件(excel:工具规划求解)1) 整理原始数据。2) 做决策变量的设计(关键)3)

9、 目标函数的确定4) 约束条件的设定(主要是三个方面)ü 供给(原材料价格数量、劳动力价格数量)ü 产能(生产数量、产品价格)ü 市场(销售量、产品价格)5) 根据回归结果,找出紧约束(瓶颈、关键点),解读结果。注意:如果非线性优化,需要使用管理者的经验对初始值的设置。(局部和全局的最优问题)四、 结论(管理角度的解释和分析)1、 对整个分析进行总结。(数据仅提供依据,结论靠管理经验。)对数据的感觉、处理方法和思路。2、 可以得出结论,也可以认为缺少某些数据而需要进一步收集数据,请指出需要进一步工作的方向。3、 对实际问题的捕捉。五、 几个关键公式Binomist(x,n,p,false or true) 一元二项分布的概率Average() 算术平均值Stdev() 返

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论