Office2007数据挖掘外接程序培训讲义(共29张)_第1页
Office2007数据挖掘外接程序培训讲义(共29张)_第2页
Office2007数据挖掘外接程序培训讲义(共29张)_第3页
Office2007数据挖掘外接程序培训讲义(共29张)_第4页
Office2007数据挖掘外接程序培训讲义(共29张)_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 Office 2007 Office 2007 数据挖掘外接程序DMC第一次讲课主讲人:韩钧指导老师:谢邦昌单位:厦门大学 计划统计系 06硕E-mail:MSN: 数据挖掘一般是指在数据库中,利用各种分析方法与技术,将过去所累积的大量繁杂的历史数据中,进行分析、归纳与整合等工作,以提取出有用的信息,找出有意义且用户有兴趣的模式(Interesting Patterns),为企业管理阶层的决策提供参考依据。Microsoft SQL Server 2005 扩展了 SQL Server 2000 的性能、可靠性、可用性、可编程性和易用性。SQL Server 2005 包含了多项新功能,这使

2、它成为大规模联机事务处理 (OLTP)、数据仓库和电子商务应用程序的优秀数据库平台。Analysis Services 引入了新管理工具、集成开发环境以及与 .NET Framework 的集成。许多新功能扩展了 Analysis Services 的 和分析功能。请先查看“开始菜单”SQL教程和在线丛书。下一周,来升强老师会为大家进行具体讲授不太懂数据库,能搞数据挖掘吗?许多社会科学问题的观察,只是分许多社会科学问题的观察,只是分而非续的。对于分问题时,线性回而非续的。对于分问题时,线性回归就适用。归就适用。Odds RatioOdds Ratio95% CI of Odds Ratio95

3、% CI of Odds RatioP value P value (Wald (Wald statistic)statistic)Accuracy of model=85.9%Accuracy of model=85.9%NagelkerkeNagelkerke R R2 2注注意意注注意意事事項項事事項項自自變變數數自自變變數數因因變變數數因因變變數數比比較較比比較較K K K K個個水水準準的的類類別別資資料料需需設設個個水水準準的的類類別別資資料料需需設設K K K K- - - -1 1 1 1個個虛虛擬擬自自變變數數個個虛虛擬擬自自變變數數E Ex x: :E Ex x: :性性別

4、別性性別別(0/10/1)1 1個個個個血血型型血血型型(A/B/O/ABA/B/O/AB)3 3個個個個x1 x2 x3 x1 x2 x3 x1 x2 x3 x1 x2 x3 A: ( 0 0 0 ) A: ( 0 0 0 ) B: ( 1 0 0 )B: ( 1 0 0 )O: ( 0 1 0 ) AB: ( 0 0 1 )O: ( 0 1 0 ) AB: ( 0 0 1 )可可為為連連續續性性或或類類別別資資料料可可為為連連續續性性或或類類別別資資料料類類別別資資料料需需設設定定參參考考組組類類別別資資料料需需設設定定參參考考組組可可為為連連續續性性或或類類別別資資料料可可為為連連續續性

5、性或或類類別別資資料料類類別別資資料料需需以以虛虛擬擬變變數數類類別別資資料料需需以以虛虛擬擬變變數數表表示示表表示示(Dummy variableDummy variable)Y Y Y Y必必須須為為類類別別性性資資料料(是是必必須須為為類類別別性性資資料料(是是/ / / /否否)否否)Y Y Y Y必必須須為為連連續續性性資資料料必必須須為為連連續續性性資資料料Logistic RegressionLogistic RegressionMultiple RegressionMultiple RegressionOdds RatioOdds Ratio95% CI of Odds Rat

6、io95% CI of Odds RatioP value P value (Wald (Wald statistic)statistic)Accuracy of model=85.9%Accuracy of model=85.9%NagelkerkeNagelkerke R R2 2注注意意注注意意事事項項事事項項自自變變數數自自變變數數因因變變數數因因變變數數比比較較比比較較K K K K個個水水準準的的類類別別資資料料需需設設個個水水準準的的類類別別資資料料需需設設K K K K- - - -1 1 1 1個個虛虛擬擬自自變變數數個個虛虛擬擬自自變變數數E Ex x: :E Ex x:

7、:性性別別性性別別(0/10/1)1 1個個個個血血型型血血型型(A/B/O/ABA/B/O/AB)3 3個個個個x1 x2 x3 x1 x2 x3 x1 x2 x3 x1 x2 x3 A: ( 0 0 0 ) A: ( 0 0 0 ) B: ( 1 0 0 )B: ( 1 0 0 )O: ( 0 1 0 ) AB: ( 0 0 1 )O: ( 0 1 0 ) AB: ( 0 0 1 )可可為為連連續續性性或或類類別別資資料料可可為為連連續續性性或或類類別別資資料料類類別別資資料料需需設設定定參參考考組組類類別別資資料料需需設設定定參參考考組組可可為為連連續續性性或或類類別別資資料料可可為為連

8、連續續性性或或類類別別資資料料類類別別資資料料需需以以虛虛擬擬變變數數類類別別資資料料需需以以虛虛擬擬變變數數表表示示表表示示(Dummy variableDummy variable)Y Y Y Y必必須須為為類類別別性性資資料料(是是必必須須為為類類別別性性資資料料(是是/ / / /否否)否否)Y Y Y Y必必須須為為連連續續性性資資料料必必須須為為連連續續性性資資料料Logistic RegressionLogistic RegressionMultiple RegressionMultiple RegressionLogistic RegressionLogistic Regres

9、sion就是针对二元因就是针对二元因变变 ,即,即是是1 1或或0 0。常代表选择中。常代表选择中的是与否。的是与否。如果该随机变量的概率分布是 0 1( ,1- )则 被称作胜算比被称作胜算比(Odds Ratio)(Odds Ratio)1 很多时候,自变量X对于 的影响服从logistic曲线,可以写成如下表达式现在我们要估计的是 与 这两个参数。请注意, 不能够解释成X变化一个单位,概率 变化的数量。121 0, X与 正相关 0, X与 负相关X增加一个单位, 的变化不是个常数,要用 来计算。 111X类类神经网络和回归分析同,没有任何神经网络和回归分析同,没有任何假设的机率分布,是

10、模式识别和误差最假设的机率分布,是模式识别和误差最小化的过程,在每一次经验中提取和学小化的过程,在每一次经验中提取和学习信息。习信息。类神经网络可以处理连续型和类别型的类神经网络可以处理连续型和类别型的数据,对数据数据,对数据進行進行预测预测。jx1x2xnw1jw2jwnjyjPjf(Pj)jijjwPn n表示变量的个数表示变量的个数x xi i表示第i i个输入变量W Wijij表示第j j个神经元的第个神经元的第i i个变数的权重个变数的权重j j是第j j个神经元的阈值个神经元的阈值P Pj j表示第j j个神经元的组合个神经元的组合函数函数f f()是神经元的启动)是神经元的启动函

11、数函数y yi i=f(P=f(Pj j) )是第j j个神经元个神经元的输出值。的输出值。分类的原理分类的原理数据库数据库分类标记分类标记性别性别年龄年龄婚姻婚姻否否是是否否是是FemaleFemaleMaleMale35影碟(support=40%,confidence=66%)但是,购买影碟的无条件概率是75%60%!游戏机对影碟的影响是负面的!3、增益lift(.):增益是两种可能性的比较,一种是在已知购买左边商品情况下购买右边商品的可能性,另一种是任意情况下购买右边商品的可能性。lift(X21Y11) = P(Y11|X21) P(Y11) = 74.1% 65% = 9.1%一种

12、简单且实用一种简单且实用的的分类分类方法方法单纯贝氏分类器会根据训练样本,对于单纯贝氏分类器会根据训练样本,对于所给予测试对象的属性值所给予测试对象的属性值(a1,a2,a3,an)(a1,a2,a3,an)指派具有最高机率值指派具有最高机率值的类别的类别(C(C表示类别的集合表示类别的集合) )为目标结果。为目标结果。其中,假设一共有其中,假设一共有n n个学习概念的属性个学习概念的属性A1, A2, , AnA1, A2, , An,a1a1为为A1A1相对应的属性相对应的属性值值。应用Bayes公式 属性独立:属性独立: 2.2.预测推论新测试样本所应归属的类别预测推论新测试样本所应归属

13、的类别 贝氏定理:贝氏定理: 1.1.计算各属性的条件机率计算各属性的条件机率P(C=cj | A1=a1,P(C=cj | A1=a1, ,An=an),An=an)Sequence ClusteringSequence Clustering在找出在找出先后發先后發生生事物的关系,重点在于分析数据间事物的关系,重点在于分析数据间先后序列关系。先后序列关系。AssociationAssociation则是找出某一事件或资则是找出某一事件或资料中料中會會同时出現同时出現的状态,例如项目的状态,例如项目A A是某事件的一部份,则项目是某事件的一部份,则项目B B也出现也出现在该事件中的机率有在该事

14、件中的机率有a %a %。顾客通常在购买某类商品后顾客通常在购买某类商品后,经过一段经过一段時間時間,会再购买另一类商品,会再购买另一类商品例如例如: :租過租過黄飞鸿第一集黄飞鸿第一集,经过一段时,经过一段时间,通常会再间,通常会再租租黄飞鸿第二集黄飞鸿第二集,之后再,之后再租租黄飞鸿第三集黄飞鸿第三集例如例如: :买过买过“棉被、枕头、床单棉被、枕头、床单”之后,之后,经过一段时间经过一段时间 ,通常会再购买,通常会再购买“纸尿纸尿裤、奶粉裤、奶粉”例如例如: :购买购买打印机打印机的顾客,有的顾客,有80%80%的客户的客户在三个月内购买在三个月内购买墨水盒墨水盒。设定发现模式的时间间隔设定发现模式的时间间隔(interal,int)(interal,int)int=0,int=0,无时间间隔无时间间隔, ,找出严格连续的序找出严格连续的序列。列。DNADNA分析通常需要无时间间隔的连分析通常需要无时间间隔的连续序列。续序列。Min(interval) intMax(interval),Min(interval) intMax(interval),例如模式例如模式”某人租影片某人租影片A,A,可能可能3030天内租天内租影片影片B”B”表示表示,int 30,int 30。int=c 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论