版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 Office 2007 数据挖掘外接程序DMC第一次讲课主讲人:韩钧指导老师:谢邦昌单位:厦门大学 计划统计系 06硕E-mail:bodethawMSN: 第1页,共29页。什么是DM?数据挖掘一般是指在数据库中,利用各种分析方法与技术,将过去所累积的大量繁杂的历史数据中,进行分析、归纳与整合等工作,以提取出有用的信息,找出有意义且用户有兴趣的模式(Interesting Patterns),为企业管理阶层的决策提供参考依据。第2页,共29页。SQL简介Microsoft SQL Server 2005 扩展了 SQL Server 2000 的性能、可靠性、可用性、可编程性和易用性。SQ
2、L Server 2005 包含了多项新功能,这使它成为大规模联机事务处理 (OLTP)、数据仓库和电子商务应用程序的优秀数据库平台。第3页,共29页。同学们近期会接触到的Analysis Services 引入了新管理工具、集成开发环境以及与 .NET Framework 的集成。许多新功能扩展了 Analysis Services 的 和分析功能。数据挖掘第4页,共29页。想要多了解SQL一点请先查看“开始菜单”SQL教程和在线丛书。下一周,来升强老师会为大家进行具体讲授第5页,共29页。Solution: Office 2007 数据挖掘外接程序不太懂数据库,能搞数据挖掘吗?第6页,共2
3、9页。Logistics regression 许多社会科学问题的观察,只是分而非续的。对于分问题时,线性回归就适用。第7页,共29页。第8页,共29页。因变量被看做离散型随机变量!Logistic Regression就是针对二元因变 ,即是1或0。常代表选择中的是与否。如果该随机变量的概率分布是 0 1( ,1- )则 被称作胜算比(Odds Ratio)第9页,共29页。 很多时候,自变量X对于 的影响服从logistic曲线,可以写成如下表达式现在我们要估计的是 与 这两个参数。请注意, 不能够解释成X变化一个单位,概率 变化的数量。第10页,共29页。 的意义是这样的 0, X与 正
4、相关 0, X与 负相关X增加一个单位, 的变化不是个常数,要用 来计算。 第11页,共29页。NeuralNetwork类神经网络类神经网络和回归分析不同,没有任何假设的机率分布,是模式识别和误差最小化的过程,在每一次经验中提取和学习信息。类神经网络可以处理连续型和类别型的数据,对数据進行预测。第12页,共29页。Backpropagation Neural Networks(BP神经网络)第13页,共29页。神经元的结构x1x2xnw1jw2jwnjyjPjf(Pj)n表示变量的个数xi表示第i个输入变量Wij表示第j个神经元的第i个变数的权重j是第j个神经元的阈值Pj表示第j个神经元的组
5、合函数f()是神经元的启动函数yi=f(Pj)是第j个神经元的输出值。第14页,共29页。決策樹(Decision Tree)分类的原理数据库分类标记性别年龄婚姻否是否是FemaleMale影碟(support=40%,confidence=66%)但是,购买影碟的无条件概率是75%60%!游戏机对影碟的影响是负面的!3、增益lift(.):增益是两种可能性的比较,一种是在已知购买了左边商品情况下购买右边商品的可能性,另一种是任意情况下购买右边商品的可能性。lift(X21Y11) = P(Y11|X21) P(Y11) = 74.1% 65% = 9.1%第22页,共29页。Nave Bay
6、es Classifer一种简单且实用的分类方法单纯贝氏分类器会根据训练样本,对于所给予测试对象的属性值(a1,a2,a3,an)指派具有最高机率值的类别(C表示类别的集合)为目标结果。其中,假设一共有n个学习概念的属性A1, A2, , An,a1为A1相对应的属性值。第23页,共29页。应用Bayes公式 属性独立: 2.预测推论新测试样本所应归属的类别 贝氏定理: 1.计算各属性的条件机率P(C=cj | A1=a1,An=an)第24页,共29页。Sequence ClusteringSequence Clustering在找出先后發生事物的关系,重点在于分析数据间先后序列关系。Ass
7、ociation则是找出某一事件或资料中會同时出現的状态,例如项目A是某事件的一部份,则项目B也出现在该事件中的机率有a %。第25页,共29页。顾客通常在购买某类商品后,经过一段時間,会再购买另一类商品例如:租過黄飞鸿第一集,经过一段时间,通常会再租黄飞鸿第二集,之后再租黄飞鸿第三集例如:买过“棉被、枕头、床单”之后,经过一段时间 ,通常会再购买“纸尿裤、奶粉”例如:购买打印机的顾客,有80%的客户在三个月内购买墨水盒。第26页,共29页。设定发现模式的时间间隔(interal,int)int=0,无时间间隔,找出严格连续的序列。DNA分析通常需要无时间间隔的连续序列。Min(interval) intMax(interval),例如模式”某人租影片A,可能30天内租影片B”表示,int 30。int=c 0,具有确定间隔的模式。例如搜索”每次道琼指数下降超过5%,两天后可能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年高一教学工作计划(7篇)
- 小型机械、工器具安全管理制度模版(2篇)
- 2021年10月广西南宁市青秀区委政法委公开招聘应急队员模拟卷(一)
- 某村村民自治制度模版(3篇)
- 组长、副组长安全管理职责模版(3篇)
- 物业区域经理岗位职责范文(2篇)
- 2024年学校学年度校本培训工作总结范例(3篇)
- 2024年协会竞选演讲稿范例(2篇)
- 2024年小学语文教师教学工作总结例文(2篇)
- 《预制菜加工合同》
- 混料机的安全操作规程有哪些(8篇)
- 期中 (试题) -2024-2025学年译林版(三起)英语六年级上册
- 2024年杭州市房产交易产权登记管理中心招考高频难、易错点500题模拟试题附带答案详解
- 2024秋期国家开放大学《财务报表分析》一平台在线形考(作业一至五)试题及答案
- 国家基本医疗保险、工伤保险和生育保险药品目录(2023年)
- 《深度学习入门-基于Python的实现》 课件全套 吴喜之 1-9 从最简单的神经网络说起- -TensorFlow 案例
- 年产80万件针织服饰技改项目可行性研究报告写作模板-申批备案
- 城市公益公墓区建设方案
- 第七单元测试卷-2024-2025学年语文三年级上册统编版
- 智能网联汽车电子电气架构产业技术路线图
- 1输变电工程施工质量验收统一表式(线路工程)-2024年版
评论
0/150
提交评论