



版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、(完整)数据挖掘感想(完整)数据挖掘感想 编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望((完整)数据挖掘感想)的内容能够给您的工作和学习带来便利。同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快 业绩进步,以下为(完整)数据挖掘感想的全部内容。数据挖掘感想通过学习一个学期的数据挖掘课对数据挖掘有了一定的理解,也掌握了,理解了一些数据挖掘中用到的重要的算法.在这个数据膨胀的大数
2、据时代我们需要筛选,查询数据,处理数据。我们看到的听到的都是数据,在这互联网时代数据更多,信息很多。但是有些网站比如百度,谷歌,雅虎等为我们的学习生活带来了很多便利。我们为了更正确更有效的利用和处理数据必须要利用数据挖掘技术,因为有了这技术我们以后的数字化生活变得更方便,不会因为数据多,信息多而感到反感.所以我真正的体会到了数据挖掘的优越性。同时我学习一些算法过后也感觉到了其复杂性,因为数据挖掘算法众多,掌握起来比较困难。我们主要学习了贝叶斯分类算法,决策树分类算法等算法,这些是比较简单并且利用比较广泛的算法。也学习了数据的概念,数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。
3、我们首先收集大量的数据然后对此进行数据描述分类数据,然后优化净化数据,并对此进行分类整理,保存查询,搜索数据等。贝叶斯算法:贝叶斯分类基于贝叶斯定理,贝叶斯定理是由18世纪概率论和决策论的早起研究者thomas bayes发明的,故用其名字命名为贝叶斯定理.分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也已表现出高准确率和高速度。 目前研究较多的贝叶斯分类器主要有四种,分别是:naive bayes、tan、ban和gbn。朴素贝叶斯分类是一种十分简单的分类算法,思想基础是这样的:对于给出的待分类项,
4、求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类。贝叶斯定理(bayes theorem)是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法. 通常,事件a在事件b(发生)的条件下的概率,与事件b在事件a的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。 贝叶斯公式提供了从先验概率p(a)、p(b)和p(b|a)计算后验概率p(a|b)的方法:p(a|b)=p(b|a)p(a)/p(b) ,p(ab)随着p(a)和p(b|a)的增长而增长,随
5、着p(b)的增长而减少,即如果b独立于a时被观察到的可能性越大,那么b对a的支持度越小. 举例:一个天气估计问题 两个假设h: h1=晴天、h2=非晴天 可观察到的数据:温度高+和温度低- 先验知识p(h) 北京晴天的概率0.99: p(h1)=0.99 非晴天0.01: p(h2)=0.01 观察到的概率p(d|h): p(温度高 | 晴天) = 0。85 p(温度低 | 非晴天) = 0。93 问题:现在观察到温度低,判断是否非晴天? 极大似然计算l p(非晴天 温度低) p(温度低非晴天) = 0.93l p(晴天 温度低) p(温度低晴天) = 0.15l 答案:非晴天决策树:决策树:
6、训练集:数据的集合,用于生成树(模型)测试集:用于测试树(模型)的性能决策树作用:主要就是训练数据除去脏数据l 通过训练集l 算法指导下l 生成决策树l 新数据进行划分l 否则是“三拍”决策n个分割属性的训练集l 种决策树方案哪个好?怎么生成好的?数据大量产生,技术的成熟提供基础数据大量产生这一点就不用说了,看看我们每个人一天的生活里会有多大的比例泡在网上,再加上未来各种可穿戴设备,物联网的普及,数据量之大难以想象。我主要想谈谈技术,也许技术这个词不够专业,自己在编程,数据存储方面也不是特别了解,这里就说说算法这一部分。记得原先在数据结构和算法一开篇就提到关于等差数列求和的计算机求和计算,我们
7、从小就知道等差数列的求和可利用算法公式,该算法利用了首尾两个数据和是一样的数据结构特征从而更简洁.告诉计算机进行求和命令可以是两种方法 1.一项项的加,2.直接利用算法,利用第一个方式可能在数据量少的时候计算速度与第二种相比不会有太大的差异,但如果数据量很大,后者的优越性将很明显。后来在接触到apriori算法时候里用看到算法会用到一些剪枝手段减少计算机运算量的时候忍不住拍案叫绝。另外,各式各样的统计软件的背后都有着大量的contributors将自己的算法程序包分享到网上,供后来人更便捷的调用使用。互联网的这种集体智慧的共享创造方式让后来人站在前人的肩膀上,走的更远.但是在调用这些算法的过程
8、中还是要对算法本身有一些原理上的理解,算法和数据结构是钥匙和锁,我们在实际操作的过程中还需要根据具体的情况灵活和适当的使用,会在后面的分享里细说。信息也是产品许多公司所拥有的客户信息不仅仅对自己有价值,同时对他人也同样具有价值。如今很多的淘宝店铺之间也有了很多的消费者数据的共享。互联网也改变了品牌和品牌之间的关系,一个拥有很多青少年儿童数据的公司完全可以将自己的数据分享给做儿童食品的公司,或者更进一步,分享彼此所拥有的平台.2。数据挖掘 for “actionableinsightsdiscovery数据挖掘有很多不同的名称,例如kdd(knowledge discovery in datab
9、ase),或者bi(businessintelligence),预测建模(predictive model)等,但针对我们业务感受,我更愿意把数据挖掘定义为发现能够让品牌商产生真正落地行为的洞察或发现。以下举两个在项目中的小例子:在电商的数据挖掘中,我们通过对消费者的表达研究了解消费者购买产品的关注重点是什么,影响产品满意度的重要因素是什么,其次我们会对消费者的线上购买行为数据进行研究,去看消费者购买除了买自己品牌的商品同时还会购买哪些竞品品牌.结合这表达和行为的洞察,再深入探究竞品的商品展示,宣传,品牌形象,等等各方面和本品之间的差异点.这样品牌商在电商运营中更能有方向性的去改进产品和消费者之间的沟通方式。所以,数据挖掘是在一项探测大量数据以发现有意义的模式和规则的业务流程,我们关注的重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公家车库出售合同标准文本
- 买叉车合同标准文本
- 农业借款合同样本
- 代储代销合同标准文本
- 00后创业项目合同标准文本
- 公司租土方车合同标准文本
- 停车合同标准文本
- 个人戒指转让合同样本
- 个体法人转让合同范例
- 保险合同样本
- TSG+23-2021气瓶安全技术规程
- DB32T3748-2020 35kV及以下客户端变电所建设标准
- 中华民族共同体概论课件专家版6第六讲 五胡入华与中华民族大交融(魏晋南北朝)
- 2024年02月中国人民银行郑州培训学院招考聘用12人笔试近6年高频考题难、易错点荟萃答案带详解附后
- 新生儿红斑狼疮
- 2024年山西经贸职业学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 肝恶性肿瘤教学查房课件
- 正大镀锌钢管检测报告
- 门球技、战术教学讲
- 2.2气体的等温变化公开课
- 产品供货方案、售后服务方案
评论
0/150
提交评论