数据挖掘感想_第1页
数据挖掘感想_第2页
数据挖掘感想_第3页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖ng感想通it学习一个学期的数据挖損课对数据弦損有了一定的理解,也学握 了,理解了一些数据挖II中用封的重要的算法。在这个数据燼胀的大 数据时代我0需要筛选,査询数据,处理数据。我们看對的听到的都 是数据,在这互联网时代数据更多,信息很多。但是有些比方百度, 谷歌,雅脫等为我们的学习生活带来了很多便利。我竹为了更正爾更 有效的和用利处理数据必须要利用数据挖損技术,因为有了这技术我 们以后的数字化生留变得更方便,不会因为数据多,信息多而感到反 廉。所以我真正的体会到了数据挖損的优越牲。同时我学习一些算法 it后也感觉到了其复杂牲,因为数据挖拥算法众多,掌握起来 难。我们主要学习了贝叶斯分类

2、算法,决策粉分类算法等算法,这些是比 «1简单并且利用比81广泛的算法。也学习了数据的椽念,数据理解包 括收集原始数据、数据描號、数据探索分析和数据质量描述。我们首 先收集大量的数据热后对lit进展数据描述分类数据,於后优化净化数 据,并对此进展分类整理,保存査询,8!累数据等。贝叶斯算法:贝叶斯分类基于贝叶斯定理,贝叶斯定理是由 18世纪«1率堆和决策论的早起研究者Thomas Bayes创造的,故用其 名字命名为贝叶斯定理。分类算法的比抑研究发现,一种称为朴素贝 叶斯分类法的简单贝叶斯分类法可以与决策粉和经过挑选的神经网 络分类器相媲美。用于大塑数据库,贝叶斯分类法也巳

3、表现出高准爾 率利高速度。目甫研究较多的贝叶期分类器主翌有四种,分别是: Naive Bayes、TAN、BAN 利 GBNO朴素贝叶斯分类是一种十分简单的分类算法,思想根底是这 样的:对于给出的待分类顶,求解在现的条件下各个类别出现 的様率,那个最大,嘉认为此待分类项属于那个类。贝叶斯定理Bayes* theorem)是楡率抡中的一个结果,它iU解中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。通常,事件A在事件B发生的条件下的樣率,与事件B 在事件A的条件下的樣率是不一样的;然而,这两者是有确定的关 系,贝叶斯定理就是这种关系的述。贝叶斯公式提供了从先验様率P(A)、P(B)和P(

4、B|A)it算后骏 様率 P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B) ,P(A|B)H 着 P(A)和 P(B|A) 的増长而増长,随着P(B)的増长而械少,即如果Bit立于A时彼现 赛到的可能性繭大,那么B对A的支持度越小。»举例:一个天气估廿冋題两个假设H:阳=睛天、h2=非晴天可现察到的数据:富度高+和富度低-先验知识P(h)晴天的杨率 0.99: P(h1)=0.99非晴天 0.01: P(h2)=0.01观察到的様率P(D|h): P(富度髙I晴天2085 P(富度低I非晴天2093冋题:现在现祭到富度低,判断是否非晴天?»根大似然廿算 P

5、(非晴天I富度低)* poa度低i非晴天)= 0.93 P(晴天I富度低)oc P(富度低I晴天)= 0.15答案:非晴天决决策朋:圳练集:数据的集合,用于生成粉模型需试集:用于滇试粉模塑的性能决策的作用:主要就是圳练数据除去脏数据通过圳练集算法指导下生成决策粉新数据进展刘分否朋么是“三拍"决策数摒大量产生,技术的成熟提供根底数据大量产生这一点就不用说了,看看我们毎个人一天的生活里 会有多大的比例泡在网上,再M上未来各种可穿勲设备,物联网的普 及,数据量之大难以想象。我主要想炭炭技术,也幷技术这个词不够 专业,自己在编程,数据存储方面也不是特别了解,这里就说说算狀 这一局部。记得原先

6、在?数据构览和算址? 一开篇就提到关于等差数列 求和的廿算机求和廿算,我竹从小就知道等差数列的求和可利用算迭 公式,该算法利用了首尾两个数据和是一样的数据构造特征从而更简 洁。告诉廿算机进展求和命令可以是两种方迭1一顶項的加,2直接 利用算法,利用第一个方式可能在数据量少的时候廿算速度与第二种 相比不会有太大的差异,但如果数据量很大,后者的优越牲將很明显。 后来在接)1到Apriori算法时候里用看到算法会用到一些剪枝手段械 少廿算松运算量的时候忍不住拍案叫经。另外,各式各样的筑廿段件的背后蜀有着大量的contributors » 自己的算袪程序包分享到网上,供后来人更便捷的调用使用

7、。互联网 的这种集体智蕙的共享创造方戒it后来人站在前人的肩膀上,走的更 iaoffl是在坍用这些算法的过程中还是要对算法本身有一些原理上的 理解,算法和数据构造是钥匙和锁,我们在实际操作的过程中还需要 根据具体的惰况灵活和适当的使用,会在后面的分享里细说。信息也是产品幷多公司所拥有的客户信息不仅仅对自己有价值,同时对他人也 同祥具有价值。如今很多的富宝店舗之间也有了很多的消费者数摇的 共享。互联网也改变了品牌和品牌之间的关系,一个松有很多青少年 儿童数据的公司完全可以将自己的数据分享给做儿童食品的公司,或 者更进一步,分享披it所拥有的平台。2数据挖拥 for actionable"

8、; insightsdiscovery数据挖損有很多不同的名称,例如KDD(knowledge discovery in database),或者 Bl(businessintelligence),预滇建模(predictive model) 等,但针对我们业务感受,我更愿意ft!数据挖損定义为发现能够址品 牌商产生真正落地行为的爲察或发现。以下举两个在工程中的小例 子:在电商的数据挖#1中,找们通ii对消贵者的表达研究了解消贵者 购置产品的关注重点是什么,影喑产品满意度的重要因素是什么,其 次我们会对消贵者的线上购置行为数据进展研究,去看消费者购置除 了买自己品牌的商品同时还会购置耶些克品品牌。结合这表迭和行为 的爲察,再深入探究竞品的商品展示,宜传,品牌形象,等等各方面 和本品之间的差异点。这样品牌商在电商运营中更能有方向性的去改 良产品和消费者之间的沟通方衣。所以,数据挖#1是在一映探濃大量数据以发现有意义的模式和規 那么的业务流程,我们关注的重点在于发现的知识是否有意义,是否 actio

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论