下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘感想通过学习一个学期得数据挖掘课对数据挖掘有了一定得理解,也掌握了,理解了一些数据挖掘中用到得重要得算法 .在这个数据膨胀得大数 据时代我们需要筛选,查询数据 ,处理数据 .我们瞧到得听到得都就是 数据 ,在这互联网时代数据更多 ,信息很多。但就是有些网站比如百度, 谷歌 ,雅虎等为我们得学习生活带来了很多便利 .我们为了更正确更有 效得利用与处理数据必须要利用数据挖掘技术, 因为有了这技术我们 以后得数字化生活变得更方便, 不会因为数据多 ,信息多而感到反感。 所以我真正得体会到了数据挖掘得优越性。 同时我学习一些算法过后 也感觉到了其复杂性 ,因为数据挖掘算法众多 ,掌握起来比较困
2、难。 我们主要学习了贝叶斯分类算法 ,决策树分类算法等算法,这些就是 比较简单并且利用比较广泛得算法。也学习了数据得概念,数据理解包括收集原始数据、 数据描述、 数据探索分析与数据质量描述。 我们 首先收集大量得数据然后对此进行数据描述分类数据,然后优化净化数据 ,并对此进行分类整理,保存查询 ,搜索数据等 .贝叶斯算法 :贝叶斯分类基于贝叶斯定理,贝叶斯定理就是由18世纪概率论与决策论得早起研究者 Tho mas Bayes发明得,故 用其名字命名为贝叶斯定理。 分类算法得比较研究发现, 一种称为朴 素贝叶斯分类法得简单贝叶斯分类法可以与决策树与经过挑选得神 经网络分类器相媲美。用于大型数据
3、库 ,贝叶斯分类法也已表现出高 准确率与高速度。 目前研究较多得贝叶斯分类器主要有四种 ,分别就 是:N aiv e Baye s、TA N、BAN 与 GBN。朴素贝叶斯分类就是一种十分简单得分类算法,思想基础就是这样得:对于给出得待分类项,求解在此项出现得条件下各个类别 出现得概率,哪个最大,就认为此待分类项属于哪个类。贝叶斯定理(Bayes' th e o r e m)就是概率论中得一个结 果,它跟随机变量得条件概率以及边缘概率分布 有关。在有些关于概 率得解说中,贝叶斯定理能够告知我们如何利用新证据修改已有得瞧 法。通常,事件A在事件B(发生)得条件下得概率,与 事件E在事件A
4、得条件下得概率就是不一样得;然而,这两者就是有确 定得关系,贝叶斯定理就就是这种关系得陈述。贝叶斯公式提供了从先验概率 P(A )、P(B)与P(B|A)计算后 验概率 P (A| E)得方法:P(A| B )= P ( B|A)* P(A )/P( B) ,P(A| B)随着P(A)与 P( B| A)得增长而增长,随着P(B得增长而减少,即如果 B独立于A时被观察到得可能性越大,那么 B对A得支持度越小。?举例:一个天气估计问题?两个假设H: h 1=晴天、h2 =非晴天?可观察到得数据:温度高+与温度低-?先验知识p(h)? 北京晴天得概率0、99: P(h1 )=0、非晴天 0、01:
5、P(h2 )=0、0 1?观察到得概率P(D| h)? P (温度高 丨晴天)二0、85? P (温度低|非晴天)二0、93?问题:现在观察到温度低,判断就是否非晴天??极大似然计算P(非晴天|温度低)* P (温度低|非晴天)=0、9 3 P(晴天|温度低)* P (温度低|晴天)=0、15答案:非晴天决策树:决策树:训练集:数据得集合,用于生成树(模型)测试集:用于测试树(模型)得性能决策树作用:主要就就是训练数据除去脏数据通过训练集算法指导下生成决策树新数据进行划分否则就是三拍"决策N个分割属性得数据大量产生,技术得成熟提供基础有多大得比例泡在网上,再加上未来各种数据大量产生这
6、一点就不用说了*瞧瞧我们每个人一天得生活里会数据量之大难以想象。我主要想谈谈技术,也许技术这个词不够专业;自己在编程,数据存储方面也不就是特别了解 ,这里就说说算法这一部分.记得原先在数据结构与算法与得计算机求与计算; 式哪个利好?尾两个我们从小就知卜数据与就是一开篇就提到关于等差数列求I道怎差么列生与成用算得?样得数据结构特征从而更简洁。告诉计算机进行求与命令可以就是两种方法1、一项项得加;2、直接利用算法,利用第一个方式可能在数据量少得时候计算速度与第 二种相比不会有太大得差异,但如果数据量很大,后者得优越性将很 明显。后来在接触到A pri o r i算法时候里用瞧到算法会用到一些剪 枝
7、手段减少计算机运算量得时候忍不住拍案叫绝。另外,各式各样得统计软件得背后都有着大量得co n trib utors将自己得算法程序包分享到网上;供后来人更便捷得调用使用。 互联网得这种集体智慧得共享创造方式让后来人站在前人得肩膀上 走得更远。但就是在调用这些算法得过程中还就是要对算法本身有一 些原理上得理解;算法与数据结构就是钥匙与锁;我们在实际操作得 过程中还需要根据具体得情况灵活与适当得使用,会在后面得分享里细说.信息也就是产品许多公司所拥有得客户信息不仅仅对自己有价值,同时对她人也同样具有价值。如今很多得淘宝店铺之间也有了很多得消费者数据得 共享。互联网也改变了品牌与品牌之间得关系,一个
8、拥有很多青少年儿童数据得公司完全可以将自己得数据分享给做儿童食品得公司,或者更进一步,分享彼此所拥有得平台.2、数据挖掘 f o r “ actions ble ” ni s ig ht s discovery数据挖掘有很多不同得名称,例如KDD (kn ow le d ge dis cov e ry in da t a ba s e),或者 Bl(bu s in ess in t e 1 li g ence ), 预测建模(p r edi ct iv e model)等,但针对我们业务感受,我更 愿意把数据挖掘定义为发现能够让品牌商产生真正落地行为得洞察 或发现。以下举两个在项目中得小例子:在电商得数据挖掘中,我们通过对消费者得表达研究了解消费者 购买产品得关注重点就是什么,影响产品满意度得重要因素就是什么 其次我们会对消费者得线上购买行为数据进行研究,去瞧消费者购买 除了买自己品牌得商品同时还会购买哪些竞品品牌.结合这表达与行为得洞察,再深入探究竞品得商品展示,宣传,品牌形象,等等各方面与 本品之间得差异点.这样品牌商在电商运营中更能有方向性得去改进 产品与消费者之间得沟通方式.所以,数据挖掘就是在一项探测大量数据以发现有意义得模式与 规则得业务流程,我们关注得重点在于发现得知识就是否有意义,就 是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班级户外策划方案
- 石河子大学《园林工程制图》2021-2022学年第一学期期末试卷
- 房屋维修协议书范本(11篇)
- 石河子大学《跨文化传播》2023-2024学年第一学期期末试卷
- 沈阳理工大学《数字图像处理》2022-2023学年期末试卷
- 沈阳理工大学《俄罗斯文学史》2022-2023学年第一学期期末试卷
- 沈阳理工大学《超精密制造工程》2023-2024学年第一学期期末试卷
- 国家工商总局 建设工程勘察合同
- 合伙人招募合同
- 2024高考政治一轮复习第三单元发展社会主义民主政治第六课我国的人民代表大会制度课时作业含解析必修2
- 2024年企业数据存储与安全服务合同
- 2022年北京市公务员录用考试《行测》真题及答案解析
- 江苏省泰兴市2024-2025学年高三上学期期中考试语文试题(含答案)
- 家长会教学课件
- 律师事务所律师事务所风险管理手册
- 2024年消防宣传月知识竞赛考试题库500题(含答案)
- 国开2024年秋《机电控制工程基础》形考任务1答案
- 2024年典型事故案例警示教育手册15例
- 高一历史(中外历史纲要上册)期中测试卷及答案
- 20K607 防排烟及暖通防火设计审查与安装
- 一氧化碳中毒培训课件
评论
0/150
提交评论