版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘(Datamining)
数据挖掘(Datamining)
背景(Backgound)定义(define)流程[flow]联系与区别[connectionanddiffrence]成功案列[successfulcase]背景(Backgound)
The
manual
extraction
of
patterns
from
data
has
occurred
for
centuries.
Early
methods
of
identifying
patterns
in
data
include
Bayes'
theorem
(1700s)
andregression
analysis
(1800s).
The
proliferation,
ubiquity
and
increasing
power
of
computer
technology
has
dramatically
increased
data
collection,
storage,
and
manipulation
ability.
数据手动提取模式已有几百年的历史。识别数据中早期方法包括贝叶斯定理
(17世纪)和回归分析
(1800年)。计算机技术的扩散、普及和不断增强的力量极大地提高了数据的收集、存储和操作能力。简谈下贝叶斯公式贝叶斯公式就是个背锅公式,一个手术失败了,两个医生中不知道谁做的,开始选择背锅侠,a医生做掉了全部医院90%的手术,失败率20%,b医生做掉了全部医院10%的手术,失败率70%好的,那么谁来背锅呢a的背锅系数0.9*0.2=0.18
b的背锅系数0.1*0.7=0.07恭喜a医生获得72%的背锅权
恭喜b医生获得28%的背锅权这也就是为什么当前一架飞机出了问题之后,后一架最好不要坐。两者未必独立。。。。也许前一架的背锅的因素没有处理好。。。(转自知乎)
定义(define)
数据挖掘(Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。简言之,数据挖掘是一系列的处理过程,最终的目的是从数据中挖掘出你想要的或者意外收获的信息。数据研究高级科学家RachelSchutt将其定义为“计算机科学家、软件工程师和统计学家的混合体“上图展示了数据挖掘的众多应用领域所使用的十大算法谈谈pagerankPageRank是Google算法的重要内容。2001年9月被授予美国专利,专利人是Google创始人之一拉里•佩奇(LarryPage)。因此,PageRank里的page不是指网页,而是指佩奇,即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量,衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。简单流程数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识.
举个简单例子一、分析报告(选择)在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱来写一篇文章分析。孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环刀(参考水浒传史进武器)力量无穷。所以在大战开始三百回合时候不相上下,结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手。最后二郎神赢了。分析报告完成。
(转自知乎)
二、统计分析(预处理与转换)大圣二战杨戬。这次在二位大战之前做个数理统计来预测结果。首先根据历史样本史书记载发现两人在之前的五百年里打过100次,其中孙悟空赢60次。然后有记录显示,之前孙悟空和牛魔王战斗的胜率是80%,而杨戬斗牛魔王胜率是70%。所以可以得出综合预测总体胜率是孙悟空赢面大。结论依靠历史记录,使用样本预测总体,根据经验做出假设。统计分析完成。(转自知乎)
三、数据挖掘(挖掘与分析协同)孙悟空和杨戬终极决战。这次咱们根据两位的详细资料(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机通过数据清洗建模后发现:
贫苦出身的孩子一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。在都得到大师指点的情况下,贫苦出身的孩子可以利用后天的努力来弥补先天悟性的欠缺。样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。
(转自知乎)数据清洗(Datacleaning)对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。综上所述,我们可知道:
论出身两位大神不分伯仲。一个从石头出来,一个是凡人与神仙结合所生。悟空的师父菩提老祖(准提道人)和二郎神的师父玉鼎真人的师父元始天尊同为鸿钧老祖的高足所以前者更胜一筹。斗战胜佛战斗经验相对整日快活逍遥无忧无虑的二郎神来说更加丰富。另孙行者由于样貌原因始终单身(好伤感)。所以可以得出结论,这次大战孙悟空赢面大。数据挖掘完成。(转自知乎)
再谈谈数据挖掘是什么一个沙里淘金的过程NO.1DataMining和统计分析有什么不同?DataMining有相当大的比重是由高等统计学中的多变量分析所支撑较于传统统计分析而言,DataMining有下列几项特性:1.处理大量实际数据更强势,且无须太专业的统计背景去使用DataMining的工具;2.数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件,DataMining的工具更符合企业需求;3.纯就理论的基础点来看,DataMining和统计分析有应用上的差别,毕竟DataMining目的是方便企业终端用户使用而非给统计学家检测用的。NO.2数据仓库和数据挖掘的关系为何?若将DataWarehousing(数据仓库)比喻作矿坑,DataMining就是深入矿坑采矿的工作。数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据。但是,在转换及整合数据的过程,是建立一个数据仓库最大的挑战。数据仓库应该具有这些数据:整合性数据(integrateddata)、详细和汇总性的数据(detailedandsummarizeddata)、历史数据、解释数据的数据。数据仓库应先行建立完成,Datamining才能有效率的进行,因为数据仓库本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为DataMining是从巨大数据仓库中找出有用信息的一种过程与技术。NO.3OLAP能不能代替DataMining?OLAP(OnlineAnalyticalProcess)意指由数据库所连结出来的在线分析处理程序。有些人会说:「我已经有OLAP的工具了,所以我不需要DataMining。」事实上两者间是截然不同的,主要差异在于DataMining用在产生假设,OLAP则用于查证假设。所以在使用OLAP或其它Query的工具时,使用者是自己在做探索(Exploration),但DataMining是用工具在帮助做探索。简单例子之啤酒与尿布一市场分析师在为超市规划货品架柜摆设时,可能会先假设婴儿尿布和婴儿奶粉会是常被一起购买的产品,接着便可利用OLAP的工具去验证此假设是否为真,又成立的证据有多明显;但DataMining则不然,执行DataMining的人将庞大的结帐数据整理后,并不需要假设或期待可能的结果,透过Mining技术可找出存在于数据中的潜在规则于是我们可能得到例如尿布和啤酒常被同时购买的意料外之发现,这是OLAP所做不到的。现在,当你走进美国沃尔玛超市,你会发现一个奇怪的现象:
尿布和啤酒摆在一起销售这是因为沃尔玛通过数据分析发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。案例1
数据挖掘帮助CredilogrosCíaFinancieraS.A.改善客户信用评分
CredilogrosCíaFinancieraS.A.是阿根廷第五大信贷公司,资产估计价值为9570万美元,对于Credilogros而言,重要的是识别与潜在预先付款客户相关的潜在风险,以便将承担的风险最小化。Credilogros选择了SPSSInc.的数据挖掘软件PASWModelerCredilogros目前平均每月使用PASWModeler处理35000份申请。仅在实现3个月后就帮助Credilogros将贷款支付失职减少了20%.案例2
数据挖掘帮助DHL实时跟踪货箱温度
DHL是国际快递和物流行业的全球市场领先者,它提供快递、水陆空三路运输、合同物流解决方案,以及国际邮件服务。在美国FDA要求确保运送过程中药品装运的温度达标这一压力之下,DHL的医药客户强烈要求提供更可靠且更实惠的选择。这就要求DHL在递送的各个阶段都要实时跟踪集装箱的温度。因此,DHL的母公司德国邮政世界网(DPWN)通过技术与创新管理(TIM)集团明确拟定了一个计划,准备使用RFID技术在不同时间点全程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 塑料裤子产业链招商引资的调研报告
- 国际货运代理行业营销策略方案
- 使用在皮肤上的驱蚊剂产品供应链分析
- 废弃物资源化利用行业市场调研分析报告
- 电动绿篱修剪机产品供应链分析
- 维生素软糖细分市场深度研究报告
- 芥末罐商业机会挖掘与战略布局策略研究报告
- 牙膏细分市场深度研究报告
- 书包产品供应链分析
- 电源连接器市场发展前景分析及供需格局研究预测报告
- 康复治疗行业发展趋势
- 27.1.1 圆的基本元素 华师版九年级数学下册学案
- 辛亥革命之意义
- 实验1-接触角探测液法测定聚合物表面张力
- 小学冬至主题班会-弘扬传统情暖童心 课件
- 客服的职业规划书
- 部编版小学语文六年级上册《童年》阅读测试题及答案(全册)
- 风电场项目施工工程设备采购方案
- 国家开放大学《科学与技术》形考任务1-4参考答案
- 厂房泄爆面积计算
- 2023年全国中小学思政课教师网络培训研修总结心得体会
评论
0/150
提交评论