数据挖掘的统计限制_第1页
数据挖掘的统计限制_第2页
数据挖掘的统计限制_第3页
数据挖掘的统计限制_第4页
数据挖掘的统计限制_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二节数据挖掘的统计限制一、整体情报预警二、邦弗朗尼原理三、邦弗朗尼原理的例子1、事件:

2002年,美国布什政府提出了针对所有可获得的数据进行挖掘的计划,目的用于追踪恐怖活动。这些数据包括信用卡收据、酒店记录、旅行数据以及许多其他类型的情报。一、整体情报预警Totalinformationawareness(TIA)2、缺陷:

寻找了许多关联模糊的数据,显然会得出虚假的结果因此侵犯无辜者的隐私。

①通过浏览大量的数据,并想从中发现疑似的恐怖行为,是否会找出很多无辜行为。

②是否会找出虽然非法但不是恐怖行为的行为。

③这些最终结果的发现是否会导致警察登门造访甚至更糟糕的情形。二、邦弗朗尼原理1、非正式阐述:可帮助我们避免将随机出现看成真正出现。

假定人们有一定量的数据并期望从中找到某个特定类型的事件。即使数据完全随机,也可以期望该类型事件发生。任何随机数据往往都会有一些不同寻常的特征,这些特征看上去虽然很重要,但实际上并不重要,除此之外,别无他由,这个意义上而言,这些事件的出现纯属“臆造”。

在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,他们是在统计上出现的假象,而不是你所寻找事件的凭证。二、邦弗朗尼原理2、原理:

在考察数据时,如果将某些对象视为数据的有趣特征,而这些对象中的许多都可能会在随机数据中出现,那么这些显著的特征就不可依赖。对于那些实际中并不充分罕见的特征来说,上述观察结果限制了从这些数据特征中进行挖掘的能力。3、作用:对数据挖掘的过度使用进行警告。三、邦弗朗尼原理的例子1、数据挖掘的目标:

确信在某个地方有一群恶人,目的是找出这群恶人。我们有理由相信这些恶人会定期在某个宾馆聚会商讨作恶计划。2、数据的有趣特征:恶人在两个不同日子入住同一宾馆。3、假设:(1)恶人数目可能有10亿(2)每个人每100天当中会有一天去宾馆(3)一个宾馆最多容纳100个人。因此10

万个宾馆足够容纳10亿人中的1%也

就是1000万人在某个给定的日子入住宾馆。(4)我们将对1000天的宾馆入住记录进行

核查。4、是否能推断某两人可能是恶人:(1)假设没有恶人,则每人去宾馆的概率为0.01,且是随机地从10万个宾馆中选择一个。(2)给定某天,任意两人决定去宾馆的概率:0.0001(3)给定某天,两人同时入住同一宾馆的概率:0.0001/105=10-9

(4)任意给定不同两天,两人入住同一宾馆的概率:10-9的平方,即10-18上述推理中,只需要两人两次中每次住的宾馆相同即可,不需要两次都是同一宾馆。5、事件出现多少次表明作恶事件发生:事件:两个人在两天中的每一天入住相同宾馆。(1)10亿人中的人员组对个数:(2)1000天内任意两天的组合个数:(3)疑似作恶事件的期望数目:6、结果:大概25万对人员疑似恶人,即使他们根本不是。假定实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论