数据挖掘课后习题_第1页
数据挖掘课后习题_第2页
数据挖掘课后习题_第3页
数据挖掘课后习题_第4页
数据挖掘课后习题_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精品文档(实验项目)DBLP数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中,很多作者都有合著关系。(a)提出一种方法,JS掘密切相关的(即,经常一起合写文章)合著者关系。解决问题的大致过程:1. DBLP数据集是一个XML文件,先对XML文件解析,得到一个超过1G的TXT 文件,处理文件数据格式,并截取前 20000行数据,格式如下图:fLllcr,%CiatkEr 就*上知 LdnerLdzatidiSj Slde PettovSlci,力nw弓.osspt 白.Kcng, f.yli 坟眼3 Jur;也 Ksj.erid*oii List, test 笈Hi羽uiir

2、 1忙山 Korea,也riig 侬二口打:占£口上口上占?D-lLlhg 比已也 ChfiE-Tje Tsair Yaz-Nn Chen, Ku-,Chlifl <3ituF tJlu二-Llarg L. 士人叫-日的 Tsa Kjau-R-i WaH Yli-比匕叫 Ckou, C-utc-Yi Li, ifei- UfiKaDdru Niculesai-Hiulr CUudLi Perlidij Ctzegori Swluscz* Vllus dindbnuir Ym Liif Pn 皿yille. Doog Ku)g,Jiig XiH> Jluyin .iiiji

3、ji iie, Viit iria ?.kjvar地占;比 州 _ Jtcpli*;1i;ang Liatg, Eric Sie41f Valery k. retnisiia, Jiddhai:k Pal, :a:b SpoelstraMldUBl趾UHf TtfyzlierTsduelle Guyuru Vint-.nt Launi Mm Ml电 Guinn DftcrJ David wgelJiitrm 必:虹匚士roil,融:式士叫 皿* Cirss udLifg一力把其叫汽,品加上明口白二irn 匕上船1% d;;二口虹. z配.空emd ;迩iLciael .'atrir,

4、Ar.irtas TscAtr阿belt Busa-RiE% 3】虹!i 奋g】Sung-Yi Lfit Eai-tki 二3立 E匕叫-T非 Chen, iMung-肥i±n 二h:明,"JiLSi-Sung Rrngf Cht Jiii 也iwit, Yi-Kii=ng Kt, Tsung-Ting R5 Hng. rJkladimr Hi如lin, Seofirej J- McLdcfclJti欧加 独配小Tianqi 曰能,物tUji甘七 Li明tng fang犹口1,g明 丸2.使用FP-Tree算法,设置支持度为3,得到的满足条件的频繁项集如下图:Hans-Pe

5、ter Kriegel null null Erich Schubert 3CTalal Mahmud Jeffrey Nichols i7ohn 0T Donovan 3Vai Tannen Todd J. Grumu3Wei Han Ling Liu Wei Ting 3Guido Hoerkatte Thortis Neumann COOL 4Marees也:艮二茅Gg莽Wer Fan Haixun Wang 3 _ ' a.aIves Plvel Calado Yuxin Chen 3Qcnzalc Navarro Antonio Faiga3Evunarift Terzi K

6、un Liu3Ran Kohavi Dan Sorauerfield3Jiliang Tang Xia Hu 3Confl Yu Siherr. Aner-Yahia javtarr Das Senjuti Basu Roy3David A. Ge口smma门 Ophir Friad&r Abdur Chowdhuz/ Staves M* BeitzelQifan Wang Luo Si Zhiwei Zhang3Mana Lui3a Spxno K Seljuk Candan Yan Qi 00023Xueqi Cheng Bin Wanj 3Ophir Frieder null &

7、#163;ric C, Jensen 7null Alan J. Demers 5Minlie Huang Weichang Li3Wei Wang 0010 Jlong Yang3Gusfei Jiang Kenj i Yosbihira 3Giuseppe Rizzo 0002 Ja茅工ui吕 Redondo- Garcftla3Wenfei Fan Shuai Ma 3kick N, Choudhary ¥i Cheng Dtniel Hanbo tfen-Syan Li iSang-Pi二 Ms二ung Oliver PdWynne Hsu Bing Liu 0301 Vis

8、ing Ma 6 Jian-Tao Sun Dou She Matthew O. Ward Di Yancf33_HacigBr.'.JSsMatthew o. Hird D二 YangYun Chi Shenghuo Zhu HakanHiroyuJcl KitQawa Toshiynkri Magasa 3Fei Wang Wenwu Zhu 00013OjLmg He Xiaoming Li Hongfei Yaji3Hozigyv好 Sha G。工 Hon 5gTEnine Yilnei Evangelc3 Kanoulas63. Sudarahan 0001 Arvind J

9、iulaeri 3Jfenfei Fan Floris Geeits5Cavrlee Michelle ¥ Zhou 3 Cclm O'Ricrdan Gabriella Pasi A Ni Nang COO 9 Jideng dien 3Caetano Tzaina Jr * Rofcson Le nard.0 Ferreira CcrdeiroEclle L, Taeng Xiaodan 5ong Ming-Iiag 5on 3 H - V. Jgadisti Dive ah Srivastava La k:s V. S. LaEmurananK5i-We Sorrier

10、 Manfred HauswiTth. Reman SchiLidu 3Ning Liu null Bstitu Zhang 3Maicc Czristti Weigua Fan Ed'Waid A. Pcx. Yu_xin. CThen 3Enhong Chen Huanhxian Cao5Chri3tor?icr R茅 Ce Zhan?3Shinichi Hon5hira Takeshi TofcuyaicaqJun Yan Lei Ji7David Maier David Scott Warren42cra* 0E土皂壮白中2。 Vladari Radflsavlj*vie 3S

11、fvfel Tec Xiaokui Kia口6说明:以上结果只是一部分,由于数据集很庞大,限于篇幅,不便全部展示(b)根据挖掘结果和本章讨论的模式评估度量,讨论哪种度量可能比其他度量更令人信服地揭示紧密合作模式关于作者A(Dimitris Papadias)和作者B(Yufei Tao)的2>2的相依表(显示期望 值)Yufei Tao非(Yufei Tao )和DimitrisPapadias26(0.0045)60(86)86非(DimitrisPapadias)59(84.9955)1609994(1609968)1610053和85161005416101391 .使用提升度的相

12、关分析P(A) = 86/1610139 = 5.28e -5P(B) = 85/1610139 = 5.28e -5P(A,B) = 26/1610139 = 1.61e -5提 升度为 P(A,B)/(P(A)>P(B)=1.61e -5/(5.28e-5 >5.28e-5)=57752 .使用I进行相关分析X = (26-0.0045 ) 2/0.0045 + (60-86) 2/86 + (59-84.9955 ) 2/84.9955+ (1609994-1609968) 2/1609968 = 1502383 .全置信度P(A|B) = 26/85 = 0.306P(B|

13、A) = 26/86 = 0.302all_conf(A,B) = minP(A|B),P(B|A) = 0.3024 .最大置信度max_conf(A,B) = maxP(A|B),P(B|A) = 0.3065 . KulczynskiKulc(A,B) = 1/2 *(P(A|B)+P(B|A) = 0.3046 .余弦Cosine(A,B) =P(A|B) >P(B|A) = 0.304比较6种模式评估度量:上述6种模式评估中,提升度和 。的计算受零事务的影响很大,在上面的 例子中,AB表示零事务的个数。一般,零事务的个数可能大大超过个体购买的 个数,因为,A和B发表过的论文相对

14、于整个数据库中的论文总数,是很小的一 部分。其他四个度量很好地消除了 AB的所h由于上述例子中P(A|B)和P(B|A) 近似相等,导致四种评估度量(全置信度,最大置信度,Kulczynski ,余弦)结果 3欢在下载精品文档也近似相等,但如果P(A|B)和P(B|A)相差很大,例如P(A|B)>>P(B|A),则根 据全置信度的结果,得出的结论可能是负相关,根据最大置信度的结果,得出的 结论却是正相关,而根据 Kulczynski和余弦的结果,则两者被视为中性。(c)基于以上研究,开发一种方法,它能粗略地预估导师和学生的关系,以及这种指导的周期1 .根据经验,我们知道,学生发表的论文上往往会署导师的名字,而导师的论 文上却不一定有学生的署名,或者说导师发表过的论文要远比学生多,我们可以设置两个参数30和5,例如,作者A和B满足频繁项集的要求,并且 A发表过 的论文不小于30篇,B发表过的论文不超过5篇,则我们可以认定A为导师,B 为学生。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论