Carrot2聚类工具简介_第1页
Carrot2聚类工具简介_第2页
Carrot2聚类工具简介_第3页
Carrot2聚类工具简介_第4页
Carrot2聚类工具简介_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1carrot2聚类工具简介 2009.04.16 2contentsncarrot2体系结构ncarrot2聚类算法qlingo & stcncarrot2 applicationsqwebapp & workbench & dcsncarrot2 source code下载与配置、运行ncarrot2 core、attributen可用资源3carrot2简介ncarrot2 is an open source search results clustering engine 。nauthor:dawid weiss &stanislaw osinski n

2、 波兰人,波兹南大学n 研究方向:text clustering, information retrieval, web mining, computational linguistics and software engineering 4carrot2体系结构ncarrot2是一个开源的基于搜索结果的聚类引擎 5lucene索引结果nlucene索引index由若干段(segment)组成,每一段由若干的文档(document)组成,每一个文档由若干的域(field)组成,每一个域由若干的项(term)组成。项是最小的索引概念单位,它直接代表了一个字符串以及其在文件中的位置、出现次数等信息

3、。域是一个关联的元组,由一个域名和一个域值组成,域名是一个字串,域值是一个项,比如将“标题”和实际标题的项组成的域。文档是提取了某个文件中的所有信息之后的结果,这些组成了段,或者称为一个子索引。子索引可以组合为索引,也可以合并为一个新的包含了所有合并项内部元素的子索引。67carrot聚类算法nlingo:基于奇异值分解的索引结果聚类算法n首先确定可感知的类标签,然后将文件分配到类中qpreprocessing预处理nfiltering文本过滤、stemming提干、stopword去除停用词qfrequent phrase extractionqcluster label induction

4、qcluster content discoveryqfinal cluster formation8carrot2聚类算法nstc(suffix tree clustering)后缀树聚类算法,一种on-line聚类算法q(1)将文档片段作为输入而不是整篇文档q(2)聚类算法必须足够快速实现在线计算q(3)生成的类簇必须是终端用户可读的描述qstc将文档作为字符串来处理,利用文档间相似信息qstc是新颖的、增值的、o(n)时间复杂度qstc快速的为用户总结出类簇内容qstc处理小数据集,所以耗时较少9q后缀树包含了一个或者多个字符串的所有后缀,空字符串也算是其中的一个后缀q例如:banana

5、后缀为:banana anana nana ana na a 空q一般来说后在字符串末尾加$特殊字符作为结束标记q后缀树:n有根节点的有序的树n每个内部节点至少有2个子节点n每条边以s的非空子字符串做标签,节点的标签定义为从根节点到该节点路径上的标签的串联n同一节点出发的两条路径不可能以同一词开始10example11nstc步骤:n一、文档清洗qtagger stemmer 句子边界界定 stop wordn二、标识基础类簇q(1)通过文本预处理将文档表示为词的序列,构成后缀树;q(2)利用后缀树找到基类簇,至少被两个文档包含的短语称为短语束,基类簇就是要找到最大短语束b,用来描述相关短语m

6、b和出现该短语的文档db,并计算各个基类簇的值s(b);n三、合并基础类簇q合并基类簇,为了避免出现非常类似的基类簇,可以设置一个阈值k( ) |* (|)*()is bbfbtf idf w|mnmbbkb|mnnbbkb12carrot2 applicationsnworkbench carrot2文档聚类平台,是一个独立的gui程序,可以用来对一般搜索引擎数据或你自己的数据进行聚类实验。ndcs carrot2文档聚类服务器,将carrot2聚类作为rest服务呈现。nwebapp carrot2网络应用,可以将carrot2聚类作为终端用户的网络应用呈现。13workbench聚类平台

7、n下载carrot2-workbench-win32.win32.x86-3.1-dev.zip解压,执行carrot2-workbench.exen!problemq源码运行出错q上次的问题,查询lucene索引时没有聚类结果,需要重启workbenchq聚类效果不佳,类簇标签多是期刊号等非重要信息,前期预处理没有过滤掉。1415webappn下载carrot2-webapp-3.0.warn将其放于tomcat的webapps文件夹下自动解压n访问http:/localhost:8080/carrot2-webapp-3.016webapp的lucene索引配置nwebapp的war包解压

8、后,web-inf/classes/carrot2-defaultn修改suite-webapp.xmln添加lucene-attributes.xmln重新启动tomcatn访问http:/localhost:8080/carrot2-webapp-3.01718基于lucene索引的聚类结果19可视化效果图20!problemnwar包解压q英文可以聚类,中文无结果,分词问题q没有aduna map可视化效果n!查询本地lucene索引时只能索引标题出现的词n源码问题q聚类无结果21carrot2 source code下载ncarrot2是sourceforge(全球最大的开放源代码软件

9、开发平台和仓库)代理n步骤1:安装svn工具。下载:http:/ ,安装n建立源码地址文件夹,右击 svn checkout在url of repository输入源码网址svn url https:/ source code导入eclipsen打开eclipsenimportgeneralexsiting projects to workspace选择carrot2源码路径n去除org.carrot2.antlib工程n执行n若出错说明没有ant ?将carrot的lib下的jar包和core包放到classpath下23example: clusteringdatafromlucenen修

10、改属性:n final string contentfieldname = content;nindexpath路径(设置运行时参数)nindexpath=“your own lucene index path”;n查询关键字:n final map processingattributes = new hashmap();nprocessingattributes.put(attributenames.query, 教育);24ncollected 27 documentsn 0 _电化教育研究_投稿须知n 1 对教育技术学科名称及定位的反思n 2 从cssci看新世纪中国教育技术学学科地位

11、的变化n 3 边远地区高校教育信息化建设与和谐发展的理性思考nncreated 16 clustersn电化教育研究 (16 documents)n 0 _电化教育研究_投稿须知n 2 从cssci看新世纪中国教育技术学学科地位的变化nn2008年第4期 总第180期 (3 documents)n 4 从历史使命谈教育技术的定位n 20 大学生信息素养培养模式及实施途径研究n 23 cscl环境中基于对话学习理论的教学设计nattributes:nquery: 教育nresults-total: 27nprocessing-time-algorithm: 1091nprocessing-tim

12、e-source: 2253nlingoclusteringalgorithm.nativematrixused: falsenprocessing-time-total: 334425carrot2运行nworkbenchqrunexternal toolsattribute metadata xmlqrunrun configuration 选择eclipse applicationworkbenchnwebappqrunexternal toolsattribute metadata xmlqrunexternal toolsweb application setupqrunrun co

13、nfiguration26carrot2 coreqorg.carrot2.corendocument, cluster, processingresultqorg.carrot2.core.attributeninit (注释类型), attributenames, processingqorg.carrot2.sourcensearchenginebase, searchengineresponse, simplesearchengineqorg.carrot2.source.lucenenlucenedocumentsource, fsdirectorywrapperqorg.carro

14、t2.clustering.lingonclusterbuilder, lingoclusteringalgorithm, lingoprocessingcontextqorg.carrot2.clustering.stcnorg.carrot2.text.suffixtree, org.carrot2.text.suffixtree2nbasecluster, phrase, stcclusteringalgorithm, stcclusteringparameters, stcengine, stctree27qorg.carrot2.text.analysisnextendedwhite

15、spaceanalyzer, extendedwhitespacetokenizer,qorg.carrot2.text.preprocessingntokenizer, phraseextractorqorg.carrot2.text.lingusticnlanguagecode, defaultlanguagemodelqorg.carrot2.text.preprocessing.filternclusterbuilder, lingoclusteringalgorithm, lingoprocessingcontextqorg.carrot2.text.utilnchararrayco

16、mparator, mutablechararrayqorg.carrot2.text.vsmnitremweighting, vectorspacemodelcontext, tftermweighting, lineartfidftermweighting, logtfidftermweighting, termdocumentmatrixbuilder28qorg.carrot2.matrixneigenvaluecaculator, matrixutils, nnidensedoublematrix2dqorg.carrot2.matrix.factorizationnkmeansma

17、trixfactorization, iterativematrixfactorizationqorg.carrot2.matrix.factorization.seedingnkmeansseedingstraegy, randomseedingstrategyqorg.carrot2.util.xmlqorg.carrot2.webappnwebapp.javaqorg.carrot2.workbench.corenapplication.java29可用资源n/index.html官方网站nhttp:/download.carrot2.o

18、rg/head/manual/index.html帮助n/forum.html论坛nreference参考文献qcarrot2 and language properties in web search results clusteringqintroducing usability practices to oss: the insiders experienceqcarrot2: design of a flexible and efficient web information retrieval frameworkqan indexing and clustering architecture to support document retrieval in the main

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论