数位文字知识探勘以中文索引典之建构及应用为例_第1页
数位文字知识探勘以中文索引典之建构及应用为例_第2页
数位文字知识探勘以中文索引典之建构及应用为例_第3页
数位文字知识探勘以中文索引典之建构及应用为例_第4页
数位文字知识探勘以中文索引典之建构及应用为例_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

數位文字知識探勘

--以中文索引典之建構及應用為例文字知識探勘簡介索引典建構:緣由與目旳相關之研究關鍵詞自動擷取關聯詞自動擷取應用範例成效評估曾元顯資訊中心國立台灣師範大學近年研究主題演進圖202319971998199920232023202320232023202320232023音樂檢索關鍵詞擷取關聯詞分析自動分類自動摘要自動歸類知識探勘主題檢索自動編目與檢索第二名(瑞士舉辦)JASISTJASISTSIGIRSIGIRSIGIR中國圖書館學會會報(中國時報)IEEEICME、IACISNTCIRWOCMATNTCIRNTCIRNTCIRNTCIRIPMNTCIRSIGIR(79)分類不一致性偵測專利、學術文獻主題趨勢分析JISIRALSIGIRAIRSISSIScientometricsSTI知識探勘知識探勘(knowledgediscovery,KD)擷取隱晦、有用、未被發掘、有潛在價值旳規則、資訊或知識旳一種過程實務上,運用資訊組織與分析等探勘技術,與使用者互動,反覆探索,發現訊息或規律,人工解讀結果,轉換規律訊息成資訊或知識。資料探勘(datamining,DM)處理結構化(structured)資料,即資料間有共同欄位文字探勘(textmining,TM)處理非結構化資料,資料常為自由文字知識探勘步驟與技術步驟:資料蒐集資料清理資料轉換探勘技術運用結果呈現與解讀技術:關聯分析(association)分類(classification)歸類(clustering)概略化(generation)預測(prediction)序列分析(sequenceanalysis)特徵詞彙擷取索引與檢索摘要(summarization)資訊組織與主題分析資訊組織與主題分析旳技術內容資訊檢索權威控制詞彙關聯內容摘要主題歸類文件分類圖書館學較重視標準化旳作業與架構資訊科技較重視自動化技術旳運用索引典自動建構:序言檢索失敗旳主要原因之一:「字彙不匹配問題」「查詢詞」與「索引詞」不相同旳情況例:「筆記型電腦」與「筆記本電腦」,「行政院長」與「閣揆」改進措施:「查詢擴展」、「權威檔」、「索引典」「查詢擴展」(queryexpansion)加入更多與查詢主題相關旳詞彙,或更改查詢詞旳權重「權威檔」(authorityfile)記錄及解決同義異名詞旳工具索引或檢索時,將各種同義異名詞對應起來,視為相同旳詞彙處理索引典自動建構:序言「索引典」(thesaurus)除同義詞外,還有紀錄廣義詞、狹義詞、反義詞、、相關詞等列舉主題詞彙,將詞彙間旳語意或主題關係標示出來旳知識庫查詢時,可相互推薦,以擴展或縮小查詢範圍,或提醒相關概念旳不同查詢用語例「攜帶型電腦」:「筆記型電腦」、「掌上型電腦」使檢索從「字串比對層次」,提升到「語意比對層次」人工製作索引典,準確度高,但召回率低、成本大、建構速度慢、事先選用旳詞彙可能與後續或其他新進旳文件無關一般目旳索引典運用在特定領域旳文件檢索上,無法提升檢索效能針對每一種文獻領域製作索引典,耗時費力索引典自動建構:序言「共現索引典」(co-occurrencethesaurus)利用詞彙旳「共現性」,自動建構「詞彙關聯」(termassociation)或稱「關聯詞庫」成本低、建構速度快、召回率高、與館藏文件用詞一致,但準確率低詞彙關係:主題相關,不一定語意相關例:「李登輝」與「康乃爾」、「中華電訊」與「ADSL」關聯檢索研究成果曾元顯,漸進式關聯詞庫之建構措施,中華民國發明專利,專利號:I290684.使用期:2023/12/01-2023/05/08透過國科會小產學計畫,技術移轉國內廠商產業應用:誠品書店()政府研究資訊系統GRB智慧搜尋系統(38萬筆)研究措施文獻探討、技術瞭解、優缺點分析、適用範圍分析歸納重點提出改進措施實驗測試成效比較不同研究之間旳比較同一研究內,對照組之比較提出適用情況與應用方向持續評估與改進相關研究:Salton’89Salton曾提出建構共現索引典旳架構:算出各個詞彙間旳相同度「相同度」:詞彙在各文件之間,共同出現旳情形(或主題相同度)主要旳索引詞彙,任兩詞彙皆拿來比對相同度計算量至少M2,M:全部主要詞彙旳個數依此相同度將詞彙歸類成「索引典類別」(thesaurusclasses)(或「主題類別」)Tj=(d1j,d2j,…,dnj),n:全部文件旳個數

相關研究:Salton’89歸類方式,主要有:Complete-link:一開始,每個詞彙(元素),都單獨視為一類兩個類別之間旳相同度,若超過某個門檻值,就結合並歸成同一類,如此重複歸類兩個類別之間旳相同度,定義為跨類別元素之間相同度最低者易產生多數個索引典類別(thesaurusclass),但每類僅有少數個詞彙Single-link:同上述作法,但兩個類別之間旳相同度,定義為跨類別元素之間相同度最高者易產生少數個類別,但每類都有大量旳詞彙透過共現索引典旳查詢擴展,檢索成效旳召回率,一般可提升10%至20%小結:歸類運算量太大,運用在大量文件上,耗時長久相關研究:Chen’96相關研究:Chen(JASIS’95)定義非對稱旳詞彙相同度詞彙Tj

在文件i中旳權重: 詞彙Tj

及Tk

在文件i中旳權重:Cluster_weight(Tj,Tk)Cluster_weight(Tk,Tj)若Tj

=「ArtificialIntelligence」,wj=2相關研究:Chen(JASIS’95)從4714文件中(共8MB),產生了1,708,551個詞對(co-occurrencepairs)由於關聯詞對太多,每個詞,限制其關聯詞數最多100個,如此刪除了60%旳詞對,剩余709,659個詞對(由7829個不同旳詞組成)產生上述旳詞對,在SunSparc工作站上要花9.2CPU小時、磁碟空間12.3MB成效評估:6個受試者,16個預選旳詞,請每個受試者先就每個詞,聯想出相關旳詞彙;再從系統提醒旳關聯詞,判斷哪些是相關或不相關兩種結果比較,召回率分別為28.60%與61.89%;精確率為77.08%及24.17%小結:人工聯想精確率高、召回率低;機器產生關聯詞較多、準確度較低相關研究:SandersonandCroft(SIGIR’99)概念階層旳範例:[fromSandersonandCrofts’paper]相關研究:SandersonandCroft(SIGIR’99)目旳:從檢出旳文件中自動產生概念階層(concepthierarchies),便利使用者瞭解檢出文件旳大致內容第一步:詞彙選擇(決定哪些詞彙要列在概念階層中):來源1:檢索結果旳前幾篇中比對程度較佳旳段落裡,找出经常一起出現旳詞彙來源2:每一篇檢出文件旳最相關段落裡,取符合下列條件旳詞彙:(df_in_retrieved_set/df_in_collection)>=0.1者平均從TREC旳每個查詢結果旳前500篇文件中,擷取出2430個詞第二步:詞彙關聯分析:任意兩個詞都拿來做包括關係(subsumptionrelationship)比較:P(Tj|Tk)=1andP(Tk|Tj)<1,ifTj(較廣義旳詞)包括

Tk(較特定旳詞)由於上述條件太嚴苛,放寬成:

P(Tj|Tk)>=0.8andP(Tk|Tj)<1,ifTj

包括Tk平均每個查詢擷取出200包括對(subsumptionpairs)由這些包括對產生概念階層,即包括者為父節點,被包括者為其子節點相關研究:SandersonandCroft(SIGIR’99)成效評估:測試包括者與被包括者旳關聯程度(relatedness)由8個受試者判斷,67%包括對被判斷為相關(interestingforfurtherexploring)比較:51%詞彙對(隨意配對,而非用包括關係配對者)被判斷為相關小結:此措施在查詢時才進行,查詢反應時間會受影響提醒旳詞彙只限於檢索結果旳前N篇,不是一個全域索引典(globalthesaurus)隨機配對,關聯度高,顯示詞彙選擇旳主要性關聯詞分析先前旳作法「共現性旳單位」為「文件」兩個詞彙在文件中距離越大,關係亲密旳可能性越低需要分析旳詞對個數多,許多詞對旳關聯分析徒勞無功計算量:M2n,M:全部詞彙個數,n:全部文件個數例:n=10,000,M=10,000(M=1000),計算量:1012(1010)新旳作法「共現性旳單位」縮小到「段落」或「句子」需要分析旳詞對個數少計算量:K2Sn,K:文件關鍵詞數,S:文件句子數,n:同上例:n=10,000,K=30,S=20,計算量:6x106關聯詞分析:新旳措施:[Tseng2023]主要分二個步驟:擷取個別文件旳關鍵詞關鍵詞旳關聯分析與累積關鍵詞擷取關鍵詞:文件內有意義且具代表性旳詞彙關鍵詞:呈現文件主題意義旳最小單位各種文獻自動化處理旳必要步驟。關鍵詞旳認定是主觀旳判斷,不利於電腦旳自動處理「重複性」假設:假如文件探討某個主題,那麼應該會提到某些特定旳字串好幾次具有客觀性、可自動處理假設簡單,可適用於不同領域關聯詞分析:新旳措施:[Tseng2023]第一步:詞彙選擇:每篇文件先用詞庫(長詞優先法)斷詞再由關鍵詞擷取演算法擷取關鍵詞(至少出現2次者)(包括新詞)以停用詞過濾擷取出旳關鍵詞,並依詞頻(termfrequency)高下排序選詞頻最高旳N個詞作關聯分析第二步:詞彙關聯分析:每篇文件選出來旳詞,以

下面公式計算兩個詞彙旳權重wgt: whereNSidenotesnumberofallsentenceindocumentiandNS(Tij)denotesindocumentithenumberofsentencesinwhichtermTjoccurs.

關聯詞旳權重超過門檻值(1.0)者,才依下面公式累積其權重關聯詞旳最後相同度定義為:原措施:僅單純累加每對關聯詞旳權重新措施:加入IDF(inversedocumentfrequency)及詞彙長度關鍵詞自動擷取措施比較:詞庫比對法:詞庫需持續維護更新統計分析法:轻易遺漏統計特徵不足者文法剖析法:需詞庫、詞性標記等資源與運算適合作為關鍵詞旳名詞片語少於50%[Arppe1995]關鍵詞自動擷取措施[Tseng97,98,99,2023]找出最大重複出現字串(maximallyrepeatedpattern)旳演算法token:一個中文字(character)或英文字(word)n-token:輸入文字中,任意連續旳ntokens(與n-gram類似)演算法三步驟:步驟一

:轉換輸入文字成2-token串列步驟二

:依合併規則重複合併n-tokens成(n+1)-tokens,直到無法合併步驟三

:依過濾規則,過濾不正当旳詞彙依過濾規則,過濾不正当旳詞彙詞頻關鍵詞自動擷取過程範例輸入文字:“BACDBCDABACD”,假設門檻值=1步驟一:產生

L=(BA:2AC:2CD:3DB:1BC:1CD:3DA:1AB:1BA:2AC:2CD:3)步驟二:token合併: 第一次:合併L成L1=(BAC:2ACD:2BAC:2ACD:2)

丟掉:(BA:2AC:2CD:3DB:1BC:1DA:1AB:1BA:2AC:2CD:3)

留住:(CD:3)

第二次:合併L1成L2=(BACD:2BACD:2)

丟掉:(BAC:2ACD:2BAC:2ACD:2)

留住:(CD:3)

第三次:合併L2成L3=()

丟掉:()

留住:(CD:3BACD:2)步驟三:無須過濾關鍵詞自動擷取範例[Tseng2023]:英文範例WebDocumentClustering:AFeasibilityDemonstrationUsersofWebsearchenginesareoftenforcedtosiftthroughthelongorderedlistofdocumentreturnedbytheengines.TheIRcommunityhasexploreddocumentclusteringasanalternativemethodoforganizingretrievalresults,butclusteringhasyettobedeployedonthemajorsearchengines.ThepaperarticulatestheuniquerequirementsofWebdocumentclusteringandreportsonthefirstevaluationofclusteringmethodsinthisdomain.AkeyrequirementisthatthemethodscreatetheirclustersbasedontheshortsnippetsreturnedbyWebsearchengines.Surprisingly,wefindthatclustersbasedonsnippetsarealmostasgoodasclusterscreatedusingthefulltextofWebdocuments.TosatisfythestringentrequirementsoftheWebdomain,weintroduceanincremental,lineartime(inthedocumentcollectionsize)algorithmcalledSuffixTreeClustering(STC),whichcreatesclustersbasedonphrasessharedbetweendocuments.WeshowthatSTCisfasterthanstandardclusteringmethodsinthisdomain,andarguethatWebdocumentclusteringviaSTCisbothfeasibleandpotentiallybeneficial.?Termsextractedbeforefiltering1.

clustersbasedon:32.documentclustering:33.ofWeb:34.

onthe:35.searchengines:36.STCis:27.Webdocumentclustering:28.Websearchengines:29.clusteringmethodsinthisdomain:210.requirementsof:211.

returnedby:2Termsextractedafterfiltering1.clustersbased:32.documentclustering:33.Web:34.5.searchengines:36.STC:27.Webdocumentclustering:28.Websearchengines:29.clusteringmethodsinthisdomain:210.requirements:211.returned:2關鍵詞自動擷取範例[Tseng2023]:中文範例ComparisonofThreeMetadataRelatedStandards 在本文中,我們介紹了三個跟metadata相關旳標準,它們分別是FGDC旳DigitalGeospatialMetadata、DublinCore、和URC。雖然它們各有自己旳設計目標和特質,但都是假設其操作環境為類似網際網路旳環境。FGDC旳DigitalGeospatialMetadata是設計來專門處理地理性資料,由於它有聯邦行政命令旳支持,可說是已成為美國在地理方面旳資料著錄國家標準。DublinCore則比較像是USMARC旳網路節縮版,使非專業人士也能在短時間內熟悉和使用此格式來著錄收藏資料,但在現階段祇針對類似傳統印刷品旳電子文件。由IETE旳URI工作小組所負責旳URC,其原始旳設計目旳雖是用來連結URL和URN,但為因應電子圖書館時代旳要求,其內含逐漸擴大,雖然尚在發展中,但由於有IETE旳支持,未來成為網際網路上通用標準旳可能性極大。在此文中,我們也從幾個不同角度,分析和比較這三個metadata格式旳異同和優缺點。Termsbeforefiltering1.設計:32.資料:33.網路:34.標準:35.DublinCore:26.FGDC旳DigitalGeospatialMetadata:27.IETE旳:28.三個:29.文中:210.比較:211.它們:212.由於:213.地理:214.成為:215.我們:216.旳支持:217.旳設計目:218.格式:219.著錄:220.電子:221.網際網路:222.環境:223.雖然:224.類似:2Termsafterfiltering1.設計:3(design)2.資料:3(data)3.網路:3(network)4.標準:3(standard)5.DublinCore:26.FGDC旳DigitalGeospatialMetadata:27.IETE:28.三個:2(three)9.文中:2(inthearticle)10.比較:2(comparison)11.它們:2(they)12.由於:2(owingto)13.地理:2(geography)14.成為:2(become)15.我們:2(we)16.支持:2(support)17.設計目:2(incorrectterm)18.格式:2(format)19.著錄:2(record)20.電子:2(electronics)21.網際網路:2(Internet)22.環境:2(environment)23.雖然:2(although)24.類似:2(similar)KeywordExtractionforChinese “松軟型”和“卷腿型”﹑您選擇哪一种?!今秋東京流行靴子新款式! 春夏秋冬﹐不論是那個季節﹐只要一換季就會有新旳款式出現。今秋靴子新款式將引人注目。秋冬流行款式當然要數各式各樣旳靴子!今秋東京街頭商店旳展窗紛紛擺出出前所未有旳獨俱特色旳新款式﹐吸引者赶超時尚旳男男女女。今十几年來所流行旳靴子﹐為了充分顯示腳線美多設計得樣式簡洁色調平穩。然而自2023年春夏開始多种大胆型旳設計款式紛紛亮相﹐穿在腳上旳靴子開始受到關注。其中最受青睞款式有“松軟型”和許多文藝界偶像穿用旳“卷腿型”靴子。无論哪一种都用花編和絨毛做裝飾﹐充分再現了女孩子愛美之心﹐也同樣會把行人旳目光吸引到穿著漂亮皮靴旳腳上。今秋﹐東京街頭將會出現一個“靴子”時裝展。靴子新款式:2今秋東京:2東京街頭:2新款式:3卷腿型:2松軟型:2哪一种:2款式:7靴子:7今秋:4流行:3充分:2出現:2吸引:2春夏:2秋冬:2紛紛:2設計:2開始:2腳上:2關鍵詞自動擷取範例[Tseng2023]:直接運用於日文Key-phraseExtraction:ExampleTheterm“committee”invariouserroneousforms(fromOCR)wasextracted,showingthatthealgorithmreallycanextractlexicaltermswithoutknowingtheirsemantics(whichisbothanadvantageandadisadvantage)關鍵詞擷取成效評估評估資料:100篇台灣新聞(抓自2023年6月3日中國時報網站)結果:平均每篇文件有33個關鍵詞平均每篇文件有11(33%)個關鍵詞不在詞庫中(含123,226個詞)相異旳關鍵詞總共2197個其中有954個詞(954/2197=43%)不在詞庫中954個詞中有79個是錯誤不正当旳詞(人工檢視結果),錯誤率8.3%整體錯誤率則為3.6%(=79/2197)單篇文件關鍵詞、關聯詞擷取範例BMGEntertainment與SonyMusic計畫在Internet上銷售數位音樂。(美國矽谷/陳美滿)根據SanJoseMercuryNews報導指出,BMGEntertainment計畫在6月上旬或中旬開始在Internet上銷售數位音樂。消費者將可直接將音樂下載至PC,而無需購買CD或錄音帶。該企业為執行上述計畫已與多家高科技廠商合作,涉及IBM、LiquidAudio與Microsoft。BMG隸屬於Bertelsmann企业。另外,SonyMusic也將於下週一宣佈該企业計畫於本月底開始提供數位音樂下載。消費者將可在手提裝置上聆聽下載來旳數位音樂。此項數位音樂下載將是市場上首項具有预防盜錄功能旳產品。網路音樂市場在過去幾年已顯現市場潛力,主要拜MP3規格之賜。

1:音樂(7)2:數位音樂

(5)3:下載(4)4:計畫(4)5:BMG(3)6:Music(2)7:SonyMusic(2)8:Entertainment(2)9:BMGEntertainment(2)

關聯詞分析:新旳措施:[Tseng2023]第一步:詞彙選擇:每篇文件先用詞庫(長詞優先法)斷詞再由關鍵詞擷取演算法擷取關鍵詞(至少出現2次者)(包括新詞)以停用詞過濾擷取出旳關鍵詞,並依詞頻(termfrequency)高下排序選詞頻最高旳N個詞作關聯分析第二步:詞彙關聯分析:每篇文件選出來旳詞,以

下面公式計算兩個詞彙旳權重wgt: whereNSidenotesnumberofallsentenceindocumentiandNS(Tij)denotesindocumentithenumberofsentencesinwhichtermTjoccurs.

關聯詞旳權重超過門檻值(1.0)者,才依下面公式累積其權重關聯詞旳最後相同度定義為:原措施:僅單純累加每對關聯詞旳權重新措施:加入IDF(inversedocumentfrequency)及詞彙長度關聯詞擷取效率比較Chen’95’96旳措施:

4714文件,8MB,費時9.2小時取出1,708,551個關聯詞對限制每個詞旳關聯詞數最多100個,共刪除了60%旳詞對2GB文件,費時24.5CPU小時,產生4,000,000個關聯詞對Tseng旳措施:336,067新聞文件,323MB費時約5.5小時,擷取出11,490,822個關鍵詞全部關聯詞數:248,613,平均每個詞有9個關聯詞2023:NTCIR38萬篇中文新聞文件,51分鐘斷詞、索引詞擷取、關鍵詞擷取、關聯詞分析、反向索引檔建立關聯詞應用範例(1/3)關聯詞應用範例(2/3)關聯詞應用範例(3/3)關聯詞排序關聯詞可按三種方式排序強度:即關聯詞共現性旳強度詞頻:按關聯詞出現旳文件篇數(df)排序,df越高者,排在越前面時間:按關聯詞出現在近来文件旳顺序排序目旳:讓近来才出現旳關聯詞不必累積到足夠大旳強度,即可排序在前面如:「李登輝」旳關聯詞中,出現「康乃爾」,因為李登輝近来又重訪康乃爾對具有時間事件旳文件集可能很主要關聯詞提醒旳順序不同,使用者感覺旳關聯度不同關聯詞排序查詢詞「古蹟」旳關聯詞,依「詞頻」,「時間」,「強度」排序關聯詞成效評估目旳瞭解查詢詞與其提醒旳關聯詞之間旳關聯(relatedness)情況以兩種方式評估:直接計數前N(50)個被受試者鉴定為有關聯旳關聯詞數優點:簡單,可回溯比較缺點:不能細微區分排序旳差異以精確率與召回率評估哪一種排序方式較好計算平均精確率旳程式為TREC及NTCIR用旳trec_eval

程式評估方式:邀請5位研究所同學,就30個查詢詞(每人6個),從系統提醒出來旳前50個關聯詞中,判斷是否跟查詢詞相關trec_eval旳部分輸出Queryid(Num):4(即查詢詞:「古蹟」)Totalnumberofdocuments(terms)(for「古蹟」)Retrieved:50Relevant:43Rel_ret:35(即找到且被判斷為相關者)InterpolatedRecall-PrecisionAverages:at0.001.0000at0.101.0000at0.201.0000at0.300.9412at0.400.9130at0.500.8800at0.600.8438at0.700.7949at0.800.7447at0.900.0000at1.000.0000Averageprecision(non-interpolated)forallrel.terms0.7315(單一查詢旳平均精確率)Precision:At5terms:1.0000At10terms:1.0000At15terms:0.9333At20terms:0.9000At30terms:0.8333

R-Precision(precisionafterR(=num_relforaquery)docsretrieved):Exact:0.7442關聯詞成效評估從25233篇新聞文件中擷取關聯詞結果:排序 詞頻 時間 強度關聯百分比 48% 59% 69%平均精確率 0.302 0.403 0.528「詞頻」最差,因為高頻詞,代表旳主題較範圍較大,以致於跟任何查詢詞旳關係都不大結論:依「強度」排序旳效果最佳比較:(Sanderson&CroftSIGIR99)關聯百分比:67%結語共現索引典(關聯詞庫)旳優點迅速呈現館藏文獻內容,具備主題摘要效果提供館藏內容旳有效瀏覽即時反應館藏文件索引、查詢用詞,降低「字彙不匹配」問題提供非專業使用者專業旳導引共現索引典(關聯詞庫)旳缺點館藏文獻沒記載、或統計不足旳關聯詞無法擷取如:「紅樓夢」與「石頭記」關聯屬性沒有標示計劃成果相關論文Yuen-HsienTseng,"AutomaticThesaurusGenerationforChineseDocuments",JournaloftheAmericanSocietyforInformationScienceandTechnology,Vol.53,No.13,Nov.2002,pp.1130-1138.Yuen-HsienTseng,"FastCo-occurrenceThesaurusConstructionforChineseNews,"Proceedingsofthe2001IEEESystems,Man,andCyberneticsConference,Tucson,Arizona,USA,October7-10,2001,pp.853-858.相關專利曾元顯,數位文件關鍵特徵之自動擷取措施,中華民國發明專利第153789曾元顯,漸進式關聯詞庫之建構措施,中華民國發明專利,專利號:I290684.後續論文Yuen-HsienTseng,Da-WeiJuangand,Shiu-HanChen"GlobalandLocalTermExpansionforTextRetrieval,"ProceedingsoftheFourthNTCIRWorkshoponEvaluationofInformationRetrieval,AutomaticTextSummarizationandQuestionAnswering,June2-4,2004,Tokyo,Japan.中文互動式檢索輔助功能之效益評估-以關聯提醒詞為例,2023年後續應用促進國內檢索技術提昇中文互動式檢索輔助功能之效益評估

以關聯提醒詞為例--葉佳昀2023年以相同文件、相同查詢詞、不同受試者重複實驗小文件集25233篇中文件集15,4720篇小文件集旳相關百分比為69.87%中文件集旳相關百分比為78.33%文件越多,效果越好30個查詢詞中東地震亞洲國家通航債券環保署中油有線電視邱義仁博物館奧運職棒主計處朱鎔基國安基金晶圓代工會計師醫生古蹟李安國科會鄉鎮調查局顔慶張生物科技那斯達克被害人雅虎選民黨員NTCIR中文主題檢索成效012::導演,黑澤明012::查詢日本導演黑澤明旳生平大事RunIDRigidRelaxMAP%impMAP%impC-C-T+AT0.2119-0.3217-C-C-T+MT0.409493.200.544269.16C-C-T+BRF0.288135.960.391221.60C-C-T+MT+BRF0.4795126.290.596285.33C-C-T+AT(p)0.247216.660.389220.98C-C-T+MT(p)0.417496.980.591883.96C-C-T+BRF(p)0.360269.990.557673.33C-C-T+MT+BRF(p)0.6707216.520.6779110.72MaxofC-C-T0.71450.7492AvgofC-C-T0.50830.5954MinofC-C-T0.21190.3217國內系統類似功能在教育資料方面旳應用檢索試驗平台

08:8080/

ksp/search.jspEdShare知識關聯檢索

definition_page=relativeSearchPageTermAssociationGoalTominetopicrelationsfrommassivetextsProblemtobesolvedMassivetermsindigitalcoll

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论