老师-ictclas nlpir2016分词大会演讲_第1页
老师-ictclas nlpir2016分词大会演讲_第2页
老师-ictclas nlpir2016分词大会演讲_第3页
老师-ictclas nlpir2016分词大会演讲_第4页
老师-ictclas nlpir2016分词大会演讲_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

NLPIR/ICTCLAS2016分词 研究进 ysisandRecentDevelopmentin博 思维最多只能反映80%的客观世界自然语言只能反映80%的思维:词不达意,答非所听众最多只能听懂听懂的部分只有80%能反映到思维右面的鸡才是最好要把鸡打成 的 要把鸡打成 的派III NLPIR/ICTCLAS众筹生态体从2015年开始,参会免费,食宿交通自理;并升级为分词交流暨大数据搜索与挖掘开放日活动;整个活动由自有支持,由研究承诺非永久免费,在大数据的分词讨论版块及本年度开题的群流获取技术支持 理工大学大数据搜索与挖 BigDataSearchandMiningLab.)隶属于理工大学海量语言信息处理与云计算工程(市级重点工程中心),

研究社交网络背景下的信息检索模型、垂直搜索引擎、社会协实现了Zear自然语言处以NLPIR/ICL搭NLPIR索与挖掘共享平)发智模型动 、 取转换等多功能于一CCL息 、 工学 电信等多家单位大数 安全与新应用安全网络安全与新应用新协议安全隐患分析, 社会网络计针对、、等新型社会网络,开展了基于网络与内容的个性化建模、情感分析、社区分析与识别、明码暗语识别等研究,已经与网信办、中共等部门开展了国家 省部级 2012.1-2013.122联合 2012.1-2013.122联合 掘平台银 中国邮 :邮政名址分析 中 系国 分析系III NLPIR/ICTCLAS2015之溯在所教授课题组硕

NLPIR2013新增词识别、提取、分词、自

NLPIR2015新增AndroidSpark、2000

2002

2003

2010

2014

2015获得国内评测第一

长中文信息处理学技术奖一等奖;调

用户数超过30NLPIR2014新语义理解;线名称为

活NLPIR/ICTCLAS2016升级情衍生并完善了自动、提取、信息提取等系列组件;自动通过苛刻的测试,已全面应用于的上;分词等系统全部移植到云平台演示NLPIR/ICTCLAS2016升级情

NLPIR/ICTCLAS2016之搜索引擎分constchar*NLPIR_FinerSegment(constchar功能:当前的切分结果过大时,如“中民共 返回:返回细粒度分词,如果不能细分,则返回 e:粗细切分结合模式(中民切分结果为:中民#中华#人民 NLPIR/ICTCLAS2016NLPIR网络搜索与挖掘共享开发平台,针对语言信息内容积累,提供应用软件及各平台下的二次开发包,非永 。 分词:NLPIR_APIconstchar*抽取:DOCEXTRACTOR_API*sUserDefPos=NULL,boolbSummaryNeeded=true,unsignedintnFuncRequired=ALL_REQUIRED);DOCEXTRACTOR_API情感分析:ST_APIdouble 提取:KEYEXTRACT_APIconstchar* (constchar*sLine,intnMaxKeyLimit=50,boolbWeightOut=false);抽取:DOCSUMMARY_APIconstchar*iSumLen=250,intbHtmlTagRemove=false);*sClassName,constchar*sText,DC_HANDLEhandle=0);聚类:CLUSTER_APIboolCLUS_AddContent(const*sText,constchar*CLUSTER_APIconstchar* Wordclassci

iffwiislistedinthesegmentationPER,LOC,ORG,TIMEor iffwiisanunknownSTRiffwiisanunknownsymbolBEGiffbeginningofasentenceENDiffendingofasentenceOTHERotherwise.Class-basedsegmentation

-logp(年毛/ 泽/-logp(毛

东/ 年/ 诞/ 生/-logp(诞

-log

-logp(TIME|东-log

logp(TIME|PER)1893年

诞生/诞HHMMArchitecture:HHMMArchitecture:POS1thWords2

3rd Complexunknown

SimpleunknownSimpleunknownWordAtom

5thClass-WS

NSPNSP

Role

Motivation:ConvertTRIE-structureddictionarydoublelineararraywiththeminimalsize(spaceusageisover90%).SAABSSSSAAAB

……… TheentryquerytimeisO(word_length).Theperformancewillnotdecreaseasthedictionarysizegrow. OnPIV/256MPC,itcanqueryover800,000entriespersecond. umwordsegmentationwithsuchlexicons,thespeedis23.5MB/s.word=非公有制经济 pos=n_newfreq=7LV=7RV=7 Inverted word=非公有制 RV=3unit_count=1weight=0.89InvertedIII [FIELD]* JZSearch##[FIELDpriceRANG1.09.0FIELDnameAND[FIELDnamePREF[FIELD]id[PREC]“0123” [field]content || 计||CPI 。JZSearchBigDataSearchEngine

in

SaaS

模式一:自定义索引,自定义搜索服intMemIndexing(constchar*pText,constchar*sFieldName=0,intnMemSize=0);//索引一段内constchar*Search(const*query_line,intnStart,intnPageCount,constc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论