版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1中文文本预处理分词软件调用(中科院分词系统)软件下载:/软件包目录&介绍|Readme.txt >介绍I+---binI+---DocExtractor >文档篇章语义抽取系统|| DocExtractor.bat-->批处理,可以针对指定的文件夹进行语义抽取|| DocExtractor.dl卜->支撑的动态链接库,基于分词基础上|| DocExtractorSample.exe-->应用程序II|\---ICTCLAS2015 >分词系统| ICTCLAS-tools.exe--〉分词的支撑工具,可用于测试,本处主要用来做用户词典导入| importuserdict.bat-->可将用户词典自动导入到系统内| NLPIR.dl卜->Win32下的支撑动态链接库,其他环境的库,可以访问lib对应环境的库文件| NLPIR.lib| NLPIR_WinDemo.exe-->Win32下的演示程序,在Win832位下编译而成,部分环境可能不支持,或者显示异常| userdic.txt-->用户词典,用户可以自行编辑|+---Data-->系统核心词库| \---English-->英文处理的支持知识库,如果不需要英文处理的功能,可以不加载本库。|+—doc-->相关文档支持| ICTPOS3.0.doc-->我们的词性标注集说明| NLPIR-ICTCLAS2015分词系统开发手册.pdf-->开发使用手册|+---include-->系统头文件|NLPIR.h|+---lib-->不同环境下的支撑库,每一种库,同时支持C/C++/C#/Java库。其他小众化的环境支持,请联系我们| +---linux32-->Linux32bit操作系统下的支持库| |libNLPIR.so|丨| +---linux64-->Linux64bit操作系统下的支持库|| libNLPIR.so|| Readme.txt|丨| +---win32-->Win32bit操作系统下的支持库| |NLPIR.dll| |NLPIR.libII| \---win64-->Win64bit操作系统下的支持库| NLPIR.dll| NLPIR.libI+---ppt-->NLPIR2015开幕演讲的内容| NLPIR2014开幕演讲.pptx|+---sample-->NLPIR2015示例程序,均调试通过| +---C-->NLPIR2015C语言示例程序| | Example-C.cpp| | Makefile:Linux下的编译makefile| +---C#-->NLPIR2014C#语言示例程序| | Example.cs|丨|+---pythonsample-->NLPIR2015Python示例程序|丨| \---JnaTest_NLPIR-->NLPIR2015Java采用JNA调用的示例程序| | .classpath| | .project| | nlperties| | Readme.txt| 丨| +---.settings| | org.eclipse.core.resources.prefs| | org.eclipse.jdt.core.prefs| 丨| +---bin| |+---code| | | NlpirTest$CLibrary.class| | | NlpirTest.class| 丨丨+---code| |NIpirTest.javaI I| \---utils| ReadConfigUtil.java| SystemParas.javaI\---test-->NLPIR2015测试文档集合| 18届三中全会.TXT| English.txt|中英文混杂示例.txt|屌丝,一个字头的诞生.TXT|用户词典.txt|\---docs-->NLPIR2015测试文档集合0-两栖战车亮相.txt辽宁阜新官员涉嫌淫乱事件举报者被刑拘.txt辽宁一男子女厕用手机拍照被拘(图).txt两人打甲流疫苗后死亡另有15例较严重异常反应.txtEnglish.txt1.1.3软件使用(C++)需要文件:include/NLPIR.h、lib文件夹下根据系统和版本选择不同的库文件、ata文件夹。常用接口:NLPIR_Init:boolNLPIR_Init(constchar*sInitDirPath=0,intencoding=GBK_CODE,constchar*sLicenceCode=0)接口说明:软件初始化。参数说明:sInitDirPath初始化文件夹位置,表示Configure.xml和Data文件夹所在位置,默认值为0,表示当前目录;encoding输入语料的编码格式,默认为GBK_C0DE,可选参数为UTF8_C0DE和BIG5_CODE;sLicenseCode证书编码,默认可不填。NLPIR_Exit:boolNLPIR_Exit()接口说明:软件运行结束,释放内存。NLPIR_ImportUserDict:unsignedintNLPIR_ImportUserDict(constchar*sFilename,boolbOverwrite=true)接口说明:引入用户自定义词典参数说明:sFilename用户词典文件名;bOverwrite是否覆盖现有词典,默认为true,改为false将该词典添加到现有词典。NLPIR_ParagraphProcess:constchar*NLPIR_ParagraphProcess(constchar*sParagraph,intbPOStagged=1)接口说明:分词函数参数说明:sParagraph需要分词的字符串;bPOStagged分词结果是否包含POS标签,即词性标签,默认为true其他接口函数请参考Doc目录下开发手册1.1.4软件使用(Java)主要通过Jna的方式对C++接口进行调用。需要文件:lib下根据系统和版本选用不同的资源库文件、Data文件夹和jna.jar使用方法:Jna编程首先根据C的头文件来声明对应的函数,声明后就像调用普通的java方法一样使用即可,详细使用例子,请见代码【注意:我们的dll是通用的,C、java、C#所使用的dll是同一个】样例代码:NlpirTest类就是对应的分词的C头文件的函数的声明:publicclassNlpirTest{//定义接口CLibrary,继承自com.sun.jna.LibrarypublicinterfaceCLibraryextendsLibrary{//定义并初始化接口的静态变量这一个语句是来加载dll的,注意dll文件的路径可以是绝对路径也可以是相对路径,只需要填写dll的文件名,不能加后缀。CLibraryInstance=(CLibrary)Native.loadLibrary("E://java//JNI//JnaTest_NLPIR//NLPIR",CLibrary.class);//初始化函数声明publicintNLPIR_Init(byte[]sDataPath,intencoding,byte[]sLicenceCode);//执行分词函数声明publicStringNLPIR_ParagraphProcess(StringsSrc,intbPOSTagged);//提取关键词函数声明publicStringNLPIR_GetKeyWords(StringsLine,intnMaxKeyLimit,booleanbWeightOut);//退出函数声明publicvoidNLPIR_Exit();}publicstaticStringtransString(StringaidString,Stringori_encoding,Stringnew_encoding){try{returnnewString(aidString.getBytes(ori_encoding),new_encoding);}catch(UnsupportedEncodingExceptione){e.printStackTrace();}returnnull;publicstaticvoidmain(String[]args)throwsException{Stringargu=//Stringsystem_charset="GBK";//GBK 0Stringsystem_charset="GBK";intcharset_type=1;//intcharset_type=0;//调用printf打印信息intinit_flag=CLibrary.Instance.NLPIR_Init(argu.getBytes(system_charset),charset_type,"0".getBytes(system_charset));if(0==init_flag){System.err.println("初始化失败!");return;}StringsInput="据悉,质检总局已将最新有关情况再次通报美方,要求美方加强对输华玉米的产地来源、运输及仓储等环节的管控措施,有效避免输华玉米被未经我国农业部安全评估并批准的转基因品系污染。〃;StringnativeBytes=null;try{nativeBytes=CLibrary.Instance.NLPIR_ParagraphProcess(sInput,1);System.out.println("分词结果为:"+nativeBytes);intnCountKey=0;StringnativeByte=CLibrary.Instance.NLPIR_GetKeyWords(sInput,10,false);System.out.print("关键词提取结果是:"+nativeByte);CLibrary.Instance.NLPIR_Exit();}catch(Exceptionex){//TODOAuto-generatedcatchblockex.printStackTrace();}}}1.2句法分析软件调用(斯坦福)1.2.1软件下载:/software/lex-parser.shtml1.2.2软件说明可以根据不同的需要下载不同语言的版本,这里仅介绍Java版本的使用方法。解压文件中lexparser-gui.bat进行可视化页面运行,解析需要的模型文件存放在stanford-parser-3.3.0-models.jar,可以对其解压,方面以后使用。在中文处理方面,提供的模型文件有chineseFactored.ser.gz、chinesePCFG.ser.gz、xinhuaFactored.ser.gz、xinhuaFactoredSegmenting.ser.gz、xinhuaPCFG.ser.gz。factored包含词汇化信息,PCFG是更快更小的模板,xinhua据说是根据大陆的《新华日报》训练的语料,而Chinese同时包含香港和台湾的语料,xinhuaFactoredSegmenting.ser.gz可以对未分词的句子进行句法解析。API调用流程指定模型文件,指定一些参数信息。Stringgrammars="edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz";加载模型文件,初始化用于句法分析的类LexicalizedParser。LexicalizedParser
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB11T 1087-2014 公共建筑装饰工程质量验收标准
- 河南省周口市淮阳实验小学等校2024-2025学年二年级上学期月考语文试卷(10月份)
- 湖北省黄冈市部分学校2024-2025学年七年级上学期期中地理试卷(含答案)
- 家用电动蒸汽拖把产业深度调研及未来发展现状趋势
- 叶酸膳食补充剂市场发展预测和趋势分析
- 提供婚礼司仪服务行业市场调研分析报告
- 加热板市场发展预测和趋势分析
- 婴儿绒线鞋产业链招商引资的调研报告
- 化妆用杏仁油产业规划专项研究报告
- 医用洗液产业深度调研及未来发展现状趋势
- 年会礼品选择的调研分析
- 人教版八年级物理上册《计算题》专项练习题(含答案)
- 山东某地寺庙建设项目立项可研报告
- 朝鲜战争完整版本
- 我国的宗教政策(共37张)
- 医疗核心制度执行情况自查表
- 2023年国家公务员考试申论试题(行政执法卷)及参考答案
- 药学职业生涯人物访谈报告(6篇)
- QGDW11957.2-2020国家电网有限公司电力建设安全工作规程 第2部分:线路
- 南京玄武区某校2023-2024三年级上册语文期中试卷及答案
- 中国抗日战争史智慧树知到课后章节答案2023年下浙江大学
评论
0/150
提交评论