




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
分析处理检索系统的一般模式网页互联网匹配检索结果用户需求网页采集分析处理建立索引索引库格式分析与转换编码分析与转换词汇分析与处理结构分析(文本分割)类别分析(文本分类)分析处理格式分析与转换编码分析与转换词汇分析与处理结构分析(文本分割)类别分析(文本分类)格式分析与转换输入:HTML,WORD,PDF,PS……目标:转换为纯文本HTML: HTML2TXTPDF: XPDFPS: Ps2TxtWORD: CatDoc……编码分析与转换中文GBBIG5Unicode词汇分析与处理字符处理数字、连字符、标点符号、外文字母……词汇处理StemingStopwords分词词性标注Steming性、数、格获得原形查表法后缀法软件实现2:词形还原输入任意一个英文单词输出该单词的原形要求尽量全面还原数、格等变形1人完成Stopwordsa,an,the,…of,to,…and,or,…的、地、得了、着、过tobeornottobeX分词西文Mr.LiI’dbetter…中文我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道我知道你不知道分词对中文搜索引擎的影响Google6/20“瑞星以技术和服务开拓网络安全市场”“陈慧琳《心口不一》化妆和服装自己包办”百度14/20“商品和服务实行明码标价”“青岛东和服装设备”中搜20/20搜索引擎结果中的错误,是由于分词的不准确造成的。中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的影响。无关网页从哪里来?互联网匹配瑞星以技术和服务开拓网络安全市场用户需求网页采集分析处理建立索引索引库检索结果索引策略……技术和服务……按字技术和服务按二元语法技术术和和服服务按词技术和服务中文分词分词是将连续的字序列按照一定的规范重新组合成词序列的过程瑞星以技术和服务开拓网络安全市场瑞星/
以/
技术/
和/
服务/
开拓/
网络安全/
市场中文分词与其他分词不同英文中单词之间是以空格作为自然分界符中文只是字、句、段有明显的分界符词没有一个形式上分界符从字串到词串,是一个降低不确定性的过程。正向最大匹配法信息检索课程是三个学时。……课程……信息检索……学科学时学问……分词词表正向最大匹配的问题最大词长词长过短,长词就会被切错词长过长,效率就比较低分词歧义瑞星/以/技术/和服/务/开拓/网络安全/市场瑞星以技术和服务开拓网络安全市场分词歧义发现问题双向最大匹配分析问题歧义字段的类型与特点解决问题歧义字段库词性我为人民工作。统计技术和服务……歧义字段的链长链长:交集型歧义字段中含有交集字段的个数,
称为链长。链长为1:从小学链长为2:市民政局链长为3:为人民工作链长为4:结合成分子时链长为6:努力学习语法规则软件实现3:长链歧义字段获取输入1998年1月人民日报电子版输出歧义字段按链长降序排列,前100个要求:1人完成分词歧义发现问题双向最大匹配分析问题歧义字段的类型与特点解决问题歧义字段库词性我为人民工作。统计技术和服务……歧义字段库……市民政局 1300为人民工作 12020结合成分子时 201201技术和服务 20120……软件实现4:歧义字段规则库获取输入1998年1月人民日报电子版输出歧义字段规则库要求:1人完成最大概率分词S:有意见分歧W1:有/意见/分歧/P(W1|S)W2:有意/见/分歧/P(W2|S)单词概率…………有0.0180有意0.0005意见0.0010见0.0002分歧0.0001…………P(W1)=P(有)*P(意见)*P(分歧)=1.8×10-9P(W2)=P(有意)*P(见)*P(分歧)=1×10-11P(W1)>P(W2)软件实现5:汉语分词系统输入任意一段文本可能包含中文标点、西文标点、阿拉伯数字、西文字符输出分词结果词之间用“/”分隔要求双向最大匹配发现歧义片断利用歧义片断库解决分词歧义未解决的用最大概率分词可3人完成国内中文分词水平863评测软件实现6:人名识别要求阅读资料,开发一个人名识别器从给定语料库中获取人名1人完成软件实现7:人名读音分析要求获取1000个人名得到这些人名的汉语拼音验证“起名时,不倾向使用需区分平翘舌的字”的假设1人完成准确率、召回率、F值准确率Precision结果中的正确样例数与结果中全部样例总数的比值召回率Recall结果中的正确样例数与实际存在的正确样例数的比值F值准确率和召回率的加权平均一般用F1准确率、召回率、F值准确率Precision结果中的正确样例数与结果中全部样例总数的比值召回率Recall结果中的正确样例数与实际存在的正确样例数的比值在分词性能的度量时:Precision
=
切分正确的词数/系统切分出的词数Recall
=
切分正确的词数/标准答案的词数准确率、召回率、F值在分词性能的度量时:Precision
=
切分正确的词数/系统切分出的词数Recall
=
切分正确的词数/标准答案的词数举例某分词系统的切分结果瑞/星/以/技术/和服/务/开拓/市场标准答案瑞星/以/技术/和/服务/开拓/市场准确率、召回率、F值准确率Precision结果中的正确样例数与结果中全部样例总数的比值召回率Recall结果中的正确样例数与实际存在的正确样例数的比值在作为搜索引擎性能的度量时:Precision
=
搜索到的相关文档数/搜索到的全部文档数Recall
=搜索到的相关文档数/网上全部相关文档数准确率、召回率、F值在作为搜索引擎性能的度量时:Precision
=
搜索到的相关文档数/搜索到的全部文档数Recall
=搜索到的相关文档数/网上全部相关文档数举例:利用某搜索引擎搜索“和服”搜索引擎返回100个结果,其中有78个与和服相关互联网上共有10000个与和服相关的网页SIGHAN词汇分析与处理字符处理数字、连字符、标点符号、外文字母……词汇处理StemingStopwords分词词性标注词性标注我明天去北京我/r明天/nt去/v北京/ns兼类我设计的是个程序我的设计是个程序汉语兼类词统计詹卫东摘自《现代汉语语法信息词典》1997年版兼类数兼类词数百分比例词及词性标记530.01%和:c-n-p-q-v4200.04%光:a-d-n-v31260.23%画:n-q-v214752.67%锁:n-v合计16242.94%总词数:55191和huò<量>用于时间,相当于“会儿”[moment]看一和用于洗东西或煎中药换水,相当于“次”、“道”[time]衣裳已洗四和光<动>发扬光大英语兼类词统计(BrownCorpus)兼类数兼类词数71625124613264237602~74100135340如何标注词性?套用一个合适的模型,剩下的问题交给数学家解决隐马尔可夫模型(HMM)马尔可夫模型马尔可夫模型tiX1X2X3X4X5X6X7X8X9X10thetitip有限视野:X6的值仅与前一个(X5)有关无限视野:X6的值仅与前面所有的有关马尔可夫模型tiX1X2X3X4X5X6X7X8X9X10thetitip时间不变性:任何时候t后面出现i的概率都相等非确定性有限状态自动机非确定性有限状态自动机副词冠词动词数词形容词名词隐马尔可夫模型副词冠词
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全科医生进修学习计划
- 信息技术促进体育运动普及计划
- 现代机械电子工程实习总结
- 小学网络安全教育与防护工作计划
- 智慧城市背景下的社会治理调研报告范文
- 制造业网络安全自查报告范文
- 小学班级艺术节安全保障工作计划
- 耐久跑教练培训与发展计划
- 布展服务招标要求3篇
- 语言培训班主任跨文化沟通培训心得体会
- 2025商业综合体委托经营管理合同书
- 干部履历表(中共中央组织部2015年制)
- 贵溪鲍家矿业有限公司采矿权出让评估报告书
- 低压电气基础知识培训课件
- 《活着》读书分享优秀课件
- 额定电压35kV及以下电力电缆技术规范
- 各种配电箱接线系统图25024
- 小升初自我介绍、幼升小学生个人简历、儿童简历word模板
- 童年歌词拼音版
- 托兰斯创造性思维测验-词汇.
- 重力坝设计计算表格
评论
0/150
提交评论