电子政务中中文文本分类技术的应用_第1页
电子政务中中文文本分类技术的应用_第2页
电子政务中中文文本分类技术的应用_第3页
电子政务中中文文本分类技术的应用_第4页
电子政务中中文文本分类技术的应用_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品文档放心下载、谢谢阅读精品文档放心下载具,以用户为中心,以应用为灵魂,以便民为目的,而电子政务建谢谢阅读谢谢阅读感谢阅读谢谢阅读谢谢阅读设的重点问题和面临的新挑战。(一)电子政务信息的特点当前,我国党政系统的信息80%以上都是以文档形式存在,其中谢谢阅读OFFICE或是精品文档放心下载WPS应用系统,而公文在信息标引上又具有其自身的特点。精品文档放心下载、具有严格的格式要求。从字体、大小、排版格式都有严格的要求。谢谢阅读精品文档放心下载早可以追溯到1985年,中办《公文主题词表》通过了七感谢阅读年9月和1994精品文档放心下载年1月,中办、国办先后规定:凡报送中办、国办的正式文件,均需精品文档放心下载标注主题词。1997年12月和1998年8月,国办和中办先后修订了感谢阅读谢谢阅读精品文档放心下载资源管理与交换的基础。是指导各类政务信息采集、加工、整合和有感谢阅读谢谢阅读感谢阅读库资源的加工规X感谢阅读感谢阅读谢谢阅读时间相当漫长。另外,人工标引的公文主题词又会产生因人而异、因精品文档放心下载X性、标准性和科学性难以得谢谢阅读精品文档放心下载关档案整理、辅助决策、知识管理等工作中的效果和效率。谢谢阅读、公文中主题词所处位置不同造成其信息价值不同。一是该词的词谢谢阅读谢谢阅读X感谢阅读谢谢阅读或者章节名、文献摘要。最后为文献中的词。”丁璇等人随机抽取了感谢阅读300篇经济类网页,对这些网页进行人工自由标引、人工打分、词频感谢阅读统计,并进行统计数据的分析、研究,得出了网页内容主题与网页题谢谢阅读谢谢阅读标记等个标引源的精品文档放心下载主题表达能力的先后顺序。得出的结论是首段文章标题HTML标记第感谢阅读一段首句网页标题第一段尾句第二段首句第二段尾句尾段第三段首精品文档放心下载句其它第三段尾句。并建议它们的加权值为精品文档放心下载5:5:5:4:4:4:2:2:2:2:2:2。、公文具有行业性比较明显。由于党政机关的职能分工不同,其公精品文档放心下载谢谢阅读侧重。比如,组织部门中,使用“党的建设、“人才队伍、“执感谢阅读配谢谢阅读额”、“谷物”等词相对较高。因此,部门的主要职能给主题词带来精品文档放心下载了相对集中的特点。、主题词的标引具有失真性。在公文制作过程中,主题词的一些标精品文档放心下载感谢阅读感谢阅读交、概念限定关系的词组配;二是若词表中无合适词进行组配时,应谢谢阅读谢谢阅读自由词进行标引。谢谢阅读能反映出公文的大致内容和意思的表达,但对具体内容很难表达准精品文档放心下载确,因而,为弥补和克服以上情况所带来的不足,在考虑分类时,不谢谢阅读精品文档放心下载的位置权重等一些因素。(二)中文文本分类技术文本自动分类是指计算机将一篇文章自动地分派到一个或多个预定谢谢阅读IR和机器学习ML谢谢阅读外大致经历了三个发展阶段:第一阶段(1958~1964)主要进行自动分感谢阅读类的可行性研究,第二阶段(1965~1974)进行自动分类的实验研究,谢谢阅读第三阶段(1975至今进人实用化阶段。我国文本自动分类的研究工作始于20世纪80精品文档放心下载从可行性探讨——辅助分类系统——自动分类系统三个发展阶段。精品文档放心下载1981年,侯汉清先生首先对中文文本自动分类进行了探讨,经过二感谢阅读感谢阅读分类技术绝大多数都用到了经典的向量空间模型(VSM),其中使用较感谢阅读多并且技术比较成熟的主要有基于统计学的分类技术和基于人工智精品文档放心下载能的自动分类技术。感谢阅读上,通过比较本特征向量与预定义类别特征向量的相似度来进行归感谢阅读精品文档放心下载向量权重算法。常用的向量空间模型(VSM)、NaiveBayes方法、线谢谢阅读性最小二乘法以及K邻近算法都属于这类技术。精品文档放心下载精品文档放心下载感谢阅读感谢阅读精品文档放心下载反向推理和混合推理三种。总体上来说,中文文本分类还处于实验研究阶段,分类正确率约为精品文档放心下载60%~90%,离形成商业化的软件投入实际应用尚有一定的距离。精品文档放心下载(三)电子政务中中文文本自动分类研究存在的主要问题、分词算法精品文档放心下载谢谢阅读切分标记,中文词与词之间没有界定符,需要人为切分。此外汉语中谢谢阅读谢谢阅读目前为止,现有的各种分词算法都未能很好的解决歧义切分问题。感谢阅读、文本的表示方法如何准确地表示中文文本是自动分类研究的另一个重点与难点,研究者们普遍采用带有权值的文本特征向量空间来表示文本,感谢阅读如何确定各特征向量的权值以及如何消除各特征项之间的“斜交”感谢阅读(IDF)、二进制加权法等是目精品文档放心下载前使用较多的权值计算法,但这些方法都存在一定的缺点,难以克感谢阅读感谢阅读文本结构,难以表达段落、句子之间语义关系,这正是计算机无法谢谢阅读像人类一样正确类分文本的一个重要原因。、电子字(词)典不够完善目前许多自动分类系统只有一个分词词典和辅以一个同义词对照词谢谢阅读典,词典中没有词性信息、语义信息,这大大影响了分类的正确性。感谢阅读另外,由于社会、科学发展异常迅猛,分支学科、边缘学科、大量新感谢阅读感谢阅读典的分词算法总会有一些词无法切分,从而影响了分类的准确率。感谢阅读、知识库规模小,知识库整体结构和增量化管理不够完善精品文档放心下载感谢阅读谢谢阅读知识学习的问题,这就导致了知识库更新慢,不能谢谢阅读这正是基于人工智能的专家分类系统难以得到广泛应用的重要原因。感谢阅读、文本自动分类算法本身的局限性谢谢阅读是比较两者之间共有关键词的数目,虽然也使用了各种权值计算方精品文档放心下载法,但这些权值在很大程度上依赖于关键词的频度或是否出现的信感谢阅读息,这必然会影响分类结果的准确性。另外,有些分词算法难以具体谢谢阅读实现,如NaiveBayes概率模型,人们很难确定先验概率,因此求得感谢阅读的后验概率肯定存在一定偏差。(四)电子政务中中文文本自动分类研究的建议、加强电子政务专用电子词典的建设电子政务专用词典的建设是文本自动分类技术在这一领域应用的基谢谢阅读础。目前由于中文文本分类技术的限制,并没有完善、实用的处理自感谢阅读然语言的分类系统。但是建立规模较小的专用词典却是切实可行的。精品文档放心下载如美国国立医学图书馆研制的一体化的医学语言(UMLS就是一个很感谢阅读精品文档放心下载精品文档放心下载率。精品文档放心下载精品文档放心下载典、反义词、近义词和衍生词词典来进一步提高自动分类的准确率。谢谢阅读、引入人工智能的研究成果,采用语料库技术获得词典信息与分词精品文档放心下载信息在进入20世纪90感谢阅读感谢阅读精品文档放心下载动处理领域的应用研究。另外,可以加强语料库技术的研究,语料库谢谢阅读谢谢阅读谢谢阅读精品文档放心下载通过这些信息解决自动切词中的歧义问题。、加强现有中文文本自动分类技术的应用研究经过20多年的研究,中文文本自动分类技术在有些方面已经比较成精品文档放心下载谢谢阅读感谢阅读谢谢阅读径PrbMed就为用户提供了自动查找相关文献的功能精品文档放心下载内,中国医学科学院信息研究所胡铁军等于2000年就开始了该方面感谢阅读的研究,现已取得了重大的突破。因而,加强现有中文文本自动分类感谢阅读技术在电子政务中的应用研究以及对各种分类系统(包括基于分类技感谢阅读术的其他应用系统)进行测试和评价,在电子政务信息分类方面进行感谢阅读试验性应用,应该是我们研究初期的重点。ApplicationChinesetextautomaticclassificationto谢谢阅读E-GovernmentABSTRACT:InbinationwiththeactualconditionsofChinain精品文档放心下载buildingE-Governmentsystems,articlestudiesthe感谢阅读Chinesetextautomaticclassificationmethodusedin谢谢阅读E-Government,showsthemainproblemandgivesadvice.Thenit感谢阅读pointsthatbuildingtheelectronicdictionaryisvery谢谢阅读important

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论