




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、词语的分类和聚类内容提要1、词语的分类:定义、举例、分类的实现2、词语聚类: (1)词聚类的定义 (2)词聚类技术的作用 (3)词聚类的分类 (4)词聚类方法 (5)词聚类实现 (6)词聚类在线演示 (7)相关文章阅读词语的分类词语分类:以领域特征明显的词和短语作为聚类对象,在分类系统的大规模层级分类语料库中,利用独创的文本分类的特征提取算法进行词语的领域聚类,通过控制词语频率的影响,分别获取领域通用词和领域专类词。分类词表总共15大类,224个三级小类,如“房产”、“汽车”、“科技_数码_视频_数字电视”、“房产_家居家装_家具”。见分类词表 中文词分类算法词分类的实现:词分类的实现:第一步
2、第一步上下文概念上下文概念 一个词在一文章中,它前后出现的每个词,一个词在一文章中,它前后出现的每个词,即为它的上下文即为它的上下文 ,在这里只统计每个词前后,在这里只统计每个词前后各一个的上下文,各一个的上下文,例:例:“迈向迈向 充满充满 希望希望 的的 新新 世纪世纪”,如果想,如果想找找“充满充满”的上下文,只统计到的上下文,只统计到“迈向迈向”和和“希望希望”就可以了。就可以了。如果词的上下文有重复,则累计到该词上下如果词的上下文有重复,则累计到该词上下文对应的数量里文对应的数量里如:充满如:充满 迈向:迈向:3 希望:希望:6 信心:信心:15.1、得到词的上下文流程图返回取出-w
3、ord-上下文集合,得到word的-after-词-before词是否是第一个词YN以word为key,上下文为value放入map是否已经存在词-word-的上下文NY-after-词-before词是否存在于上下文NY把-after-词-before词加入word的上下文-次数:1把-after-词加入word的上下文-次数:1文章开头的一个词出现次数+1从-wordArr-中依次取词word把-after-词-before词加入word的上下文-次数:1得到词的上下文流程图得到词的上下文流程图词分类的实现:词分类的实现:第二步第二步相似度的计算相似度的计算 v 对每两个词的上下文进行比较
4、,如果它们的对每两个词的上下文进行比较,如果它们的上下文有相同的词,数字,字母,符号,则相上下文有相同的词,数字,字母,符号,则相似度值大于似度值大于0,用,用计算计算如果没有相同的上下文内容,则直接判断相似度为如果没有相同的上下文内容,则直接判断相似度为0v 公式:公式:a*b/(词词1所有上下文的次数的平方和的开方所有上下文的次数的平方和的开方) +(词词2)相似度相似度: 01 5.2、相似度的算法Key valueWord1(不重复不重复)上下文集合上下文集合listWord2上下文集合上下文集合list 所有词上下文集合map上下文:上下文: 出现次数出现次数 aQQ: 出现出现次数
5、次数 b上下文:上下文:出现次数出现次数 x上下文集合list(map的value)相似度计算公式:分子/分母(计算公式是用户给定的) 分子:相同上下文出现次数的乘积 (例:b*xx ) 是以个累加的过程 分母:sqrt(a*a+b*b+x*x)+ sqrt(aa*aa+bb*bb+xx*xx)上下文:上下文: 出现次数出现次数 aa上下文:上下文: 出现次数出现次数 bbQQ:出现次数出现次数 xx词分类的实现:词分类的实现: 第三步第三步 分类算法分类算法例:.迈向和迈进相似度:0.8, 迈向和迈出相似度0.7, 迈向和走向相似度:0.9, 则取它们之间相似度最高的 迈向、走向, 把迈向存
6、到数组.走向、奔向相似度最高:0.78把走向和奔向存到一起.0.780.9,所以把走向加入到迈向所在的文件里所以这里咱们需要用的是:词与词的最大相似度即根据最相近的词分类 分类算法分类算法.当进行到当前相似度 大于 前面的那个相似度时, 把类分开 如: 奔向和奔去的相似度为0.8, 大于 走向和奔向的相似度0.78。 把迈向,走向归为一类, 把奔向和奔去归为一类。每分好一个类就写到一个记事本文件详细流程图原始文本5、系统的整体流程分析从文本中取词得到最大相似度得到每个词的上下文分类算法得到分类文件整体流程图整体流程图1.词聚类定义聚类就是按照事物的某些属性、特征,把事物聚集成类,使类间的相似性
7、尽量小,类内的相似性尽量大。词语聚类定义1:即将一个给定的词wi 分到某个词类ci 中去。它是语音识别、智能信息检索等领域的一个重要的自然语言处理问题.根据词语的分布环境进行聚类是目前常采用的一种研究方法。词聚类定义2:就是对某种语言的某个特定领域术语集中的相关词语进行聚类。2、词聚类技术的作用词聚类技术的一个重要应用就是改善信息检索系统的人机交互效率。由于人们对信息源的内容不完全知道, 所以不可能直接检索到信息。人们总是根据信息的一些相似模式来找相关信息的。 比如, 当用户面对一个内容不熟悉的数据库时, 往往为提出合适的查询关键词而不知所措。如果存在一个相关词语的帮助系统, 则用户可先输入自
8、己熟知的词语, 自动得到数据库中的一批与之相关的词语, 从而帮助用户提出合适的查询要求。在多媒体浏览系统中, 自动的词聚类也可用来帮助超文本的生成。(具体举例见下页)具体举例3、词语聚类的分类按方法主要分为2 类:(1)基于知识的聚类,即基于规则的聚类;(2)数据驱动,即基于统计的聚类。在基于知识的聚类方法中,根据词的语法或者语义信息对词进行聚类。一个很典型的例子就是按词性分类。早期研究表明,这种方法会使得模型的复杂度很高。然而如果有某个特定领域的知识,那么将语法功能相似的词语聚在一起能够取得较好的效果(相关文章基于语料库的领域词语聚类实现刘华)数据驱动的聚类,就是不用任何语法和语义知识,完全
9、利用语料的统计信息对词进行自动聚类。该方法通常利用EM 算法,不断降低聚类之后整个文本的复杂度,最后找到一种最优的聚类结果。最优结果的搜索策略通常是贪心算法,因而是局部最优而非全局最优。这种方法大大降低了计算复杂性,从而使得对词语自动聚类成为可能。4、词聚类方法华中科技大学计算机科学与技术学院华中科技大学计算机科学与技术学院 胡和平胡和平中文词聚类研究5、词聚类实现举例现有的资料就是一个现有的资料就是一个300M 的作了分词和词性标注的句子语料库的作了分词和词性标注的句子语料库,要要实现词聚类实现词聚类,1、首先、首先要从这个句子语料库中抽出具有相关关系的词对要从这个句子语料库中抽出具有相关关系的词对. 2、然后、然后对这些词对进行一些必要的处理对这些词对进行一些必要的处理,如去掉频率太低的词对如去掉频率太低的词对,得得出要聚类的词等等出要聚类的词等等. 3、最后、最后要用程序实现这个聚类算法要用程序实现这个聚类算法.现在对名词进行聚类为例现在对名词进行聚类为例,名词的相关词定为量词名词的相关词定为量词. 具体程具体程序实现过程分为三步序实现过程分为三步: 6、在线演示http:/ 澜科语言科
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 特价房买卖合同模板
- 会议音响租赁合同
- 食品供应链服务合同范文
- 搪瓷化工容器的安全标准考核试卷
- 户外帐篷批发考核试卷
- 助动车行车记录仪使用与维护考核试卷
- 摩托车ABS系统传感器检测考核试卷
- 工业机器人的智能电源管理考核试卷
- 体育运动心理承受能力测试考核试卷
- 家装整装合同范本
- 人教版新课标小学美术二年级下册全册教案
- 病历书写基本规范及相关法律解析
- 我国互联网公司资本结构分析-以新浪公司为例
- 【蓝天幼儿园小一班早期阅读现状的调查报告(含问卷)7800字(论文)】
- 2023年全国职业院校技能大赛赛项-ZZ005 装配式建筑构件安装赛项模块一理论赛题
- 第二次全国土地调查技术规程完整版
- 客户答谢活动承包合同
- AQ/T 5201-2007 涂装工程安全设施验收规范(正式版)
- 华南师范大学333教育综合专业硕士历年考研真题汇编(含部分答案)合集
- 食管早癌的内镜诊断
- 环保监测设备运维服务
评论
0/150
提交评论