版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一种宋词自动生成的遗传算法汇报人:XXX日期:2016年11月2日汇报提纲 研究背景 遗传算法 构造宋词生成遗传算法 系统的实现与结果分析一、研究背景 汉语古典诗词的计算化研究始于 20 世纪90 年代中期,到目前为止,已在语料库建立、词汇语义分析、创作风格辨析、联语应对等方面取得了一些初步的成果,但在诗歌的自动生成方面,尚无系统性的学术性研究。相比而言,国外有关机器诗歌自动生成的研究起步较早,目前已尝试了许多方法并积累了一定的经验。 较为成熟的诗歌生成系统主要是Levy 开发的原型系统POEVOLVE,能够生成Limerick(一种起源于欧洲的五行打油诗)。在该系统中将诗歌生成问题看成一个状
2、态空间搜索问题,并提出了语义(meaningfulness), 语法(grammaticality) 和诗性(poeticness)3 个诗歌必须满足的条件。一、研究背景 借鉴上述的遗传算法诗歌生成系统的主要原理,在我们自己建立的全宋词熟语料库(包括切分、词性、音韵、情感、典故、格律、词牌、句法等内容)的基础上,针对宋词自身的特点,按照遗传算法的构造原理,具体给出了一种宋词自动生成的遗传算法,并进行了机器实现。一、研究背景系统整体框架二、遗传算法 遗传算法(GA)由 Holland 教授于六十年代提出。它是仿真生物遗传学和自然选择机理,通过人工方式所构造的一类智能优化搜索算法。 早期的应用研究
3、主要围绕组合优化问题以及复杂的函数优化问题求解,如今应用研究的领域:NP完全问题机器学习并行处理神经网络权值知识发现1、概述概述二、遗传算法 染色体 基因2、基本概念基本概念二、遗传算法 适应度:基本概念各个个体对环境的适应程度叫做适应度。为了体现染色体的适应能力,引入了对问题中的每一个染色体都能进行度量的函数,叫适应度函数. 这个函数是计算个体在群体中被使用的概率。二、遗传算法 选择(selection) 交叉(crossover) 变异(mutation)操作算法简单遗传算法的遗传操作主要有以下三种:二、遗传算法操作算法1选择(selection)选择操作也叫复制操作,从群体中按个体的适应
4、度函数值选择出较适应环境的个体。一般地说,选择将使适应度高的个体繁殖下一代的数目较多,而适应度较小的个体,繁殖下一代的数目较少,甚至被淘汰。最通常的实现方法是轮盘赌(roulette wheel)模型。群体中每一染色体指定饼图中一个小块。块的大小与染色体的适应性分数成比例,适应性分数愈高,它在饼图中对应的小块所占面积也愈大。为了选取一个染色体,要做的就是旋转这个轮子,直到轮盘停止时,看指针停止在哪一块上,就选中与它对应的那个染色体。若产生随机数为0.81,则6号个体被选中。二、遗传算法操作算法2交叉(Crossover)交叉算子将被选中的两个个体的基因链按一定概率pc进行交叉,从而生成两个新的
5、个体,交叉位置pc是随机的。其中Pc是一个系统参数。根据问题的不同,交叉又为了单点交叉算子(Single Point Crossover)、双点交叉算子(Two Point Crossover)、均匀交叉算子 (Uniform Crossover),在此我们只讨论单点交叉的情况。单点交叉操作的简单方式是将被选择出的两个个体S1和S2作为父母个体,将两者的部分基因码值进行交换。假设如下两个8位的个体:产生一个在1到7之间的随机数c,假如现在产生的是2,将S1和S2的低二位交换,后代P1为1100 1111,P2为10101100。二、遗传算法操作算法3变异(Mutation)这是在选中的个体中,
6、将新个体的基因链的各位按概率pm进行异向转化,最简单方式是改变串上某个位置数值。对二进制编码来说将0与1互换:0变异为1,1变异为0。如下8位二进制编码:随机产生一个1至8之间的数i,假如现在k=6,对从左往右的第6位进行变异操作,将原来的1变为0,得到如下串:三、构造宋词生成遗传算法东风/夜/放/花/千/树。更/吹落,星/如/雨。宝马/雕车/香/满/路。凤箫/声动,玉壶/光转,一夜/鱼龙舞。蛾儿/雪柳/黄金缕,笑语/盈盈/暗香/去。众里/寻/他/千百/度,蓦然/回首,那人/却/在/灯火/阑珊/处。在词库里查找这些词的频率,发现每个词的频率都大于2。这说明,除这首词外其它词的分词结果已经完全涵
7、盖了这首词中使用的每一个词语。也就是说,这首词实质上是词库中某些词的一种排列组合形式。因此,我们可以认为诗词生成问题在本质上是一个解空间中寻求最优化的问题。青玉案元夕三、构造宋词生成遗传算法 因此,可以将遗传算法的优化机制引入到宋词的自动生成模型中。下面将从以下4 个方面给出宋词生成遗传算法的构造方法:1、求解问题编码2、初始种群生成3、适应度函数设计4、遗传操作(选择,交叉,变异)三、构造宋词生成遗传算法编码方案文章提出了将“平、仄”与“0、1”编码相对应的编码方案。1、编码方案比如词牌清平乐平仄分布如下:平仄,仄平平仄.仄平平仄仄,仄平仄.平仄平平,平仄平平.仄平仄,平仄平平.其中表示可平
8、可仄.根据我们的编码方案可得如下编码串:*0*1,*1001.*1*0011,*1*0*1.*0 *100,*0*100.*1*0*1,*0*100.三、构造宋词生成遗传算法编码方案在实际操作中,为缩小问题的解空间,我们将分词模式固定为出现概率最大一种模式:*0/*1,*1/0/01。*1 /*0 /0 /11,*1/*0/*1。*0/*1/00,*0/*1/00。*1/*0/*1,*0/*1/00。相应地,我们对词库中的单字词和双字词进行分类:单字词分为平、仄两类,对应编码 0、1;双字词分为平平、平仄、仄平、仄仄 4 类,对应编码 00、01、10、11。染色体基因三、构造宋词生成遗传算法
9、初始种群生成2、初始种群的生成考虑到宋词严格的格律要求,在求解该优化问题过程中,我们始终将格律要求作为必须满足的约束条件。种群初始化的操作主要有以下步骤:1)根据给定的主题词,从词库中挑选和主题词相关度大于k1 的词,构成一级候选词空间。再从一级候选词中挑选相关度高的一部分词,组成二级候选词空间。以此递归至候选词空间的词数量大于 n1。2)从候选词空间随机选择满足押韵要求的词,首先填充每个需要押韵的位置,然后在满足平仄要求的基础上,随机选词填充剩余的位置。同此操作,生成含 N 个个体的的初始种群。三、构造宋词生成遗传算法适应度函数3、适应度函数的构造 针对宋词生成问题,个体适应性的评判主要依据
10、以下4个指标:(1)句法合法性(2)主题相关性(3)词句搭配的适当性(4)风格和情感统一性三、构造宋词生成遗传算法(1)句法合法性适应度函数 诗词的句子不同于普通自然语言文本的句子。对于普通自然语言文本,句子的有效性通常是由严格的句法分析保证的。但由于诗词语言具有高度凝练的特点,其句法成分往往并不完整。 但通过对大量诗词语句构成的分析,组成句子的有效模式的数目是有限的,并且呈现出了层次化的结构。分词模式为“2212”的七字词句的 DFA判断图三、构造宋词生成遗传算法适应度函数三、构造宋词生成遗传算法适应度函数(2)主题相关性 所有词语和主题词的相关度之和(3)词句搭配的适当性 所有两个连续词语
11、的相关度之和三、构造宋词生成遗传算法适应度函数利用互信息计算词义相关度首先先构造频率矩阵,我们将所有的待测词(t 个)都用 在待测文献(d 句)中的出现频率表示出来,形成 td 的矩阵。如果 s 为文献(实验时为句子),三、构造宋词生成遗传算法适应度函数三、构造宋词生成遗传算法适应度函数(4)风格和情感的统一性 词中出现的词汇的风格和情感得分都趋于一致。三、构造宋词生成遗传算法适应度函数适应度函数F定义为以上4个量归一化的加权和,即F=1G+2 R+3P+4S。其中,句法合法性简写为G,主题相关性简写为R,词句搭配的适当性简写为P,风格和情感统一性简写为S。G,R,P 与S 均已归一化,1,2
12、,3,4为相应的加权系数。三、构造宋词生成遗传算法遗传操作4、遗传操作选择操作就是从群体中按个体的适应度函数值选择出较适应环境的个体.考虑到宋词作品的优化是一个主观性较强的问题,目前尚无固定、量化的标准可以借鉴,我们采用精英主义和轮盘赌算法相结合的模型作为选择个体的依据.精英主义方法在每一次产生新的一代时,首先把当前最优解原封不动地复制到新的一代中,其他选择步骤不变.这样任何时刻产生的一个最优解都可以存活到遗传算法结束.在保留了当前最优解后,采用轮盘赌算法完成对剩余个体的选择,即按照个体适应度值所占全部个体适应值总和的比例作为被选概率来选择个体.(1)选择操作:三、构造宋词生成遗传算法遗传操作
13、交叉操作是遗传算法中最重要的操作,是决定算法收敛性能的关键,因此必须慎重选择交叉算子的策略.通过对宋词编码特点的分析与实验,我们采用包括可以跨句进行的部分映射和启发式两种交叉操作.这里,部分映射交叉可看作二进制串的两点或多点交叉在换位表达中的扩展,用特别的修复程序来解决简单的两点或多点交叉引起的非法性.可以跨句部分映射交叉方法虽然操作简单快速,且由于交叉点可以在整首宋词范围内随机选取,因而产生的子代与父代有较大的相异性,能够有效避免种群单一化的过早出现;但是由于可能破坏句子的句法有效性的问题,因此必须通过启发式交叉策略加以补救。(2)交叉算子:三、构造宋词生成遗传算法遗传操作变异操作是按一定概率,对个体编码串上的某个或某些基因位的值进行改变.针对宋词生成,我们采用启发式变异操作.步骤如下:(3)变异算子:步骤1:对于要进行变异的个体,比较每句的适应度,选出适应度值最小的句子。步骤2:若所选句不符合句法规范,找出与原句句法组合最接近的一种合法组合,利用词义相关,替换原句某个或某些基因位。步骤3:否则,随机选取句中一个基因位Wn,获取其邻位基因Wn1 的词性P,查找与Wn 相关度最大且词性为P的词,替换Wn1(若n=1,改对Wn+1 进行操作)。四、系统的实现与结果分析四、系统的实现与结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度煤矿地质勘探承包合同示范样本4篇
- 2025年度毛石挡土墙施工期施工现场安全管理合同4篇
- 2025年度绿化苗木采购及种植合同标准范本4篇
- 二零二五版农业废弃物资源化利用承包合同3篇
- 2025年度林业种质资源收集与利用合同4篇
- 二零二五年度新型动产质押反担保服务合同3篇
- 二零二五年度科研机构虫害防治与实验室安全合同3篇
- 建筑公司2025年度真石漆施工合同范本2篇
- 二零二五版出租车承包合同风险评估及管控3篇
- 2025至2030年中国电控锁遥控器数据监测研究报告
- 骨科手术后患者营养情况及营养不良的原因分析,骨伤科论文
- GB/T 24474.1-2020乘运质量测量第1部分:电梯
- GB/T 12684-2006工业硼化物分析方法
- 定岗定编定员实施方案(一)
- 高血压患者用药的注意事项讲义课件
- 特种作业安全监护人员培训课件
- (完整)第15章-合成生物学ppt
- 太平洋战争课件
- 封条模板A4打印版
- T∕CGCC 7-2017 焙烤食品用糖浆
- 货代操作流程及规范
评论
0/150
提交评论