




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
超图理论与应用第一页,共三十八页,编辑于2023年,星期一动机(Motivation)什么是共指消解(CoreferenceResolution)共指消解的各种方法图分割(GraphPartitioning)方法简单图分割方法的潜在缺陷引入超图(Hypergraph)的意义第二页,共三十八页,编辑于2023年,星期一超图(Hypergraph)超图的定义超图的分割超图真比简单图优越吗?如何将超图运用到共指消解中第三页,共三十八页,编辑于2023年,星期一什么是共指消解[李明i]怕[高妈妈j]一人呆在家里寂寞,[他i]便将[他自己i]家里的电视搬了过来给[她j]。第四页,共三十八页,编辑于2023年,星期一共指消解的方法规则方法利用句法层面的知识,进行启发式消解。统计方法基于训练语料库,统计出概率分布,然后进行预测。机器学习决策树、朴素贝叶斯、规则学习等等。图方法以节点表示名词短语,以边表示名词短语间的共指关联度。第五页,共三十八页,编辑于2023年,星期一图方法节点表示名词短语边表示短语与短语之间的某种关联(这种关联必须要对“共指”起到贡献,如人称、性别、单复数等属性)边的权值用来表示这种关联对共指起到的贡献的大小第六页,共三十八页,编辑于2023年,星期一简单图一条边只能连接两个顶点第七页,共三十八页,编辑于2023年,星期一超图一条边可以连接多个顶点第八页,共三十八页,编辑于2023年,星期一为什么引入超图(一个例子)简单图版本丢失了“同一作者的多篇文章”这一信息,而超图版本则保存了这一信息。在共指消解里面,也有类似的信息,比如“多个指代的性别(gender)相同”、“多个指代的数量相同”(即同为单数或同为复数)等。顶点代表文章,每条边代表两个顶点(文章)享有同一个作者第九页,共三十八页,编辑于2023年,星期一为什么引入超图(一个例子)假设有三篇文章,v1,v2,v3。它们的作者分别是:v1:A,Bv2:B,Cv3:C,D如果v1:A,Bv2:A,Cv3:A,D第十页,共三十八页,编辑于2023年,星期一简单图的分割目标:使分割出来的两个子图之间的关联最小
问题:如何定义“关联最小”?第十一页,共三十八页,编辑于2023年,星期一简单图分割的数学表达分割子图间关联最小
=跨分割边界的所有边的权值之和最小邻接矩阵(AdjacencyMatrix)A(i,j)=顶点i和顶点j之间的所有边的权值之和MinCut(G+,G-),根据二次型表达式等价于:MaxYYTAY,其中Yi∈{+1,-1};第十二页,共三十八页,编辑于2023年,星期一简单图分割的问题问题:导致退化的分割第十三页,共三十八页,编辑于2023年,星期一Normalized-Cut仅仅做到跨边界的权值和最小还不够,因为可能存在一些孤立点,它们跟外界的联系本身就极小,于是很可能被独立分割出来。第十四页,共三十八页,编辑于2023年,星期一Normalized-Cut解决思想:一个cut是“好的”当且仅当对任意一个子图来说,从子图中的节点出发跨越分割边界的边的权值和相比于从子图节点出发的所有边的权值和的比例越小越好。通俗来说就是:任一分割出来的子图跟外界的联系主要来自该子图内部。第十五页,共三十八页,编辑于2023年,星期一Normalized-CutNP-Hard第十六页,共三十八页,编辑于2023年,星期一拉普拉斯矩阵(LaplacianMatrix)第十七页,共三十八页,编辑于2023年,星期一谱(Spectrum)方法NP-Hard谱方法逼近解minz(ZTLZ/ZTZ)其中Zi∈{r+,r-};r+=√|{i:zi<0}|/|{i:zi>0}|r-=√|{i:zi>0}|/|{i:zi<0}|不变式:ZTZ=n;ZT1=0;含义:L是拉普拉斯矩阵L=B–A第十八页,共三十八页,编辑于2023年,星期一
超图理论的目标
将简单图的表达泛化为超图表达,将简单图分割算法推广到超图分割之上,并证明超图分割和简单图分割的内在标准(criteria)是一致的第十九页,共三十八页,编辑于2023年,星期一超图的表示关键是超边如何表示:用一个点集来表示。令V是一个顶点集合V={v1,v2,v3,v4,v5,v6,v7};则每一条超边都是V的一个子集E={e1,e2,e3,e4}={{v1,v2,v3},{v2,v3},{v3,v5,v6},{v4}}第二十页,共三十八页,编辑于2023年,星期一
超图的矩阵表达顶点的度d(v)超边的度超图的矩阵表达第二十一页,共三十八页,编辑于2023年,星期一
超图的邻接矩阵其中W是一对角阵,对角线元素为各超边的权值。A是超图的邻接矩阵按右边方法表示的A(超图的邻接矩阵),A(i,i)为0,A(i,j)为vi和vj共享的所有超边的权值和。Dv为一对角阵,对角线元素为各顶点的度d(v)。第二十二页,共三十八页,编辑于2023年,星期一
超图的分割(cut)如何将简单图的分割标准推广到超图上面?第二十三页,共三十八页,编辑于2023年,星期一
理解超图cut的含义将被切割的每一条超边看作一个子图,其中每两个顶点都是两两相连的,连接的权值皆为w(e)/(e的度)。该子图被切割为e∩G+和e∩G-个顶点,因此被切断的边一共有|e∩G+||e∩G-|个。第二十四页,共三十八页,编辑于2023年,星期一
超图的Normalized-Cut超图和简单图的Normailzed-cut是形式一致的第二十五页,共三十八页,编辑于2023年,星期一
超图的Normailzed-Cut第二十六页,共三十八页,编辑于2023年,星期一随机游走(RandomWalk)第二十七页,共三十八页,编辑于2023年,星期一超图分割的随机游走解释意义:证明超图分割的确是简单图分割的一个妥善的推广,这对超图分割算法的有效性至关重要。图分割的随机游走解释:一个最优分割须使得随机游走落在同一个子图中的概率最大,同时随机游走跨越分割边界的几率最小。目标:证明超图分割也满足同样的随机游走性质。第二十八页,共三十八页,编辑于2023年,星期一什么是随机游走(RandomWalk)
GooglePagerank算法第二十九页,共三十八页,编辑于2023年,星期一GooglePagerank算法基本模型:用一个向量I来代表所有页面的重要性,I的第i个分量Ii就是第i个页面的重要性;另,假设一个页面有lj个向其它页面的链接,那么每个被指向的页面都得到该页面的1/lj的重要性;同时假设一个页面的重要性完全来自指向它的页面的贡献数学表达:其中Pj表示第j个页面。lj表示第j个页面上的链接数,Pj∈Bi表示第j个页面指向Pi。这么多页面,它们互相之间都有一堆链接,我怎么知道一个特定的页面的重要性是多少呢?第三十页,共三十八页,编辑于2023年,星期一GooglePageRank算法第三十一页,共三十八页,编辑于2023年,星期一GooglePagerank算法如何计算I=HI中的I?(I是H的一个特征向量,对应特征值为1)迭代法:Ik+1=HIk第三十二页,共三十八页,编辑于2023年,星期一GooglePagerank算法第三十三页,共三十八页,编辑于2023年,星期一GooglePagerank算法问题:链接黑洞(只进不出)第三十四页,共三十八页,编辑于2023年,星期一GooglePagerank算法解决:随机游走(RandomWalk)理论假设你是一个网络爬虫,在网络上跟着页面链接随机的游走。那么,当你发现自己停在一个页面Pj上,而Pj共有lj个链接,其中一个指向Pi,那么你下一步游走到Pi的几率就是1/lj。在你随机游走的整个过程中,假设你停留在Pj上的时间是Tj,那么你停留在Pi上的时间就是:随机游走模型跟页面重要性模型是一致的随机游走模型跟页面重要性模型是一致的第三十五页,共三十八页,编辑于2023年,星期一GooglePagerank算法随机游走到页面2(一个链接黑洞)的时候,尽管没有链接,但我们可以假设下一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公共交通工具安全防护方案计划
- 生物观察实践活动方案计划
- 仓库作业效率提升的案例分析计划
- 肺癌合并肺栓塞护理
- 未来市场的年度工作应对策略计划
- 《贵州万胜恒通矿业有限责任公司习水县温水镇吉华煤矿(变更)矿产资源绿色开发利用方案(三合一)》评审意见
- 木林森品牌新形象
- Definitiontheability(英文版知识讲义)
- 储能锂电池知识培训课件
- 内蒙古开鲁县高中生物 第四章 细胞的物质输入和输出 4.1 物质跨膜运输的实例 第一课时教学实录 新人教版必修1
- 心理咨询中心介绍
- 土石方工程投标书技术标
- 胸腹联合伤完整版本
- 装修店长述职报告
- 2023年10月自考试题00840第二外语(日语)
- 农产品市场营销中的市场竞争分析
- 了解滑雪:滑雪器材与滑雪的技巧
- 也是冬天也是春天:升级彩插版
- 报价单模板完
- 【某医疗美容机构营销策略现状、问题及优化建议分析6300字】
- 关于tiktok的英语新闻
评论
0/150
提交评论