人工智能 第2版 课件 AI11互联网智能_第1页
人工智能 第2版 课件 AI11互联网智能_第2页
人工智能 第2版 课件 AI11互联网智能_第3页
人工智能 第2版 课件 AI11互联网智能_第4页
人工智能 第2版 课件 AI11互联网智能_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能

ArtificialIntelligence

第十一章互联网智能WebIntelligence2024/2/271人工智能:互联网智能2024/2/27人工智能:互联网智能2内容提要11.1概述 11.2语义Web 11.3本体知识管理 11.4Web技术的演化11.5Web挖掘 11.6搜索引擎 11.7集体智能 11.8小结 因特网(internet),是网络与网络之间以一组通用的协定相连,形成逻辑上单一庞大、覆盖全世界的全球性互联网络。万维网(WorldWideWeb),是基于超文本相互链接而成的全球性系统,通过互联网访问。本章论述互联网智能主要是指基于万维网的智能技术,即“Webintelligence”,人们经常称作互联网智能。概述2024/2/273人工智能:互联网智能1962年美国美国国防部高级研究计划署的Licklider等提出通过网络将计算机互联起来的构想。1969年12月ARPANET将美国西南部的加州大学洛杉矶分校、斯坦福大学研究学院、加州大学圣塔芭芭拉分校和犹他州大学的四台主要的计算机连接起来。到1970年6月,麻省理工学院、哈佛大学、BBN和加州圣达莫尼卡系统发展公司加入进来。1972年对公众展示,并出现了email。1983年ARPANET完全转移到TCP/IP协议。1995年美国国家科学基金会组建的NSFNET与全球50000多个网络互联,互联网已经初具规模。概述2024/2/274人工智能:互联网智能互联网从诞生到现在的50多年发展中,可以分为四个阶段,即计算机互联、网页互联、用户实时交互、语义互联。2014年7月21日,中国互联网络信息中心(CNNIC)发布了《第34次中国互联网络发展状况统计报告》。截至2014年6月,我国网民规模达6.32亿,手机网民规模达5.27亿,域名总数为1915万个,网站总数为273万个。中国互联网已经形成规模,互联网应用走向多元化。概述2024/2/275人工智能:互联网智能随着互联网的大规模应用,出现了各种各样基于互联网的计算模式。近几年来云计算(cloudcomputing)引起广泛的关注。云计算是分布式计算的一种范型,它强调在互联网上建立大规模数据中心等信息技术基础设施,通过面向服务的商业模式为各类用户提供基础设施能力。在用户看来,云计算提供了一种大规模的资源池,资源池管理的资源包括计算、存储、平台和服务等各种资源,资源池中的资源经过了抽象和虚拟化处理,并且是动态可扩展的。概述2024/2/276人工智能:互联网智能2024/2/27人工智能:互联网智能7内容提要11.1概述 11.2语义Web

11.3本体知识管理 11.4Web技术的演化11.5Web挖掘 11.6搜索引擎 11.7集体智能 11.8小结 Berners-Lee于2000-12-18在XML2000的会议上正式提出了语义Web。语义Web的目标是使得Web上的信息具有计算机可以理解的语义,满足智能体(Agent)对WWW上异构和分布信息的有效访问和搜索。Berners-Lee为未来的Web发展提出了基于语义的体系结构-语义Web体系结构。该体系中从底层到高层分别为:UNICODE和URI、XML、RDF、Ontology、Logic、Proof、Trust语义Web2024/2/278人工智能:互联网智能2024/2/27人工智能:互联网智能9语义Web层次结构第一层是UNICODE和URI,是整个语义WEB的基础,Unicode处理资源的编码,实现网上信息的统一编码,URI负责标识资源,支持语义网上的对象和资源的精细标识;第二层是XML+NameSpace+xmlschema,用于表示数据的内容和结构;通过XML标记语言将网上资源信息的结构、内容和数据的表现形式进行分离;第三层是RDF+rdfschema,用于描述WEB上的资源及其类型、关系,为网上资源描述提供一种通用框架和实现数据集成的元数据解决方案;第四层是OntologyVocabulary,用于描述各种资源之间的联系,揭示资源本身及资源之间更为复杂和丰富的语义联系,明确定义描述属性或类的术语语义及术语间关系;2024/2/2710人工智能:互联网智能第五层是逻辑层。逻辑主要提供公理和推理规则,为智能推理提供基础。该层用来产生规则。第六层是证明层,执行逻辑层产生的规则,并结合信任层的应用机制来评判是否能够信赖给定的证明。第七层是信任层。顶层的信任注重于提供信任机制,以保证用户代理Agent在网上进行个性化服务和彼此间交互合作时,更安全可靠。核心层为XML、RDF、ONTOLOGY,这3层用于表示Web信息的语义。2024/2/2711人工智能:互联网智能2024/2/27人工智能:互联网智能12内容提要11.1概述 11.2语义Web 11.3本体知识管理

11.4Web技术的演化11.5Web挖掘 11.6搜索引擎 11.7集体智能 11.8小结 2024/2/27人工智能:互联网智能13KMSphereLayersEmailDocumentFileImageVideoWebOntologyAcquisitionKnowledgeorganizationKnowledgeDistributionKnowledgeApplication2024/2/27人工智能:互联网智能14KMSphereArchitecture2024/2/27人工智能:互联网智能15KMSphereWorkflow2024/2/27人工智能:互联网智能16KMSphereDemoCreateontologybyhand2024/2/27人工智能:互联网智能17KMSphereDemoOntologyacquisitionfromdatabases2024/2/27人工智能:互联网智能18KMSphereDemoOntologyacquisitionfromtext2024/2/27人工智能:互联网智能19KMSphereDemoEditontology2024/2/27人工智能:互联网智能20KMSphereDemoOntologyconsistencycheck2024/2/27人工智能:互联网智能21KMSphereDemoRDQL(RDFDataQueryLanguage)2024/2/27人工智能:互联网智能22内容提要11.1概述 11.2语义Web 11.3本体知识管理 11.4Web技术的演化11.5Web挖掘 11.6搜索引擎 11.7集体智能 11.8小结 2024/2/27人工智能:互联网智能23互联网发展路线图Spivack20082024/2/27人工智能:互联网智能24Web发展路线图Spivack2008Web1.02024/2/27人工智能:互联网智能25Web2.02024/2/27人工智能:互联网智能26TimO’Reilly-Web2.02024/2/27人工智能:互联网智能27

Web3.02024/2/27人工智能:互联网智能28Web1.0–Web2.0–Web3.0文件网

Web1.0:Webofdocuments人际/社会网

Web2.0:Webofpersons数据网

Web3.0:Webofdata(semantics)2024/2/27人工智能:互联网智能292024/2/27人工智能:互联网智能30内容提要11.1概述 11.2语义Web 11.3本体知识管理 11.4Web技术的演化11.5Web挖掘

11.6搜索引擎 11.7集体智能 11.8小结 Web挖掘分类2024/2/27人工智能:互联网智能31

Web挖掘类项目Web内容挖掘Web结构挖掘Web日志挖掘处理数据类型IR方法:无结构数据、半结构数据Web结构数据用户访问Web数据主要数据自由化文本、HTML标记的超文本Web文档内及文档间的超链Serverlog,Proxyserverlog,Clientlog表示方法词集、段落、概念、IR的三种经典模型图关系表、图处理方法统计、机器学习、自然语言理解机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现页面权重分类聚类模式发现Web站点重建,商业决策2024/2/27人工智能:互联网智能32Web挖掘分类基于网页内容或其描述中抽取知识的过程。Web内容挖掘主要包括文本挖掘和多媒体挖掘两类,其挖掘对象包括文本、图像、音频、视频和其他各种类型的数据。2024/2/27人工智能:互联网智能33Web挖掘分类日志的预处理IPAddressTime/DateMethod/URIReferrerAgent15:30:01/2-Jan-01GETIndex.htm/link.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE5.0W98)15:30:01/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE5.0W98)15:37:09/2-Jan-01GETE.htm/C.htmMozilla/4.0(IE5.0W98)15:33:04/2-Jan-01GETIndex.htm/res.phpMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GET1.htm/index.htmMozilla/4.0(IE4.0NT)15:33:04/2-Jan-01GETA.htm/index.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETB.htm/A.htmMozilla/4.0(IE4.0NT)15:35:11/2-Jan-01GETC.htm/A.htmMozilla/4.0(IE5.0W98)2024/2/27人工智能:互联网智能34Web文本挖掘Web文本挖掘针对包括Web页面内容、页面结构和用户访问信息等在内的各种Web数据,应用数据挖掘方法发现有用的知识帮助人们从大量Web文档集中发现隐藏的模式。2024/2/27人工智能:互联网智能35Web文本挖掘的方法文本概括:从文本(集)中抽取关键信息,用简洁的形式总结文本(集)的主题内容。例如搜索引擎在向用户返回查询结果时,通常需要给出文本摘要。文本分类:把一些被标记的文本作为训练集,找到文本属性和文本类别之间的关系模型,然后利用这种关系模型判断新文本的类别。召回率和精度。文本聚类:根据文本的不同特征划分为不同的类。从大量文档中发现一对词语出现模式的关联分析以及特定数据在未来的情况预测。2024/2/27人工智能:互联网智能36Web文本挖掘的应用搜索引擎领域:利用Web文本挖掘可以更合理地组织搜索结果:按照页面之间的相似程度分为若干簇。自然语言理解领域:结合自然语言处理技术和Web文本挖掘技术。2024/2/27人工智能:互联网智能37文本挖掘在垃圾邮件过滤中的应用2024/2/27人工智能:互联网智能38Web结构挖掘有用的知识不仅存在于Web页面间的链接结构和Web页面内部结构,而且也存在于URL中的目录路径结构(页面之间的目录结构关系)。Web结构挖掘是指挖掘Web链接结构模式,即通过分析页面链接的数量和对象,从而建立Web的链接结构模式。2024/2/27人工智能:互联网智能39Web结构挖掘Google查询的全过程通常不超过半秒时间,但在这短短的时间内需要完成多个步骤,然后才能将搜索结果交付给搜索信息的用户。

PageRank算法?HITS(Hyperlink-InducedTopicSearch)算法?Google查询过程2024/2/27人工智能:互联网智能40Google的网页排序如何度量网页本身的重要性呢?互联网上的每一篇html文档除了包含文本、图片、视频等信息外,还包含了大量的链接关系,利用这些链接关系,能够发现某些重要的网页直观地看,某网页A链向网页B,则可以认为网页A觉得网页B有链接价值,是比较重要的网页。某网页被指向的次数越多,则它的重要性越高;越是重要的网页,所链接的网页的重要性也越高。AB网页是节点,网页间的链接关系是边2024/2/27人工智能:互联网智能41Google的网页排序如何度量网页本身的重要性呢?比如,新华网体育在其首页中对新浪体育做了链接,人民网体育同样在其首页中对新浪体育做了链接可见,新浪体育被链接的次数较多;同时,人民网体育和新华网体育也都是比较“重要”的网页,因此新浪体育也应该是比较“重要”的网页。新华网体育人民网体育2024/2/27人工智能:互联网智能42Google的网页排序一个更加形象的图链向网页E的链接远远大于链向网页C的链接,但是网页C的重要性却大于网页E。这是因为因为网页C被网页B所链接,而网页B有很高的重要性。2024/2/27人工智能:互联网智能43Pagerank算法简介创始人:拉里佩奇(LarryPage)—Google创始人之一应用:是Google用来衡量一个网站的好坏的唯一标准。2024/2/27人工智能:互联网智能44Google的网页排序PageRank的提出Google的创始人之一LarryPage于1998年提出了PageRank,并应用在Google搜索引擎的检索结果排序上,该技术也是Google早期的核心技术之一LarryPage是Google的创始首席执行官,2001年4月转任现职产品总裁。他目前仍与EricSchmidt和SergeyBrin一起共同负责Google的日常运作。他在斯坦福大学攻读计算机科学博士学位期间,遇到了SergeyBrin,他们于1998年合伙创立Google。2024/2/27人工智能:互联网智能45Pagerank算法相关概念PR值:用来评价网页的重要性,PR值越大越重要,其级别从0到10级。一般PR值达到4,就算是一个不错的网站了。Google把自己的网站的PR值定到10,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。阻尼因数:(dampingfactor)其值为0.85

阻尼系数d定义为用户不断随机点击链接的概率,所以,它取决于点击的次数,被设定为0-1之间。d的值越高,继续点击链接的概率就越大。因此,用户停止点击并随机冲浪至另一页面的概率在式子中用常数(1-d)表示。无论入站链接如何,随机冲浪至一个页面的概率总是(1-d)。(1-d)本身也就是页面本身所具有的PageRank值。

2024/2/27人工智能:互联网智能46Pagerank核心思想

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。这样,PageRank会根据网页B所收到的投票数量来评估该网页的重要性。此外,PageRank还会评估每个投票网页的重要性,因为某些重要网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。这就是PageRank的核心思想,当然PageRank算法的实际实现上要复杂很多。

2024/2/27人工智能:互联网智能47为什么要提出HITS算法?PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性。而WEB的链接具有以下特征:

1.有些链接具有注释性,也有些链接是起导航或广告作用。有注释性的链接才用于权威判断。

2.基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页。

3.权威网页很少具有显式的描述,比如Google主页不会明确给出WEB搜索引擎之类的描述信息。可见平均的分布权值不符合链接的实际情况

2024/2/27人工智能:互联网智能48HITS算法相关知识权威网页:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种网页称为权威(Authoritive)网页。中心网页:提供指向权威网页的链接集合的WEB网页,它本身可能并不重要,或者说没有几个网页指向它,但是它提供了指向就某个主题而言最为重要的站点的链接集合,比如一个课程主页上的推荐参考文献列表。在HITS算法中,对每个网页都要计算两个值:权威值(authority)与中心值(hub)2024/2/27人工智能:互联网智能49HITS算法介绍HITS(Hyperlink-InducedTopicSearch)是一种链接分析算法算法如下:将查询q提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前n个网页作为根集合S(rootset).把根集合中的页面所指向的页面都包括进来,再把指向根集合中的页面的页面也包括进来,这样就扩充成了基础集合(baseset)T.2024/2/27人工智能:互联网智能50HITS算法介绍对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值,开始时h(v)=a(u)=1

顶点集V1Hub网页顶点集V2权威网页边集E超链接2024/2/27人工智能:互联网智能51在V中的每个页面p都有一对非负的权重值〈ap,hp〉,其中ap表示权威值,hp表示中心值设指向页面p的页面为q,ap的值则更新为所有hq的和:如果把页面p所指向的页面称为q,则hp的值更新为所有aq之和:这两步将被重复多次,最后按照得到的权威值和中心值对页面进行排序.HITS算法介绍2024/2/27人工智能:互联网智能52HITS算法的评价若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)若一个网页指向许多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。2024/2/27人工智能:互联网智能53Web结构挖掘的应用信息检索社区识别网站优化2024/2/27人工智能:互联网智能542024/2/27人工智能:互联网智能55内容提要11.1概述 11.2语义Web 11.3本体知识管理 11.4Web技术的演化11.5Web挖掘

11.6搜索引擎

11.7集体智能 11.8小结 2024/2/27人工智能:互联网智能56搜索引擎大型互联网搜索引擎的数据中心一般运行数千台甚至数十万台计算机,而且每天向计算机集群里添加数十台机器,以保持与网络发展的同步。搜集机器自动搜集网页信息,平均速度每秒数十个网页,检索机器则提供容错的可缩放的体系架构以应对每天数千万甚至数亿的用户查询请求。企业搜索引擎可根据不同的应用规模,从单台计算机到计算机集群都可以进行部署2024/2/27人工智能:互联网智能57搜索引擎搜索引擎一般的工作过程是:首先对互联网上的网页进行搜集,然后对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返回给用户。搜索引擎的重要功能是能够对互联网上的文本信息提供全文检索。2024/2/27人工智能:互联网智能58搜索引擎的工作流程2024/2/27人工智能:互联网智能59搜索引擎的系统架构2024/2/27人工智能:互联网智能60

知识图谱图谱:是一个图像,以一定空间形式、在一定时间范围中展现变化的系统概念。里程碑之一:2003年,美国科学院组织“知识图谱测绘”大会,

标志着专家们对知识图谱绘制开始了大规模的深入研究。2024/2/27人工智能:互联网智能61

知识图谱2024/2/27人工智能:互联网智能62

知识图谱语义Web关联数据2024/2/27人工智能:互联网智能63BCThingtyped

linksADEtyped

linkstyped

linkstyped

linksThingThingThingThingThingThingThingThingThing

使用语义网技术。在来自一个数据源的数据与其他数据源的数据之间的

建立连接。2024/2/27人工智能:互联网智能64基于知识图谱的搜索引擎2024/2/27人工智能:互联网智能65内容提要11.1概述 11.2语义Web 11.3本体知识管理

11.4Web技术的演化11.5Web挖掘 11.6搜索引擎 11.7集体智能 11.8小结

集体智能

集体智能(collectiveintelligence),有的称为集体智慧,有的称为群体智能,是一种共享的或者集体的智能,它是从许多个体的合作与竞争中涌现出来的,并没有集中的控制机制。集体智能在人类、计算机网络中形成,并以多种形式的协商一致的决策模式出现。集体智能的规模有大有小,可能有个体集体智能、人际集体智能、成组集体智能、活动集体智能、组织集体智能、网络集体智能、相邻集体智能、社团集体智能、城市集体智能、省级集体智能、国家集体智能、区域集体智能、国际组织集体智能、全人类集体智能等,这些都是在特定范围内的群体所反映出来的智慧。2024/2/2766人工智能:互联网智能“Cloudcomputing”Createdin4Sept.20072024/2/2767人工智能:互联网智能Versionin4Sept.20082024/2/2768人工智能:互联网智能Versionin14Sept.20092024/2/2769人工智能:互联网智能

社群智能

社群智能(socialandcommunityintelligence)是从社会感知中挖掘和理解个人和群体活动模式、大规模人类活动和城市动态规律,把这些信息用于各种创新性的服务,包括社会关系管理、人类健康改善、公共安全维护、城市资源管理和环境资源保护等。社群智能是在社会计算、城市计算和现实世界挖掘等相关领域发展基础上提出来的。从宏观角度讲,它隶属于社会感知计算(socially-awarecomputing)范畴。社会感知计算是通过人类生活空间逐步大规模部署的多种类传感设备,实时感知识别社会个体行为,分析挖掘群体社会交互特征和规律,辅助个体社会行为,支持社群的互动、沟通和协作。2024/2/2770人工智能:互联网智能

社群智能

社群智能主要侧重于智能信息挖掘,具体功能包括:

(1)多数据源融合即要实现多个多模态、异构数据源的融合。综合利用三类数据源:互联网与万维网应用、静态传感设施、移动及可携带感知设备,来挖掘“智能”信息;

(2)分层次智能信息提取利用数据挖掘和机器学习等技术从大规模感知数据中提取多层次的智能信息:在个体级别识别个人情境信息,在群体(Group)级别提取群体活动及人际交互信息,在社会级别挖掘人类行为模式、社会及城市动态变化规律等信息。2024/2/2771人工智能:互联网智能

社群智能的体系架构

2024/2/2772人工智能:互联网智能

集体智能系统

2024/2/2773人工智能:互联网智能集体智能系统一般是复杂的大系统,甚至是复杂的巨系统。20世纪90年代钱学森提出了“开放的复杂巨系统(opencomplexgiantsystcn,OCGS)”的概念,并提出“从定性到定量的综合集成法”作为处理开放的复杂巨系统的方法论,着眼于人的智慧与计算机的高性能两者结合,以思维科学(认知科学)与人工智能为基础,用信息技术和网络技术构建“综合集成研讨厅(hallforworkshopofmetasyntheticengineering)的体系,以可操作平台的方式处理与开放的复杂巨系统相联系的复杂问题。随着互联网的广泛普及,这种综合集成研讨厅就可以是以互联网为基础的集体智能系统。

综合集成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论