快速发展的因素课件_第1页
快速发展的因素课件_第2页
快速发展的因素课件_第3页
快速发展的因素课件_第4页
快速发展的因素课件_第5页
已阅读5页,还剩197页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MetadataSemanticWeb&Ontology1感谢你的观看2019年5月21MetadataSemanticWeb&OntologOutlineWhyMetadataWhat’sMetadataWhat’sXMLQuestion2感谢你的观看2019年5月21OutlineWhyMetadata2感谢你的观看2019URI,HTML,HTTPStaticWWW500millionusermorethan3billionpages2.1CurrentWeb3感谢你的观看2019年5月21URI,HTML,HTTPStaticWWW500mi快速发展的因素电脑技术的快速发展电脑的普及电脑知识的普及网络技术(光纤、网络协议等)的发展

带宽的提高校园网、电信的ISDL用户对资源的需求

知识的需求娱乐信息4感谢你的观看2019年5月21快速发展的因素电脑技术的快速发展4感谢你的观看2019年5月引发一系列问题(1)

信息发布

网络IP地址的分配问题产生虚拟IP网络、IPV6等方法来解决

信息获取

如何从这些海量信息中查到自己感兴趣的资源如何获取这些信息产生搜索引擎、信息挖掘技术

信息存储如何存储海量信息产生磁盘阵列、TB级存储器5感谢你的观看2019年5月21引发一系列问题(1)信息发布5感谢你的观看2019年5月引发一系列问题(2)信息传递

采用何种工具传递网络信息

产生FTP、BT等软件

信息使用

如何合法、正确使用网络信息

产生网络信息监管的职能部门和法规产生针对用户(如儿童)权限等的信息过滤技术

6感谢你的观看2019年5月21引发一系列问题(2)信息传递6感谢你的观看2019年5月2Web信息结构

大部分采用HTML(HyperTextMarkupLanguage)也采用XML(eXtensibleMarkupLanguage)

HTML标记语言是在普通文本的基础上加上特殊标记(Tag)目的是运用标记使文件达到预期的显示效果方法是用“<”、“>”扩住标记,起始标记用<Tag>表示,终止标记用</Tag>表示

7感谢你的观看2019年5月21Web信息结构大部分采用HTML(HyperTextMaHTML网页片断(1)

<TABLEborder=0cellPadding=0cellSpacing=0width=720><TBODY><TR><TDwidth=61><Ahref="/"><IMGalt=虚拟中医网

border=0height=67src="default.files/logo1.gif"width=61></A></TD><TABLE>一个容器标记,用以指明这是表格,其它表格标记只能在这个标记范围内使用

<TR>表示表格的行。<TD>表示表格行中的单元。

8感谢你的观看2019年5月21HTML网页片断(1)<TABLEborder=0ceHTML网页片断(2)

<framesetrows=“80,*”><framename=“top”src=“a.html”/><framename=“bottom”src=“b.html”/></frameset><frameset>用来划分框格,每个框格由一个<frame>标记来表示

这里把页面分成上下两部分,上面显示a.html,下面显示b.html9感谢你的观看2019年5月21HTML网页片断(2)<framesetrows=“802.2搜索引擎

从1995年开始逐渐发展

产生原因

用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。搜索引擎正是为了解决这个"迷航"问题而出现的技术

目的

以一定的策略在互联网中搜集、发现信息

对信息进行理解、提取、组织和处理

为用户提供检索服务

10感谢你的观看2019年5月212.2搜索引擎从1995年开始逐渐发展10感谢你的观现有的搜索引擎

中文搜索引擎英文搜索引擎

百度中文搜索引擎Google搜索引擎北大天网中英文搜索引擎聪搜索引擎雅虎中国分类搜索引擎搜狐分类搜索引擎新浪搜索引擎

网易分类目录引擎

英文Google搜索引擎Inktomi/MSN搜索引擎

Fast/AllTheWeb搜索引擎AltaVista搜索引擎ASK/Temoa搜索引擎英文Yahoo!分类目录Dmoz人工分类目录LookSmart分类目录

11感谢你的观看2019年5月21现有的搜索引擎中文搜索引擎英文搜索引擎百度中文搜索引擎英Google简介斯坦福大学的博士生

LarryPage和

SergeyBrin在

1998年创立

搜索时间通常不到半秒

每天需要提供

1.5亿次查询服务

Google的技术

代理搜索技术

高级

PageRank(网页级别)技术

Google释义

由英文单词“googol”变化而来

表示

1后边带有

100个零的数字

代表Google想征服网上无穷无尽资料的雄心

PageRank利用巨大的网络链接结构

网页

A链接到网页

B时,

就认为“网页

A投了网页

B一票避免任何人为感情因素

12感谢你的观看2019年5月21Google简介斯坦福大学的博士生LarryPage百度搜索引擎简介李彦宏先生及徐勇先生

1999年底,百度成立于美国硅谷

2000年百度公司回国发展

百度的起名

辛弃疾的《青玉案》中“众里寻她千百度”象征着百度对中文信息检索技术执著的追求

竞价排名由用户为自己的网页出资购买关键字排名按点击计费的一种服务搜索结果的顺序将根据竞价的多少由高到低排列13感谢你的观看2019年5月21百度搜索引擎简介李彦宏先生及徐勇先生13感谢你的观看201雅虎搜索引擎简介大卫·费罗(DavidFilo)和杨致远(JerryYang)美国斯坦福大学电机工程系的博士生

1994年4月建立了网络指南信息库

分类目录

站点目录分为14个大类,每一个大类下面又分若干子类

连接速度快,包含范围广

雅虎中国网站提供简单易用、手工分类的简体中文网站目录

14感谢你的观看2019年5月21雅虎搜索引擎简介大卫·费罗(DavidFilo)和杨致远性能指标

召回率(Recall)检索出的相关文档数和文档库中所有的相关文档数的比率衡量的是搜索引擎的查全率

精度(Pricision)

检索出的相关文档数与检索出的文档总数的比率

衡量的是搜索引擎的查准率

影响性能的因素

文档和查询的表示方法评价文档用户查询相关性的匹配策略查询结果的排序方法用户进行相关度反馈的机制

15感谢你的观看2019年5月21性能指标召回率(Recall)15感谢你的观看2019年5搜索引擎的类别

分类依据

信息搜集方法

服务提供方式

类别

目录式搜索引擎

机器人搜索引擎

元搜索引擎

16感谢你的观看2019年5月21搜索引擎的类别分类依据16感谢你的观看2019年5月21目录式搜索引擎

搜集信息

人工方式或半自动方式

信息处理

由编辑员查看信息之后,人工形成信息摘要并将信息置于事先确定的分类框架中

服务方式提供目录浏览服务

提供直接检索服务

优点讨论缺点讨论代表

YAHOO

、LookSmart、Dmoz等

17感谢你的观看2019年5月21目录式搜索引擎搜集信息17感谢你的观看2019年5月21机器人搜索引擎

搜集信息

蜘蛛(Spider)的机器人程序

以某种策略自动地在互联网中搜集信息

信息处理建立索引库

服务方式

面向网页的全文检索服务

优点

讨论缺点讨论代表

Google

、天网等18感谢你的观看2019年5月21机器人搜索引擎搜集信息18感谢你的观看2019年5月21元搜索引擎

技术方法将用户的查询请求同时向多个搜索引擎递交

将返回的结果进行重复排除、重新排序等处理

作为自己的结果返回给用户

服务方式面向网页的全文检索

本质特点没有自己的数据

优点讨论缺点讨论代表WebCrawler、InfoMarket等

19感谢你的观看2019年5月21元搜索引擎技术方法19感谢你的观看2019年5月21搜索引擎系统结构

搜索器索引器检索器用户接口20感谢你的观看2019年5月21搜索引擎系统结构搜索器20感谢你的观看2019年5月21搜索器

功能在互联网中漫游,发现和搜集信息

尽可能多、尽可能快地搜集各种类型的新信息

定期更新已经搜集过的旧信息

搜集策略从一个起始URL集合开始,以宽度优先、深度优先或启发式方式循环地在互联网中发现信息将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜索

信息类型

HTML、XML、FTP文件、字处理文档、多媒体信息

其它支撑技术分布式、并行计算技术

21感谢你的观看2019年5月21搜索器功能21感谢你的观看2019年5月21索引器

功能理解搜索器所搜索的信息从中抽取出索引项,用于表示文档以及生成文档库的索引表

索引项

客观索引项内容索引项

支撑技术统计法、信息论法和概率法(计算索引项的权值)

倒排表(InversionList),由索引项反过来查找相应的文档

可以使用集中式索引算法或分布式索引算法

22感谢你的观看2019年5月21索引器功能22感谢你的观看2019年5月21检索器

方法根据用户的查询在索引库中快速检出文档进行文档与查询的相关度评价对将要输出的结果进行排序并实现某种用户相关性反馈机制如何实现多点的海量检索(讨论)集中式海量检索分布式海量检索23感谢你的观看2019年5月21检索器方法23感谢你的观看2019年5月21用户接口

作用输入用户查询显示查询结果提供用户相关性反馈机制

目的方便用户使用搜索引擎高效率、多方式地从搜索引擎中得到有效、及时的信息简单接口只提供用户输入查询串的文本框复杂接口

让用户对查询进行限制,如逻辑运算、时间、长度等例子Google提供多种用户使用界面24感谢你的观看2019年5月21用户接口作用24感谢你的观看2019年5月21搜索引擎的研究动向

提高信息查询结果的精度,提高检索的有效性基于智能代理的信息过滤和个性化服务采用分布式体系结构提高系统规模和性能交叉语言检索的研究和开发国际会议美国Infornotics公司主办的搜索引擎国际会议从1996年开始,每年举行一次IEEE主办的国际万维网会议、人机交互会议25感谢你的观看2019年5月21搜索引擎的研究动向提高信息查询结果的精度,提高检索的有效性当前搜索引擎的不足之处(1)1)语义分析不足,缺少较好的中文分词技术支持

用google搜索引擎,关键词“和服”,在第3页有如下结果:外交部公布新版中国境外领事保护和服务指南

...

外交部公布新版中国境外领事保护和服务指南(附全文),

中国外交部通过其官方网站公布了《中国境外领事保护和服务指南(2003

年版)》,以帮助中国公民了解中国驻外使、领馆的领事保护和服务范围。

...

/chinese/2003/May/328355.htm-27k-网页快照

-类似网页

26感谢你的观看2019年5月21当前搜索引擎的不足之处(1)1)语义分析不足,缺少较好的当前搜索引擎的不足之处(2)2)智能化不足

都需要用户提供检索的关键词、关键词组,但还不能直接检索语句

要直接检索语句,需要更强的自然语言处理技术支持27感谢你的观看2019年5月21当前搜索引擎的不足之处(2)2)智能化不足27感谢你的观2.3Web信息提取

从提取规则角度,网页信息提取方法可分为两大类基于标识规则的方法应用网页文档的标识来提取网页信息基于内容规则的方法应用自然语言处理技术从关键词匹配到有层次的句法分析28感谢你的观看2019年5月212.3Web信息提取从提取规则角度,网页信息提基于标识规则的方法

Harvest信息提取系统利用手工编写的wrappers分析一批固定的Web资源只能处理Web文档而忽略了Internet上提供的服务依赖于提前定义的文档类型,对新文档结构则无能为力斯坦福大学提出的对象交换模型(OEM)方法一个简单的、自描述、嵌套的对象模型一个带标记的有向图这个模型依赖于具体问题的分析DSE(Data-richsectionextraction)算法用树型结构表示HTML网页的布局

实质是针对具体问题建立文档对象模型,提取网页信息

29感谢你的观看2019年5月21基于标识规则的方法

Harvest信息提取系统29感谢你的基于内容规则的方法

Artequakt系统

建立在自然语言处理技术和实体论基础上通过句法和语义分析来确定实体及关系根据用户要求,产生描述格式,从而描述出艺术家传记DL(descriptionlogics)方法

建立在实体论基础上用DL方法从词汇关系、概念关系和上下文关系,抽取概念及其依赖关系树

DiffusionwebIE系统

依照实例模型(又称IE规则)构出的框架依据关键词位置和值的特征的定位规则依据词类型和取值范围的表格提取规则句法分析规则

30感谢你的观看2019年5月21基于内容规则的方法Artequakt系统30感谢你的观看两种方法比较基于标识的方法不具有自适应能力准确定位信息段的起止位置基于内容的方法不易准确定位信息段的起止位置有一定自适应能力依赖较强的自然语言处理技术31感谢你的观看2019年5月21两种方法比较基于标识的方法基于内容的方法31感谢你的观看20信息提取的研究趋势融合两种规则一些网页信息提取方法把这两种规则融合在一起以求充分发挥着两种提取规则的特点来提高提取效率语义网

改变现有网页信息结构XML语言把信息结构、内容与数据的表现形式进行分离RDF把信息转换成元数据

本体论把信息的结构与内容相分离信息具有计算机可理解的语义

32感谢你的观看2019年5月21信息提取的研究趋势融合两种规则32感谢你的观看2019年5月2.4元数据

定义

dataaboutdata(关于数据的数据)是对web信息的一种描述方式是机器可理解的信息

基本作用

管理数据,从而实现查询、阅读、交换和共享组成

一系列元素或属性例子:图书馆目录如:作者,书名,出版日期,主题,分类排架号等元素33感谢你的观看2019年5月212.4元数据定义33感谢你的观看2019年5月21元数据与资源之间的关联方式

独立方式元素可包含在独立于该项资源的记录中

例如:图书馆目录

嵌入方式数据可嵌在资源本身中

例如:印在书内封上的在版编目(CIP)数据例如:电子文本的标题

关联方式的确定不预先规定

由具体情况决定

34感谢你的观看2019年5月21元数据与资源之间的关联方式独立方式34感谢你的观看201元数据的主要作用

用来组织和管理网络信息,并挖掘信息资源

准确地识别、定位和访问信息(举例讨论)帮助用户查询所需信息

可按照不同的地理区间、指定的语言以及具体的时间段来查找信息资源(举例讨论)组织和维护一个机构对数据的投资

可方便创建网页(举例讨论)用来建立信息的数据目录和数据交换中心

可以共享信息、维护数据(举例讨论)提供数据转换方面的信息通过元数据,用户可以接受并理解信息(举例讨论)35感谢你的观看2019年5月21元数据的主要作用用来组织和管理网络信息,并挖掘信息资源如何获取元数据

元数据的编写标准

目的为实现领域中的数据信息交换和共享,为研究和生产服务

不同领域会根据不同的需求定义一个标准或几个标准

如MARC(Machine-ReadabIeCataloging,机器可读编目)和DublinCore等

实现的技术手段

XMLRDF36感谢你的观看2019年5月21如何获取元数据元数据的编写标准36感谢你的观看2019年XML技术特点从数据与文档的底层实现格式化,保证了从里到外、从处理到交换的一致性

实现自动抽取采用XML解析器开发的工具,可以从网上Web服务器的HTML、XML和数据库中自动抽取并索引元数据

37感谢你的观看2019年5月21XML技术特点37感谢你的观看2019年5月21RDF

技术元数据的互操作性要求在由不同的组织制定与管理且技术规范不尽相同的元数据环境下,能够作到对用户保持一致性的服务

可同时携带多种元数据来往于互联网的架构

RDF特点提供能对结构化元数据进行编码,交换及再利用的体系框架

可使不同的用户或团体在这一框架下定义他们自己的元数据元素提供了各种不同的元数据体系之间的互操作性

38感谢你的观看2019年5月21RDF技术元数据的互操作性38感谢你的观看2019年5月2元数据映射(MetadataMapping)

原因存在元数据的互操作性问题

定义利用特定转换程序对不同元数据标准进行转换

方法一(元数据标准的特定转化程序)DublinCore与USMARCDublinCore与EA方法二(中介元数据格式)如UNIverse项目利用GRS格式进行MARC格式和其他记录格式的转换比较方法一转换准确、转换效率较高39感谢你的观看2019年5月21元数据映射(MetadataMapping)原因39感谢元数据类型

内容元数据

描述对象内容的信息

如大字标题、主题、引导段落、图像、影片

管理元数据

描述和电子文档相关的信息

如作者、创建者、创建日期等

负载信息元数据

提供电子文档的物理属性

如文本中表示强调的粗体标识,电子邮件系统中邮件的大小标识

参考信息元数据源自电子文档中的超链接

扩展到表达任何万维网信息、文档和资源的参考链接

包括环境信息,以及文档的结构信息

如经常出现电子文档中指向各章节的链接

40感谢你的观看2019年5月21元数据类型内容元数据40感谢你的观看2019年5月21元数据表示语言

标记语言

标准通用标记语言SGML超文本标记语言HTML可扩展标记语言XML虚拟现实模型语言VRML无线标记语言WML元数据标准

DublinCoreHL7(描述医学网络资源的元数据)教育资源元数据

机读目录(MARC)

41感谢你的观看2019年5月21元数据表示语言标记语言41感谢你的观看2019年5月21SGML

标准通用标记语言是一种描述语言的语言,定义了以电子形式表示文本的方法

特点

正式的,能允许验证文档的正确性

结构化的,能够处理复杂的文档

可扩充的,能够支持大型信息存储的管理

组成部分SGML声明,设定基本情况定义DTD文档类型,设定标记语言结构的语法描述用于标记的语义规格说明,做出了DTD表达的语法限制描述用于标记的语义规格说明,做出了DTD表达的语法限制应用实例HTML、XML42感谢你的观看2019年5月21SGML标准通用标记语言42感谢你的观看2019年5月21其它标记语言虚拟现实模型语言VRML用于对3维虚拟场景进行建模的描述性语言

HTML定义2维,而VRML定义3维

无线标记语言

WML类似于HTML的测览语言提供测览支持、数据输入、超级链接、文本和图像表现以及表格交互应用于“无线应用软件”环境下的网页语言为WAP(WirelessApplicationProtocol)协议所包括的一种标记协议语言

43感谢你的观看2019年5月21其它标记语言虚拟现实模型语言VRML43感谢你的观看2019DublinCore元数据标准

背景搜索引擎的查准率比较低创建者OCLC(OnlineComputerLibraryCenter,Inc.,美国在线计算机图书馆中心)目的从用户的角度出发创建了一种新的网络资源描述标准或格式第一次国际研讨会

1995年3月,在都柏林(Dublin)召开

探讨如何建立一套描述网络上电子文件特征、提高信息检索效果的方法

开始启动电子图书馆对象元数据标准的研究项目

44感谢你的观看2019年5月21DublinCore元数据标准背景44感谢你的观看201DC元数据集

包括15个核心元素

按照信息的类型和范围分为三个子集数据资源内容

数据知识产权

数据实体

特点简练、易于理解、可扩展能与其他元数据形式兼容被称为一个良好的网络信息资源描述元数据集

45感谢你的观看2019年5月21DC元数据集包括15个核心元素45感谢你的观看2019年数据资源内容子集

素定

义TITLE(数据集名称)由数据生产者或分发者确定的数据集名称SUBJECT(主题)数据集的主题,可以是说明数据集主题或内容的关键字或短语,最好使用规定的缩写词或统一分类名称DESCRIPTION(描述)数据集内容的简要说明SOURCE(数据源)生产数据集的原始资料说明,包括原始资料出版日期、生产者、格式、标识码或其他说明信息LANGUAGE(语言)数据集使用的语言,该元素的内容应当与“语言标识码”标准

(RFC1766)一致,如en(英国)、de(德国)、fr(法国)等RELATION(关系)其他生产者标识码及其与数据生产者之间的关系COVERAGE(时空覆盖范围)数据集内容的空间和时间覆盖范围。空间覆盖范围可以用坐标或地名表示;时间范围是指数据的现势性,按ISO8601日期和时间格式标准,即YYYY-MM-DD46感谢你的观看2019年5月21数据资源内容子集元素定义TITLE(数据集名称数据知识产权子集

元素定义CREATOR(数据生产者)负责生产数据的主要单位或个人PUBLISHER(出版者)将数据集提供用户使用的负责单位,如出版社等CONTRIBUTOR(其他生产者)除数据生产者元素中说明以外的其他参与生产者

(如编辑、转换等)RIGHTS(版权)版权说明。与版权管理声明链接的标识码,或与提供数据集版权管理信息的服务链接的标识码47感谢你的观看2019年5月21数据知识产权子集元素定义CREATOR负责生产数据实体(形式)子集

素定

义DATE(日期)数据集生产或提供使用的日期,按ISO8601日期和时间格式标准,即YYYY-MM-DDTYPE(类型)数据集的类型FORMAT(格式)数据集的数据格式,用于识别显示或操作数据集的软件及硬件。IDENTIFIER(标识码)唯一标识数据集的字符串或数字,对于联网数据资源,包括URL和URN,或ISBN48感谢你的观看2019年5月21数据实体(形式)子集元素定义DATE(日期)数DCMI

DCMI(DublinCoreMetadataInitiative)都柏林核元数据研究行动已经成为一个国际性的电子数据对象标准研究组织有来自英国、澳大利亚、芬兰、加拿大、美国等国的具有多种不同专业背景的个人和团体参加从事元数据标准、实践指南、支撑技术及相关政策的研究与开发成立了一个教育工作组DC-E从数字图书馆元数据标准中筛选出上述DC中的15个核心元素作为学习对象数据要素49感谢你的观看2019年5月21DCMIDCMI(DublinCoreMetadataHL7(HealthLevel7)

开发机构

1987年,由美国国家标准局(ANSI)授权的HL7(HealthLevelSevenInc)开发领域专门用于医疗卫生机构及医用仪器、设备数据信息传输的标准支持的国家在1994年HL7已纳入美国ANSI国家标准

澳洲、加拿大、德国、以色列、日本、纽西兰、荷兰及英国

用途适用于医院内部的信息交换适用于医院与医院之间,医院与保险公司、医院与上级主管部门之间的大量信息交换50感谢你的观看2019年5月21HL7(HealthLevel7)开发机构50感谢你HL7技术参考了OSI的通讯模式

HL7纳为最高的一层,也就是应用层

51感谢你的观看2019年5月21HL7技术参考了OSI的通讯模式51感谢你的观看2019年HL7标准的內容(1)

Ch1:Introduction(概述与HL7历史)Ch2:Control(控制)Ch3:PatientAdministration(病患管理,挂号)Ch4:Orders(医令)Ch5:Query(查询)Ch6:FinancialManagement(病患帐务)Ch7:ObservationReporting(检验报告传送)Ch8:MasterFiles(参考档同步机制)52感谢你的观看2019年5月21HL7标准的內容(1)Ch1:IntroductionHL7标准的內容(2)Ch9:MedicalRecords/Info.Management(病历)Ch10:Scheduling(排程)Ch11:PatientReferral(转诊)Ch12:PatientCare(病患看护)附录A:DataDefinitionTables(参考表)附录B:LowerLayerProtocol(LLP)附录C:NetworkManagement附录D:BNFMessageDescriptions附录E:Glossary53感谢你的观看2019年5月21HL7标准的內容(2)Ch9:MedicalRecordHL7特点可应用于多种操作系统和硬件环境

所有不同平台的医院信息管理系统通过HL7都可以顺利沟通

设备可以做到无缝联接和医学数据信息的无障碍交换

汇集了的一些标准接口格式针对不同厂商设计应用软件54感谢你的观看2019年5月21HL7特点可应用于多种操作系统和硬件环境54感谢你的观看教育资源元数据

IEEELOM

学习对象元数据

IMS教学管理系统

CELTS

中国教育信息化技术标准

55感谢你的观看2019年5月21教育资源元数据IEEELOM55感谢你的观看2019年IEEELOM

(1)由IEEE学习技术标准委员会P1484.12学习对象元数据工作组建立

目的使用最小属性集完成对学习对象的管理、检索和评估便于将来对其属性进行扩展

目标定义学习对象元数据的语法与语义对安全、隐私、商业和评估等应用提供了描述符学习对象指一切可为教学和培训目的服务的对象可以是物理的:如实验器材、课本可以是数字的:如教学软件,网络课件56感谢你的观看2019年5月21IEEELOM(1)由IEEE学习技术标准委员会P148IEEELOM

(2)元素

9个基本类别(即通用类、生命周期类、宏元数据类、技术类、教育类、权利类、注解类、关系类、分类类)

每个类别包括若干元素

对每个元素定义了其名称、解释、值域、数据类型、附注和示例

作用

在不操作学习对象的情况下通过元数据信息来了解学习对象的一些有用的属性

可以对学习对象进行有效的分类管理和查找

可以从元数据信息中获取学习对象的评价信息,也可以把自己的评价加入到元数据

57感谢你的观看2019年5月21IEEELOM(2)元素57感谢你的观看2019年5月IMS

1997年美国EDUCOM(美国多所大学联合组成的联盟)专门对电子学习(e-Learning劫标准进行研究项目目的能达成各校间网络化教材的共享目标达成分布式学习环境下之应用系统或服务的互操作性,定义、发展所需的技术规范协助其他单位,将IMS规范纳人产品或服务中主要任务主要发展和推广有关教育的开放规范促进线上分布式的学习活动

如搜寻和使用教育用途的内容、追踪学习者的学习进度

性质并非开放性组织

所制定的规范还未成为正式的标准

58感谢你的观看2019年5月21IMS1997年美国EDUCOM(美国多所大学联合组成的IMS

规范用于内容描述、发现和交换的规范

IMS内容包装说明(IMSContentPackagingSpecification)IMS问题与测试互操作性说明(IMSQuestion&TestInteroperabilitySpecification)IMS学习资源元数据说明(IMSLearningResourceMetadataSpecification)数字资源库互操作(DigitalRepositoriesInteroperability)

用于内容交互与跟踪的规范

简易串序/简易排序(SimpleSequencing)

能力(Competencies)

学习设计(LearningDesign)

可用性(Accessibility)

用于应用系统互操作的规范IMS学习者信息包装说明(IMSLearnerInformationPackageSpecification)IMS企业说明(IMSEnterpriseSpecification

59感谢你的观看2019年5月21IMS规范用于内容描述、发现和交换的规范59感谢你的观看中国教育信息化技术标准

2001年开始启动

基于LOM

目标

实现资源共享支持系统互操作保障网络教育服务质量

方法跟踪国际标准研究工作和引进相关国际标准根据我国教育的实际情况修订与创建各项标准

60感谢你的观看2019年5月21中国教育信息化技术标准2001年开始启动60感谢你的观看CELTS

体系《学习对象元数据》(CELTS-3)规定了描述学习对象的基本方法与准则属于CELTS体系中的基础标准《教育资源建设技术规范》(CELTS-41)面向资源建设领域包括基础教育、高等教育、职业教育和培训等领域)是对《学习对象元数据》与具体应用领域结合的产物《基础教育教学资源元数据规范》(CELTS-42)应用领域则更为具体主要面向基础教育的资源建设关系一脉相承的都是以LOM为核心建立的61感谢你的观看2019年5月21CELTS体系《学习对象元数据》(CELTS-3)61感谢机读目录(MARC)

广泛用于图书馆书目记录数据

是目前图书馆描述、存储、交换、处理以及检索信息的基础

特点

可变长字段的记录格式采用目次方式每条MARC记录分三个区(头标区,目次区,数据区)

62感谢你的观看2019年5月21机读目录(MARC)广泛用于图书馆书目记录数据62感谢你2.5XML

性质W3C于1998年2月发布的一种标准

是SGML的一个简化子集

可扩展标记语言特点较好地解决了HTML无法表达数据内容等问题允许各个组织、个人建立适合自己需要的标记集合

63感谢你的观看2019年5月212.5XML性质63感谢你的观看2019年5月21XML与HTML比较文档的3个要素数据、结构以及显示方式

HTML显示方式内嵌在数据中

在创建文本时,要时时考虑输出格式

创建文档的重复工作量大

不易抽取语义信息

XML显示格式从数据内容中独立出来,保存在样式单文件(StyleSheet)中

自我描述性质能够很好地表现许多复杂的数据关系

64感谢你的观看2019年5月21XML与HTML比较文档的3个要素64感谢你的观看2019年XML结构

文件头

与HTML类似,是可选的文件主体

包括一个或多个元素

形式是一棵分级的树

混杂的“结尾部分”

由注释、处理指令和空白组成

注释用<!----!>表示,可在文档中任意位置

65感谢你的观看2019年5月21XML结构文件头65感谢你的观看2019年5月21元素(Element)

表示方法由开始标记、结束标识以及标识之间的数据构成

标记之间的数据被认为是元素的值

每个元素都有不同的标记名<director>王力</director>元素名是director元素值是“王力”

<actor>王力</actor>元素名是actor元素值是“王力”66感谢你的观看2019年5月21元素(Element)表示方法66感谢你的观看2019年5元素要点关键的3点

所有元素必须有结束标记

所有元素必须正确嵌套,不允许交迭

所有属性值必须加引号

注意点XML文档主体有且仅有一个XML根元素

可以嵌套XML元素,形成一棵树形结构

67感谢你的观看2019年5月21元素要点关键的3点67感谢你的观看2019年5月21XML文档例子<书类><书

国际标准书号="0345374827"><标题>数据结构</标题><作者>许卓群等</作者></书><书

国际标准书号="0345374828"><标题>数据挖掘</标题><作者>韩家炸等</作者></书></书类>68感谢你的观看2019年5月21XML文档例子<书类>68感谢你的观看2019年5月21例子的树状结构

69感谢你的观看2019年5月21例子的树状结构69感谢你的观看2019年5月21XML属性

给元素提供进一步的说明信息

必须出现在起始标记中

以名称/取值对出现,属性名不能重复名称与取值之间用等号“=”分隔用引号把取值引起来

例如

<工资

货币="人民币元">100000</工资>说明了工资的货币单位是人民币元

70感谢你的观看2019年5月21XML属性给元素提供进一步的说明信息70感谢你的观看20XML处理器

目的解析XML文档提供对XML文档内容和结构的访问

文档对象模型(DocumentObjectModel,DOM)将完整的XML转换成一棵树的形式放在内存中

供随机访问元素、属性

XML简单API(SimpleAPIforXML,SAX)采用事件驱动模型

通过标记的起止来触发事件

DOM与SAX的比较(讨论)71感谢你的观看2019年5月21XML处理器目的71感谢你的观看2019年5月21处理指令(ProcessingInstruction)

目的给XML处理器提供信息,使其能够正确解释文档内容表示起始标记是“<?”,结束标记是“?>”方法XML分析器把这些信息原封不动地传给应用程序

由应用程序来解释这个指令

遵照它所提供的信息进行处理

72感谢你的观看2019年5月21处理指令(ProcessingInstruction)目两种处理指令XML声明

<?Xmlversion="1.0"encoding="gb2312"standalone="no"?>必须包括version属性,指明所采用的XML的版本号,而且它必须在属性列表中排在第一位standalone属性表明该XML文档是否和一个外部文档类型定义DTD配套使用

encoding属性则指明了数据所采用的编码标准

XSL样式单引用

<?xml-stylesheettype=“text-xsl”href=“contacts.xsl”?>告诉XSL样式单解析器,样式单的类型是text-xsl类型text-xsl可以在文档contacts.xsl中找到

73感谢你的观看2019年5月21两种处理指令XML声明73感谢你的观看2019年5月21XML的名字空间

背景由于XML对互操作性的支持,每个人都可以创建属于自己的XML词汇

不同的开发者会用相同的元素来代表不同的实体

作用为XML文档元素提供了一个上下文

允许开发者按一定的语义来处理元素

为什么引入NS(命名空间)讨论74感谢你的观看2019年5月21XML的名字空间背景74感谢你的观看2019年5月21XMLNS例子<?xmlversion="1.0"?><hamburgersxmlns:purchase=/franchise/pricesxmlns:sales=/customer/prices><hamburgerlowfat="dreamon"><name>CowBurger</name><description>Greasyandgood.</description><purchase:price>0.99</price><sales:price>2.99</price></hamburger></hamburgers>75感谢你的观看2019年5月21XMLNS例子<?xmlversion="1.0"?>XSL(ExtensibleStylesheetLanguage)

背景用标准的DOMAPI来实现XML数据的交互,是十分单调乏味的

如想找到所有满足某些条件的元素,或转换为简单的HTML表格,必须手工书写代码遍历整棵树来寻找

目的为标准化及简化人们完成这些任务所需做的工作

76感谢你的观看2019年5月21XSL(ExtensibleStylesheetLang食品的例子XML文档<?xmlVersion="1.0"?><食品><食品

脂肪含量="低"><名称>月饼</名称><描述>中秋节食用的传统食品</描述><价格>2.99</价格></食品><食品>HTML文档<html><body><h1>食品</hl><o1><li>月饼,中秋节的传统食品,2元</li></o1></body></html>77感谢你的观看2019年5月21食品的例子XML文档HTMLXSL文件

<?xmlVersion="1.0"?><xsl:stylesheetxmlns:xsl="/TR/WD-xsl">

<xsl:templatematch="/">选取了当前结点的所有食品子结点

<html><body><hl>hamburgers</hl><xsl:for—eachselect="hamburgers[@lowfat="dreamon"]">

标识出符合给定条件的结点

<li><xsl:value-ofselect="name"/>,<xsl:value-ofselect="description"/>,<xsl:value-ofselect="price"/>

取结点中各个元素的值</li></xsl:for—each><body><html></xsl:template></xsl:stylesheet>78感谢你的观看2019年5月21XSL文件<?xmlVersion="1.0"?>7XSL用途增强了互操作性

XML数据转换为HTML从一种XML格式到另一种XML格式之间的转换

开发人员不用为了描述某种类型的数据而采用通用的词汇某个人向你的系统发送了一篇XML文档,而你的系统不认识它所采用的XML词汇只要进行一次简单的XSL转换就可以得到自己熟悉的词汇79感谢你的观看2019年5月21XSL用途增强了互操作性79感谢你的观看2019年5月21文档类型定义

DTD

目的定义XML文档结构,即其中的元素、属性以及元素之间关系的

定义了文件中的元素能用什么名字,能放在什么位置,应该怎样组合

可以检测XML文档的结构是否正确

例如描述一组<表>,其中每个<表>又可以包含若干个<项>DTD中应该有语句:<!ELEMENT表(项)+><!ELEMENT项(#PCDATA)>生成的表:<表><项>管乐</项><项>弦乐</项><项>器乐</项><表>80感谢你的观看2019年5月21文档类型定义DTD目的80感谢你的观看2019年5月21DTD引用内部引用包含在XML文档的前导说明部分

如<?xmlversion="1.0"encoding="GB2312"standalone="yes"?><!DOCTYPE根元素名[元素描述]>

文档体…外部引用作为一个外部文档被引用

如<?xmlversion="1.0"encoding="GB2312"standalone="no"?><!DOCTYPE根元素名

SYSTEM"外部DTD文件的URL">

文档体…SYSTEM指一个作者或组织所编写的通用的DTD或是<!DOCTYPE根元素PUBLIC"DTD名称""外部DTD的URL">PUBLIC指由权威机构制订的、提供给特定行业或公众使用的DTD

81感谢你的观看2019年5月21DTD引用内部引用81感谢你的观看2019年5月21DTD中ETD(元素类型声明)作用声明所有有效的文档元素

结构

<!ELEMENT元素名元素内容描述>类型

空元素类型

<!ELEMENT元素名EMPTY>使用空元素标记,元素中没有内容

ANY元素类型

元素中可以包含任何内容

父元素类型

元素中可以包含子元素在DTD中通过正则表达式规定子元素出现的顺序和次数

混合元素类型

<!ELEMENT元素名(#PCDATA|子元素名1|子元素名2|…)>元素中可以包含文本文本之间可以有选择地插入子元素,子元素出现的顺序和次数不受限制

82感谢你的观看2019年5月21DTD中ETD(元素类型声明)作用82感谢你的观看2019年2.6XMLSchema

DTD缺点采用了非XML的语法规则不支持数据类型扩展性较差XML模式己经渐有取代DTD的趋势拥有比DTD更强大的功能

用于更精确和有效地描述XML文档结构83感谢你的观看2019年5月212.6XMLSchemaDTD缺点83感谢你的观看2XML模式的优点一致性直接借助XML自身的特性利用XML的基本语法规则定义XML文档的结构不必再利用一种特定的形式化的语言扩展性

引入了数据类型、命名空间在基本数据类型基础上用户可自己扩展数据类型互换性

利用模式能够书写XML文档并验证文档的合法性

对不同的模式进行转换,以实现更高层次的数据交换

规范性

利用元素的内容和属性来定义XML文档的整体结构基于XML,更具有规范性

84感谢你的观看2019年5月21XML模式的优点一致性84感谢你的观看2019年5月21数据类型

用途为ElementType和AttributeType指定数据类型

基本数据类型(10种)entity,entities,enumeration,id,idref,idrefs,nmtoken,nmtokens,notation和string扩展数据类型

bin.baSe64,bin.heX,boolean,char,date,dateTime,dateTime.tz,fixed.14.4,float,int,number,timetime.tz,i1,i2,i4,r4,r8,ui1,ui2,ui4,uri,uuid85感谢你的观看2019年5月21数据类型用途85感谢你的观看2019年5月21XMLS元素类型基本格式

<ElementTypecontent="{|empty|textOnly|eltOnly|mixed}"dt:type="datatype"model="{open|closed}"name="idref"order="{one|seq|many}“>

</ElementType>

取值及含义

(略)86感谢你的观看2019年5月21XMLS元素类型基本格式86感谢你的观看2019年5月21XMLS属性类型基本格式

<AttributeTypedefault="default-value"dt:type="primitive-typedt:values="enumerated-values"name="idref"required="{yes|no}">取值及含义

(略)87感谢你的观看2019年5月21XMLS属性类型基本格式87感谢你的观看2019年5月21数据类型的使用例子(1)定义元素“名字”和“生日”<elementname="name"type="string"minOccurs="1"maxOccurs="1"/><elementname="birthday"type="date"minOccurs="1"maxOccurs="1"/>其中string和date类型都是Schema中自带的基本数据类型minOccurs和maxOccurs是最少和最多出现次数的约束,这里表示有而且只出现一次

88感谢你的观看2019年5月21数据类型的使用例子(1)定义元素“名字”和“生日”88感谢你数据类型的使用例子(2)扩展数据类型Schema中没有规定的类型,如“性别”类型

定义例子

<simpleTypename="性别"><restrictionbase="string"><enumerationvalue="男"/><enumerationvalue="女"/></restriction></simpleType>注释name属性是该数据类型的名称

数据类型由restriction子元素进行约束该元素中的base属性是基类型

89感谢你的观看2019年5月21数据类型的使用例子(2)扩展数据类型89感谢你的观看20192.7元数据自动抽取技术

预处理

剔除在格式、内容、语言等方面存在问题或严重缺失的文档

产生格式相对规整的文本文档

提取元数据

由数字化文档元数据的规范定义,产生提取元数据的各种模式

依据元数据模式进行数字化文档的挖掘与匹配

利用与数字化文档相关的启发式规则和经验规则,有效提取元数据

90感谢你的观看2019年5月212.7元数据自动抽取技术预处理90感谢你的观看2019年MathML含义MathematicalMarkupLanguage用途用来描述数学符号、纪录其结构和内容目标是在Web上实现能像HTML处理文本一样,处理数学问题

91感谢你的观看2019年5月21MathML含义91感谢你的观看2019年5月21例:x2+4x+4=0

<apply>

<plus/><apply><power/><ci>x</ci><cn>2</cn></apply><apply>

<times/><cn>4</cn><ci>x</ci></apply><cn>4</cn></apply>92感谢你的观看2019年5月21例:x2+4x+4=0<apply>92感谢你的SMIL含义SynchronizedMultimediaIntegrationLanguage用途一种基于XML的表述多媒体演示的语言

将一组独立的多媒体对象整合为一个多媒体演示

93感谢你的观看2019年5月21SMIL含义93感谢你的观看2019年5月21SMIL例子<HTML><HEAD><STYLE>.time{behavior:url(#default#time);}</STYLE></HEAD><BODY>

<DIVCLASS="time"t:timeline="seq"><Pclass="time"t:dur="1">

Thisappearsforonesecondandgoesaway

</P><Pclass="time"t:dur="1">

Thisappearsafteronesecond,remainsvisibleforonesecondandgoesaway

</P><Pclass="time"t:dur="1">

Thisappearsaftertwoseconds,remainsvisibleforonesecondandgoesaway

</P></DIV></BODY></HTML>94感谢你的观看2019年5月21SMIL例子<HTML><HEAD><STYLE>94感谢CDF

含义ChannelDefinitionFormat

一种开放的规格允许Web的发布者经常更新信息或是频道

CDF起到了频道内容目录的作用用户仅需选择一下频道

信息就会从Web服务器定时的传递到客户端

95感谢你的观看2019年5月21CDF含义95感谢你的观看2019年5月21问题讨论1.什么是元数据(metadata)?

2.元数据与数据是什么关系?3.元数据(metadata)概念提出的背景是什么?

4.元数据能解决什么问题?

5.元数据是新概念吗?

96感谢你的观看2019年5月21问题讨论1.什么是元数据(metadata)?96感谢你的问题讨论6.数字图书馆和元数据的关系是什么?

7.什么是元数据的语义、结构和句法?

8.如何使用元数据?

9.元数据可以应用哪些置标语言?

10.什么是RDF?

97感谢你的观看2019年5月21问题讨论6.数字图书馆和元数据的关系是什么?97感谢你的问题讨论11.什么是语义万维网(SemanticWeb)?语义万维网与元数据有什么关系?

12.什么是本体(Ontology)?元数据与本体有什么关系?

13.存在多个元数据格式

,解决互操作问题通常有哪些方法?

14.元数据映射解决系统互操作问题有什么优缺点?

98感谢你的观看2019年5月21问题讨论11.什么是语义万维网(SemanticWeb)ReferencesW.Song,M.Zhang.AFirstSteptowardtheSemanticWeb,HigherEducationPress,2004Bernard-Lee,T.(2000).SemanticWeb-XML2000.Available:XMLSchemaPart0:Primer,W3CRecommendation,May200199感谢你的观看2019年5月21ReferencesW.Song,M.Zhang.AEnjoythisStudy...100感谢你的观看2019年5月21EnjoythisStudy...100感谢你的观看2101感谢你的观看2019年5月21101感谢你的观看2019年5月21MetadataSemanticWeb&Ontology102感谢你的观看2019年5月21MetadataSemanticWeb&OntologOutlineWhyMetadataWhat’sMetadataWhat’sXMLQuestion103感谢你的观看2019年5月21OutlineWhyMetadata2感谢你的观看2019URI,HTML,HTTPStaticWWW500millionusermorethan3billionpages2.1CurrentWeb104感谢你的观看2019年5月21URI,HTML,HTTPStaticWWW500mi快速发展的因素电脑技术的快速发展电脑的普及电脑知识的普及网络技术(光纤、网络协议等)的发展

带宽的提高校园网、电信的ISDL用户对资源的需求

知识的需求娱乐信息105感谢你的观看2019年5月21快速发展的因素电脑技术的快速发展4感谢你的观看2019年5月引发一系列问题(1)

信息发布

网络IP地址的分配问题产生虚拟IP网络、IPV6等方法来解决

信息获取

如何从这些海量信息中查到自己感兴趣的资源如何获取这些信息产生搜索引擎、信息挖掘技术

信息存储如何存储海量信息产生磁盘阵列、TB级存储器106感谢你的观看2019年5月21引发一系列问题(1)信息发布5感谢你的观看2019年5月引发一系列问题(2)信息传递

采用何种工具传递网络信息

产生FTP、BT等软件

信息使用

如何合法、正确使用网络信息

产生网络信息监管的职能部门和法规产生针对用户(如儿童)权限等的信息过滤技术

107感谢你的观看2019年5月21引发一系列问题(2)信息传递6感谢你的观看2019年5月2Web信息结构

大部分采用HTML(HyperTextMarkupLanguage)也采用XML(eXtensibleMarkupLanguage)

HTML标记语言是在普通文本的基础上加上特殊标记(Tag)目的是运用标记使文件达到预期的显示效果方法是用“<”、“>”扩住标记,起始标记用<Tag>表示,终止标记用</Tag>表示

108感谢你的观看2019年5月21Web信息结构大部分采用HTML(HyperTextMaHTML网页片断(1)

<TABLEborder=0cellPadding=0cellSpacing=0width=720><TBODY><TR><TDwidth=61><Ahref="/"><IMGalt=虚拟中医网

border=0height=67src="default.files/logo1.gif"width=61></A></TD><TABLE>一个容器标记,用以指明这是表格,其它表格标记只能在这个标记范围内使用

<TR>表示表格的行。<TD>表示表格行中的单元。

109感谢你的观看2019年5月21HTML网页片断(1)<TABLEborder=0ceHTML网页片断(2)

<framesetrows=“80,*”><framename=“top”src=“a.html”/><framename=“bottom”src=“b.html”/></frameset><frameset>用来划分框格,每个框格由一个<frame>标记来表示

这里把页面分成上下两部分,上面显示a.html,下面显示b.html110感谢你的观看2019年5月21HTML网页片断(2)<framesetrows=“802.2搜索引擎

从1995年开始逐渐发展

产生原因

用户要在如此浩瀚的信息海洋里寻找信息,必然会“大海捞针”无功而返。搜索引擎正是为了解决这个"迷航"问题而出现的技术

目的

以一定的策略在互联网中搜集、发现信息

对信息进行理解、提取、组织和处理

为用户提供检索服务

111感谢你的观看2019年5月212.2搜索引擎从1995年开始逐渐发展10感谢你的观现有的搜索引擎

中文搜索引擎英文搜索引擎

百度中文搜索引擎Google搜索引擎北大天网中英文搜索引擎聪搜索引擎雅虎中国分类搜索引擎搜狐分类搜索引擎新浪搜索引擎

网易分类目录引擎

英文Google搜索引擎Inktomi/MSN搜索引擎

Fast/AllTheWeb搜索引擎AltaVista搜索引擎ASK/Temoa搜索引擎英文Yahoo!分类目录Dmoz人工分类目录LookSmart分类目录

112感谢你的观看2019年5月21现有的搜索引擎中文搜索引擎英文搜索引擎百度中文搜索引擎英Google简介斯坦福大学的博士生

LarryPage和

SergeyBrin在

1998年创立

搜索时间通常不到半秒

每天需要提供

1.5亿次查询服务

Google的技术

代理搜索技术

高级

PageRank(网页级别)技术

Google释义

由英文单词“googol”变化而来

表示

1后边带有

100个零的数字

代表Google想征服网上无穷无尽资料的雄心

PageRank利用巨大的网络链接结构

网页

A链接到网页

B时,

就认为“网页

A投了网页

B一票避免任何人为感情因素

113感谢你的观看2019年5月21Google简介斯坦福大学的博士生LarryPage百度搜索引擎简介李彦宏先生及徐勇先生

1999年底,百度成立于美国硅谷

2000年百度公司回国发展

百度的起名

辛弃疾的《青玉案》中“众里寻她千百度”象征着百度对中文信息检索技术执著的追求

竞价排名由用户为自己的网页出资购买关键字排名按点击计费的一种服务搜索结果的顺序将根据竞价的多少由高到低排列114感谢你的观看2019年5月21百度搜索引擎简介李彦宏先生及徐勇先生13感谢你的观看201雅虎搜索引擎简介大卫·费罗(DavidFilo)和杨致远(JerryYang)美国斯坦福大学电机工程系的博士生

1994年4月建立了网络指南信息库

分类目录

站点目录分为14个大类,每一个大类下面又分若干子类

连接速度快,包含范围广

雅虎中国网站提供简单易用、手工分类的简体中文网站目录

115感谢你的观看2019年5月21雅虎搜索引擎简介大卫·费罗(David

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论