版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1数据结构与数据交互格式设计(廖华明)1.1 metadata继承体系设计Metadata继承体系定义因为系统必须容纳各种类型的数据,如音乐、动画、影视、新闻、书籍等,这些信息不 但存储的格式不同,而且需要描述的属性内容也很不一样,它们适用的元信息标准也有一定 的差别。而且,一旦有新的信息类型加入,系统也对其提供相应的支持。因此系统必须支持 一种通用的、可扩充的metadata体系。Metadata继承体系就是这样一种体系结构。数据类型可以按照一定的分类原则形成一种从普通到特殊的数据类型继承系统。我们将 最普通的数据类型的属性,也就是各种类型数据需要描述的属性中最通用的部分抽取出来作 为基础属
2、性,然后将描述特殊类型数据的元信息字段作为扩充属性,更特殊的类型将具有更 为特殊的扩充属性。通用类型数据的元信息只包括基础属性,继承通用类型的特殊类型数据 的元信息则既包括基础属性,又包括扩充属性。这种通用与特殊数据的属性关系就形成了 Metadata的继承体系。1.1. 0版支持的Metadata继承体系定义为:1层普通文献(包括所有书籍、稿件等)2层视觉文献(包括所有三维作品、动画等)、音乐作品(包括MIDI音乐、MP3主m坐、 曰乐等)该体系在需要描述更细致的元信息时可进行扩展。Metadata存储结构定义1.1.0版Metadata采用二维表形式 存放,继承体系 中普通文献的元信 息用
3、数据表 T_fMetadata存放,第二层视觉文献和音乐作品的扩充属性分别由数据表T_sMetadata_1,T_sMetadata_2来存放。各数据表结构如下:T fMetadata字段名类型长度生成方式说明GID(32 位)Int自动生成*连续编码DCTitleChar string80自动获取,手工编辑DCCreatorChar string80文档的作者DCSubjectChar string80将DC.Title作为缺省提供关键词DCDescriptionChar string200将文档的开头100字 符内容作为缺省提供摘要DCPublisherChar string50出版商(对
4、于 Web page 指的是来源站点;对于传 统出版物指的是出版 社。)DCDateDate系统提供缺省,手工 编辑出版时间。InfoClassIDChar string10该文档的类型编号。VersionNumChar String10(system reserved)用 于 版本管理的版本号FormatInt自动识别*(system reserved)文档物理类型,例如 HTML 页面(0), Word 文 档(1) , oracle 数 据,Sqlserver数 据,Access 数据(12)URLChar string500自动获取SubMetaPointChar string100指
5、定子类型元信息扩展属性表(T_sMetadata_1、T_sMetadata_2 等)T_sMetadata_1字段名类型长度生成方式说明GID(32 位)Int自动生成*连续编码WorkTypeChar string100系统提供缺省,手 工编辑作品类型(油画、水彩 等)。MaterialChar string10载体材料。TechniqueChar String100技术MeasurementsChar String10尺寸RepositoryNameChar String512收藏单位名称RepositoryPlaceChar String512收藏地点RepositoryNumChar
6、 String10收藏号CurrentSiteChar String512现存地点NcultureChar String100民族/文化OtherChar String512风格/时期/派别/运动T_sMetadata_2字段名类型长度生成方式说明GID(32 位)Int自动生成*连续编码MtypeChar string100系统提供缺省,手 工编辑作品类型(歌曲、戏曲、主m坐、 曰乐等)。PerformerChar string10表演者。Metadata继承体系对应表(具体实现时可以采用配置文件)该表保存Metadata继承体系与元信息存储表之间的对应关系,表结构为:字段名类型长度生成方式
7、说明DataTypeIDChar string10自动生成*数据类型编号DataTypeDesChar string100数据类型描述MetadataTableChar string512系统提供缺省该类型数据对应的 Metadata数据存储表 (T_fMetadata 等)2信息分类体系存储结构设计1 .信息分类目录结构表T_ClassDirectory表结构目录项类型长度生成方式说明infoClassIDChar string10系统提供缺省,手工 编辑类型编号,系统内唯一,子 类型编码为父类型的编码 加上该类型在其兄弟类型 中的编号。InfoClassNameChar string20手
8、工添加类型名称ReadingPermitChar string400手工添加读角色列表,分隔符为逗 号,缺省值为该类父节点的 相应值WritingPermitChar string400手工添加写角色列表,分隔符为逗 号,缺省值为该类父节点的 相应值InfoClassDesChar string40手工添加对该类型的描述语句(包括 关键字等)BrowserTepChar string80手工添加浏览输出模板文件名BrowserFieldsChar string8*40手工添加浏览输出缺省字段列表,以 逗号分隔,缺省值为该类父 节点的相关值2.数据说明1.1.0版分类体系按照中图分类法进行分类类
9、型编码与信息类型一一对应,编码原则:依照中图分类法原则。例如:信息分类与编码为 医药卫生R预防医学/卫生学R1中国医学R2基础医学R3临床医学R42数据导入(刘萍,王海波,廖华明)数据导入中的文件系统导入的详细设计(刘萍)功能文件系统的导入是一个独立的模块,是为系统信息员提供的一种批量导入数据 的工具。文件系统的导入是指在节点服务器上,对已经存在的文件系统,指定目录或文件, 提取文件的相应属性,然后指定文件所属的类别,将这些信息组成meta记录,添加到 meta库中。文件系统中所包含的文件的类型可以为多种,但现在只对html文件、txt文件抽取 subject信息,其余的没有此字段信息。提取的
10、meta信息包括:文件的名字入到DCTitle 字段,文件的前若干字节(例如200字节,100个汉字)入到摘要字段DCSubject字段 中,文件的日期入到DCData字段中。Meta库中,记录的GID字段为系统自动生成的 连续流,类别InfoClassID字段为文件导入时由信息员指定的。具体实现界面:用VC做类似于NT中的资源管理器的界面,页面的左边为当前系统的分类结构, 右边为当前接点服务器的文件系统结构,利用鼠标的点击和拖动来实现文件系统的导 入。文件的选中:当在文件系统结构中的某个目录或文件上按下鼠标左键时,目录或文件被 选中,颜色变深。此时应保存选中的目录名或文件名。类别的选中:当鼠
11、标拖动到页面左边的分类结构中时,随着它的移动,相应的分类应标 识被选中。当鼠标的左键被抬起时,最终的类别将被确定,此时应在T_ClassDirectory 表中查找此类对应的InfoClassID,保留此ID号,它就是将要导入的这批数据的类别, 也就是它们入到T_Metadata表中InfoClassID字段的内容。文件导入的确认:当鼠标左键被抬起时,应弹出一个对话框,询问是否将选中的目录或 文件按选中的类别导入meta库。对话框有“确认”和“取消”两个按钮。若按下“确 认”按钮,则应马上建立和T_Metadata表的连接,准备数据的入库;若按下“取消” 按钮,则返回原界面。文件meta信息的
12、提取和建立:当在确认框中按下“确认”后,系统开始对选中的文件 进行meta信息的提取。在操作系统返回的文件系统的数据结构中,首先判断文件的类 型,若是html或txt类型的,则取回name、data域的内容,另外打开文件,取出前 200个字节的内容作为此文件的摘要subject;若不是这两类文件,则只取name、date 域的内容。GID字段的值加1。文件meta信息的入库:用Insert等相关的数据库操纵指令对T_Metadata表操作,逐条 的将由文件相关属性形成的meta记录插入表中。入库的完成:当所有的文件记录都已经添加到T_Metadata表中后,系统应弹出信息框, 显示“数据导入成
13、功”的信息。当点击“OK”按钮时,系统关闭与T_Metadata表的连 接,导入过程结束。考虑的问题除了可将本地节点服务器的文件系统导入以外,也可将其它节点服务器的相关内容 导入,即可作成一个ftp工具?基于metadata继承体系的数据导入工具( 王海波)1概述3. Metadata继承体系定义因为系统必须容纳各种类型的数据,如音乐、动画、影视、新闻、书籍等,这些信息不 但存储的格式不同,而且需要描述的属性内容也很不一样,它们适用的元信息标准也有一定 的差别。而且,一旦有新的信息类型加入,系统也对其提供相应的支持。因此系统必须支持 一种通用的、可扩充的metadata体系。Metadata继
14、承体系就是这样一种体系结构。数据类型可以按照一定的分类原则形成一种从普通到特殊的数据类型继承系统。我们将 最普通的数据类型的属性,也就是各种类型数据需要描述的属性中最通用的部分抽取出来作 为基础属性,然后将描述特殊类型数据的元信息字段作为扩充属性,更特殊的类型将具有更 为特殊的扩充属性。通用类型数据的元信息只包括基础属性,继承通用类型的特殊类型数据 的元信息则既包括基础属性,又包括扩充属性。这种通用与特殊数据的属性关系就形成了 Metadata的继承体系。整个系统可以用下图表示:4.设计思路在目前以有的系统之上做一些修改完成此次的工作。具体来说,包括VB数据导入工具 界面的修改,向Metada
15、taAgent传输参数的修改以及MetadataAgent向数据库中添加记 录的修改。2具体修改方法2.1 VB数据导入工具界面的修改在数据映射的标签中,给用户提供所要输入的数据属于哪一类文献的选择。根据不同 的选择,在原来的第一层的Metadata的基础上,分别增加视觉文献和音乐作品的扩充属性 的输入栏。2. 2向MetadataAgent传输参数的修改增加MetadataAgent对外的属性接口,VB数据导入工具把用户输入的Meta数据分别 赋给MetadataAgent的属性接口。2.3 MetadataAgent向数据库中添加记录的修改由于现在Metadata信息由三个表组成,Meta
16、dataAgent需要分别向此三个库中分别添 加。即针对每个库形成sql的添加数据库记录的语句,调用ADO对象来进行。通过链接分析批量导入数据(廖华明)该程序主要包括两个部分的功能:链接分析批量导入数据1 .系统实现的假设条件链接相似性假设页面中所有有效的链接(即与需求相关的链接)都具有相同的子字符串,或者都是 属于某个确定的虚拟路径。也就是具有某种程度的相似性,而且这种相似性是可以描述和判 别的。数据页面可区分考虑到时间问题,1.1.0版假设链接层次体系中最终存放数据的页面与存放层次信息的 页面是可区分的,也就是存放层次信息的页面不作为最终数据考虑,并且数据页面可以通过 特殊标记进行区分的。
17、在以下的文档中,存放层次信息的页面称为节点页面,指向节点页面 的链接称为节点链接,存放最终数据的页面称为数据页面,指向数据页面的链接称为数据链 接。该假设比较苛刻,在下一版本中将根据实际需求进行改进。3 元信息抽取同样基于时间的考虑,1.1.0版在元信息的抽取上作如下简化:HTML页面的标题由标记对决定HTML页面的摘要为有效信息(除去标记的数据)的前50个字符Txt文件的摘要为文件内容的前50个字符其它类型文件的标题即其文件名2.对象设计1链接分析器一一该对象对相关链接的关系进行分析,由此获取链接间的层次关系。2. 1. 1对象属性首链接一一需要进行分析的链接的首页地址有效链接描述一一有效链
18、接共同包含的字符串2. 1. 2对象方法链接分析程序流程1)层次计数器1=0,当前层次为第0层2)生成页面对象3)判断当前页面是否为数据页面4)不是数据页面,则5)链接计数器j=0,调用页面对象的方法抽取出该页面的所有链接和相应层次信息, 将有效链接压入链接栈(计数器j递增计数)6)记录当前链接为节点链接7)计数器I+18)是数据页面,计数器I-19)调用页面对象的数据导入方法进行数据导入操作10)记录当前链接为数据链接11)链接栈是否空12)不空:弹出链接栈第一个链接作为当前链接,记录其层次信息,转至第2步13)空:结束循环链接还原将不完整的链接进行还原处理程序流程:1)通过参数获取当前链接
19、层的虚拟路径、根路径2)分析当前链接的url,可能为以下几种情况:相对于根路径的url,直接由根路径与url相接形成完整的url具有父目录引用(。/)的url,则追踪到最上层链接,再形成完整的url其他情况,则由当前链接层的虚拟路径与当前链接的url相接形成完整的url 2. 2页面对象2. 2. 1对象属性当前链接一一指向页面对象的链接2. 2. 2对象方法页面初始化程序流程:1)通过socket获取页面内容2)进行页面分析3)如果为数据页面,调用元信息抽取对象的方法抽取元信息,将页面存放到相应 的目录文件中4)如果为节点页面,将页面包含的链接存放到链接记录文件中页面类型程序流程:1)返回页
20、面类型获取链接程序流程:1)返回页面包含的所有链接数据导入程序流程:1)建立元信息代理对象实例,调用该对象的数据导入方法进行数据导入3综合检索(姜吉发,张一伟)中国数字图书馆之核心业务平台的总体设计及其中综合检索模块之详细设计一、中国数字图书馆之建设背景1、什么是数字图书馆数字图书馆首先是指将馆藏信息数字化并将这些数字化的图书搬到网络上去,用户可以 通过一个统一的界面浏览或查询这些图书信息。其次,它必须通过网络方式为用户提供 传统的图书馆能够完成的所有功能。另外,随着网络技术的发展和用户需求的增加与改 进,数字图书馆还要提供大量传统意义上的图书馆没法提供的许多动能,如各种各样的 网站和网络门户
21、。2、数字图书馆的建设背景政府的积极参与为数字图书馆的建设提供了政治、法律和经费保障。美国数字图书馆建设为我国数字图书馆建设提供了示范与参考。各大学和研究机构为数字图书馆建设提供了相关的技术储备。国内多数图书馆都建有各自的图书管理和借阅信息系统乃至自己的独立数字图书馆系 统,为我国数字图书馆的建设打下了人才、技术、数字化信息和信息系统等各方面的基 础。Internet和WWW本身为数字图书馆的建设提供了技术驱动。Internet和WWW的普及使用为数字图书馆的建设提供了需求牵引。3、国家数字图书馆的体系结构图二核心业务平台之搜索引擎之体系结构 、流程图三、综合检索的详细设计1、什么是综合检索所
22、谓综合检索,就是对结构化信息的结构化检索和非结构化信息全文检索的总称。本系统中的综合检索包括三方面功能:。全文检索。元信息的结构化检索。元信息的全文检索2、全文检索。是指数字图书馆用户通过PORTAL输入界面输入一个关键字,系统将含有该关键 字的文挡返回给用户。由于文挡信息及其索引分布于各个不同的子数字图书馆系统,而每个子数字图书馆系统 均可提供全文检索功能,故需将用户的查询请求分发到各个子数字图书馆系统,之后各个系统在各自 的库中并行查找,然后将结果返回到主PORTAL主PORTAL对结果进行合并并将合并结果提交给用 户。该功能用一个COM组件实现。给组件实现查询请求分发和返回结果合并之功能
23、。关键词全文检索请求的分发格式和检索结果的回送以C/S方式进行请求分发,主PORTAL是CLIENT,各个分PORTAL是SERVER。请 求格式为:查询方式关键词1关键词2关键词3结束符其中,查询方式用数字表示,1表示与检索,2表示或检索,3表示词间距检索。结束符用$表示。每个字段之间用一个单字节空格隔开。检索结果以字符串的形式返回。串中含有每篇文章的GID号,GID号之间以单字节空 格分开。3)元信息的结构化检索通过传统的结构化数据库检索技术实现对元信息库中特定字段的检索功能。4)元信息的全文检索将元数据库中要进行全文检索的每个记录字段看作一个独立的文档,从中抽取之形成一 个新的文档库,对
24、该新文档库做全文索引,从而可以实现对元数据库的全文检索。4数据更新与传输,信息浏览(周立新,朱茂盛)数据更新与传输(周立新)节点引擎MDB数据实时传输器节点引擎MDB数据实时传输器包括Metadata变化的获取、Metadata更新数据的传输等 功能,输入数据为节点端须更新的数据,其算法流程为:INPUT:更新的Matadata数据OUPUT :传输成功,或失败标志COMPUT读入更新的Matadata数据,将更新的Matadata数据存入缓冲区“NEW MATADATATABLE”;建立传输连接,启动计时器;IF连接不成功THEN返回失败标志;传输数据;IF传输成功(收到应答)THEN返回成功标志,成功后的NEW MATADATA处理(如删除)ELSE IF符合重传条件THEN返回第3步EL
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 移动通信设备选型与应用考核试卷
- 稀土金属在汽车工业的应用考核试卷
- 锅炉及辅助设备在工业智能化系统中的应用考核试卷
- 鞋跟修理与加固考核试卷
- 微纳米加工工艺-洞察分析
- 土地整治项目管理-洞察分析
- 微生物组与免疫应答关系-洞察分析
- 语音识别在医疗影像标注中的应用-洞察分析
- 橡胶硫化自动化生产线研发-洞察分析
- 铁代谢指标与贫血并发症关系-洞察分析
- 湖南省湘西州吉首市2023届九年级上学期期末素质监测数学试卷(含解析)
- 2023-2024学年湖北省武汉市东西湖区三年级(上)期末数学试卷
- GB/T 31771-2024家政服务母婴护理服务质量规范
- 2023-建筑施工技02课件讲解
- 期末试卷:福建省厦门市集美区2021-2022学年八年级上学期期末历史试题(原卷版)
- 美容院2024年度规划
- 装饰装修巡查记录表
- 公司安全生产事故隐患内部报告奖励工作制度
- 艾滋病预防知识讲座
- 零售服务质量提升
- 《4 平平安安回家来》 说课稿-2024-2025学年道德与法治一年级上册统编版
评论
0/150
提交评论