人物专题数据库的构建及其数据挖掘探索——以中国女性人物专题数据库构建为例_第1页
人物专题数据库的构建及其数据挖掘探索——以中国女性人物专题数据库构建为例_第2页
人物专题数据库的构建及其数据挖掘探索——以中国女性人物专题数据库构建为例_第3页
人物专题数据库的构建及其数据挖掘探索——以中国女性人物专题数据库构建为例_第4页
人物专题数据库的构建及其数据挖掘探索——以中国女性人物专题数据库构建为例_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、人物专题数据库的构建及其数据挖掘探索以中国女性人物专题数据库构建为例2010年6月第3o卷第6期现代情报JournalcfModemInformationJune,2010V01.30No.6?信息资源开发与利用?人物专题数据库的构建及其数据挖掘探索以中国女性人物专题数据库构建为例谢嫂(广东女子职业技术学院图书馆,广东广州511450)(摘要尝试在构建中国女性人物专题数据库的实践过程中运用数据仓库技术和数据挖掘技术,帮助学术研究者对这些人物在社会发展及其自身发展的某个具体层面中所呈现的典型现象进行分析.力图改善以往专题数据库建设在这方面局限性,为研究学者搭建更加深层次信息分析的研究平台.(关键

2、词中国女性人物;专题数据库;数据挖掘研究DOI:103969/i.issn.18一O821.2O1OO6O13中图分类号G258.5文献标识码B文章编号10080821(2010)06004905TheDataMiningResearchoftheConstructionofSpecialDatabasesforChineseWomenXieMan(Library,GuangdongWomenSPolytechnicCollege,Guangzhou511450,China)(AbstractThestudyisaboutthedataminingresearchoftheconstructi

3、onofthespecialdatabasesforchinesewonlen.ThepatertriedtobuildamoreindepthinformationanalysisresearchplatformforwomenSacademicresearch.Itwouldbehaveagreaterpracticalvalueandfarreachinghistoricalsignificanceforourwomensstudies.Keywordsdatamining;construction;specialdatabases;chinesewomen1国内外有关人物专题数据库开发

4、的现状及研究的发展前景1.1国内外相关研究状况国内外对于综合研究和记录中国女性人物研究方面的专题数据库有:Earlymodemwomendatabase,明清妇女着作数据库,网上政坛女性数据库,中国高校女性学学科教学科研网络与数据库建设及中国妇女民间艺术研究与展示等,通过科技文献查新检索,均未见正式相关文献成果发表.经过对上述这些数据库的介绍和内容分析,发现这些数据库的内容大都是关于女性生活需要及生活环境等方面,与本课题相似或相同的专题数库尚未见文献报道.在专题数据库建设方面,与人物数据库相类似的专题数据库有:暨南大学的华人华侨人物专题数据库与本课题中国女性人物专题数据库有某些相关之处.但这些

5、数据库都为传统的信息检索用途,没有涉及对专题数据库进行深层次的知识发现,即采用数据挖掘技术对数据建立分析模型,进行关联分析,聚类分析等,得出潜在有用知识.1.2人物数据库构建中进行数据挖掘研究的意义本研究中的人物数据库构建采用的数据挖掘技术是Et前国内外比较成熟的信息分析技术,目前在购物篮数据(basketdata)分析,保险业务,金融风险预测,产品产量和质量分析,等许多领域得到了成功的应用,而在相关女性人物专题数据库的数据分析应用中未见有文献报道.因此本数据库具有一定的先进性和创新性.其内容还有远大的发展前景,尤其对于女性及性别研究具有较大的实用价值和深远的历史意义.2中国女性人物专题数据库

6、的资源表现形式的搭建(1)本数据库内容组织通过两条主线来表现收稿日期:201004一O1基金项目:本项目为广东省高校图工委2007年研究课题的研究成果之一(课题项目编号为:TGW2007024).作者简介:谢熳(1969一),女,资源开发与建设部主任,剐研究馆员,研究方向:信息资源开发与利用,信息素质教育等,发表论文1O余篇.?49_2010年6月第30卷第6期人物专题数据库的构建及其数据挖掘探索June,2010Vo1.30No.6由中国古代,近代,现代3个不同时代的女性人物数据库组成,各个不同时代的女性人物数据库能从政治,经济,科技,文化,教育,艺术,体育,法律(维权)等不同活动领域展示并

7、查找这3个年代的知名女性人物的相关数据(见图1).图1中国女性人物数据库的时代主线框架分布图开发了动态电子地图的直观搜索方式,读者能很方便的点击各个不同的地域来查找,浏览各领域的女性人物数据.(2)检索方式:首页设计为能通过年代,电子地图,以及检索等多种方式来方便读者查找进入数据库.电子地图可以直接点击地区进入该地区人物目录.在数据列表显示页面,能提供简单的目录树浏览的方式和专业的检索功能,其中检索功能能够实现简单检索,全字段检索,全文方式.(3)本数据库还专门为每一个女性人物形成一个单独的个人专题数据库模板,通过数据库挖掘和数据库关联技术能够从每个单独的数据库中把个人的生平概览;个人成就与作

8、品;后人的评论与研究;相关的图片资源;相关的人物多媒体资源;相关网络资讯等全部抽取出来,形成个人的专题数据库.各类型资源元数据元素与结构体系都有各自的方案,元数据体系结构图见图2.中国女性人物网检索,跨库检索,二次检索,关联检索等多种专业的检索络资讯库与人物数据库元数据方案如表1和表2.一5OTiIkl书目查咖系统Il图书元数据元索集I?CreatorSuhject一中l玉I期刊l哪l/.期刊沦文元索据I/l】lhtleCreatorSubject-q统一检索平台I络资源元索据元索集一lIItIeLCreatorSublect视频元数据元索集1.T.IIe外部数据源CreatorSubject

9、.音频元数据元索集.IitleCreatorSuhect各类型元数元索问天联.片7数据元索集lIncIeCre;m,rSubjectf备类型资源元数槲元素巢If图2中国女性人物数据库的元数据体系结构2010年6月第30卷第6期现代情报JournalofModemInformalJonJune,2010Vo1.30No.6(4)本数据库根据馆藏资源以及现有能收集的数据,根据资源的类型划分为如下几个子库,各子库通过元数据体系结构进行关联.女性人物书目数据库:收集本馆馆藏及国内外有关中国女性方面的评论,中国女性的着作,中国女性方面的研究等图书书目信息.女性人物全文数据库:收集具有全文对象的女性人物相

10、关的数据(如:期刊论文,会议论文,学位论文,馆藏珍贵的扫描文献资源等)女性人物专题资源数据库:收集中国女性的个人基本资料,如:姓名,国籍,生卒年,照片,个人简介等.网络资源全文数据库:收集大量网络上关于中国女性人物的评论,研究,相关活动等资料.女性人物多媒体数据库:收集中国女性的相关作品,比赛录像,访谈,访问及活动录像等大量的音视频资料.女性人物图片数据库:收集中国女性个人的活动照片,写真,珍贵的书画作品等各方面的图片资料.3人物专题数据库的知识发现与数据挖掘思考与研究女性人物专题数据库包括关系数数据库,文本和多媒体数据以及网络资源等数据库.采用数据挖掘技术对中国一512010年6月第30卷第

11、6期人物专题数据库的构建及其数据挖掘探索June,2010V01.30No.6女性人物数据进行建模并研究分析,开发分析模型,分析和预测具体问题的发生原因与预测发展方向.数据挖掘是利用一种或多种计算机学习技术,从数据仓库的数据中自动分析并提取知识.在已有的大量数据中寻找有用的维度层次数据和事实数据进行分析的为决策支持的过程,它从理论和技术上继承了知识发现领域的成果,同时又借鉴了许多其他领域的理论和算法.因此,基于数据挖掘的人物专题库把人们对人物数据的应用从低层次的简单查询,提升到从数据中挖掘知识,从而提供人物专题研究决策参考.3.1人物专题数据库具体数据挖掘的数据源(1)关系数据库的查询语言主要

12、有SQL,SQL,查询被转换成一系列操作.(2)女性人物的文本数据库,文本数据库所记载的内容均为文字,这些文字并不是简单的关键词,文本数据库多为非结构化的,也有些是半结构化的(如,题录数据加全文,超文本HTML,PDF格式文本等等).文本的主题特征提取;文本分类;文本聚类;文本自动摘要等.(3)女性人物的时序数据库,用于存放与时间相关的数据,用来反映随时间变化的即时数据或不同时间发生的不同事件.(4)女性人物的地序数据库与空间数据库,指存储地理或者空间信息的数据库,其中数据可能以光栅格式提供,也可能以矢量图形(地图等)数据,例如有关的地理信息数据库等.用于对空间数据的理解,空间关系和空间与非空

13、问数据间关系的发现,空间知识库的构造,空间数据库的重组和空数据查询优化.(5)女性人物的多媒体数据库,存放图像,声音,视频信息的数据库.多媒体数据挖掘包括:图像数据挖掘,音频数据挖掘,视频数据挖掘等处理,这部分相对较难.3.2女性人物专题数据挖掘与数据仓库建立过程3.2.1数据仓库构建与传统面向操作型业务的数据库不同,数据仓库是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策.数据仓库要用到ElL技术,ElL(ExtractionTransformationLoang)是数抽取转换装载系统,一般简称数据抽取系统.ElL包括3个方面:首先是抽取,将数据从各种原始的业务

14、系统中提取出来,这是所有工作的前提;其次是转换,按照预先设汁好的规则对抽取的数据进行转换,使得本来异构的数据格式能够统一起来;最后就是加载,将转换好的数据按计划增量或者全部导入到数据仓库中.(1)数据仓库的建立与用户的需求密切相关ETL技术是指从源系统中提取数据,转换数据为一个标准的格式,并且加载数据到目标数据存储区,即数据仓库.维,维的层次和度量是数据仓库多维模型的主要元素.维是人们观察数据的特定角度,如果对数据进行挖掘而不一52一去关心用户或研究者的研究方向与需求活动,这部分的工作是很难展开的,因此在这方面需要对用户进行调研,通过与女性研究专家访谈,我们了解到女性研究通常比较关心女性不同年

15、龄在不同时间和不同地区的就业或教育变化情况,那么时间就是一个维,地区也是一个维.每个维都包含有一定的层次.维的层次是指观察数据的特定角度的一个描述方面,比如时间可以从年份,季度,月份,天等不同层次来描述.度量描述了需要分析的数值,例如收入或者年龄.OI_AP按多维模型组织数据,以便进行多角度,多层次的分析,并发现趋势.ElL在数据仓库构建过程中涉及到大量的业务逻辑和异构环境,因此在女性人物专题库的数据仓库建设项目中ElL部分占70%一80%的精力.已有的有用元数据集和数据库也需要通过ed技术进行对数据进行抽取,清洗和加载进数据仓库(见图3).图3人物数据库与ETL技术的关系(2)建立数据仓库需

16、要注意以下3个方面:通过对女性人物数据及其存储格式进行分析,实现专题数据仓库的设计,包括数据仓库的概念设计,逻辑设计和物理设计.针对人物数据库内部的数据源和设计完成的数据仓库,实现女性人物相关信息数据仓库的E1L系统的设计,对系统的整体框架和系统中各模块的功能及实现进行详细的分析.女性人物数据源是一些关系型数据库,文本文件,XML文档或音频等类型的文件,一个完善的ETL系统应该支持多数据源的抽取,转换和加载.目前由于技术难度,我们在研究中只取了部分类型进行抽取.此外,数据增量加载是未来工作的另一重点,可以利用时间戳和Orac的数据更新捕获机制(CDC)来进一步研究数据的增量加载.(3)建立分析

17、模型与测试,验证分析模型首先将选择和应用多种不同的建模技术(数据挖掘技术),校准它们的参数,使其达到最优值.由于数据挖掘技术对数据格式要求不同,因此,在建模过程中经常要返回到数据准备阶段,多次往复进行,其次在建模过程中要多次测试和验证所建立模型的质量和有效性,最后在准备好的数据集上运行建模工具,以建立一个或多个模型,同时注意对建模工具参数的设定,记录和描述所生成的模型.用户在需求时有不同的研究方向,数据仓库在原数据2010年6月第30卷第6期现代情报JournalofModemInformationJune,2010VoI.30No.6库的基础上,抽取一些有用的数值数据,例如,文献的下载量,受

18、教育程度,年龄,民族等等,构建数据仓库,数据仓库建好之后的建模分析,例如相拟统计,地区统计等分析.(4)实施和应用实施和应用阶段是指利用数据挖掘技术所建立模型在实际项目中的应用,包括知识发现,个性化用户服务,决策支持等等.这个阶段是在实践中与用户的研究细节不断沟通来完善和修正整个项目.4结束语本数据库最初的数据加工与网页发布都采用DIPS系统来进行,具体过程不再表述,力图实现在传统的人物专题库构建过程中,也能运用数据仓库技术和数据挖掘技术,探索帮助学术研究者对人物在社会发展和自身发现的某个具体层面中所呈现的典型现象进行分析的一种个性化服务模型.以改善以往专题数据库建设在这方面局限性,为研究学者

19、搭建更加深层次信息分析的研究平台.参考文献1周长华.高校档案专题数据库建设的理念及方法J.扬州大学,2003,(9):5657.2赵铨,付国英.高校图书馆专题数据库结构分析J.图书馆理论与实践,2OO4,(2):7172.3梁吉业,李德玉.信息系统中的不确定性与知识获取M.北京:科学出版社,2005:56.4王晓燕.专题数据库的选题和子库设计J.图书馆建设,2002,(6):4143.5李立群,安玉彬.专题数据库研建的实践与探索J.山东科学,2000,(3):5O一53.6徐云.华侨华人文献信息专题数据库建设的理论与实践J.图书馆杂志,2001,(12):3537.7乔颖,张帆,昊月新.建设高

20、校图书馆的特色与专题数据库J.图书馆建设,2003,(3):3536.【8JCreatingSpeci,dLiteratureResourceDataba.sinWesternChinaUnderaDigiralEndmrunentInternationalInformation&LibraryReviewVolLln1e:35,Issue:24,JuneDecendr,2003,PP.249264,【9JDatamodelsandquerylanguagesofspatiotemporalinfommtion(Temporaldatabase).Chen,CindyXinmin.;S

21、ource:I)L,sertationAbstractslntemational,Vo|ume:62132,.Section:B.page:0929.;Chmr:Carlo7ani&o.10】刘分明.高职院校专题特色数据库的建设与思考以广东女子职业技术学院为例J.情报探索,2009,(3):6466.11张宁,贾自艳,史忠植.数据仓库中ElL技术的研究J.计算机工程与应用,2003,38(24):213216.12w.H.1nmon.等.数据仓库(第三版)M.王志海,等译北京:机械工业出版社.2003:2023.:(上接第48页)夹杂竞争的情况下,一方面企业需要加强技术能力和宣传力度,另一方面政府则应该从资金和行动上大力支持,比如说在政府采购这块就可以率先开展移动电子商务方式,既节省时问又降低成本.另外也应该针对市场,细分客户群体,在统一标准的规模效应下追求差异化,提供完美的个性化服务.4.3优化技术,合理资费3G技术人才急缺,大力引进相关人才也是当务之急,而我国自主研发的3G标准

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论