数据库调查报告_第1页
数据库调查报告_第2页
数据库调查报告_第3页
数据库调查报告_第4页
数据库调查报告_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

范文)数据搜索系统调查研究报告一、选题意义随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。随着信息科学的进步与互联网络的发展,网络上的信息资源越来越多,公用数据库的飞速发展为用户查询各种信息提供了可能。我国有数以百万计的网络用户并且用户人数仍然在急剧的增加。随着计算机技术、网络技术及通信技术的发展,各种相关信息愈来愈多地通过网络为人们所利用。而用户深感困惑的是很难在浩瀚如海的信息网络空间里快速、准确的查找到所需要的信息。当用户面对成千上万的超级链接时便难以检索到合适的信息。于是,借助搜索引擎进行搜索就是一个非常重要的手段。随着因特网的迅猛发展、web信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎(searchengine)是随着web信息的迅速增加,从1995年开始逐渐发展起来的技术。据发表在《科学》杂志1999年7月的文章《web信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9t,并且仍以每4个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会大海捞针无功而返。搜索引擎正是为了解决这个迷航问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为网络门户。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。。。。本文旨在对搜索引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。二、关键技术综述(技术术语)1.引擎分类1)目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:yahoo、looksmart、opendirectory、goguide等。2) 机器人搜索引擎:由一个称为蜘蛛(spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:altavista、northern light、excite、infoseek、inktomi、fast、lycos、google;国内代表为:天网、悠游、openfind等。3) 元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是webcrawler、infomarket等。各种搜索引擎的不足之处(1)大多数中文搜索引擎的查询方式较为单一一般搜索引擎只提供分类浏览的查询方式和关键词全文检索查询方式,缺乏其它途径的查询方式,并且关键词全文检索模式也比较简单,这将导致信息查询的查准率不高的后果。(2)目前网上的中文信息较少相比网上外文信息而言,网上中文信息资源较少,且isp中文站点的质量也良莠不齐,信息更新的速度慢。通常是几个月才有所更新。对搜索引擎而言,isp站点的内容的质量也非常重要,它和搜索引擎之间是鱼水关系。(3)采用的技术比较落后国内的网站所采用的收集资料的技术比较落后,目前我国自行建立的搜索引擎,如搜狐对站点的描述不多,与国外著名搜索引擎相比还有很大差距。这是由于它们均采用目录式搜索引擎(directorysearchengine),即通过人工发现信息并依靠编目员的知识进行分类。这种引擎的优点是准确度较高,缺点是信息量小且维护所耗费的资源大。分析各种中文搜索工具,由于中文编码的特殊性和搜索工具设计者的局限性,目前的中文搜索工具在实际应用中仍反映出一定的不足,有的收集范围小、信息量少;有的搜索能力弱,反馈信息少;有的不支持某一种中文编码类型,从而使获得的信息资料不齐全、不完整,有的返回的信息很多但是查准率较低。所有这些问题的实质是搜索引擎缺乏知识的理解能力和处理能力,对要检索的关键字词只是简单的进行机械的匹配来实现。我们可以借鉴一些新的技术方法来优化中文搜索引擎的功能。三、 研究内容web搜索引擎工作原理和体系结构。。。略nutch分布式搜索引擎的分析。。。略3.lucene中文分词算法。。。略四、 研究方法(这里只是作了简单的介绍)搜索引擎示意图(如图1,搜索引擎能够接受用户通过浏览器提交的查询词或则短语,记作qO;并在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表记作l,这个列表的每一个条目至少包含三个元素标题,网址链接,摘要)图1现代高质量的搜索引擎一般采用如图2所示称为三段式的工作流程,即网页搜索,预处理,查询服务。图2搜索引擎的体系结构如图3:图3nutch的架构(图4)和工作流程(图5)图4图55.lucene的功能主要包括两块,意识文本内控经切词后索引入库,二是根据查询条件返回结果,如图6是lucene的两大功能的逻辑图。篇二:数据库软件调研报告数据库软件调研报告卢文涛(清华大学水工01,北京100084)摘要:从理论和实践两方面作为切入点,采用查询资料的调研方法,明晰了数据库软件的基本定义,并总结出oracle、Sybase、microsoftsql三款数据库软件的共性和特性。通过对比,最终决定使用oracle的数据库软件。关键词:数据库软件;水文;资料abstract:throughboththeoreticalandpracticalresearch,usingthemethodofliteraturereview,ihasclarifiedthedefinitionofdatabasesoftware,andsummarizedthemutualcharacteristicsoforacle,sybaseandmicrosoftsql.bycontrast,theoracledatabasesoftwareistheoptimalchoice.keywords:databasesoftware;water;information1调研方法在调研过程中需要用不同方法从不同角度来更加全面的了解水文数据库的情况,所以我在调研中的思路主要分为两个方面—理论和实际。1.1理论调研理论调研主要是调研数据库的具体性质,通过查询资料和访谈法对数据库软件做了详细了解,研究了不同数据库软件的共性和特性。首先肯定是从百度等搜索引擎上搜索数据库软件,了解其基本概念和用处。之后了解到有oracle,Sybase,microsoftsql等几款著名的数据库软件,接着分别有针对性的对这三款软件进行进一步搜索,进行纵向深入和横向对比,了解三者的共性和各自的特性。1.2实践调研通过理论调研,我已经了解了数据库软件的大体情况,但如果要我做出决策,具体要用哪一款软件来编写水文数据库软件,显然是不能仅仅通过理论上的一些东西,由我这样一个外行人做出一些主观的臆测来判断具体用哪个软件来编写水文数据库然间。而且理论调研的局限在于并不能告诉我水文数据库的具体要求是什么,只能由我自己通过各款软件详细情况做出判断。所以以理论必须结合实践,才能帮助我做出更好地选择。所谓实践调研,就是对目前各省水文数据库的建设情况做调研,研究不同省在建设水文数据库的时候,选择了哪些数据库软件,这必然是经过当时技术人员的仔细思考所做出的决定,站在巨人的肩膀上,这样才能看的更远。2调研结果及结论通过两种方法的调研,我得到了海量的信息,对此稍作总结,概括性地得出结果及最终结论。2.1通过理论调研,得出oracle、Sybase、microsoftsql三款数据库软件的各自特性。总结如表1:表1不同数据库特点对比表2.2通过已有资料,进行实践调研,发现湖北、河北等多数省大都应用oracle的数据库软件。3结论通过理论调研和实践调研两方面的调研,得出结论,使用oracle的数据库软件更佳。篇三:数据库需求分析报告高校学生学籍管理概述编写说明:本章描述本软件开发的背景,系统目标,用户的业务情况,以便于需求理解。1•1背景在学籍管理中,需要从大量的日常教学活动中提取相关信息,以反映教学情况。传统的手工操作方式,易发生数据丢失,统计错误,劳动强度高,且速度慢。使用计算机可以高速,快捷地完成以上工作。在计算机联网后,数据在网上传递,可以实现数据共享,避免重复劳动,规范教学管理行为,从而提高了管理效率和水平。•2系统目标学籍管理信息系统以计算机为工具,通过对教务管理所需的信息管理,把管理人员从繁琐的数据计算处理中解脱出来,使其有更多的精力从事教务管理政策的研究实施,教学计划的制定执行和教学质量的监督检查,从而全面提高教学质量。1・3业务模式本系统是运行在win98、win2000、windowsnt等操作系统环境下的多台计算机构成的局域网,主要业务流程如下:•按某学生某学期,学年考试及补考成绩,自动生成该学生是否升留降级,退学。•按某学生在校期间累计补考科目门数和成绩自动生成该学生是否结业,毕业,授位。•按某学生因非成绩原因所引起的学籍变更作自动处理。•按每学期各年级班学生考试成绩自动生成补考名单,科目。•按每学期各年级学生考试成绩自动生成某课程统计分析表。•按同一年级学习成绩进行同一课程不同班级间成绩比较。用户需求编写说明:此系统专门为高校学籍管理所设置。本节主要描述用户需求的使用范围,功能要求信息采集与各部门的使用权限2•1使用范围按成都信息工程学院全日制学生学籍管理等相关文件完成本科和专科学生学籍状况的系统管理(本科生用学年学分制,专科生用学年制)。系统中保留五个年级学生的信息,学生毕业一年后信息转储,但随时可以查询,输出。2・2功能要求•学生档案管理:学生的一般情况,及奖励,处分情况;•学生成绩管理:学习成绩,补考成绩;•学籍处理:学生留降级处理,休复学处理,退学处理;•日常教务管理:日常报表,如通知书,补考通知书等,学生学习成绩的各种分类统计;•毕业生学籍处理:结业处理,毕业处理,授位处理,学籍卡片等。2・3信息采集与各部门的使用权限每学期考试完毕由各系录入成绩,然后由教务科收集。为了信息的安全和数据的权威性,对于网上信息的使用权限和责任规定如下:2・4用户平台要求系统主要使用于高校的局域网,win98、win2000、winnt等环境下,java,vc,vb连接数据库,本系统需要dbms放学生学籍数据库。可进行查询,修改、处理等。业务逻辑和数据流图3・1数据流图0层数据流图1层数据流图数据文件2层数据流图4系统特点4・1网络环境下的多用户系统在上述已有的硬件环境下,信息由各用户在规定的权限下在各自的工作站上录入,信息上网后各用户可查询,调用,达到信息共享。4・2数据的完整性,准确性录入数据采用表格方式,限制录入数据类型及取值范围以保证数据的完整性及准确性。统具有部分反悔修改功能,系统备有的修改功能均可反悔4・3数据完成的时间性,如成绩的录入,仅当师资科录入教学进程,教务科分发教师教学任务安排之后,各系方可录入成绩。4・4数据安全性本系统采用二级安全保障第一级:依赖于网络本身对用户使用权限的规定。第二级:在程序模块中通过使用密码控制功能对用户使用权限加以限制。如表1,2。•5成绩自动统计分析及学籍的自动处理本系统按学籍管理条例设计了若干个软件处理模块:1、可按某学生某学期,学年考试及补考成绩,自动生成该学生是否升留降级,退学。2、可按某学生在校期间累计补考科目门数和成绩自动生成该学生是否结业,毕业,授位。3、可按某学生因非成绩原因所引起的学籍变更作自动处理。4、可按每学期各年级班学生考试成绩自动生成补考名单,科目。5、可按每学期各年级学生考试成绩自动生成某课程统计分析表。6、可按同一年级学习成绩进行同一课程不同班级间成绩比较。5数据调查及分析5・1原始数据编写说明:本节描述原始数据调查的结果,列出数据清单。原始数据的描述:数据名称:高校学生学籍管理信息系统简述:系统中保留五个年级学生的信息,学生毕业一年后信息转储,但随时可以查询,输出。来源:每学期考试完毕由各系录入成绩,然后由教务科收集去处:学生,老师组成:存储信息用库有学生资料表,成绩表,授课表,补考成绩表,奖励处分表等,用于存放学生在校期间的有关信息。5・2数据字典5・2・1数据条目系统管理要求=[学生资料表|成绩表|授课表|补考成绩表|奖励处分表|毕业生表|日常报表]学生资料表=学号+姓名+性别+生日+家庭地址+邮编成绩表=学号+科目+成绩毕业生表=学号+姓名+班级奖励处分表=学号+姓名+系别+奖励(处分)学生情况=学生成绩+学生资料统计要求={学生情况}数据流名:查询要求简述:系统处理的一个命令别名:无组成:[学生情况|统计要求]数据量:2000次/天峰值:每天上午9:00—10:00有1000次注释:至每学年10月下旬评奖学金还将增加3至4倍5・2・2数据分析编写说明:本节主要对原始数据库表中的个别属性进行了简要的描述。数据项描述数据项编号:01 数据项名称:学号简述:学生表的关键字的描述类型:长整型长度:10位取值/定义:前四位入学年份,接着三位系别专业方向代号,最后是按姓氏排列的序号数据项编号:02 数据项名称:成绩简述:成绩表的有关分数的描述类型:单精度长度:7位精度:小数点后保留两位取值/定义:小数点前最多三位数字学生考试成绩、平时成绩、总评成绩数据项编号:03数据项名称:奖励简述:奖励表的有关奖励的描述类型:文本/字符类型长度:多位取值/定义:学生的奖励情况有获得奖励或是受到处分5・2・3小说明篇四:数据库报告《教学管理系统》数据库设计报告姓名:学号:专业班级:指导教师:安剑奇时间:目录第1章绪论 1.1数据库技术的国内外发展与应用现状 3TOC\o"1-5"\h\z1.2数据库应用系统开发的意义 ...61.3数据库应用系统开发方法概述 6第2章问题描述 7背景 7数据需求 72.3事务需求.82.4安全性 ..8关系模2.5关系模式 8第3章图标设计 9e-r3.1图 e-r 9数据表格 1现.4.1数据库 12建立. 124.2表的建立.124.3数据录入.124.4数据存放位置....124.5系统配置.第4章物理实12第5章功能实现 13面 ..13TOC\o"1-5"\h\z单 表 查询 14连 接 查询 16第6章结束语 18第1章绪论1.1数据库技术的国内外发展与应用现状面向21世纪的现代社会是一个信息化的社会,信息化包括三项技术:计算机技术、通信技术和控制技术,而计算机技术是信息化的主要处理工具。信息的载体是各式各样的数据,包括文字、数字、图形、图像、声音、视频等。基于计算机的数据库技术能够有效地存储和组织大量的数据,而基于数据库技术的计算机系统就被称为数据库系统。作为信息系统核心和基础的数据库技术得到越来越广泛的应用,它不仅已成为管理信息系统(mis)、办公自动化系统(oas)、医院信息系统(his)、计算机辅助设计与计算机辅助制造(cad/cam)的核心,而且已经和通信技术紧密地结合起来,成为电子商务、电子政务及其他各种现代信息处理系统的核心。对于一个国家来说,数据库的建设规模、数据库信息量的大小和使用频度已成为衡量这个国家信息化程度的重要标志。本章介绍数据管理技术的发展、数据库最基本的概念和术语、关系数据库的基本理论及数据库系统软件visualfoxpro6.0的一些基本知识。数据库技术是在20世纪60年代兴起的一种数据处理技术。数据库在英语中称为database。拆开来看,data的中文意思是数据,base的中文意思是基地,所以通俗意义上来讲,数据库就可理解为存储数据的基地。在了解数据库系统基本概念之前,先从数据管理技术的产生和发展过程来认识数据是如何进行处理的。从数据处理的演变过程,就不难看出数据库技术的历史地位和发展前景。自从计算机应用于数据处理领域以来,就面临着如何管理大量复杂数据的问题。时至今日,随着计算机软硬件技术与数据管理手段的不断发展,数据处理过程发生了划时代的变革,数据管理技术已经大致经历了三个发展阶段。1.人工管理阶段人工管理阶段出现在20世纪50年代中期以前,当时计算机主要用于科学与工程计算。由于当时没有必要的软件、硬件环境的支持,用户只能直接在裸机上操作,数据处理采用批处理方式。在这一管理方式下,用户的应用程序与数据相互结合不可分割,当数据有所变动时程序则随之改变,程序与数据之间不具有独立性;另外,各程序之间的数据不能相互传递,缺少共享性,各应用程序之间存在大量的重复数据,我们称为数据冗余。因而,这种管理方式既不灵活,也不安全,编程效率很低。在人工管理阶段,应用程序与数据之间是一一对应的关系,如图1.1所示。图1.1人工管理阶段应用程序与数据之间的对应关系2.文件管理阶段文件管理阶段出现在20世纪50年代后期至20世纪60年代后期,由于大容量存储设备逐渐被投入使用,操作系统也已经诞生,而且操作系统中有了专门的数据管理软件,一般称为文件管理系统,即把有关的数据组织成一种文件,这种数据文件可以脱离应用程序而独立存在,由一个专门的文件系统实施统一管理。文件管理系统是一个独立的系统软件,它是应用程序与数据文件之间的一个接口,数据处理不仅采用批处理方式,而且能够联机实时处理。在这一管理方式下,应用程序通过文件管理系统对数据文件中的数据进行加工处理,应用程序和数据之间具有了一定的独立性。但是,一旦数据的结构改变,就必须修改应用程序;反之,一旦应用程序的结构改变,也必然引起数据结构的改变,因此,应用程序和数据之间的独立性是相当差的。另外,数据文件仍高度依赖于其对应的应用程序,不能被多个程序所通用,数据文件之间不能建立任何联系,因而数据的共享性仍然较差,冗余量大。在文件管理阶段,应用程序与数据之间的对应关系如图1.2所示。图1.2文件管理阶段应用程序与数据之间的对应关系3.数据库管理阶段数据库管理阶段出现在20世纪60年代后期,由于计算机需要处理的数据量急剧增长,同时为了克服文件管理方式的不足,数据库管理技术便应运而生。数据库管理技术的主要目的是有效地管理和存取大量的数据资源,它可以对所有的数据实行统一规划管理,形成一个数据中心,构成一个数据仓库,使数据库中的数据能够满足所有用户的不同要求,供不同用户共享。我们将为数据库的建立、使用和维护而配置的软件称为数据库管理系统。数据库管理系统利用了操作系统提供的输入输出控制和文件访问功能,因此它需要在操作系统的支持下运行。visualfoxpro6.0就是一种在微机上运行的32位数据库管理系统软件。在这一管理方式下,应用程序不再只与一个孤立的数据文件相对应,而是通过数据库管理系统实现逻辑文件与物理数据之间的映射,这样应用程序对数据的管理和访问不但灵活方便,而且应用程序与数据之间完全独立,使程序的编制质量和效率都有所提高;另外,由于数据文件间可以建立关联关系,数据的冗余大大减少,数据共享性显著增强。根据数据存放地点的不同,我们又将数据库管理阶段分为集中式数据库管理阶段和分布式数据库管理阶段。20世纪70年代以前,数据库多数是集中式的,随着计算机网络技术的发展,使数据库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论