




免费预览已结束,剩余27页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本 科 毕 业 论 文 第 32 页 共 32 页摘要互联网是当今世界上最大的信息库和传播信息的最主要渠道,但是由于信息数据量巨大、整合程度低等特点,限制了对其蕴涵价值的挖掘,如何高效地采集有价值的网络信息资源,成为当前研究的热点。本文基于以上现状设计的南海信息采集系统是基于JSP技术的,它具有灵活的集成开发方法,顺利的完成了整个系统的完整的检验。该南海信息采集系统系统,界面简单,操作方便,灵活,实用,有效的信息采集相关业务管理的过程,大大提高了效率,使信息采集系统更加系统化,规范化,自动化,可用性,可靠性,安全性等。此系统采用标准的三层框架,将复杂的功能模块分为表示层、控制层、业务层等三层结构,降低了系统开发的复杂性。主要采用了JSP技术开发,提高运行性能和系统的安全性能,而且易于维护的运行。本系统主要实现了爬虫参数维护、爬行开始、创建索引、已经爬行入库信息等几个功能模块。关键词: 信息采集 B/S 模式 MVC JSPAbstractAs computer performance continues to improve, prices continued to fall , the computer has been more widely used in the medical , teaching, research , and management. In order to reduce the labor intensity of affairs officers , auxiliary hospital management , so that the hospital can get more with less investment benefits , scientific and effective hospital information systems have become essential in todays era . As an important part of the whole hospital information system , hospital outpatient management system can be used to achieve a variety of information processing medical clinic .This design of the hospital management system is based on JSP technology, it has a flexible integrated development approach , the successful completion of a complete inspection of the entire system . The hospital management system , simple interface, easy to operate , flexible, practical and effective management of hospital -related business processes , greatly improving the efficiency of hospital management system enables a more systematic, standardized , automated , availability, reliability , security is very All right. This system uses a standard three-tier framework , complex modules into the presentation layer , control layer structure layer, business layer , reducing the complexity of system development . The main use of JSP technology development, improve operational performance and system safety performance , and ease of maintenance operation. The system is divided into a number of different roles for administrators and users , different roles have different permissions , the system achieved a major information management department administrators , operations personnel management, information feedback, and modify personal information and other functions .Keywords : Hospital B / S mode MVC Management System目 录第一章 绪论61.1 课题研究背景61.2 课题研究现状61.3 本课题主要工作7第二章 系统相关技术82.1 JSP技术82.2 MVC模式92.3 B/S结构92.4 MySQL数据库介绍132.5 本章小结14第三章 系统需求分析153.1 系统总体目标153.2 系统可行性分析153.3 系统功能需求分析163.4 系统非功能需求分析163.5 系统开发环境与开发工具18第四章 系统设计与实现194.1 设计目标与原则194.2 系统架构设计204.2.1 总体架构设计204.2.2 系统网络拓扑结构图214.3 数据库设计214.3.1 数据库的选定214.3.2 数据库概念模型设计214.3.4 数据库逻辑设计234.4 系统功能实现254.4.1 数据库链接实现254.4.2 爬虫参数维护模块实现254.5.2 爬行开始功能实现264.5.3 创建索引功能实现274.5.4 已经爬行入库信息功能实现28总结30致谢31参 考 文 献32第一章 绪论1.1 课题研究背景在网络飞速发展的今天,Web提供了丰富的网络信息资源,人们通过Internet和web技术可以很容易的访问世界上各个角落的数据。但现实是用户获取自己需要的信息并不是一件容易的事。用户需要在这个不断变化、开放的信息世界里面进行浏览、搜索、过滤、导航、收集、相关数据处理。各个数据源的数据模型、数据结构、内容表示以及使用的概念、词汇的不同,使得人们面对如此多的异构信息源时,很难准确找到自己所需信息。网络信息资源数量巨大,类型多样,形式丰富,且内容广泛,但它们具有分散性,缺乏一致性,整合程度低,信息关联不够等特点,科技工作者很难充分体现和挖掘出其中蕴涵的价值,也制约着更高层次应用的建立和实施。这也意味着要充分开发和利用网络信息资源,实现网络信息资源的共享并非易事。网络信息资源的分布和流通是非均衡性的,信息价值的实现也是有条件的;信息不会必然地、无条件地、自动地变成资源和财富。网络信息资源的优势在于:它赋予了用户以强大的信息检索和获取能力。但在实际生活中,网络信息资源并不能将这个威力显示出来。人们在许多场合中并未感觉到使用它有很大便利。其中一个很重要的原因就在于日常生活中的网络信息资源缺乏整合性,从而使网络信息资源难以发挥强大作用。只有对网络信息资源进行积极有效的整合,才能真正实现网络信息资源的有序化,实现网络信息资源共享效用的最大化。在信息资源的整合过程中,数据采集是必不可少的、最重要的环节。设计开发一套功能高效的数据采集模式,保证数据获取的准确性,提高数据装载的效率,具有重大的现实意义。1.2 课题研究现状一方面网络上的信息多种多样、丰富多彩,而另一方面用户却找不到他们所需要的信息。这样的矛盾促使一种以Web搜索引擎为主的,用于提取网络有效资源的信息检索技术应运而生了。Google、AltaVista、天网等国内外知名的搜索引擎正是人们为了解决网上信息检索的难题,而在信息检索领域进行大量研究后的成果。这些搜索引擎通常使用一个或多个资源采集器从Internet上收集各种数据,然后在本地服务器上为这些数据建立索引,当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息。这些搜索引擎中常用的采集器有:Spiders、Crawlers、Web robots、Wanderers等。目前许多国家和企业的情报部门通过情报采集系统来跟踪和调查对手的情况,收集相关信息并提出预警分析使自己立于不败之地1。最近几年,信息采集技术在国内的应用越来越广泛。从某个领域的科技人员到一些大的图书馆和企业,都更多的借助于网络信息采集系统来获取自己需要的信息。特别是随着信息采集技术的发展,用户从网上获取信息的效率不断提高,获得信息的完整性得到了很好的保障。采集功能的完善促使许多提供信息服务的部门,纷纷建立了针对本部门的特点的网络信息采集系统。这些采集系统都极大地提高了本部门的工作效率。为了更好的满足用户的需求,一些新的技术在信息采集过程被广泛采用。特别是在国外,多线程技术、并发技术、信息挖掘技术等已经在信息采集领域得到了很好的应用和发展。新技术的应用和采集功能的不断完善,使得信息采集技术不仅仅用于知识信息的积累,也不断的向政治和军事领域扩展。1.3 本课题主要工作本文依据面向对象的软件开发流程,对需求分析到实施检测都进行了全方面的阐述。本人主要做了一下工作:1. 对需求进行分析。对采集系统的需求进行分析,了解该系统的主要特点和要实现的目标,和用户交流之后对用户的特点和系统的业务流程进行分析,全面掌握业务流程,理清系统的功能性需求和非功能性需求。2. 选择合适的技术方案。建立一个系统的开发平台,再对关键技术进行详细的研究。按照实用、开放、开源的原则,从数据库平台、系统平台、开发平台、应用服务器这几个方面,设计出既保证满足需求,又开源可扩展的系统架构。利用大量的扩展产品要比传统的开发方式更灵活且成熟。3. 系统的设计和系统的实现。系统的设计原则依据 MVC 的设计思想,使得系统的外观、业务逻辑与数据存储处于分离的状态。详细分析系统的功能、业务流程、用户角色,以此为根据设计系统的结构,还详细地分析设计系统。第二章 系统相关技术2.1 JSP技术JSP(JavaServer Pages)是由Sun Microsystems公司倡导、许多公司参与一起建立的一种动态网页技术标准。它是在传统的网页HTML文件(*.htm,*.html)中插入Java程序段(Scriptlet)和JSP标记(tag),从而形成JSP文件(*.jsp)。 用JSP开发的Web应用是跨平台的,即能在Linux下运行,也能在其他操作系统上运行。JSP技术使用Java编程语言编写类XML的tags和scriptlets,来封装产生动态网页的处理逻辑。网页还能通过tags和scriptlets访问存在于服务端的资源的应用逻辑。JSP将网页逻辑与网页设计和显示分离,支持可重用的基于组件的设计,使基于Web的应用程序的开发变得迅速和容易。 Web服务器在遇到访问JSP网页的请求时,首先执行其中的程序段,然后将执行结果连同JSP文件中的HTML代码一起返回给客户。插入的Java程序段可以操作数据库、重新定向网页等,以实现建立动态网页所需要的功能。 JSP与Java Servlet一样,是在服务器端执行的,通常返回该客户端的就是一个HTML文本,因此客户端只要有浏览器就能浏览。JSP主要优先如下:(1)一次编写,到处运行。在这一点上Java比PHP更出色,除了系统之外,代码不用做任何更改。(2)系统的多平台支持。基本上可以在所有平台上的任意环境中开发,在任意环境中进行系统部署,在任意环境中扩展。相比JSP/PHP的局限性是显而易见的。 (3)强大的可伸缩性。从只有一个小的war文件就可以运行Servlet/JSP,到由多台服务器进行集群和负载均衡,到多台Application进行事务处理,消息处理,一台服务器到无数台服务器,Java显示了一个巨大的生命力。 (4)多样化和功能强大的开发工具支持。这一点与JSP很像,Java已经有了许多非常优秀的开发工具,而且许多可以免费得到,并且其中许多已经可以顺利的运行于多种平台之下。2.2 MVC模式MVC 是一种目前广泛流行的软件设计模式。由于 J2EE 技术逐步走向完善,在实际生产中,MVC 设计被越来越多的使用,逐渐成为主流应用模型。与其它模式相比,MVC 模式不但在显示、功能两大模块的分离上存在优势,而且支持以下功能:扩展性、维护性、移植性,此外使得组件具有可复用性。所谓 MVC ,即 Model模型、View视图、Controller控制器的缩写。具体将,就是将依照视图、模型、控制器的方式对输入、处理、输出流程进行分离处理。所以一般将应用分成三个不同的层次:模型层、视图层、控制层。事件至少会引起三者中的一个发生变化。因此,只要控制层将模型层的属性或有关数据进行改变,就会导致新的视图层得出现。同理,控制层导致视图层得变化,也会使得模型层发生变动。图 2-1 显示的是 Model、View、Controller 之间的相互关系。图 2-1 MVC 模式体系结构与工作原理2.3 B/S结构B/S 结构是 Browser/Server 的缩写,汉语中指的是浏览器以及服务器结构。B/S的基础是 C/S,经过对 C/S 的修改、升级得到的。在 B/S 下,具有三层结构:首先,用户的操作界面通过浏览器实现;其次,大部分事务逻辑的实现基于服务器端;最后,少部分的事务逻辑的实现由前端完成。采用这种结构,不但使整体成本下降,而且将电脑的负载大大降低,从而减少工作量与工作强度。在现阶段,采用B/S 模式结构,是很容易实现的。这种技术属于一次性开发,允许不同的工作人员从不同的地点,以不同的接入方式,随时随地的对数据库进行管理,还能有效的保护数据平台和管理访问权限,保证有关数据的安全。1. B/S 架构软件的优点和缺点(1) 容易,升级方便。随着技术的进步,一般来讲,对于软件的修改原来越多,软件的升级周期越来越短。而采用 B/S 结构就能够很容易避免这方面的麻烦。对于一般的结构而言,在一个企业中,若电脑数量较多,维修人员会因维修与软件升级而来会奔波,工作强度极其巨大。而对于采用 B/S 结构的软件来讲,由于客户端(电脑)仅起到浏览器的作用,因此维修人员只需要维护好服务器就可以了。无论客户端多么庞大,都丝毫不会增加工作强度。另外,B/S 结构支持异地协助,可以实现异地的软件升级、维护。采用 B/S 结构会大大降低所需的人力物力,从而提升工作效率。(2) 低成本,更多的选择。由于最常使用的操作系统是 windows,因此浏览器似乎成了必不可少的。然而在服务器操作系统竞争中,微软公司的产品未必是最好的。现在逐渐形成新的模式,即用 B/S 结构与 Linux 服务器进行匹配,这样带来的好处是更为安全可靠,另外还有一点非常重要,即 Linux 的数据库也是不收费的。这也说明了 B/S 结构对操作系统的选择不唯一,而是支持多种操作系统的。(3) 应用服务器的运行数据负荷重。根据分析我们知道,B/S 的三层结构分工明确,即绝大多数的事务逻辑由服务器端处理,另外客户端只起到浏览器的作用。这样虽然优势很多,但是也具有一定的缺点:即应用服务器上的负荷比较大,若服务器稍微出现问题,就会导致非常严重的后果,为了避免这种现象的出现,一般采取保护措施配备专门的数据库服务器。2. C/S 与 B/S 结构在技术上的比对C/S 结构软件客户机/服务器模式可以分为两层:首先是客户机,其次是服务器。客户机不但承担着对数据的输入、输出,而且在一定程度上要对相关数据进行处理、分析,还要对数据进行判断,合理分配,从而将通信的数据量、服务器上进行的计算量进行减轻。然而,服务器在连接数量上一级通信信息量上不是没有上限的,所以 C/S 结构仅适用于连接量较小的情况,比如财务软件等。B/S浏览器/服务器模式是在 C/S 的基础上发展起来的,要想完成软件应用业务的处理,仅需通过浏览器就能很容易的实现,是一种全新的软件系统构造技术。采用 B/S 结构是今后的趋势,一般来讲,e 通管理软件就采用了 B/S 结构。(1) 在数据安全性方面的对比。对于采用 C/S 结构的软件而言,C/S 的结构决定了要求在各地都安装服务器,还要实现服务器间的数据同步,一旦某一点出现安全问题,势必造成整个系统的安全受到严重影响。因此,C/S 结构不适用于服务器较多的类型。而采用 B/S 结构恰恰可避免这一缺点,因为 B/S 结构的数据存放在专门的服务器内,客户端不保存任何业务数据和数据库连接信息,并且无需数据同步,因此不存在安全上的问题。(2)在数据实时性上的对比。由于 C/S 结构无法保证随时随地的看到当前业务发生情况,因此得到的都是已经存在的数据,不是即时数据。而 B/S 结构则可以得到当前发生所有业务的实时数据,可以以此进行即时决策,有效地避免了企业的损失。(3) 在数据一致性上的对比。要实现异地经营,对于 C/S 结构软件,需要安装区域级服务器,并实现数据上的同步,在服务器完成同步后总部才能得到最终数据。首先这就要求所以的服务器必须正常运行,其次由于存在的微小差异,在理论上无法实现数据同步。而采用 B/S 结构,这种结构的数据属于集中存放,无不同步问题,数据始终一致。(4)在服务响应及时性方面的对比。企业的业务流程、业务模式不是一成不变的,由于要适应市场的需求,这就要求企业要实时进行调整、改革,业务的流程也在发生大大小小的变化,为了使企业正常运行,就必须对相关软件进行即时更新、维护。对于采用 C/S 结构的软件,由于所有的客户端都需要进行更新、维护,因此工作量巨大,很难做到所有的程序版本一致,所需要很长的时间重新部署。而对于采用 B/S 结构一类软件,服务器的作用与浏览器相当,所以软件的更新、维护只需在总部进行即可,大大节省了时间,很容易实现版本的一致性。(5)在数据溯源性上的比对。对于 C/S 结构,由于数据不是采用集中存放模式,仅仅上传中间报表数据,因此很难查找原始数据的出处。而我们知道在 B/S 结构中,数据属于集中存放,因此便于总部对数据的来源进行查询,可以很详细地查询所有原始数据的来源。(6)在网络应用限制上的对比。采用 C/S 结构的软件对网络要求较高:适用于局域网以及宽带(要求带宽不低于 1 兆)。对于采用 B/S 结构的软件而言,对网络要求很低,适应范围很广,甚至可以不采用宽带。3. C/S 与 B/S 结构软件在运用上的对比无论采用哪种软件,其目的是为了更好地让企业运转,因此,在选择软件时,不但要注意所采用的技术,还应关注在商业上的运用。我们将在商业运用方面进行对比:(1) 在投入成本上的对比。对于 C/S 来讲,后期维护、更新费用巨大;对于B/S 而言,属于一次性投资,成本较低。(2) 在企业快速扩张支持方面的对比。发展中的企业的主要特点是扩张的速度极其迅速。为了使企业的扩张能够顺利进行,就要求在部署软件时具有准确、及时的特性。对于 C/S 结构,一般要保证客户端、服务器、工作人员的同步性,因此与快速扩张不协调。而对于 B/S 结构而言,由于安装属于一次性,因此要想使企业扩展较快,就必须解决人才问题。(3) 在硬件投资保护方面的对比。对于如何维护已经存在的硬件,两种结构采取的手段存在着非常大的区别:对于 C/S 而言,主要是更换中央服务器,采用更为高级的类型;而对于 B/S 来讲,可以采取逐渐增加服务器数量的方法,并使服务器间的负载逐渐趋于平衡,从而做到保护原有硬件。若采用 C/S 结构,不但无法解决巨大的人力物力的消耗,而且无法保证拥有足够的人才,所以考虑到企业的发展前景,C/S 结构是不适应的。另外,C/S 结构无法保证安全性,并且要求中央服务器性能非常好。对于 B/S 结构而言,在用户的数量上是没有限制的。根据上述分析,我们可以看到,在各个方面上,B/S 结构的管理软件都要优于C/S 结构软件。另外,当前的趋势也是逐渐用 B/S 代替 C/S。积极参与软件的B/S结构的发展从国内软件厂商的趋势,大型管理软件的B/S结构必将在未来几年占主导地位的管理软件领域。2.4 MySQL数据库介绍数据库是数据和数据库对象的集合,其中数据库对象指表(Table)、视图(View)、存储过程(Stored Procedure)和触发器(Trigger)等。数据库通过SQL(Structured Query Language)来对数据进行操作和管理,这里包括一些基本的操作如select、delete、insert、update语句。ADO(ActiveX Data Objects)是微软开发数据库应用程序的数据库访问技术。它被设计用来同新的数据库访问层OLE DB Provider一起协同工作,以提供通用数据访问(Universal Data MySQL)。OLE DB是一个底层的数据库访问接口,用它可以访问各种数据源,包括传统的关系数据库。ADO封装了OLE DB程序中使用的大量COM接口,所以是一种高层访问技术。关于数据库管理系统和接口的原理如图2所示。MySQL是一个快速、多线程、多用户的小型关系型数据库管理系统。它支持正规的SQL查询语言和采用多种数据类型,能对数据进行各种详细的查询等。MySQL提供了一全套的数据库创建和访问机制,通过很直观的方式就可以创建、访问、修改数据库的表和项,并且能建立它们之间的各种数据关系。MySQL系列从90年代就发展起来,经过了多年的反展,它已经成为非常成熟的技术,面向中小型企业级应用。MySQL数据库的特点是数据库文件小而简单,不需要运行或者启动数据库服务进程就可以使用。通常MySQL数据库文件可以随网页文件一起方便地放在网站的目录中,正是由于这些特点,MySQL数据库通常被用来作为网站开发的数据库支持技术。对MySQL数据库的管理采用图形化管理工具phpMyAdmin 。phpMyAdmin是一个用PHP编写的、基于Web的、跨平台的MySQL管理程序,支持简体中文,使用Web浏览器作为管理界面。通过phpMyAdmin可以进行绝大部分的MySQL操作,包括对数据库级操作,表级操作,以及数据管理等。 图2-1 数据库管理系统和接口的原理2.5 本章小结本章介绍了南海信息采集系统用到的相关技术,针对系统中使用到的技术做了简单的介绍。第三章 系统需求分析3.1 系统总体目标(1)数据共享建立统一的信息数据库,数据的规范化和制度化的信息采集及系统,实现持续一致性和数据的共享,提高信息查询效率和精度。(2)实现各种信息采集业务功能本系统主要实现了爬虫参数维护、爬行开始、创建索引、已经爬行入库信息等几个功能模块。(3)规范信息采集业务流程实现信息采集的规范化,全面、科学、系统地进行管理;提供多种信息咨询渠道,最大程度地发挥本系统的作用;提高工作效率和管理水平,完善信息采集工作中的不足之处。(4)实现现代化的管理手段系统应具有清晰的界面,简单易操作;系统的不同用户应具有不同的操作权限;系统应具有数据库备份和恢复功能,提高数据的安全性;系统的运行应基于Internet,只要有网络就可以随时随地采集信息。论文中涉及的系统,其实质对支持以下功能:首先,管理员可以对系统访问;其次,对于相关信息,管理员有权限进行完善、修改、删减,从而实现了管理信息采集过程。为了方便管理员的操作,要求系统简捷明了,登录界面具有人性化,此外,要注意下面各点:1、实现功能手段:决定着系统性能的好坏。2、程序的运行速度:速度的快慢意味着效率的高低。3、及时的单元测试:能否做到第一时间发现、解决问题。4、安全问题的性能可靠性:能否确保用户的安全使用。3.2 系统可行性分析1 操作的可行性分析为了尽量便于用户的使用,登录界面尽量简捷、人性化。采取常见的 Window界面作为登录界面,而整个系统的开发业使用常见的 Java。这些策略使得用户不需很长时间就能很快对系统非常熟悉,可以熟练掌握操作方法。除此之外,系统为了方便维修人员,添加了数据字典等,并在界面登录上给出一定的提示,使得整个系统更具人性化,用户操作起来更为简单。2 管理的可行性分析企业要想长久地生存下去,首先必须具有良好的企业文化,其次在管理上体制要完善、制度要合理,再次要采用可持续发展的科学方法,最后还应与时俱进,不断进行企业改革,使得企业时刻适应社会的变革。其中最重要的就是管理方法一定要科学,只有这样企业的竞争力才能上升,才能得到长久的发展。3 技术的可行性分析(1)硬件可行性分析论文中系统对于硬件方面的要求不存在特殊的地方,只要求硬件的配置一般即可,只需保证系统可以正常运行、具有较高的效率。若硬件水平较低,可能导致系统性能较低,效率较差,导致无法实现整个设计程序。目前看来,对硬件的要求很容易实现。因此,经过分析,硬件具有可行性。(2)软件可行性分析Java 语言可以提供常见的类似机制、动态的借口模型,设计较为集中。另外,采用 Java 语言可以很容易实现模块化以及信息的隐藏。另外,代码的复用也可以得到很好的体现。因此,考虑到系统的实际情况,论文将其作为开发语言。经过以上分析可知,软件具有可行性。由此,我们从三个方面进行了可行性的分析,可以知道,系统的开发不具有问题。3.3 系统功能需求分析本系统主要实现了爬虫参数维护、爬行开始、创建索引、已经爬行入库信息等几个功能模块。3.4 系统非功能需求分析非功能性需求,指的是在达到用户要求后必须具备的非功能需求的特征。对于软件类产品而言,经常涉及到以下几个方面:系统是否兼容、系统是否完整、系统功能是否可靠、系统是否适应技术要求等。这些特征不但直接决定了软件的性能,而且对功能性需求产生巨大的影响,然而系统的非功能性需求却是最容易被轻视的。1 稳定性要求整个应用软件系统能够连续7X24小时的工作。每1000小时运作的系统可用于至少999小时不小于故障间隔时间应大于1000小时。系统以保证数据的一致性,完整性,要求达到99.99%的准确度。用户输入的数据检查的合法性,确保畅通,并能自动纠正错误的数据处理。2 系统的响应时间一般操作的时间不超过5秒,和一般的统计不超过100秒。当操作员做很长一段时间运行一定的处理时间,该接口可以给小费。在返回的数据导致过度的响应时间太长,可提供局部反应,如分页读取数据,以减少等待时间。3 数据处理的要求系统不仅支持定期自动数据备份操作,而且还提供操作手动备份;提供多种数据输出格式(EXCEL、XML、TEXT等文件形式)而且该输出格式可以方便快捷的倒回原来系统中。真正使系统数据损坏,丢失等情况下,数据的备份倒带,数据恢复。和三年的系统在线数据保留要求4 系统的完整性系统正常运行、达到用户要求的前提保障。此类功能一般为必备的。主要包括下面几点:数据的管理、用户的管理、联机帮助、软件发布管理以及软件的在线升级。5 系统的可扩充性与可维护性系统是否支持技术、业务需求上的改变。我们知道,在这两方面出现变动时,必将导致整个系统的调整,为了减少修改系统的麻烦,这就要求系统在最初设计时就应当提前考虑,留有一定的改进措施。所谓适应性,其实类似于可扩充性以及可维护性,主要体现在对变化的处理手段。不同点在于,适应性的前提是整个系统不进行变动。如软件具备较好的适应性,当一些技术上、业务需求上出现变动时,系统依然可以正常运行。这就要求,在设计之初,在各种条件、方式上就应该有所考虑。论文采用的开发平台为J2EE,经大量验证,此平台适应于系统的开发。6 界面友好要求系统采用多媒体技术,综合图、文、声、像及影视等多种信息手段,使用户操作起来轻松自如,界面美观,富有动感。办公系统软件中所有办公事宜应该按照角色划分并细化到个人,系统能够根据每个用户的身份提供个性化的信息服务,保证组织每个成员不仅能根据自身角色完成工作流程要求的工作内容,还能对个人的工作信息进行管理(登记、查询、打印)。3.5 系统开发环境与开发工具1 系统的实现平台硬件平台:CPU:酷睿双核CPU;内存:1G以上。软件平台:操作系统:Windows xp/ Windows 2003/ Windows 7/ Windows 2008;数据库:MySQL;浏览器:IE8.0,推荐使用IE8.0;Web服务器:IIS5。0;分辨率:1024*768以上。2 开发工具的选择用到的工具:Myeclipse :用于前台应用程序的编写PowerDesigner :制作数据流程图、概念数据模型、物理数据模型MySQL:用于数据库的建立,为前台提供服务第四章 系统设计与实现在设计体系的时候要做到全方位的站在客户的立场上考虑问题,让最终的产品能够顺应大众用户的需求;同时也是为了给企业自身内部的发展埋下伏笔。这一章节将重点突出对于体系的结构框架的设计描述上,以详细的标明每一个数据库的主体结构框架。4.1 设计目标与原则这一个体系的架构的设计要能够体现出和用户之间良好的交互性,且整个的板块界面要非常的清晰明了,能够为后期的数据扩展和保障数据安全护航,只有达到这一个目标才能够有更好的扩展空间,适应企业将来的发展需要。1. 就整个体系的设计而言,这一系统必须要达到下述的要求:(1) 数据的安全性信息采集系统中存贮的数据都是一些不应该被外界发现的数据,为了保证这些数据的安全性,整个的体系必须要有相关的安全防范措施来应对这些潜在的问题。(2) 容易使用性该系统的使用者应当对信息采集相关的业务流程有一个大概的认知程度,而且还必须对计算机相关的操作熟悉。所以在设计系统操作窗口的时候应该顺应大众使用者的习惯,在相关的语句上也尽量的做到专一和专业。(3) 灵活性由于信息采集这一块上涉及到各种各样的业务,而且主要包含的是对已有业务的一些更新和细化,另外还不断接受新的业务,因此设计出来的系统必须有能够接纳处理这些变化的能力。(4) 可拓展延伸性管理的模式会随着时代和业务量的变化而发生变化,因此这一系统就必须有可拓展延伸性,从而来达到引进新业务板块目的。2. 从系统实际操作的层次来看,该系统应满足以下原则:(1) 可靠性实际中使用的系统每天都会处理很多的比较保密的资料,体系中的每一个小的缺陷会让用户的资料面临着泄漏的危险,因此要大力确保系统非常的可靠。(2) 后期的维护保障性随着信息采集的数据量的扩大,使得这一体系的后来的维护保障的工作量激增,所以在设计的初期要使得体系内部相关参数在后期维护时候便于操作。(3) 经济高效性在考虑了用户条件的前提下,还应该实现经济的高效性,尽量的少花钱多办事,为大众的投资降低相应的危险系数。4.2 系统架构设计4.2.1 总体架构设计系统总体架构设计是将一个整体的任务量肢解成很多个细小而又非常详细的分量,把这些分量进行整合又可以得到整个大任务。其大概的任务步骤是:1. 把系统细分成每一个子板块2. 预先设计好各个子板块的作用3. 设计好每一个子板块之间的逻辑关系4. 设计好子板块的界面及模块间信息的传输总体设计过程先确定可能达到最终目的的每一个小的具体方案,对于每一个小的方案而言,就得先找出在需求分析阶段的一些相关的资料。然后初步的设计出这些数据对应的软件,进行一些优化,得到一个相对可行的结构框架,做一些数据库设计模型,根据相关的标准做出最终的计划。系统运行流程如图 4-1所示。图4-1系统运行流程图由图 4-1 分析所示,本系统主要实现了爬虫参数维护、爬行开始、创建索引、已经爬行入库信息等几个功能模块。4.2.2 系统网络拓扑结构图本系统采用先进的B/S架构,该架构具有开发简、单共享性强、维护简单方便等诸多优点。本系统的网络拓扑图如图4-2所示:图4-2系统的网络拓扑图4.3 数据库设计4.3.1 数据库的选定目前主流数据库主要有Oracle、SQL Server、Mysql、Access等。本系统是一个比较小型的系统故而选择了MySQL。MySQL是一个关系型数据库,它的数据库引擎为关系型数据和结构化数据提供了更为安全而且可靠的存储功能。MySQL与 Microsoft Visual Studio、Microsoft Office System 以及新的开发工具包(包括 Business Intelligence Development Studio)能够很好的集成。4.3.2 数据库概念模型设计数据库概念模型即系统的实体关系模型。南海信息采集系统的整体E-R图如图4-4所示。图4-4 南海信息采集系统的整体E-R图具体属性如下:文章:ID、标题、作者、原文地址、采集时间等。采集:ID、采集名称、页面编码、采集地址、动态地址、内容地址集、内容地址、标题、内容等。然后根据具体的功能需求,对本系统的E-R图进行细化从而得到几种实体关系模型,以下为部分实体关系模型。(1)系统使用文章实体,如图4-5所示。图4-5文章实体图(2)采集类实体图,如图4-6所示。图4-6采集类实体图4.3.4 数据库逻辑设计本系统主要用到了以下几张数据表。1、acquisition表。表4-1 acquisition表字段名称数据类型长度是否允许空是否为主键idvarchar255否是acqnamevarchar255是否cjdzvarchar255是否codevarchar255是否conaddendvarchar255是否conaddstartvarchar255是否conlistendvarchar255是否conliststartvarchar255是否dtdzvarchar255是否pageendvarchar255是否pagestratvarchar255是否pagestratvarchar255是否titlestartvarchar255是否ztsjvarchar255是否2、contentart表。表4-2 contentart表字段名称数据类型长度是否允许空是否为主键idvarchar32否是authorvarchar255是否cjsjvarchar255是否contentvarchar255是否titlevarchar255是否urlvarchar255是否countmunint11是否4.4 系统功能实现4.4.1 数据库链接实现数据库连接字符串采用读取配置文件的方式实现。数据库配置文件代码:jdbc.driverClassName=com.mysql.jdbc.Driverjdbc.url=jdbc:mysql://gxtj?useUnicode=true&characterEncoding=UTF-8 jdbc.username=rootjdbc.password=root数据库连接池实现:4.4.2 爬虫参数维护模块实现爬虫参数维护模块实现效果如图4-8所示。图4-8 爬虫参数维护模块实现效果实现代码:$.validator.methods.leafChannel = function(value, element, param) var i = element.selectedIndex; return $(element.optionsi).attr(class) != sel-disabled; ; $(function() $(#jvForm).validate( rules: channelId: required: true, leafChannel: true , messages: channelId: leafChannel: 请选择末级栏目 ); );4.5.2 爬行开始功能实现爬行开始功能实现界面效果如图4-8所示。图4-8爬行开始功能实现界面效果实现代码:try int start, end;/ /s/blog_491e27980102e4wp.htmlHttpGet httpget = new HttpGet(new URI(url);String html = client.execute(httpget, handler);start = html.indexOf(titleStart);if (start = -1) return 采集地址: + url + 标题开始不正确; / 标题不匹配start += titleStart.length();end = html.indexOf(titleEnd, start);if (end = -1) return 采集地址: + url + 标题结束为止不正确;String title = html.substring(start, end);/ if (cmsAcquisitionHistoryMng.checkExistByProperties(true, title) / return content2;/ start = html.indexOf(contentStart);if (start = -1) return 采集地址: + url + 标题为: + title + 内容开始为止不正确;start += contentStart.length();end = html.indexOf(contentEnd, start);if (end = -1) return 采集地址: + url + 标题为: + title + 内容结束为止不正确;String txt = html.substring(start, end);/ save/ TODOContentArt content = save(title, txt, url);return 采集地址: + url + 标题为: + title + 采集成功!; catch (Exception e) / e.printStackTrace();return 网络异常;4.5.3 创建索引功能实现创建索引功能实现效果如图4-9所示。图4-9 创建索引功能实现效
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 村级财务制度培训与优化提升
- 七年级生物下册 第四单元 生物圈中的人 第七章 人类活动对生物圈的影响第一节 分析人类活动破坏生态环境的实例教学设计 (新版)新人教版
- 人教版 (2019)选择性必修 第二册Unit 1 Science and Scientists教案及反思
- 2024云南曲靖福牌彩印有限公司招聘2人笔试参考题库附带答案详解
- 三年级信息技术上册 第3课 可爱的小老鼠教学设计 辽师大版(三起)
- 人教精通版四年级下册Unit 3 What subject do you like bestLesson 14教案
- 上海市金山区九年级历史上册 第二单元 近代社会的确立与动荡 第11课 开辟新时代的“宣言”教学设计 北师大版
- 2024中核汇海招聘笔试参考题库附带答案详解
- 人教版四年级上册语文教案设计(教学反思参考3)去年的树学案-学案下载
- 内蒙古版四下综合实践 第三单元 主题活动四《自主选题:桥梁知多少》教案+素材
- 中国汽车用品行业市场深度分析及发展前景预测报告
- 《森马服饰公司营运能力存在的问题及对策【数据图表论文】》11000字
- 外墙真石漆采购合同
- 物流行业招聘流程及人员配置
- 2025年扎赉诺尔煤业有限责任公司招聘笔试参考题库含答案解析
- 儿童科普教育:2025年《肥皂泡》
- 液化气充装站建站可行性研究报告
- 员工黄赌毒法制培训
- 2025年广西现代物流集团限公司校园招聘60人高频重点提升(共500题)附带答案详解
- 2025年度跨境电商平台公司合伙人股权分配与运营管理协议3篇
- 《线束制造工艺》课件
评论
0/150
提交评论