版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘要搜索引擎(Search Engine是一个对互联网上的信息资源进行搜集整理的应用软件系统。 它主要包括信息搜集、 索引建立和信息检索三个部分。 搜索引擎有很多类型,常见的有FTP搜索引擎和WEB搜索引擎。一般 WEB搜索引擎较少处 理FTP服务器上的数据。就信息规模而言,FTP服务器的信息量比 WEB服务器小 很多。因此FTP搜索引擎硬件投入和维护的费用也远远低于大型通用搜索引擎。本文针对在FTP服务器的搜索速度和效率问题,对现有FTP搜索引擎技术进 行了分析和研究,重点详细介绍了爬虫模块和索引模块的设计与实现。文章首先分析了 FTP搜索引擎研究的背景和意义。然后在第3章节和第4章节中详细
2、描述了关键的爬虫技术和索引技术, 包括: 如何进行网段扫描, 获取数据以及建立索引数据库等。 最后本文还分析了在爬虫和索引实现时遇到的困难并提出了相应的解决方案。【关键词】FTP搜索引擎网络爬虫索引AbstractSearch Engine (SE) is an application system for information collecting andclassifyingon the Internet. SEconsistsof 3modules: information collecting, index building and information retrieving mo
3、dule. There are several kinds of SE, the WEB SE and are favorite tools among them for end users. Usually,most WEB SEsdo not work well on far as the informationscale on servers, the small than the web servers. Thus the cost of investment and maintenance on hardware is far less than the WEBsearch engi
4、nes.Aiming at the issues on searching efficiency and searching rate of engines, the thesis analyzes the existing technologies, and thendescribes the implementationof spider module and index modulein detail.The thesis analyzes the background and significance of engines atfirst.Then, the key technique
5、s on spider and index are detailed discussedin the 3rd and 4th chapter. It includes how to scan the appointed network-zone, how to extract the from the binary data-stream, as well as how to build the index database. Besidesanalyzes the difficulties while scanningand index-building, the thesis presen
6、ts some feasible solutions at last.【 Key Words】 EngineWeb SpiderIndex目录摘要 IAbstractI前言 1 TOC o 1-5 h z HYPERLINK l bookmark6 o Current Document 系统技术及运行环境2 HYPERLINK l bookmark8 o Current Document 硬件环境2 HYPERLINK l bookmark10 o Current Document 软件环境2 HYPERLINK l bookmark16 o Current Document 运行环境2 HY
7、PERLINK l bookmark22 o Current Document 三味书屋图书库存管理系统系统分析3需求分析3识别实体5 HYPERLINK l bookmark27 o Current Document 三味书屋图书库存管理系统总体设计5系统架构层次的划分5工作流程图 5 HYPERLINK l bookmark29 o Current Document 各构件及各层次实现5设计和开发流程5数据库设计5数据库表设计5数据库功能模块5 HYPERLINK l bookmark31 o Current Document 三味书屋图书库存管理系统详细设计5系统主界面5登录模块 5用户
8、模块 5查询订单 5下单 5 TOC o 1-5 h z 管理员模块6管理员系统主界面6书籍管理模块6库存管理模块6订单处理6入库管理62 开发环境和结论错误 ! 未定义书签。硬件环境错误!未定义书签。软件环境错误!未定义书签。运行环境错误!未定义书签。总结 6致谢 7参考文献 8刖百21 世纪是个信息化的时代,现代计算机技术的突飞猛进,为各行各业的发展创造了一个全新的时代背景。 人们的生活、 工作等已经越来越离不开计算机科学的运用, 而 Internet 的应用加速了这种趋势。 随着全球经济一体化步伐的加快,在信息时代的今天, 各企业商家所关心的不再局限于自身的产品质量、 生产设备、员工的素
9、质,更多的是关心自己的销售群体(客户群) ,关心他们的想法、需求、购买目的。 基于网络的图书系统的存在给予广大用户能不出门也能买到书, 搜索到自己想要的书籍, 方便了管理员的管理和客户的信息及时反馈。 随着网站的大规模化,它的存在就成为互联网生活中不可缺少的一部分。本系统主要采用ASPNET,开发语言为C#,主要实现的是订单查询,模拟购物下单,书籍管理等功能,由于水平有限,很多地方做的还不是很好,有待以后加以改进加强。在下面的各章节中,我将详细的介绍三味书屋图书管理系统BookShopSystemlS勺开发过程和所涉及的问题以及解决方法。系统技术及运行环境硬件环境处理器: Intel(R) C
10、ore(TM) i5 CPU M480内存(RAM) : 2GB软件环境操作系统:Windows XP sp3系统类型:32 位操作系统编程语言:C#开发工具:VisualStudio 2008 专业版ASPNET 简介1.2.2Visual Studio 2008 简介运行环境软件要求: Windows XP (须安装 Microsoft .NET Framework SDK, Windows 7( Microsoft .NET Framework SD)K,硬件要求:CPU : Intel Pentium IV (或更高) 内存:512MB (或更高运行结果经过多次的测试, 该程序能够实现
11、任务书要求的功能, 基本满足三味书屋图 书库存管理整体要求。存在的问题和不足由于在设计之初考虑不足,前期编写的大量核心代码书写格式不规范, 优化 不好。造成在后期修改时需要改动大量的核心代码, 编码和调试的时间均不充足。 造成程序运行的效率不高。在以后的设计中对这类问题应该尽可能的避免。2三味书屋图书库存管理系统系统分析需求分析网上书店系统为用户提供一系列网上购书服务。系统包含两类用户,即管理员和普通用户。针对这两类用户,系统根据登录 时的角色判断,跳转到相应的页面为其提供操作。三味书屋图书管理系统主要针 对的是后台图书的管理,普通用户模块只实现了模拟购物车的功能, 包括对订单 的查询和下订单
12、。管理员模块负责整个系统的运行与维护,针对图书执行查询、添加、删除、 修改操作,针对库存管理,有各种明细查询和统计查询,对出库订单的处理,入 库的处理。管理员和普通用户的功能模块图如下:三味书屋图书管理系统管理员识别实体三味书屋图书库存管理系统总体设计系统 架构层次的划分工作流程图各构件及各层次实现设计和开发流程数据库设计数据库表设计数据库功能模块三味书屋图书库存管理系统详细设计系统主界面登录模块用户模块查询订单下单管理员模块管理员系统主界面书籍管理模块库存管理模块订单处理入库管理总结此次毕业设计的题目在此之前虽然有所了解, 但是我却从来也没有深入的学习思考搜索引擎爬虫模块的实现方式,如何从浩
13、如烟海的站点中找到提供FTP服务的站点,FTP站点如何匿名登录等等一系列的问题在此之前,都没有进行系统的了解。 因此, 在本次毕业设计开始时, 我也曾怀疑自己能否顺利的完成此次毕业设计。 毕竟平时一直认为网络爬虫的实现都是一些高手才能实现的, 而我自己 仅仅是一个在校的大学生。然而通过网上查阅资料和查看刘老师提供的资料, 渐渐发现网络爬虫其实并没有自己想象中那么神秘,经过自己的不断学习和摸索以及刘老师耐性的指导,FTP搜索引擎爬虫模块的框架渐渐在我的脑海中清晰起来,如何获取FTP站点地址,如何从FTP站点获取文件,如何实现Linux和Windows下FTP站点的兼容, 甚至如何利用IIS和Se
14、rv-U配置一个自己的FTP站点,这些问题一个一个被解决。 从最初的实现功能到后来的完善功能, 在这个过程中自己不断的学习和成长, 直 到后来, 发现一个基本的网络爬虫的实现其实并不困难, 难的是如何让这个网络爬虫能够高效率并且稳定的工作。对于各个FTP服务器的兼容也是一个巨大的困 难,这些在设计之初,都是被我忽略的细节。总的来说, 这次毕业设计完成之后, 不但学到了书本以外的知识, 而且还增长了自己发现问题解决问题的能力, 同时也提高了团队合作的意识, 对以后的工作和生活将起来很大的作用,对于所做任务网络爬虫的认识也有了很大的提高,已经做到了不再纠结于如何去实现它, 而是在思考如何能够对其在
15、有基本功能的 基础上进行改进。致谢在刘老师的耐心指导下, 经过长三个月的漫长实践, 我顺利的完成了这次毕业设计任务。 刘老师倡导我们的独立思考, 不懂的问题自己亲自动手查资料, 实在是解决不了的问他会细心耐心的给我们讲解。 刘老师在这段时间给予了我很大的帮助, 使我得到很大的提高, 这些对于我以后的工作和学习都是一种巨大的帮助, 感谢他耐心的辅导。 在本次毕业设计中, 我从对任务书上的要求完全陌生到最后能够的完成本次毕业设计,让我体会到不懂不会并不可怕,通过自我学习,我们已经能够解决一些我们现在不会的问题。 这次毕业设计对我的自学能力也是一个验证, 大学四年, 最大的收获就是老师培养了我们自我
16、的学习的能力, 在此 对老师们表示感谢。同样,FTP搜索引擎由多个同学协同完成,没有这个团队的协作,最终也不 能完成本次设计,在这里也对在本次设计中给与我帮助和鼓励的同学表示感谢。参考文献1马瑞新编著 .NET2.0实训教程大连理工大学出版社2006年12月第一版2吴晨、王春霞编著ASP.NET 2.0数据库项目案例导航清华大学出版社2007 年 10 月第一版3李玉林、王岩编著ASP.NET 2.0 网络编程从入门到精通清华大学出版社2006 年 9 月第一版4李严,于亚芳,王国辉等.AS啜据库开发实例解析.北京:机械工业出版社, 20045李俊民,高春燕等.Access数据库开发实例解析.北京:机械工业出版社,20066陈冠军 .精通 ASP.NET 2.0典型模块设计与实现. 北京:人民邮电出版社, 20067顼宇峰,马军.ASP网络编程从入门到精通.北京:清华大学出版社,20068孟宪会,张慧妍.ASENET2.0应用开发技术.北京:人民邮电出版社,20069梁建全,宋修舵,孙强 等.专家门诊一ASPNET开发答疑200问.北京:人民邮电出版社, 200410王国辉,牛强,李南南等.ASP工程应用与项目实践.北京:机械工业出版社,200511郝刚主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《计算机文化基础 》课件-第7章
- 保洁保绿员例行培训课件
- 《软体工程课程联盟》课件
- 养老院老人入住体检制度
- 养老院老人安全出行制度
- 救助管理站与医疗机构服务协议书(2篇)
- 2024年生猪养殖场租赁合同下载
- 《团队沟通的重要性》课件
- 《疫苗的作用》课件
- 2024年度停薪留职人员福利待遇协议书3篇
- GB/T 29309-2012电工电子产品加速应力试验规程高加速寿命试验导则
- GB 29216-2012食品安全国家标准食品添加剂丙二醇
- 齐鲁工业大学信息管理学成考复习资料
- 公务员面试-自我认知与职位匹配课件
- 中频电治疗仪操作培训课件
- 柔弱的人课文课件
- 动物寄生虫病学课件
- 电梯曳引系统设计-毕业设计
- 三度房室传导阻滞护理查房课件
- 讲课比赛精品PPT-全概率公式贝叶斯公式-概率论与数理统计
- 药理学39人工合成抗菌药课件
评论
0/150
提交评论