下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.租房信息专业搜索引擎项目计划书Group Name: alpacaGroup Member: 骆雄武 陈长城 杨治国 陆腾飞一、 项目开发背景衣食住行一直是社会人赖以生存和生活的几大要素。随着当今社会快速的现代化和城市化,衣、食、行等方面的问题已经变得十分的容易和便捷,但是,住的问题却犹如一座大山,压在我们的肩头,让我们感觉越来越沉重。在一个现代化的城市中,除去原住民,除去富裕得足以买得起一座房子的和能够幸运的得到公司或者单位分房的人,其余的相当大的一部分人基本上要靠租房来解决住的问题。但是,实际中关于住房出租的信息,稀少而且混乱,对于一个急切想要租到一套适合自己需求的住房的人来说,这显然是
2、十分困难和不便的。有租房需求的主要是这样一些群体:刚刚开始工作的尚无多少积蓄的工薪阶层;已工作多年但是仍无力购买任何形式住房的低收入阶层;准备考研或其它各种考试的部分大学生群体;相当一部分的研究生群体。这些人占据了城市生活的相当重要的一角。另一方面,随着信息技术的飞速发展,人们早已习惯于在网上找寻自己需要的信息,尤其是通过搜索引擎来从海量的信息中提取自己关注的部分。结合上面两部分因素,我们便自然的产生了开发这样一个租房信息的专业搜索引擎的想法,主要是为了服务于相当一部分的有租房需求的人群。二、 项目需求分析1. 系统目标本系统的目标就是:为所有需要获取租房信息的人,提供最全面的信息,最便捷的方
3、式,使得网络搜索引擎真正成为最值得信赖的信息来源。这里的租房信息可以包括网络上现有的所有比较可靠的网站和论坛上发布的信息,也包括和本搜索引擎具有合作关系的房产中介所提供的信息。这些信息原本散布于各个网站的边角或者张贴于大街小巷的隐蔽位置,本系统正是需要有效的整合这些渠道的各种信息,最大可能的提供最有价值的租房信息。本系统的提出主要针对传统租房信息获取渠道的不便捷性,即 :需要耗费大量的精力和物力来获取信息,以及现有网络租房信息获取渠道的不完备性,即:信息的非有效性整合和信息的分布不一致性。同时,本系统又吸收先有信息渠道的长处,做以扩展。2. 系统功能1) 信息的抓取从我们关注的可能会发布租房信
4、息的网站和论坛抓取它们的网页,并以一定格式提取抓下来的网页中的有效信息。2) 信息的处理和存放对于提取来的文本信息,进行切分分词、添加标签、词频统计,并据此建立全文索引。3) 信息的检索接收用户输入的搜索条件,对其进行分析处理,然后在索引中进行查询匹配,从本地数据库中提取所有符合条件的信息。4) 返回结果给用户将提取的信息排序后,以结果页面的形式呈现给用户。3. 系统结构模块系统总体框架如下图所示:图14. 系统用例图图25. 系统性能要求1) 响应时间系统的响应速度应该在用户可接受的范围之内,至少与现有各种搜索引擎相当。这点要求我们必须建立结构合理的索引以及设计高效准确的查询、搜索算法。2)
5、 结果的准确性和合理性对于用户输入的搜索条件,返回的结果应该尽可能的和他期望的保持一致,并且越接近的余越应先被用户看到。这涉及到网页信息提取、索引建立、条件匹配、结果排序等问题。3) 时效性用户希望看到的是越新的信息越好,过时的租房信息对于用户来说没有价值或者只有很小的参考价值。这要求我们尽可能频繁的对网站进行抓取,然后分析,另一方面,在将结果呈现给用户的时候,排序也要考虑到时间因素,即越新的信息要越排在前面。4) 灵活性系统要有良好的接口,便于后面的扩充,以适应信息源的增加或者减少;要留有服务器接口,以实现后面服务器功能的需要;要具有跨平台功能。5) 其它要求用户界面友好,运行稳定。三、 项
6、目开发计划1. 开发规模计划由于本项目是作为课程作业来做的,受到时间和人力等方面的约束,我们在实际开发中只能减小问题的规模,开发一个demo程序的原型系统。初步计划是,抓取网页只在北大未名和水木清华两大bbs的相关版面进行。在此基础上进行网页信息的提取,分词,建立索引,然后实现对输入关键词的解析,匹配查询,结果排序,返回到页面显示等工作,从而完成概念上的实现,给出初步的系统原型。2. 初步开发计划1) 界面类似于baidu和google的界面,用户可以输入搜索条件,点击搜索按钮后,下面排列出符合条件的结果。稍微不同的是,由于租房信息跟地域(城市、地区)紧密相关,所以在用户输入搜索条件前,要先让
7、用户选定一个地区,然后再进行搜索。这里我们仅考虑北京市城区。2) 后台初步考虑分为以下几个模块:A. 网页抓取模块:对北大未名和水木清华两大bbs相关版面,利用crawler进行抓取。B. 网页分析模块:提取网页中有用的信息,保存为文本格式。C. 网页分段模块:采用合适的分段技术,将每个文本分成多段。D. 索引建立模块:对分好的段进行分词、标注、词频统计等工作,建立全文索引。E. 查询匹配:将用户输入的关键词,采用合适的查找算法与索引进行逐一匹配,将符合的内容提取出来,返回到界面。F. 排序:考虑相似度和时间等因素,将结果越接近,时间越新的内容排到前面。3. 开发进度计划项目开发周期40天,具体安排如下:时间工作11月11日-11月16日各人搜集idea11月16日-11月17日小组讨论,确定idea11月18日-11月20日完成项目计划书11月21日-11月27日小组成员分工,并根据分工自己去学习、查阅相关的资料,了解实现机制11月28日-11月30日讨论,给出系统总体框架和模块划分,设计各模块
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度年福建省高校教师资格证之高等教育法规测试卷(含答案)
- 咨询工程师(投资)《宏观经济政策与发展规划》考前冲刺必会试题及答案
- 我在国旗下讲话演讲稿
- 致施工单位的感谢信范文
- 研究生考试考研教育学专业基础(311)试卷及答案指导(2024年)
- 幼儿园评估自查报告15篇
- 2024年度设备保修服务协议细则
- 2024年商业买卖合作协议精简
- 2024年合作伙伴保密协议
- 2024年监理协议延期实施细则协议
- 护士工作站系统发生故障时的应急预案与流程
- 【教师必备】部编版四上语文上册第第五单元【集体备课】
- 附件3-“三高共管六病同防”医防融合慢性病管理工作台账(参考模板)
- 石化项目设备及管道防腐保温施工方案
- Unit 1 Food comments 课件-高中英语外研版(2019)必修第二册
- 《安徒生童话》读书分享名著导读ppt
- 苏教版(SJ)2022~2023学年四年级数学(上册)期中质量检测试卷
- 提高六年级数学教学成绩的建议
- 安全隐患排查记录表
- 运动员个人信息表格
- 养老护理员中级培训精编ppt
评论
0/150
提交评论