全网搜索系统网络版设计方案_第1页
全网搜索系统网络版设计方案_第2页
全网搜索系统网络版设计方案_第3页
全网搜索系统网络版设计方案_第4页
全网搜索系统网络版设计方案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目背 术语解 设计目 系统特 系统结 网络结 管理终 搜索引擎服 数据库设 报文格 通信方 通信命 相关数据 HTTP管理终 HTML分 关键字匹 2年多,获得用户认可。同时用户也反映系统也存在不少问题。主要面向、安全、等行业和部门,为他们提供互联网信息检查服务。,。和通用搜索引擎不同全网搜索系统属于聚焦爬虫,主要以用户提供的关键字为搜索目标,在用户提供的搜索范围内进行搜索全网搜索系统不关心与用户指定条件无关的页,。搜索资源是搜索的目标,通常是一个URL和相关参数URL内容。因为的特殊性,针对的搜索,需要和普通不同的URL匹配规则。搜索引擎 对特定的进行深度搜索,在这个内搜索关键字。IPHTTP服务。可疑对象发现是在特定的查找相关作者文章,进而对该用户的所有活动进行全面的了搜索引擎服务器上处于状态的服务进程。它接收用户令请求,和客户机交互。机构发搜索任务分解成搜索任务,但交给下级机构执行。全网搜索系统是一个面向网络的关键信息实时检索系统,重点检索使用HTTP协议发太现实的。经过估算,设定检索的准确率为75%左右。检索的时间,则与初始化的检件容易的事。全网搜索系统在设计上充分考虑了互联网的特点,力求做到稳定、准确、运行稳搜索效率高、搜索结果准,百分准确地查找到特定的信息,是不太现实的,经过对实际的情况的统计分析认为搜75%左右。,自动化运操作简支持多级机构管。全网搜索系统提供一套上下级机构间交换数据的机制,支持多级机构管理机。网络结局域局域 结局域网内的网络结构用 客户 搜索引擎服务 数据库服务 搜索引 服搜索引擎服务器工作方,服务程序做为NT服务运行,并打开一个TCP端口。通过这个端口和管理终端通信当管理终端发出一个启动搜索任务令时服务启动一个搜索引擎工作,,达到最大限制时服务管理终端发出的启动任务命令。这时管理终端只能选择另外,工作进程会定时向服务进程报告工作情况服务进程再向管理终端发送相关搜管理终搜索资源。搜索资源可以是一个或多个HTTP协议的URL务。每个搜索任务只包含一个搜索资源,可以在一个服务器上运行。一个搜索任务可以包含多个网络资源,通常一 被看做一个网络资源 划分的搜资 划分的搜资搜索任 划分的搜资搜索任搜索资IPURL。可以使用主机探测功能,把这个IP范围内的搜索出来,加入主机列表,做为搜索资源。ip-ipipipipportipHTTP端口。搜索资搜索资搜索规任报启动、停止任务搜索引擎服搜索引擎服务提供以下功能服务进程做为NT服务进程打开一个TCPTCP当正在运行的任务在服务器的任务限制之下时,服务器从任务等待队列中按照FIFO的顺序提取任务执行。4.如果是启动日程中的任务,该任务会入到任务等待队列的最前面等待。 服务 服主机探创建主机服务 服主机探创建主机探测进内 文创建工作进服务器设任务等待队客户端通信线 线客户端登NT服务框。搜索引擎工作进需要启动的任务ID,搜索引擎服务通过命令参数传递给搜索引擎工作进程。在Windows上,搜索引擎工作进程和搜索引擎服务之间通过内存文件通信。工作进程从服务进程获取需要执行的任务信息。工作进程首先搜索任务数线线程线搜索任搜分析线分析线程可疑对象发HTML分特定信搜索工作进网络普 的Url队精确搜urlurl开始。url规则用来判断一个发现的url是否在搜索范围内。搜索任务以搜索资源为单位分解成搜索任务,搜索任url规则。如果该页面还没达到url规则中定义的最大搜索深度,搜索引擎还继续搜索页面中发现的新。对于每一个新,搜索引擎用url规则判断是否在搜索范围内。这个行的资源,该被保存到数据库中由其他工作进程执行。二次搜索搜索引擎工作进程的搜索结果,通常都是海量,人无法一一浏览。系统提供一个搜索供索。如果直接通过浏览器二次搜索,用户需要登录后才能进入搜索查询界面。据库中选取、搜索范围(IP范围或地域范围)等搜索条件,搜索引擎根据搜索结果的重搜索任务下发和搜索结果上如果机构需要把搜索任务下发给下级机构执行,系统提供一对工具,它们分别在网络和下级网络上运行,用于上下级之间的。在网络运行的程序称为任务和任务接受程序之间建立网络连接,即机构运行任务下发程序,下级结构运行任务接受管理互联管理互联

分局管理

分局管理任务下发程序把下发的任务和相关任务发送给任务接受程序任务接受程序在本地数PowerDesigner文档。全网搜索系统命令通讯协议是在管理终端和服务进程之间工作进程和服务进程之址址号码44444444IPv4IPv4地址。如果收到不是发给自己的报文,根据情况转发或丢弃或关报文令标识,32位无符号整数CRC包体的CRC,用来判断包体是否完整。接收方如果遇到不完整的报文,就丢弃,等0位,标识是否结果包,0为请求报文,11WindowsUnicode第2位,扩展结果包,标准结果含信4-7XMLgzip0。值12456789通用数据结通信中的字符串采用gbkstruct{size_t //szcharchar_width; //字符的宽度,sizeof(char)=1,sizeof(wchar_t)=2char Wiws_SafeStr[n]表示:struct{size_tcharchar_width;charsz[n];通用struct{inr RetCode表示操作是否成功。0表示成功,正数表示没有错误,但命令没有执行,负数表示-1CRC-2重复的数据包(序列号重复管理终端登命令值struct{Wiws_SafeStrstrUserName[n]; Wiws_SafeStrstrPassword[n]; DWORD 0-11用户名或不存在或不正-12用户没有请求的所限管理终端注命令值0启动任命令值struct{DWORD bytebRunMode; //0继续运行,1:清除中间url列表,清除任务的完byte time_t 0成功把任务添加到任务队列1任务已经启动或已经在服务器队列-13任务不存-14任务已经在其他服务器上启-15任务已经完成,除非指定重新运行,否则已经完成的任务不会再次运行停止任命令值struct{DWORD 0-11-16更新日程列命令值60报告任务进命令值XML<?xmlversion="1.0"0任务完命令值8struct{DWORD 0任务停命令值9struct{DWORD 0任务下命令值struct{WORD char 任务数据先转换为XMLgzip压缩后传送。MAKEWORD(3,00-1数据有误,请求重新传输(CRC校验错误)机构向下级机构下发一个搜索任务。上报任务结命令值struct{WORD char 发送端从数据库中提取任务结果数据,转换为XMLgzipMAKEWORD(3,00-1数据有误,请求重新传输(CRC校验错误下级机构向报告一个搜索任务的搜索结果收到数据后把数据添加到数据库中主机探命令值struct{ 0-17管理终端和搜索引擎服务器之间的连1任务下发工具和任务结果上报工具之间的连相关延续单机版的方式,数据库继续采用SQLSERVER因为数据库采用SQLSERVER,且运行平台是windows,考虑采用OLEDB数据库。HTTP考虑利用curl这个跨平台的库做HTTP管理终端。这个库完整的实现了HTTP、FTP、SSL、等复杂协议,比原来系统自己实现的HTTP协议要好,对于今后可能扩充功能HTML考虑用libxml2做HTML分析。libxml2是一个比较成开源,它不仅能分析xml,html。libxml2utf-8编码,可以支持多种语言,仅仅需要用v来做商业搜索引擎结果页面中的HTML能准确的寻找出搜索引擎的搜索结果。通过配置文件指定哪些是搜索结果,哪些是导航URL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论