好医生搜索引擎_第1页
好医生搜索引擎_第2页
好医生搜索引擎_第3页
好医生搜索引擎_第4页
好医生搜索引擎_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、好医生搜索引擎好医生搜索引擎需求说明书需求说明书技术部版本日期提交人版本描述修改历史1.02008-10-22葛帅初建初建目录目录产品概述核心技术功能简介环境要求及性能指标和百度的差别和 GOOGLE 的差别硬件要求一、一、产品概述产品概述好医生垂直搜索系统解决方案可用于网上行业信息集成。最新版本的好医生垂直搜索技术包括几十项实用改进,它综合了多家搜索引擎技术公司的研发经验,以及数十名专业技术人员的研发成果。由负责网站抓取的服务器端程序和前台搜索页面构成。其主要特点是:结构清晰,安装简单,可提供用户顶级的搜索体验。产品基础模块如下: 1.全文检索服务2.网页索引服务3.自动摘要4.简体中文分词

2、5.中文同义词库6.网页内容提取7.医学词库及症状至疾病逻辑关系库8.拼音搜索9.中英文对应词库 10.从正文提取症状 11.从症状自动关联相关疾病 12.提供各模块及搜索结果接口注:各模块要求可以便捷的维护更新。系统总体结构如下:二、二、核心技术核心技术好医生垂直搜索系统集成自然语言处理领域与医学数据库检索技术完美结合。中文分词中文分词(CnTokenizer)可以作为独立的一个模块调用,作为二元分词方法的替代。分词准确率 98%以上。同时支持分词和词性标注。提供参数调节分词准确性和切分速度。100%采用 c+实现的分词组件,无内存泄漏问题。可长期不间断运行。采用多种分词方法结合,包括基于概

3、率的 n 元切分方法,隐马尔科夫模型,未登录词识别算法,歧义识别算法和基于规则的方法等。采用多个大规模语料库训练概率词库。针对多线程使用优化,占用内存少。SpiderWebDatabaseIndex DBSearcher文本分类文本分类可以用中文,英文两种语言来进行文档分类。中文文本分类内部集成好医生中文分词模块。可以采用 SVM 分类方法。采用概率估值算法,特征加权算法。可选择多个特征评估函数,特征选择方式可以采用全局选取和按类别单独选取。提供参数调节分类准确性和速度。100%采用 c+实现的分类组件,无内存泄漏问题。可长期不间断运行。提供分类结果评测,让你随时了解分类的准确性。采用手工整理

4、大规模语料库训练分类模型。封闭测试准确率在 95%以上。针对多线程使用优化,占用内存少。关键词提取关键词提取可以用中文,英文两种语言提取关键词。可以提取任意数量的关键词。可以针对行业优化提取关键词。可以根据一个给定词提取出相关关键词。可以从正文提取出,检查,药品,疾病,医院,手术,症状,医院,专家,并设定权重值。三、功能简介三、功能简介中文分词中文分词中文分词可以全面提升返回结果的准确率。好医生做为专业的医学搜索引擎,专注基础研发,不断打破查准率的极限。搜索“美的”效果:提供 webservice,适应多种平台应用的需要。具有智能化的学习新词功能,可以往词表添加新词。可以自动从大规模文档中提取

5、出新词。准确度可达 50%以上。中英文同义词查找中英文同义词查找可以同时查找中文和英文的多项同义词:搜索引擎会根据同义词库查找出更多的相关结果。按内容格式分别进行索引按内容格式分别进行索引网页,资讯,课件,文献, 问答, 论坛, 商品。关键字飘红显示及自动摘要关键字飘红显示及自动摘要自动摘要边界显示准确:网页内容提取网页内容提取用户只需指定专题网页的 URL,程序可以自动找出网页模版。提取出页面内的标题或者日期,内容等,并将提取的正文自动分类并存入 mysql 数据库,要求提取正确率 95%以上。分类查找分类查找文档可以自动分类。用户可以按类别查询文档。按药品,专家,疾病,症状,检查,机构,会

6、议, 营养,相关研究,分类统计分类统计可以按照分组统计统计返回搜索结果,并提供确切的匹配数量:二次检索二次检索支持在结果中再次查找,对查询结果进一步筛选。关键词聚类关键词聚类医药行业信息中的一些热门关键词:相关搜索相关搜索当用户搜索安利时,会出现像:雅芳 直销 这样的非字面扩展的相关搜索词。当用户搜索 奔驰 也会出现 奥迪 欧宝 宝马 这样的同类品牌。这些相关搜索词都是机器自动生成而非人工干预的结果。相关文章相关文章对一篇文献自动链接相关文章接口并与 CMS 集成。搜索日志搜索日志可以统计搜索词和查询 IP 地址,日期 等信息的搜索日志。并且可以对搜索日志按地区,行业,时间等深入分析用户行为。

7、复杂条件查找复杂条件查找可以实现数据库式的多条件查找。比如按照日期、价格等。可以设置是否在标题前显示缩图。自定义监测网站自定义监测网站可以指定一个或者多个网站作为搜索的信息来源。同时可以定义网站的目录 URL 做为文档分类的依据。可以定义遍历网站的层次。监测网站监测网站通过服务器端程序监测指定网站,自动对网站生成的静态页面进行 SEO 优化。程序可以自动监测指定网站,采用每天或者每小时轮询方式发现新网页。可以通过配置文件指定扫描网站的方式。当然也可以通过命令行建立文档索引。建立索引方式可以是全量或增量。内部采用智能适应算法发现新增文档速度快。一般的行业性网站每天的增量文档处理只需要 100 多

8、秒即可完成。自定义排序方式自定义排序方式可按时间或者相关度返回搜索结果,并显示相关度。按时间,按相关度排序高级查询功能高级查询功能支持包括按关键字查询和词组查询,组合查询,以及查询修饰符等。举例如下:任意字符匹配Ro?e前缀匹配rom*模糊匹配rome rome0.8把搜索范围限定在标题中title:木工把搜索范围限定在内容中body:机械逻辑查询 电脑 & !IBM增加关键词的重要度相机4 手机其配置情况可以在 TXT 文件中定义:索引库管理和分析工具索引库管理和分析工具拥有完整的索引库管理工具。可以通过 web 登陆后台删除查询注释某条搜索结果不在前台展现。三、三、 环境要求及性能指标环境要求及性能指标支持 Linux 及 Unix 操作系统,采用 C/C+语言开发。各种版本可在如下环境稳定运行:VersionOperating SystemSDK/.NetJavaLinux Sun Java 2 SDK 1.4Sun Java 2 SDK 1.5网站增量数据的索引一般可以在 3 分钟之内执行完毕。10G 左右的纯文本信息在数小时内即可索引完毕。四、四、 和百度的差别和百度的差别百度不支持同义词查找,而好医生支持。百度不支持全角字符大小写的原样保持,而好医生支持。百度不支持多国语言精确查找。五、和五、和 Google 的差别的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论