中医药信息搜索引擎的研究与初探_第1页
中医药信息搜索引擎的研究与初探_第2页
中医药信息搜索引擎的研究与初探_第3页
中医药信息搜索引擎的研究与初探_第4页
中医药信息搜索引擎的研究与初探_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中医药信息搜索引擎的研究与初探内容摘要:基于药科研教学中对大数据的需求,本文针对怎样在互联网中快速获得大量相关信息在技术层面进行了研究和讨论。提出了以垂直爬虫为基础的搜索系统的体系构造,在理论层面研究了爬虫系统依靠的技术,包含语义分析、爬行算法以及正则表达。奠定了整个系统的理论以及架构基础,为下一步的详细实现进行了有价值的先期铺垫。本文关键词语:爬虫;语义分析;理论研究;正则表达;中医药中医药是华夏先祖智慧的结晶,他们历经千年,不断,延绵至今;如今,随着大数据时代的脚步不断邻近,传统中医中药信息的承载和传播,也逐步从纸质古籍的代代相传,演变为互联网的分布式存储以及几何量级的搜索与复制。为了应对这种发展的趋势,怎样能快速,精确,完好的从互联网中收集所需要的中医药数据,进而对其发掘分析,日益成为了广阔科研人员所面临的一大问题。因而,使用技术手段,使信息收集、数据发掘的经过自动而高效,不仅能有效地减轻图书馆员的反复工作量,也能使信息收集数据发掘的结果愈加客观。在这种情况下,爬虫技术开始走入了我们的视线。1爬虫技术概述所谓网络爬虫,是一个从Web上下载网页、而且自动从网页中提取所需内容的程序。一般我们将爬虫划分为如下三个类型:1.1批量型爬虫批量型爬虫有比较明确的抓取范围和目的,当爬虫到达这个设定的目的后,即停止抓取经过。常见的目的包含抓取网页的数量或者消耗的时间等。1.2增量型爬虫增量型爬虫特点是定期更新,由于在线网页处于不断变化中,而增量型爬虫需要及时反映这种变化,因此必需连续不断的抓取,既要抓取新网页,又要更新已有网页。通用的商业搜索引擎爬虫基本都属此类。1.3垂直型爬虫垂直型爬虫关注特定主题内容或者行业的网页。垂直型爬虫一个最大的特点就是:怎样辨别网页内容能否属于指定主题。它需要在抓取阶段就能够动态辨别某个网址能否与主题相关,并尽量忽略无关页面。2中医药信息搜索系统中的爬虫技术显而易见,中医中药,作为一个特定行业,只要垂直爬虫的定义最为符合其信息收集的特性。因而,怎样设计并构建一个适用于中医中药的,以垂直搜索为目的的网络爬虫系统,逐步成为值得我们深切进入研究的课题。2.1垂直爬虫的技术原理垂直搜索里,目的网站往往在某一领域具有其专业性,其整体网站的构造相当规范,而且垂直搜索只需要其中一部分具有垂直性的资源,所以垂直爬虫相比通用爬虫愈加精到准确。通常把爬虫爬取资源分成三个步骤:url抓取、内容抓取、数据标准化及索引,以下为一般垂直爬虫的工作流程:①首先确定需要抓取的目的网站,录入站源表sitelist,然后爬虫会读取对应站点的正则解析规则。②根据事先制订的正则规则,挑选出资源url存入urllist表。③爬虫从urllist表读出url,存入一个同步的队列中〔同时将url做md5处理,用于去重〕,多线程下的每个爬虫程序将从此队列读取url,然后爬取每个资源页,并将提取的内容存入原始数据表。④数据标准化及索引模块从原始数据表提取数据,进行进一步的规整、聚合,最终存入最终内容表中。更新策略:①根据每个站点设定的url失效时间,定期的从数据库抽取需要更新的资源url,参加步骤3的队列中,进行资源爬取。②爬取的资源更新到数据库中。2.2爬虫系统的先决技术和算法由上一节可知,要实现中医药数据搜索系统,一个基于垂直爬虫的数据收集效劳系统是关键,而下面几点无疑是要实现这个爬虫系统的先决技术。2.2.1中医药语义分析所谓语义分析,就是对web页面所包括的部分或者全部文字内容的含义进行分析,一般包含三个步骤:①分词。提取一个完好的中文句子或者段落,根据一定的算法对其进行分词;在这里我们能够自定义算法,或者调用现有的开源分词组件,如,Lucene的分词组件、ktdictseg等;分词后将所有实词〔除去连接词、语气词、介词等虚词〕存入数组。②构建中医药语料库。语料库通常由书面语或白话的电子语言材料构成。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。因而,根据采集的情报监测网站以及日常中医药情报效劳中牵涉的内容,能够收录中医药、传统医学、补充替代医学领域的专用词汇,规模能够维持在1000个词汇左右。③将分出的词汇和语料库匹配。匹配率若能高于基于某种算法某一阀值,则断定为具有基于语料库的相关性。2.2.2爬行算法经典的爬取策略能够分为深度优先、广度优先等几种。深度优先策略的目的是要到达被搜索构造的叶结点〔无超链接页面〕。深度优先搜索沿着页面上的超链走到不能再深切进入为止,然后返回到这个页面,再继续选择该页面中的其他链接。当不再有其他链接可选择时,抓取结束。广度优先策略是指在抓取经过中,在完成当下条理的搜索后,才进行下一条理的搜索。该算法的设计和实现相对简单。由于深度优先在许多情况下会导致爬虫的陷入〔traPped〕问题,当前在爬虫开发中常见的是广度优先算法。在本系统的研究中,基于中医药的主题性,我们能够使用一种改良的基于语义分析的广度优先算法来爬取页面,详细思想如下:首先,在爬取之前,需要对即将入列的url链接名称进行分析,只要经过初步挑选的、符合中医药语义的url才会被参加待爬取队列〔urllist〕中。其次,在爬虫保存页面之前,对内容进行分词分析,若分词符合中医药语义达某一阀值,则以为该页面内容符合中医药语义,断定为有效并保存。如此可有效降低无关网页的数量。2.2.3基于正则表达式的url分析在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描绘叙述这些规则的工具。在本文的研究中,我们需要编写正则来匹配在页面中提取的url,来判定能否为系统所需的资源url,以便做下一步的分析。3体系构造的设计及程序的逻辑分析综合以上章节,在体系构造方面,我们能够将整个中医药数据搜索系统划分为两个部分,一是对外展现以及提供搜索效劳的客户系统。二是对内提供工作管理以及后台数据收集的数据效劳系统。3.1中医药数据收集效劳系统对于效劳系统,其实质,就是本文第2章所述的,一种基于垂直爬虫的信息收集系统。我们将它定位为整个中医药信息收集系统的核心,他承载着整个系统最核心的功能,例如基于广度优先算法的爬虫程序主体、基于正则的中医药行业资源url的挑选、中医药行业语义分析、以及对资源页面的收集、整理、存储和索引。系统以CS形式进行构建,也就是说,任何需要对本系统进行管理的计算机必需安装软件包后能力具有管理、收集、更新的权限,这就杜绝了将管理端暴露在互联网中的安全风险,从另一方面来说,固然CS形式牺牲了一部分在管理上的便捷性,但是以此换来了系统管理的安全性和隐秘性。其系统架构见图1。图1系统模块图由图1可知,数据发掘模块,是中医药信息收集效劳系统核心模块,在系统运作时,对于该模块,我们能够做如下设定:第一步,从种子库〔sitelist〕中选取一站点读取,通过爬虫做三件事:①爬取页面中的所有超链接,根据正则规则挑选出本站资源页面的超链接存入待爬取列表〔urllist〕,并记录其父页面以及深度;②保存页面数据以及url至数据库的原始数据表中〔DataList〕;③非本站链接根据其语义分析结果,但凡符合中医中药类语义的链接存入待爬取站点列表〔sitelist〕。第二步,爬取urllist列表中的每一个url,反复第一步。第三步,根据事先设定,到达某一深度后停止爬取urllist。第四步,在sitelist中选取下一站点,反复第一到第三步。第五步,根据事先设定,在知足某一条件后停止爬行。其程序流程图见图2。图2数据收集模块程序流程图由图2可知,在整个数据收集模块中,爬虫处理程序,又是其中的一个核心功能,在系统运作时,其不断地反复以上第一步中所有的步骤,其程序流程图见图3。图3爬虫运行时程序流程图在整个数据收集完成工作后,我们需要调用数据标准化及索引模块对在数据库中存放页面内容的原始数据表〔DataList〕进行整理、归档以及索引,生成最终的内容表〔FinalList〕,以供客户系统调用。3.2中医药数据收集客户系统对于客户系统,不同于管理系统,其便捷性和通用性是我们首要考虑的因素,因而我们能够采取BS形式构建一个web效劳系统,进而使得用户能够在任何地点通过任何设备访问中医药数据收集的页面。系统能够.Net为基本架构,以SQL-SERVER为页面收集的存储数据库,在客户发起访问时,返回类似百度的搜索界面,客户于搜索框内发起搜索,系统将搜索恳求提交回效劳端,并在内容表〔FinalList〕搜索,最后将结果以列表方式返回用户浏览器界面。这就完成了一次用户恳求。4结论在当今信息化高速发展的今天,我们进行了在互联网平台中进行中医药信息数据发掘研究

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论