垂直搜索引擎在金融信息技术分析中的应用_第1页
垂直搜索引擎在金融信息技术分析中的应用_第2页
垂直搜索引擎在金融信息技术分析中的应用_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、垂直搜索引擎在金融信息技术分析中的应用垂直搜索引擎在金融信息技术分析中的应用随着互联网的高速开展,造就了信息的空前繁荣。面对浩如烟海的信息时,企业和投资者如何有效、准确地获取他们所需的信息变得越来越迫切,因为随时随处都蕴藏着稍纵即逝的商机。以Ggle、百度为代表的传统搜索形式在大幅进步用户获取信息的效率同时,也日益显露出自身的瓶颈:搜索引擎的商业开展趋势,比方付费广告等无效信息越来越多,产生搜索噪音,金融领域的专业人士呼吁专业性的搜索引擎,我们通常所说的垂直搜索引擎,便是利用在专业领域的索引方式,下面以金融领域为例说明构建金融垂直搜索引擎所采用的关键技术以及所用到的资源。1垂直搜索引擎概述垂直

2、搜索引擎是指在某一个专业领域例如金融、能源等,通过搜集到的网页信息量,再进展一次整合,最终为专业人士提供的有一定价值的信息。它可以帮助人们在更为缩小的范围获取更具有针对性的信息。如图一所示。2金融垂直搜索的关键技术2.1金融爬虫技术。金融爬虫因为和某一领域亲密相关,所以需要根据一定的网页分析算法过滤与主题无关的链接,保存有用的链接并将其放人等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到到达系统的某一条件时停顿,另外,所有被爬虫抓取的网页将会被系统存贮,进展一定的分析、过滤,并建立索引,以便之后的查询和检索;对于专业网络爬虫来说,这一

3、过程所得到的分析结果还可能对以后的抓取过程给出反应和指导,如图2所示为普通爬虫和专业爬虫的比拟。2.2构造化信息抽取技术。构造化信息抽取技术是指将网页中的非构造化数据按照一定的需求抽取成构造化数据后再存入数据库。构造化信息抽取技术是垂直搜索引擎和通用搜索引擎最大的差异,也是评判垂直搜索引擎质量的重要技术指标。2.3自然语言智能语义处理技术。自然语言智能语义处理技术指的是使计算机具有理解人类语言和自我学习语言的才能,并根据相应的语言要求完成详细的操作。我们使用自然语言智能语义技术来进步相关度的断定准确率,相关度模块的准确程度直接决定金融爬虫的收割效果。在这一技术中,结合中文分词和语义理本文由论文

4、联盟搜集整理解可以很好地保证系统搜集金融信息的准确率,并且可以进步金融爬虫的效率。通过金融垂直领域词典来解析相应的用户自然语言输入和金融数据内容,根据解析的语义建立主题垂直索引,涉及实体识别、语义网络、语义索引模块、垂直查询等模块。1实体识别。我们以识别算法为根底,开发出金融命名的自动识别算法和工具。金融行业命名实体包括所有的金融专业术语、上市公司名称、金融机构名称、著名业内人士等等。2语义网络。假如不理解文本中的语义就无法判断它会带来的影响,例如假如不理解市盈率这个词所代表的意义就不能对描绘市盈率变化的新闻进展处理,因此这里需要一个针对金融文本的小型语义网络,每个节点是一个与股市相关的概念,

5、例如利率、汇率、股价等。该语义网络的建立需要融入专家知识,并具有可扩展性,可以根据需要增加。3语义索引模块。在基于关键词的索引体系上,建立基于语义的索引体系,以便进展语义相关的计算和查询。4垂直查询模块。在垂直查询模块中,根据恳求者的日常搜索关键词从中找到规律性,利用识别方法建立自己专业词汇的数据库。3金融垂直搜索中所用到的资源对于金融垂直搜索系统,交融了网络金融、汉语分词、语义处理和领域知识学习等多项专业技术,因此系统在构建中需要相应的资源作保证,目前实现金融垂直搜索系统所用到的资源有以下一些。3.1词汇:1上市公司的名称、简称和别称;2投资机构的名称、简称;3股市相关名称,比方大盘、后市、

6、大小非、散户、指数等;对于这一类词汇的获取,可以从大量eb股市文本中通过自动词汇获取与手工相结合的方式,并手工标注其感情色彩。3.2表达形式库。我们感兴趣的信息是某个主体评论家、记者、证券研究机构等对某个客体股票、行业板块、大盘、宏观经济形势、后市等的态度观望、看多、看空等、描绘利好、利空等和操作建仓、清仓、半仓、抛售等。因此需要构建一个针对股市新闻的文本表达形式模版库,帮助我们对金融垂直领新闻的信息进展构造化提取,以便支持后续的研究。表达形式可以大致分为以下几类:1态度,例如A对B机构对后市看好、有望后市有望大幅拉升;2描绘,例如A强力机构强力出击、A指出,B分析人士指出、给A带来给市场带来较大的压力;3逻辑,包括一些转折、递进、因果、双重否认等的逻辑表达方式。对于那些简单的表达,不需要统计其表达形式,可以继续使用词频方式;对于略微复杂的表达方式,需要开发自动化的工具从股市文本的语料中获取,并加以标注。4完毕语金融垂直搜索引擎的应用可以很好的满

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论