非结构化信息监管和搜索进程_第1页
非结构化信息监管和搜索进程_第2页
非结构化信息监管和搜索进程_第3页
非结构化信息监管和搜索进程_第4页
非结构化信息监管和搜索进程_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、非结构化信息监管和搜索进程1检索技术日显局促,亟待突破世界范围的 WWW正以目前每9个月增加一倍的速度飞 速发展,并还将以指数速度继续增加。而另一方面,在从 Web或数据仓库中找到你所需要的内容却并非进展迅速,虽 然检索到相关结果的速度正以兆兆字节甚至十倍于此的速 度增加。据 2004 年 5 月 NielsenNormanGroup 发布的 2004Web 可用性调查结果显示,所有用户对搜索结果满意的次数百分 比仅为42%,经验丰富的用户这一数字可以达到50%。最糟糕的搜索经历常发生在使用企业网站点搜索而不是使用巨 型搜索引擎的时候。另据ForresterResearch的统计表明,非结构化

2、信息的数量正在以每年200%的速度增长。一般员工大约要花费35%的时间寻找工作所需的非结构化信息。由此可见,搜索引擎必须采取措施使自己变得更 为聪明,同时能更准确全面的为大多数用户带来令人满意的 搜索结果。我们需要有一个工具,能同管理结构化信息一样, 有效地管理我们的非结构化信息。2 有望终结传统搜索模式的Autonomy的样板工程” Blinkx英德中文版已经推出2004年7月,位于美国旧金山的创业公司Blinkx推出了一种新型搜索工具Blinkx,该工具可以提供类似模糊搜索”或 语义搜索”的功能。也就是说,当用户提出类似搜索引擎未来发展趋势如何”这样的搜索需求时,搜索引擎能够给 出相关内容

3、的搜索列表,而不会像传统搜索工具那样只是机 械的给出包含搜索”引擎”朱来”发展”趋势”等词 汇但却远离该主题的文章。Blinkx不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联网内 容,还可以搜索本机和局域网上的内容。Blinkx同时还可以搜索不同的文本格式内容,女口 Text、Word、Excel、PPT、PDF以及各种数据库中的数据格式。有媒体把这种搜索方式称为智能搜索”这样的搜索引擎一直以来都是人们的梦想,或 许Autonomy就是下一代搜索引擎的开端也未可知。当然 Autonomy并不只局限于桌面搜索这个狭窄的领域,它不只 是代表一系列产品,也不只是一家公司的名字

4、,最主要的是 它代表着一种搜索理念和技术。一旦它成功,桌面搜索的格 局自然也会跟着发生翻天覆地的变化。如果安装了 Blinkx的客户端软件,一个小的菜单窗口就 会出现在 Word、Outlook等几乎所有文档处理窗口的右上方。 用户在这些窗口中处理文档时,系统会自动分析这个文档, 然后自动从本机或网络上抓取相关文章或链接,以供用户参 考。它还可以及时提供与文章内容相关的新闻、产品信息、 视频内容等分类信息。简单地说,用户完全可以拿一篇文章 来作为 查询关键词” Blinkx通过对这篇文章进行分析,会给出与这篇文章内容最接近的网络链接或本机文档4。这无疑给需要处理大量数据的个人和企业提供了巨大便

5、利。2005年元旦刚过Blinkx进入中国市场,其中文测试版 已经 竣工”目前已经在国内某数据中心建立了一个试验平 台,大约有30多台服务器正在运行着 Blinkx的后台系统。Autonomy公司是 Blinkx公司的股东之一,Blinkx的核心技术也来自 Autonomy,因为这种密切关系,Blinkx被认为是Autonomy的 样板工程”此前,Autonomy 一直像汽车 发动机一样隐藏在幕后。Autonomy虽然在公众中的知名度不太大,但在商业应用领域中却名声显赫,并在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户。而且, Autonomy还是一个 历史悠久”的IT公司,同时在

6、美国和英 国上市,拥有超过亿美元的现金。3 Autonomy的模式识别技术,可以帮助用户发现一些 事前不知道的相关信息目前,人类研究的信息搜索技术有四个方向:关键字搜 索,模式识别,语义分析,神经网络。除了关键词搜索比较 成熟外,其他三项技术还处于待开发状态。模式识别的代表 者就是Autonomy,语义分析和神经网络两个技术方向目前 尚无压倒性的代表者,一年半载不会有突破性的研究成果。 所以,模式识别就成了目前比较先进的信息搜索技术。采用模式识别”搜索方法,可通过判别相关识别度的高低来对数据进行检索,可以避免传统关键词检索”造成的漏检情况的发生。比如一篇文章里如果有大海”这个词,这篇文章有可能

7、和企鹅有关,但是大海”这个词用在很多不同的地方,有可能文章讲的是别的内容。但是如果一篇文章里有大海”南极”黑色”白色”不会飞”羽毛”下 蛋”石油”泄露”等这些词,这篇文章是在谈论污染和企 鹅的概率就会很高。虽然整篇文章里没有企鹅”这个词,但是很多相关度较低的词出现在一起就会带来很高的相关度, 并且缺少某个描述词对其产生的结果影响微乎其微。如果说传统的关键字”搜索方法为“ search的话, autonomy采用的 模式识别”方法则应该称为 “discover,因为 它可以让用户找到一些事前他们不知道的信。Autonomy产品中提供的 聚类”功能正是 从搜索到发现”的最佳表现。目前,Autono

8、my在国外比较成功的应用案例集中在媒体、政府机构、金融和信息产业等需要集中处理大量非结构化数据的领域。2003年3月,Autonomy进入中国市场,目 前主要集中在电信和政府市场。Autonomy追求建立符合企业内部数据管理需求的平台,可将放在不同位置的不同类型 的数据进行有效梳理。Autonomy曾经在美国安全局、美国国防部、美国航天局、英国警察署和美国陆军有过成功应用。对于网络上出现的大量的有害信息,Autonomy可以做到事前发现,从而帮助政府机构采取及时地反应。例如,政府有关部门要打击网上非法买卖违禁药物,使用 摇头丸” 兴奋剂”等关键词搜索出来的内容多数是关于药物危害、打击犯罪等方面

9、的正面文章,而出现兴奋” 购买” 单价”等关键词的文章,则与非法买卖违禁药物的相关度最高。通过这种 非关键词搜索的 模式识别”搜索,政府监控部门可以有效打 击日益猖獗的网上犯罪。所以政府机构和一些需要对信息进 行监控的机构是该系统在中国的潜在市场。4 Autonomy的技术特点和优势分析Autonomy软件设计的原则是无需用户改变已有的使用 习惯,甚至无需改变已有的用户界面,它支持所有传统的检 索和设置方式,包括关键词、逻辑语言、布尔语句等,同时 提供给用户更多、更简洁的定义方法,如对所需信息的自然 语言描述、文章概念的定义,还可以通过反馈的文章作为例 子来训练个人聚焦和频道。此外,它能够通过

10、自身软件架构 的灵活性去适应已有的系统架构,嵌入到已有的应用中去, 在用户熟悉的界面之下提供新的功能。Autonomy中最关键的部分就是它的动态推理引擎,其中信息的概念分析、内容 提取、概念模式识别、相关度计算等关键工作都是由该动态 推理引擎完成。当用户发出搜索指令后,它可以通过相关方 法从互联网、企业内部网、终端计算机等不同位置的信息源 中找到与用户要求最匹配的信息。它的技术特点主要有如下 几点:自动内容综合和精炼Autonomy能操作的信息同样包括各种结构化、半结构 化和非结构化数据,如 RDBMS的表格、LotusNotes等结构 化数据,以及 HTML页面、Word文档、电子表格、电子

11、邮 件非结构化数据等。而且它可以综合及理解丰富的多媒体内 容,包括音频、视频、图像文件等。综Autonomy能够自动综合来自200多种不同格式数据源的内容。所有综合后的文 件如有任何改动都可以在Autonomy的基本结构和数据源之间保持同步。个性化操作Autonomy的自动建档功能可以准确理解个人和企业用 户的使用习惯和兴趣爱好,并能进行追踪。根据直接档案和 隐含档案可以生成每个用户的多侧面概念型档案,它们可以 自动追随用户当前的兴趣,而无需用户多次填写任何形式的 表格。Autonomy自动的个性化解决方案可以将用户与有共 同兴趣的档案或有间接关联的档案匹配起来。信息自动分类、聚类定义、索引A

12、utonomy独有的自动信息聚类避免了手工分类的麻烦, 可以将相关网站信息进行全自动分类,能实时、客观地反映 每个科学门类的信息变化,这与其他的模板式自动分类机制 有着本质的区别。Autonomy的架构可以识别信息之间的主 要关系,从而实现内容间的交叉索引对照,无论是什么文档,Autonomy都可以在操作层识别出与其相关联的资料。此外, Autonomy还可以对内容中最主要的概念进行总结,可以根 据原始查询的上下文环境进行总结,并且将最适用的动态摘 要提交给指定需求。最关键的是Autonomy的这一切工作都无需人工干预自动进行,对企业应用来说,这一点相当有吸 引力。主动匹配和信息地图像涉及安全

13、方面的应用可能有非常广泛的信息搜索需 求,从网站上最酷的新闻到刚刚播放的电视画面,都可能与 安全问题相关。利用Autonomy的主动匹配功能,可以在用户日常工作中充分利用整个企业的信息系统为各个相关部 门的相关人员提供有价值的信息。主动匹配可以将典型的文 档或者以数字为中心的用户界面转变成以任务为导向的智 能界面,也就是说它能自动识别用户当前的问题,并确定相 关信息。Autonomy还可以自动生成二维或三维的信息图,将某 一时间段的所有信息通过形象的图像展现在用户面前,帮助 用户准确、及时地把握世界各地的最新资讯。例如它的最新 功能可以跟踪一系列的邮件信息,告知检测者每个邮件的流 向和被转发目标。它还可以将连续的信息图生成信息走势 图,观察出多个时间段的信息走势,从而用户能一眼看出某 一个阶段内的信息发展趋势。这是任何其他搜索系统目前还无法提供的功能。5企业非结构化信息搜索的商机,引得众多IT巨头纷纷加入搜索战团,处理非结构化信息的桌面搜索模式成为竞 争焦点企业网络的搜索比网络的搜索复杂很多,企业信息通常 是以各种不同的格式存储

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论