搜索的未来:冲破数字围城_第1页
搜索的未来:冲破数字围城_第2页
搜索的未来:冲破数字围城_第3页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索的未来:冲破数字围城

多年以后,已经是谷歌搜索算法首席科学家兼谷歌高级副总裁的辛格哈尔从语言学研究生毕业之后才发现:一直以来《星际迷航》在他的脑海中完全等同于那伴随着杂音的黑白电视画面,这种印象根深蒂固,而实际上,在更多美国人心中,《星际迷航》其实是一本科幻小说。“对于拥有智慧的人来说,穷尽一个词语背后所代表的丰富而不同的语义都是一件不容易的事情,可见,要教会计算机理解人类的语言,这真的是一个难题。”阿米特·辛格哈尔感慨道。但是对于辛格哈尔的团队和千千万万的搜索工程师们来说,让计算机更加智能地进行识别是一件迫在眉睫的事情,因为无时无刻不在产生的海量数据正在形成一座数字围城,它让搜索变得困难,让有价值的信息越来越难以被寻找。今天,谷歌独立URL索引数量超过了惊人的1万亿,而用户获得一次满意搜索的时间却不能超过1秒;淘宝商品数高达8亿,每天有6000万用户登录淘宝寻找商品,最终每天要促成800万包裹量的交易;美国最大的招聘网站Monster的招聘网络遍及55个国家和地区,每天新增简历高达2-3万、同时却要实现数量庞大的职位和求职者精准匹配……如果说,在5年之前这些企业完全有理由仅仅为这些漂亮的数据而尽情欢呼的话,那么在今天,他们就需要多一份忧虑——多年前,他们走进数据构建的围城,靠着先进的算法在这些数据面前游刃有余;如今每时每刻不断增加的海量数据却开始让他们感到窒息,越来越高的数据之墙让他们开始感到了低效和无奈,他们必须想办法寻求突围。传统搜索的瓶颈对于Monster软件工程经理骆鋆来说,每天置身于数据围城让它深有感触。曾几何时,关键字搜索是Monster在网络招聘领域所向披靡的利器,但是近些年来,当初的技术带来的高效和便捷仿佛变了味道。“传统的搜索一般是关键词搜索,对于语义的了解不足,他不能对每个关键词的权重做出区别处理;在搜索结果上,也无法区分过去的经验和最近的经验,这将直接影响搜索结果排序的准确性。比如说,一个人在两年之前曾经做过销售,互联网上留下了他曾经的痕迹,现在也许早已转行不干了,但传统的关键词搜索很容易认为他现在仍在做着销售。”骆鋆说。另一方面,骆鋆认为,网络招聘的一个基础就是要能够理解用户的核心意图,但是由于应聘者文化和知识背景的不同,同样的职位他们可能会用不同的词语来表达。比如说,同样是指“软件工程师”,有的人把它叫做程序员,而在港台甚至会称呼他为“软体工程师”,这样的话,如果还是按照字面的关键词搜索,招聘方和应聘者的需求就很难契合。同样对现有搜索技术感到不满足的还有淘宝。据淘宝搜索高级技术专家,一淘推荐算法负责人孙健介绍,淘宝平台上大概有8亿商品,5亿注册用户,包裹交易量达800万,相当于全中国每日快递包裹数量的一半。“如果把淘宝平台设想成为一个巨大的搜索引擎,面对这么海量的实时变化的商品交易信息,也是会傻眼的。”孙健说。“那么面对这么海量的信息处理问题,我们就需要着力去做两件事情,一个是构建一个大规模的电子商务产品库,另一个则是构建一个大规模的语义知识库,在传统的关键词之外,我们需要重新为每一个词语构建属于他们的关系。比如,圆明园和海淀在物理上是从属关系,本田和宝马同时属于汽车品牌下的子集,在淘宝的平台上,我们挖掘了800多万的语义关系,这种知识库的构建是我们打造智能搜索技术的基础,否则单单是靠原来的那种关键字搜索,是无法胜任淘宝平台上每天产生的海量商品和交易信息的。”孙健说道。即便是现在被人认为有可能会取代关键字搜索的智能推荐,在技术上仍然存在不完善的地方。目前在电子商务领域做推荐的通用做法是先去构建商品库,对各类信息归类整理,但是其中有一个解决的并不好的问题就是信息的实时性。“首先智能推荐的前提是必须有实时的最新的数据,如果是拿3年前的数据来给用户做推荐可能就会出问题。最近微博上有人抱怨亚马逊的推荐不准,明明几个月前刚刚买了手机,当他再去购物的时候还会被推荐手机,这就会破坏用户体验。”专注于为电子商务企业提供第三方兴趣推荐服务的百分点科技副总裁张韶峰说。正如FacebookCOO雪莉·桑德伯格早在2010年就曾预言道,未来所有的网站必将实现个性化,否则就会在5年之内被淘汰,而其中的关键就是网站要能够智能地匹配用户的偏好信息。传统的关键字搜索显然无法做到这一点。搜索的智能进化几个世纪前,人类社会还是数据为王的时代,一个人如果识字,会阅读,知道比别人更多的事实,那么他在他的时代中就拥有巨大的优势,然而现在,这些门槛正在被技术逐渐抹平:一个人,只要轻敲几下键盘,就能够得到他想要了解的一切数据。“这是伟大的进步,但是这并不够,如何将片段化的数据集中起来转化成有用的信息,如何将有用的信息转化成知识,这些知识如何在最终转化成智慧,这些才是搜索应该做的事情。”谷歌高级副总裁辛格哈尔说。在谷歌看来,从数据到信息到知识再到最终的智慧是一个漫长而伟大的愿景,如今的搜索技术所能达到的只是将片段化的数据转化成有用的信息这一阶段,若想让信息能够直接通向知识,搜索技术必须继续进化。“比如,如果你询问谷歌类似‘帝国大厦有多高?’的问题,谷歌将提供搜索结果页面上的最佳猜想答案,将您链接到该知识点。在未来,你问谷歌一个问题,我们会直接提供答案,而不只是仅仅给你相关的链接。”辛格哈尔解释道。对于谷歌的搜索团队来说,这就是他们目前正在尝试的方向,将搜索引擎变成一个知识引擎——未来的某一天实现智慧引擎。让搜索更加聪明,这也意味这搜索引擎除了能够对文本进行语义分析之外,还要能够处理音频,图片甚至视频这些更加复杂的信息载体。比如,当你在旅游中见到一种不知名的花,你很难用语言去描述它,但你似乎又在哪里见过,这个时候你无法通过输入文字的方式去搜寻你想要的结果;当你看到一辆路边疾驰而过令你心仪的汽车,你被它的外观深深吸引却无法想起有关它从品牌到型号的任何线索,传统的搜索看起来就有点捉襟见肘了。不过在今天,这些情况并非没有解决的可能。谷歌就曾推出过按图搜索的功能,当用户看到似曾相识的图片时不需要绞尽脑汁去想如何描述它,而是可以直接用图片进行搜索。在搜狗跨媒体搜索研发部高级经理佟子健看来,搜索技术的出现,让用户可以通过主动描述自己的需求获取信息,但是这并不符合用户“懒”的天性,最好的搜索应该是能够理解用户潜在的需求,让它在搜索时做的动作越少越好,最理想的状态就是推荐。比如,当浏览到一篇感兴趣的新闻时,用户无需考虑如何提炼新闻事件的搜索词,而是由推荐引擎向用户推荐这篇新闻事件的来龙去脉、最新进展和新闻图片,直接满足用户潜在的延伸阅读需求。除此之外,语音识别技术的成熟在与语义分析技术更好地融合之后,未来对音频的搜索也会变得更加高效,不仅是音频,即便是信息量无比庞大的视频依然可以通过技术实现更加精准的搜索。例如,YouTube就已经开始尝试对视频中的信息进行更加精准的搜索和甄别。比如一个用户上传的视频中如果包含一首歌,这个歌如果是唱片公司的产权,系统就会识别出来,禁止视频的上传,防止盗版现象的发生。尽管这些尝试只是一个开始,但我们已经可以看见能够解决当前海量信息搜索的人工智能萌芽了。“这意味着搜索需要超越网页上的文字,真正地了解人们的搜索意图,地点和事物——以及它们之间的相互联系。人类的大脑天生就能处理这些,但对于电脑,这就涉及到人工智能的问题。”谷歌高级副总裁辛格哈尔说。冲破围城之后当技术的进步冲破了海量数据构建的围城之后,搜索与人的关系将会是怎样呢?如果按照谷歌定义的搜索从数据到信息到知识再到智慧的四个阶段的话,如今在将数据转化成信息的过程中,我们已经取得了重大的进步,语义技术的进一步发展将会让当今搜索技术面对海量信息的窘境得到改善,当搜索技术与信息量的天平发生倾斜之后,理想中的知识引擎甚至智慧引擎将会逐渐到来。举例来说,今天如果你想搜索“世界上最深的10个湖”,如果不是恰好有人已经整理出了这个排名,你需要做非常大量的搜索工作才能把它们搜全。目前的搜索引擎智能程度还没有达到那么高的程度,理解不了你关于湖的问题,比如明白湖是什么意思,湖是有深度的水域,然后把这些细节信息综合成你需要的信息列表。但在未来,如果一款搜索引擎,它能够理解有湖的含义,理解湖的其中一个属性是深度,当有人想知道“10个最深的湖”时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论