搜索引擎的智能进化引发无限商机_第1页
搜索引擎的智能进化引发无限商机_第2页
搜索引擎的智能进化引发无限商机_第3页
免费预览已结束,剩余8页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎的智能进化引发无限商机

§我们熟悉的搜索,使用起来并不容易我们每天出于好奇或者懒惰,或急不可待、或漫不经心地使用着搜索,在互联网托起的信息世界中追寻着各自不同的线索和方向。根据comScore的统计,2009年互联网平均每天会发生约44亿次搜索,其中发生在中国的搜索次数占到10%左右,日均4.4亿次。如果结合中国2.6亿的搜索引擎用户数来做一个简单的估算,我们每天都会在互联网上搜索1~2次。在我们经常使用的搜索工具的背后,是处理能力强大的搜索引擎。它时刻不停地去捕获互联网上公开出来的几乎所有的网页内容,对取回的内容进行分析、抽取、分类、标识等一系列处理,然而进行结构化组织,这一过程即索引的过程,完成之后的索引以搜索服务的形式提供给互联网用户使用。这一过程并不简单,要知道,搜索引擎面对的是互联网上超过2亿3千多万家的网站,以及这些网站所包含的一层又一层难以计数的网页内容。但在大众的眼里,搜索引擎仅仅是关于提问和解答的简单工具。可是用户使用搜索从来就不曾感觉到过简单。我们经历的搜索历程往往是,第一次不假思索地输入几个关键词给搜索引擎,很快发现没有找到任何想要的结果;稍加思索后第二次输入修正的关键词,仍然对结果不甚满意,于是接着继续…。一位思想家曾精妙地说道:“任何一次认真搜索的结果只能是把一个问题变成两个问题”。事实上有调查证明,我们平均搜索一个问题需要做5次查询。最后我们发现,向搜索引擎提出一个恰当问题本身就是一个令人头疼的问题。不过令人欣慰的是,对解决这个头疼问题负有责任的永远是搜索引擎。一直以来,有追求的搜索引擎工程师们努力的目标就是:搜索引擎应该理解人们提出的不算太好的问题,也应该给出不算太糟的答案。这也就意味着要让搜索引擎“善解人意”。Google就不止一次对外宣称,搜索的最终目标是理解人的“意思”,即人工智能。挑战固然很大,然而这也正是搜索引擎存在、并且不断进化的理由。§复杂的算法—一门平衡的艺术大约10年前我们还会惊叹于搜索引擎能在零点几秒的时间内反馈数十万条结果。今天,让我们对搜索引擎不太满意的已不再是反馈结果条数太少,恰恰相反是太多了,尤其是当我们在第一页结果当中没有发现任何勉强令人满意的答案后。按照对搜索用户的统计,50%以上的用户至少会点击一次搜索结果列出的那些链接。但对搜索结果有翻页动作的用户,则不到10%。这证明我们是懒惰的、缺乏耐心的。但这也证明,对于特定用户所提的特定问题,让最具相关性的少量答案出现在最重要、最显眼的位置,这对搜索引擎来说是至关重要的。为了让用户多一点满意,搜索引擎一方面仍在源源不断地搜集互联网上更多、更新的数据,以免遗漏了对任何用户而言具有价值的信息;另一方面,通过改善搜索引擎对用户搜索请求的理解能力,并对数目繁多的搜索结果做更合理的排序,以便让用户心仪的少数答案出现在最重要、最显眼的位置,这便是搜索算法要完成的核心任务。Google资深工程师阿密特.辛格将排序算法的难度形象地比喻为,让一个机器人表演同时抛接200个瓶子的高难度杂技。Google早期主要是通过其核心算法PageRank(网页级别)来帮助确定用户查询请求和网页的相关程度,并因此赢得了用户青睐。但如今搜索算法的复杂程度与当初的情况不可同日而语,PageRank已经是Google目前使用的200多种信号当中的一个而已。更为复杂的是,左右搜索引擎的并不仅仅是用户的感受,那些作为信息源头的网站,常常会想方设法欺骗搜索引擎,以使自己在搜索结果列表中得到一个更好的位置。为了防止这种对用户不利的作弊行为,Google每年都会将其搜索算法调整几百次。而且一些搜索引擎有时为顾及自己的利益,而对搜索算法施以“独家秘方”。因而,当前的搜索进化已演变为用户、搜索引擎和信息源头三方之间的一场博弈,搜索引擎需要在三者之间取得平衡。因而理想的搜索算法并没有什么恒定的标准,各家搜索引擎都有自己的算法配方,对外界讳莫如深。§距离完美还很遥远1998年Google创始人拉里.佩奇向外界推介自己的搜索引擎时,还忍不住这样举例来证明自己的技术优势:“如果你把‘AltaVista’(一款前辈搜索引擎的名称)输到另外一个搜索引擎中搜索,你能看到AltaVista的主页吗?很可能不会。而我们很好地解决了这个问题。”如今的搜索引擎都应该能解决好这个问题,否则就不算合格,因为这个问题太简单了。尽管Google常常被当作丈量搜索引擎的标尺,但Google副总裁玛丽萨.梅耶尔仍将今天的搜索引擎技术比作15、16世纪的生物学和物理学,她认为搜索引擎到目前为止只完成了10%。搜索引擎的进化还刚刚开始,这对刚刚加入、或即将加入搜索引擎竞赛的后来者来说,无疑是一种鼓舞。这会让他们有理由重拾信心,义无反顾地加入到搜索引擎的竞争行列。的确,我们今天使用的搜索距离完美还很遥远。事实上,我们越是熟练地使用搜索,反而花在互联网上探索的时间就越长。我们有理由去多憧憬一下搜索进化的未来。二.搜索引擎的智能进化今天,搜索领域的专家们正在热烈探讨着关于社区搜索、移动搜索、个性化搜索、实时搜索、跨语言搜索等诸多话题。如果将这些话题理解为各个不同发展方向的搜索技术分支,我们会很容易偏离基本方向—“搜索是关于提出问题和给出答案的科学”。我们最终会发现,各种努力都将殊途同归,围绕搜索引擎核心技术革新,始终都只有一个核心话题—如何让搜索引擎更加智能。§从个性化走向智能一次午餐闲聊,我问几位从事技术研发的同事:“你们是否知道自己平均每天Google了多少次?”他们回答,虽然经常会在登录状态下使用Google,但完全没有注意到自己每天的Google次数,因为这样的事情太习以为常了。于是我们进一步探讨,“如果你发现某天自己的Google次数处于高峰状态,是否可以推断那一天你正处于赶工的重压之下?”对这个问题大家有些迟疑。于是我修正了一下:“如果你某天Google次数惊人,几乎可以说明你当天正为解决某个工作问题而焦头烂额”,大家都笑了。是的,搜索引擎已经不仅仅是理解你的习惯而已了,它甚至已经开始理解你在特定时段的精神状态和情绪了。如果某一天,当你过于频繁地查询一堆专业术语或者参考资料的时候,搜索引擎会在结果页面的某个地方提示你要注意自己的健康状况,并且向你推荐一些调节方法,你无需因为搜索引擎猜中了你的心思、切中了你的要害而感到恐惧。当然,前提是你预先授权搜索引擎为你提供这样的服务。其实,个性化搜索所带来的技术革新意义,主要还是围绕让搜索引擎更好地理解用户提出的问题,或者说能更好地理解特定用户的特定意图。过去几年里,搜索已经由“给我输入的东西”转变为“给我想要的东西”。个性化搜索有两条具体的发展路线。一方面,搜索引擎记录关于用户行为线索的一切能够获得的数据。当这些数据多到足以描绘出该用户的明显踪迹时,搜索引擎就能在一定程度上理解这个特定用户的特定意图。这时,搜索引擎就有能力实现上面提到过的场景。即使保守一点来看,当两个个性迥异的用户用相同的搜索行为查询相同的问题时,搜索引擎可能会为他们给出两个完全不同的答案。因为此时搜索引擎掌握了他们两人的个性,因而可以因人而异地回答问题了。另一方面,搜索引擎通过一切的客户端工具,直接收集用户在特定场景下有关特定状态的一切数据。例如正在同别人聊天的用户查询某个问题的时候,可能会因为刚才聊天时表达了某种意向而得到更合心意的答案;或者正在下载音乐的用户查询时可能会得到一份流行排行榜。有人将这种个性化搜索称为情境搜索。然而无论哪条路线,隐私安全的问题都是至关重要的。搜索引擎必须在征得用户同意的前提下,来发展个性化搜索。因为它对个人的影响实在是太大了。§社会化的影响让搜索引擎更具智慧新闻聚合网站Digg是一家被称为“用户驱动的内容网站”。它也有自己的“头版头条”,头版列表的每个标题旁都有一个数字,标识该篇报道得到用户投票的数量。Digg的每一位用户都可以为自己喜欢的报道透上一票。得到足够多票数的报道就有可能享受到出现在头版的那份荣耀。这个在Web2.0时代风靡一时的新闻社区网站,使得群体用户可以施加对信息属性的影响,例如重要性、关注度等。而在以前这些都是传媒大亨、媒体主编们的特权。再看另一个例子-Twitter。在这个移动互联网时代非常典型的微博社区里,作者受关注程度,或者说号召力,取决于他或她,甚至是它的跟随者(Follows)的人数。这与在现实社会当中的影响力或者号召力是如此的相似,而且Twitter的规律却比现实社会确定得多,因为它被精确地量化了。尽管上述两个社区也都提供自己的搜索功能,而且Twitter搜索量惊人,已超过日均6亿次,然而,更值得关注的是在这些社区里,由用户群体自发催生出来的,关于信息内容的各种新的属性信号,这是典型的社会性信号,社会性特征被带到了信息世界里了。搜索引擎如果在捕获信息的同时,获得这些社会性信号,其价值将远胜过类似PageRank计算出来的信号。实际上,这意味着搜索引擎开始理解社会了,而其最终的意义是,搜索引擎能为同样具有社会性特征的用户,提供更好的搜索结果。§移动搜索的革新意义关于移动搜索,工程师们最早的设计意图就是为用户提供随时可以使用的搜索。但是围绕随时、随地、随身的搜索的话题,已经让人感到索然无味。归根结底,这些都是移动网络与搜索引擎的简单接合所带来的变化。即便我们任何时候都可以使用搜索了,如果搜索结果不能令人满意,一切也于事无补。是的,如果我们抛弃“移动的”搜索这样片面的理解,我们会发现围绕移动搜索要探究的命题始终还是关于:提出更好的问题,给出更好的答案。伏尔泰说过:“根据一个人提的问题而不是他给的答案来判断他的为人”。然而根据统计,我们平均每次搜索只会键入2个左右的词,作为用户的我们是如此的懒惰,以至于我们所提问题包含的信息常常太少,而且还可能含义模糊,很难让机器做出正确的判断。有远见一点的工程师已经在考虑如何将移动网络的能力挖掘出来,以便帮助用户向搜索引擎提供更多的输入信号,最终帮助搜索引擎理解用户。例如移动网络带来的定位能力,使得用户每次搜索时不用任何额外动作,搜索引擎都将获得一个重要的、同时足够准确的搜索条件—位置。当你搜索一家加油站的时候,搜索引擎如果知道你所在位置,就可以把离你最近的一家加油站的位置显示在搜索结果当中。更让我着迷的是那些智能手机具有的日益强大的感知能力。如今,苹果的iPhone4已经具备陀螺仪(感知三维姿态)、水平仪(感知二维姿态)、指南针(辨别方向)、距离远近传感器、速度传感器、光亮度传感器、震动传感器、GPS(定位能力)、摄像头(捕捉影像)等等能力。这些能力综合起来几乎可以模仿人类去感知周围的世界了。试想,智能手机感知它的主人所处的,特定现实情境的各类信号,同时也感知主人本身的特定状态的各类信号,通过移动网络传递给搜索引擎,如此丰富的信号可以帮助搜索引擎做到善解人意。不用等到用户主动查询,搜索引擎就可以主动地、及时地给出各种必要的提示、帮助等等信息。三.搜索引擎的智能进化催生新的商业模式【数据来源于两家公司的财报】从Google和Yahoo的,我们看到的不仅仅是两条截然不同的典型企业的发展轨迹,这背后更大的含义在于,代表旧媒介规则的势力正在让位于新媒介规则下的新生代。运作于旧规则下的企业或许几年前还在以巨人姿态傲视一切,但现在它们已完全跟不上新媒介规则下脱胎换骨的企业的步伐了。虽然同样是开展广告业务,但互联网搜索的商业模式与门户网站等按传统媒介规则运作的公司完全不同。Google开展广告业务的模式主要有两种:针对广告主的AdWords和针对中小网站或内容发布者的AdSence。对于AdWords,当用户搜索某一关键词时,搜索结果右侧可能会出现相关性很强的一系列商品广告链接。Google将关键词出售给广告主,按点击量获得广告收入。而AdSence其实是一种广告联盟,如果一个网站与Google达成这一模式的合作,当有用户访问该网站时,就能够看到Google的广告,如果他们点击这个广告,Google就会和该网站分享这些点击所获得的收入。Google通过自动的广告投放和运营系统,相对传统模式极大地降低了广告成本,精确的效果量化,让广告客户可以了解到他们的投资回报率(ROI)。Google专注于这一商业模式近10年,其收入从2001年的8千6百多万美元,一直到2009年达到236.5亿美元。通常人们会将Google商业模式归结为“售卖注意力”,我更倾向于将它归结为“售卖相关性”,搜索引擎实现的广告与用户查询结果的相关性才是成功的关键,这才是搜索引擎的核心商业价值。当你搜索“婴儿用品”的时候,搜索结果旁边只会出现一些实际的婴儿商品广告,而不会是别的。不会分散或扰乱你的注意力,甚至很可能给你带来帮助。事实上,相关性的潜在价值可能催生出比广告更加直接的商业模式。用户搜索目标常常就是商品本身,或者更直接的干脆就是如何购买商品。据统计,人们提出带有商业性质的问题的比例接近25%。同时,伴随着互联网电子商务的日渐成熟,出现搜索引擎和电子商务结合的商业模式也就自然而然了。我在这里探讨的这一商业模式与电子商务网站自己提供的商品搜索服务完全不同。例如阿里巴巴的淘宝网也提供搜索,而且搜索对它越来越重要了,但这仅是局限于一个网站内部。面向互联网的搜索引擎首先为用户(同时也是潜在的消费者)解决信息流的问题,而后通过电子支付为消费者提供直接的在线商品交易的途径,最后是线下的物流环节,这一般是传统电子商务运营商去负责解决的问题。用户在这一过程当中得到了一站式的体验,不用在不同的网站间来回切换。而这种商业模式对商家的投资汇率更有优势,它已经绕过了广告的环节。当搜索引擎进化到更加智能的阶段、变得善解人意的时候,当搜索引擎开始引导你的每一天的工作、生活、日常方方面面活动的时候,我们已经很难估量它的商业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论