无线搜索技术与发展常兴龙_第1页
无线搜索技术与发展常兴龙_第2页
无线搜索技术与发展常兴龙_第3页
无线搜索技术与发展常兴龙_第4页
无线搜索技术与发展常兴龙_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、无线搜索构架及其产品介绍常兴龙 课程介绍培训目的新员工能够尽快了解百度无线搜索产品构架及相关技术培训对象技术部新员工培训时间全部课程大约90分钟 了解无线搜索功能标签,包括:搜索、网址导航、社区(贴吧、知道)新闻搜索范围,包括网络与本地用户可以在通讯录、短信、邮件中搜素搜索框集成地址栏功能有补齐URL提示;搜索时可直接选择搜索类型用缺省浏览器内核,具有较好的兼容性用户可定制个性化首页选择访问历史、热门推荐、新闻、天气等作为首页展示内容为什么需要无线搜索?定义:用户使用移动无线终端搜寻信息的行为无线搜索的特点联合WEB,WAP1.0,WAP2.0,有更丰富的来源终端特性使搜索更便捷意图明确、时效

2、性强无线搜索的价值时间和地域信息使目标信息更精准有效将搜索延伸到PC无法覆盖的时间和地点百度无线发展历程无线搜索历程2006年,郭眈正式命名,无线搜索(wise, wireless search)2009年无线发展迅猛,RD及PM规模显著扩大,团队日趋成熟三年的历程,低于100万pv/天1.8亿pv/天从第一个产品nokia客户端服务模块到现在已经有十几个服务,数十个模块在线上运行无线搜索核心需求决定产品搜索结果需求有差异存在终端专有资源存在终端更优结果解决方案:cosearch和freewap搜索结果需求无差异仅需转换为手机页面改善手机用户浏览效果,如知识、文字信息等。解决方案:transc

3、oder百度其它产品的WAP应用手机版的帖吧,空间,知道,图片等百度无线产品硬件平台手机操作系统应用程序上网:娱乐、浏览、搜索 游戏、阅读本地应用:本地搜索、计算器、 文档处理通话功能:短信、通讯录百度服务 搜索 新闻 贴吧 知道 百科 音乐 视频 地图 购物 百度Hi百度手机客户端掌上百度GSM/CDMA/GPRS/EdgeTD-SCDMA/WCDMA/CDMA2000Wi-FiWiMAX百度无线最新构架方案无线核心搜索产品Freewap数据收录情况收录wml页面数约1.5亿三块数据来源百度公共网页库数据主要数据来源,占全部页面的95%以上Wise独立spider源于ps spider,一个

4、抓取环更改抓取header,修改agent为手机agent 数量大约占全部20%站点独立层主要wap站点首页页面数大约8000个wap网站首页搜索模型与其它垂直产品基本相同Freewap-无线搜索数据收录情况组织方式共10个数据层百度公共库占8层,每层4050库,每dataminer采并5个库,读取权值为9页面效率及时耗增量1次每周,两层/机,周一凌晨同时启动增量用时约10小时,重建用时约70小时百灵库升级支持中Freewap-百度公共库相关数据收录数量单库wml页面约200万 增量情况下每周单库更新页面数2030万,单层则在1000万左右最近一期大库中wml页面对应199095域名,对应98

5、906个站点收录质量库中质量较差,实际收录页面数在10个以上的域名为60447 主要wap站点收录质量差,数量少Freewap-百度公共库存在的问题抓取垃圾多无效参数导致重复页面多适配站点无效页面多收录不全面Wap2.0页面未收录国内站点少策略不适合无线真正高质量wap站点抓取少或无法抓取高质量页面由于深度控制或者循环抓取导致实际抓取页面少更新慢,web站点的wap版占了近半数量Freewap-独立spider产生目的 专门抓取公共库spider无法抓取的wap站点 抓取部分wap2.0 站点 抓取部分高质量wap站点现状目前全部站点数为9000个左右,不允许扩散抓取 实际库中页面在1500万

6、左右,可索引页面700万 问题 循环抓取问题,高质量列表页抓取不足维护困难,由ps rd代管Freewap-独立层特点及需求某些站点根本无法抓取,只能依赖于手动添加 要求部分检索,并且存在单独的更新要求 要求能够pm手动添加种子站首页问题更新依赖于脚本 依赖于人工因素 部分检索方式简单,需要改进无线核心产品之transcoderTranscoder职能为用户浏览搜索结果,支持对任意页面的实时转换支持不同类型的资源支持资源:HTML页面、RSS、图片ImageMagic对抓取的图片资源进行压缩、翻转用户行为模拟用户浏览普能网页的代理,摸拟用户提交,Js提交己完成开发Transcoder工作方式对

7、HTML页面进行重构(转为xhtml/wml)、RSS转为HTML页面、图片进行压缩(转为jpg)Transcoder-资源抓取&用户行为模拟资源抓取未命中Cache时需要进行实时的资源抓取目前自行解析HTTP协议支持chunked、gzip/defalte、HTTP 3XX跳转,兼容一些错误的情况用户行为模拟作为用户浏览web站点的代理支持用户提交WEB页面中form中使用Javascript控制提交行为,因此使用直接构造HTTP请求&使用Gecko模拟用户提交动两种方法Tanscoder仍面临的问题摸拟层有待改进Ajax页面的抓取Gecko性能及稳定性问题终端功能补充用户的状态保存手机大多不支持cookie,状态依赖于第三方服务器非HTTP协议的支持POP3协议有需求FTP协议有需求其它资源转换问题己有手机支持gif,目前只统一转换成jpgRSS页面等的分页问题手机的特殊性导致的其它问题 客户端功能弱 xhtml的多button提交问题需服务器校验 Cookie支持不完全及url限长客户端支持参差不齐 新功能尝试需谨慎,兼容性需反复测试验证 编码问题 手机屏适配问题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论