文学垂直搜索引擎简介ppt课件_第1页
文学垂直搜索引擎简介ppt课件_第2页
文学垂直搜索引擎简介ppt课件_第3页
文学垂直搜索引擎简介ppt课件_第4页
文学垂直搜索引擎简介ppt课件_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、浩大文学垂直搜索引擎简介浩大文学数据中心 江永青.什么是垂直搜索引擎 垂直搜索引擎是运用于某一个行业、专业的搜索引擎,为用户提供范围极为减少、极具针对性的详细信息。 数据来源于垂直搜索引擎关注的行业站点,倾向于构造化数据和元数据。 比通用搜索更加专注、详细和深化,文学类搜索那么注重高质量作品的排序。.浩大文学搜索的运用 1. web搜索,如sosu.qidian、小阅搜索,以及起点书库、免费频道接入。 2. 挪动端搜索,如起点app、小阅app等。 3. 大搜索,全网文学类小说搜索。.AES简介 浩大创新院自主研发 易于配置 扩展性高 高定制化,与业务结合严密.AES框架Boost.Asio

2、1.1Search HandlerAdmin HandlerCacheJson FormatterQuery ParserInverted IndexClient LibraryThreadPoolThreadPool.数据来源 数据库数据 爬虫抓取OracleFtpData ProcessData FeedUrl FeedsPagesCrappingPages DBUrls DBExtract urlsExtract data.Posting lists构建索引(原始方法Data FeedDicttermDocID,Weight, DocID,Weight, Posting list.Mer

3、ge构建索引Data FeedDictSplitDataSplitDataSplitDataSplitDataMidDataPosting listsDictPosting listsDictPosting listsDictPosting listsDictPosting lists.索引更新 全量更新 小索引更新Big IndexSmall IndexSearch Engine.查询处置1)Document-at-a-time 2)Term-at-a-time (aes used)1:11:41:11:2Ilovedatascore2:32:12:23:23:1doc1doc2doc31:

4、13:13:1Iscore1:13:11:1love2:13:11:4score2:33:21:2data2:21:4score2:33:2Pros: Save memory(top k)Cons: Time costs(frequent disk lane change)Pros: Save TimeCons: Memory costs.AES排序 检索模型分数 根底的文本相关性计算 书籍静态分 全站范围内书籍的质量分 点击模型 对于某个Query关键字而言,书籍满足检索需求的程度.通用搜索检索模型 向量空间模型 TF * IDF 概率模型 ) (文档长度归一化fi因子.AES检索模型(窗口

5、模型恶龙之谷有龙降之谷底,Title:Window:Query:龙之谷龙之谷Window:Good score也叫黑暗之谷。Window:less score龙之谷Window: more less之谷.书籍静态分 经典指数:过去100天内的周留存率 吸金指数:过去100天内每本书的总订阅金额归一化处置 潜力指数:经典指数/(吸金指数+1) 书架活泼指数:加书架用户中去除作弊用户后过去100天活泼的用户比例 资深用户指数:加书架用户中去除作弊用户后过去100天活泼的资深用户比例 抢手指数:主要从用户点击数、引荐数、收藏数、订阅数等数据计算.点击模型 点击模型又称为点击调权,在搜索引擎中,根据用

6、户对搜索结果的点击,能够发掘出哪些作品更符合查询的需求。 点击模型基于如下根本假设: 1)用户的阅读是从上至下顺序的 2)需求满足好的结果,整体点击率一定高 3)同一个query下,用户点击的最后一个结果之后的书籍,可以假设用户曾经不会去查看了(一定程度上减弱了位置偏见 4)用户进展了翻页操作,或者有效的query变换,那么可以以为前页的书籍用户都阅读过,并且不太称心 5)用户点击的书籍,假设参与书架,或者进展阅读操作,那么更有能够是用户称心的结果.点击模型日志搜集6386008531 2021-11-04 17:31:55 &keyword=%E4%B8%AD%E9%8B%92638

7、6008531 2021-11-04 17:32:00 &categoryid=10010&keyword=%E4%B8%AD%E9%94%8B6386008531 2021-11-04 17:38:20 &categoryid=10010&keyword=%E4%B8%AD%E9%94%8B 9 31485936386008531 2021-11-04 17:38:24 &categoryid=10010&keyword=%E4%B8%AD%E9%94%8B&start=106386008531 2021-11-04 17:38:45

8、&categoryid=10010&keyword=%E4%B8%AD%E9%94%8B&start=10 10 23855286386008531 2021-11-04 17:38:54 &categoryid=10010&keyword=%E4%B8%AD%E9%94%8B&start=10 11 32461636386008531 2021-11-04 17:39:04 &categoryid=10010&keyword=%E4%B8%AD%E9%94%8B&start=10 14 14404636386008531

9、 2021-11-04 17:39:27 &categoryid=10010&keyword=%E4%B8%AD%E9%94%8B&start=10 18 28610616386008531 2021-11-04 19:15:15 &keyword=%E5%85%A7%E7%B7%9A%206386008531 2021-11-04 19:15:19 &categoryid=10010&keyword=%E5%86%85%E7%BA%BF6386008531 2021-11-04 19:15:26 &categoryid=10010&am

10、p;keyword=%E5%86%85%E7%BA%BF 2 14601606386008531 2021-11-04 19:15:48 1460160 16445500708 2021-11-04 05:26:25 &keyword=%E5%8E%A8%E5%B8%886445500708 2021-11-04 05:30:49 &keyword=%E5%86%B0%E7%81%AB%E9%AD%94%E5%8E%A86445500708 2021-11-04 05:30:57 &keyword=%E5%86%B0%E7%81%AB%E9%AD%94%E5%8E%A8

11、 -10000 707056445500708 2021-11-04 05:31:14 70705 16445500708 2021-11-04 05:33:02 &keyword=%E5%8E%A86445500708 2021-11-04 05:33:22 &keyword=%E5%8E%A8 1 32551596445500708 2021-11-04 05:34:02 3255159 1.点击模型数据计算 思索把一个query-url对的用户需求满足度分割为两块儿,一块儿是用户看到这个结果后,发生点击的概率;另一块儿是用户点击这个结果后,需求得到满足的概率。直观上看,两个概率的乘积就可以用来打分了。这种方式天然的处理了点击质量和位置偏见的问题,同时新的分值严厉处于区间0,1中,因此分值含义也更加明确。 贝叶斯平滑处理小数据量问题 点击模型将运用于搜索结果中.搜索数据分析.搜索效果评价 MAP:求每个相关文档检索出后的准确率的平均值即Average Precision的算术平均值Mean Recall: 0.2 0.2 0.4 0.4 0.4 0.6 0.6 0.6 0.8 1.0 Prec: 1.0 0.5 0.67 0.5 0.4 0.5 0.43 0.38 0.44

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论