文本挖掘在电子商务场景中的应用课件_第1页
文本挖掘在电子商务场景中的应用课件_第2页
文本挖掘在电子商务场景中的应用课件_第3页
文本挖掘在电子商务场景中的应用课件_第4页
文本挖掘在电子商务场景中的应用课件_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文本挖掘在电子商务场景中应用、机遇和挑战千诀/孙健文本挖掘在电子商务场景中千诀/孙健电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲电子商务场景中的用户痛点提纲购物链购物前买什么去哪儿买购物中购物后购物链购物前买什么去哪儿买购物中购物后用户痛点1:点评这么多?用户痛点1:点评这么多?用户痛点2:有疑问怎么办?用户痛点2:有疑问怎么办?电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲电子商务场景中的用户痛点提纲针对用户点评信息的挖掘和应用(1)针对用户点评信息的挖掘和应用(1)针对用户点评信息的挖掘和应用(2)淘宝每天的点评量约700万;一淘每天的点评量约36万;针对用户点评信息的挖掘和应用(2)淘宝每天的点评量针对用户点评信息的挖掘和应用(3)针对用户点评信息的挖掘和应用(3)针对用户点评信息的挖掘和应用(4)针对用户点评信息的挖掘和应用(4)针对用户点评信息的挖掘和应用(5)“外观不错,功能也挺多,就是玩游戏有点卡,触屏有时反应没那么快,不过这确实不是卖家能解决的问题~总体来说不错了”

<外观,不错><功能,多><游戏,卡><反应,(没)快><总体,不错>

<外观,不错,1><功能,多,1><游戏,卡,-1><反应,快,-1><总体,不错,1>针对用户点评信息的挖掘和应用(5)“外观不错,功能也挺多,就电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲电子商务场景中的用户痛点提纲购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘羽绒服怎么洗涤羽绒服怎么挑选怎么防止羽绒服掉毛羽绒服十大品牌羽绒服能水洗吗怎样去除羽绒服上的油污购物知识搜索中的文本挖掘羽绒服怎么洗涤羽绒服怎么挑选购物知识搜索中的文本挖掘购物知识搜索中的<Query-问题>挖掘购物知识搜索中的<问题-答案>挖掘购物知识搜索中的文本挖掘购物知识搜索中query相关知识挖掘这个问题抽象为由一个query给出几个相关知识这几个相关知识的语义互相独立购物知识搜索中query相关知识挖掘购物知识搜索中query相关知识挖掘挖掘方法把知识聚成几类,每类里面挑选最优的知识条目展现知识聚类传统的向量空间模型有两个问题:一是不能解决同义词或多义词问题,二是向量维度高,聚类效果不好;采用主题模型(topicmodel),可以较好解决这两个问题购物知识搜索中query相关知识挖掘挖掘方法购物知识搜索中query相关知识挖掘购物知识搜索中query相关知识挖掘购物知识搜索中query相关知识挖掘query“羽绒服”及所有与其相关的知识点(这里只显示title,共19200条知识点)羽绒服购物知识搜索中query相关知识挖掘query“羽绒服”及所购物知识搜索中query相关知识挖掘知识点的主题概率向量P(topic|doc)比如“羽绒服坏了一个小眼,漏毛怎么办?”这个知识doc的topic向量如下(80个topic)购物知识搜索中query相关知识挖掘知识点的主题概率向量P(购物知识搜索中query相关知识挖掘Kmeans聚类后的簇示例从中可以看到,簇以及簇内的title的质量都参差不齐,所以需要对簇以及簇内的title都进行排序,然后挑选。购物知识搜索中query相关知识挖掘Kmeans聚类后的簇示购物知识搜索中query相关知识挖掘最后得到的相关知识结果羽绒服购物知识搜索中query相关知识挖掘最后得到的相关知识结果羽购物知识搜索中的<问题-答案>挖掘购物知识搜索中的<问题-答案>挖掘淘宝详情页是很大的知识宝库淘宝详情页是很大的知识宝库淘宝详情页是很大的知识宝库淘宝详情页是很大的知识宝库gu9/Health/50.htmlgu9/Health/50.html阿里内部各产品线具有大量的优质数据详情页淘宝帮派bangpai.taobao生意经baike.1688/doc/online/index.html…外网垂直类网站babytree阿里内部各产品线具有大量的优质数据问答数据的全网获取宝贝详情页数据生意经、CRM等资讯、BBS等内网数据外部Q&A专业网站外部购物相关BBS内网外网数据预处理单页面信息抽取多页面信息处理问答知识库人工干预B2C网站购物问答问答数据的全网获取宝贝详情页数据生意经、CRM等资讯、BBS基于Wrapper的问答知识抽取抓取数据URLpattern过滤全文条件过滤建立抽取树结构化知识定位关键区域精确定位模糊定位条件定位Xpath解析定位器获取字段值类目标签关键词区域条件过滤问题回答其它信息字段定位过滤去噪单记录生成类目映射合并去重基于Wrapper的问答知识抽取抓取数据URLpatter淘宝详情页问答知识抽取流程原始数据解压缩抽取有格式字段(类目、宝贝名)获取无格式详情建立抽取树(结构化详情文本)抽取详情页中图片链接去噪(过滤肯定不是KV的分支)找Key(文本+结构+属性+风格)后续Value(完整性并反馈找Key)黑白名单等后处理Dump图片预处理(过滤文字占比过低)OCR合并去重购物知识识别结构化知识文本图像淘宝详情页问答知识抽取流程原始数据解压缩抽取有格式字段获取无挖掘到的数据量数据来源URL总数有效数据量宝贝详情页2亿>2000万生意经3000万115万外网Q&A2000万500万外网BBS1000万100万挖掘到的数据量数据来源URL总数有效数据量宝贝详情页2亿>2电子商务知识词库建设针对电子商务领域,赋予Term语义信息,比如产品词、品牌、型号、颜色等建立Term之间的关系,比如手机-诺基亚品牌含有哪些型号电器家用电器大家电影音电器电脑设备…手机数码手机诺基亚N97N8E71N85E63…苹果HTC…数码相机随身视听电子商务知识词库建设针对电子商务领域,电器家用电器大家电影音电子商务知识库建设现状电子商务知识库建设现状电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲电子商务场景中的用户痛点提纲机遇互联网信息正日益丰富E.gUGC计算能力越来越强,集群协同计算更深入实时性更强建立在用户数据积累上的对用户需求的理解机遇挑战高质量的语义知识库从海量信息处理到海量信息的理解从人找信息到信息找人挑战高质量的语义知识库谢谢!谢谢!文本挖掘在电子商务场景中应用、机遇和挑战千诀/孙健文本挖掘在电子商务场景中千诀/孙健电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲电子商务场景中的用户痛点提纲购物链购物前买什么去哪儿买购物中购物后购物链购物前买什么去哪儿买购物中购物后用户痛点1:点评这么多?用户痛点1:点评这么多?用户痛点2:有疑问怎么办?用户痛点2:有疑问怎么办?电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲电子商务场景中的用户痛点提纲针对用户点评信息的挖掘和应用(1)针对用户点评信息的挖掘和应用(1)针对用户点评信息的挖掘和应用(2)淘宝每天的点评量约700万;一淘每天的点评量约36万;针对用户点评信息的挖掘和应用(2)淘宝每天的点评量针对用户点评信息的挖掘和应用(3)针对用户点评信息的挖掘和应用(3)针对用户点评信息的挖掘和应用(4)针对用户点评信息的挖掘和应用(4)针对用户点评信息的挖掘和应用(5)“外观不错,功能也挺多,就是玩游戏有点卡,触屏有时反应没那么快,不过这确实不是卖家能解决的问题~总体来说不错了”

<外观,不错><功能,多><游戏,卡><反应,(没)快><总体,不错>

<外观,不错,1><功能,多,1><游戏,卡,-1><反应,快,-1><总体,不错,1>针对用户点评信息的挖掘和应用(5)“外观不错,功能也挺多,就电子商务场景中的用户痛点海量文本挖掘在电子商务场景中的应用针对用户点评信息的挖掘和应用购物知识搜索产品中的文本挖掘构建电子商务知识词库机遇和挑战提纲电子商务场景中的用户痛点提纲购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘购物知识搜索中的文本挖掘羽绒服怎么洗涤羽绒服怎么挑选怎么防止羽绒服掉毛羽绒服十大品牌羽绒服能水洗吗怎样去除羽绒服上的油污购物知识搜索中的文本挖掘羽绒服怎么洗涤羽绒服怎么挑选购物知识搜索中的文本挖掘购物知识搜索中的<Query-问题>挖掘购物知识搜索中的<问题-答案>挖掘购物知识搜索中的文本挖掘购物知识搜索中query相关知识挖掘这个问题抽象为由一个query给出几个相关知识这几个相关知识的语义互相独立购物知识搜索中query相关知识挖掘购物知识搜索中query相关知识挖掘挖掘方法把知识聚成几类,每类里面挑选最优的知识条目展现知识聚类传统的向量空间模型有两个问题:一是不能解决同义词或多义词问题,二是向量维度高,聚类效果不好;采用主题模型(topicmodel),可以较好解决这两个问题购物知识搜索中query相关知识挖掘挖掘方法购物知识搜索中query相关知识挖掘购物知识搜索中query相关知识挖掘购物知识搜索中query相关知识挖掘query“羽绒服”及所有与其相关的知识点(这里只显示title,共19200条知识点)羽绒服购物知识搜索中query相关知识挖掘query“羽绒服”及所购物知识搜索中query相关知识挖掘知识点的主题概率向量P(topic|doc)比如“羽绒服坏了一个小眼,漏毛怎么办?”这个知识doc的topic向量如下(80个topic)购物知识搜索中query相关知识挖掘知识点的主题概率向量P(购物知识搜索中query相关知识挖掘Kmeans聚类后的簇示例从中可以看到,簇以及簇内的title的质量都参差不齐,所以需要对簇以及簇内的title都进行排序,然后挑选。购物知识搜索中query相关知识挖掘Kmeans聚类后的簇示购物知识搜索中query相关知识挖掘最后得到的相关知识结果羽绒服购物知识搜索中query相关知识挖掘最后得到的相关知识结果羽购物知识搜索中的<问题-答案>挖掘购物知识搜索中的<问题-答案>挖掘淘宝详情页是很大的知识宝库淘宝详情页是很大的知识宝库淘宝详情页是很大的知识宝库淘宝详情页是很大的知识宝库gu9/Health/50.htmlgu9/Health/50.html阿里内部各产品线具有大量的优质数据详情页淘宝帮派bangpai.taobao生意经baike.1688/doc/online/index.html…外网垂直类网站babytree阿里内部各产品线具有大量的优质数据问答数据的全网获取宝贝详情页数据生意经、CRM等资讯、BBS等内网数据外部Q&A专业网站外部购物相关BBS内网外网数据预处理单页面信息抽取多页面信息处理问答知识库人工干预B2C网站购物问答问答数据的全网获取宝贝详情页数据生意经、CRM等资讯、BBS基于Wrapper的问答知识抽取抓取数据URLpattern过滤全文条件过滤建立抽取树结构化知识定位关键区域精确定位模糊定位条件定位Xpath解析定位器获取字段值类目标签关键词区域条件过滤问题回答其它信息字段定位过滤去噪单记录生成类目映射合并去重基于Wrapper的问答知识抽取抓取数据URLpatter淘宝详情页问答知识抽取流程原始数据解压缩抽取有格式字段(类目、宝贝名)获取无格式详情建立抽取树(结构化详情文本)抽取详情页中图片链接去噪(过滤肯定不是KV的分支)找Key(文本+结构+属性+风格)后续Value(完整性并反馈找Key)黑白名单等后处理Dump图片预处理

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论