2015微博决赛3一步往上爬_第1页
2015微博决赛3一步往上爬_第2页
2015微博决赛3一步往上爬_第3页
2015微博决赛3一步往上爬_第4页
2015微博决赛3一步往上爬_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、新浪互动大赛答辩队伍介绍一步一步往上爬来自计算所的三位树蛙小矿工机器学习分布式系统初显奇数据挖掘机器学习分布式系统云计算队伍介绍一步一步往上爬 ?历史成绩077.34值11111277.32222222222222222223477.377.26677.28877.2677.2177.211077.2477.211277.2277.277.1877.1677.14456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33排名成绩outline赛题分析12345数据分析特征工程算法框架可用性分析赛题

2、分析博文数据粉丝数据用户行为数据抽样用户的历史博文数据新博文一天后的互动情况赛题分析用户历史发博互动情况预测效果用户人际关系网络条目本身(内容、发博时间)准确率计算公式数据分析样本极度倾斜采样 or other?数Lv1:lv2:lv3:lv4:lv5 = 34.28 : 5 : 5.05 : 1 : 1.23各level数分布120000001000000080000006000000400000020000001036000515092451526250302139372221012345level分布数据分析发博数用户数小于4001929453大于400且小于80023640大于800且

3、小于等于12005340大于1200且小于等于16002143大于1600且小于等于20001237大于2000且小于等于2400689大于2400且小于等于2800634大于2800且小于等于100002010大于10000536数据集构造用户的特征互动level内容、时间特征新用户分布300000284841250000新用户随着用户特征统计的区间扩大而显著减少1897602000001489831500001249041000005000001234数据集构造201503201505201411201502201412201501201504特征用户特征线下训练集线下验证集线上训练集线上

4、测试集数据集构造 5( _ )=i=1preci 5( )i=1简单有效的解决权重问题,效果显著大量数据未利用,效果极差方案二: 数据按权重方案一:数据按权重抽样特征工程符号特征发博时间用户历史互动情况粉丝对用户的行为词性特征BlogUser用户社交人脉网络用户本身的特征特征工程用户历史特征用户A2015年2月分布用户B2015年2月分布2015年3月2015年3月60050045041850040035040030030025020020015010010050000level1level2level3level4level5level1level2level3level4level5338

5、26111 232288特征工程用户历史特征计数类:5个level的微博数目分布类:比值类:5个level数目/用户总微博数每种level行为数avg、sigma的特征工程用户社交人脉关系网用户粉丝bigV_1000bigV_2000bigV_3000bigV_5000拥有粉丝数用户数0-504101713251-10094770101-20039648201-50022067501-100080201001-200042962001-300015953001-5000144050002946分级别大V用户条件bigV_10001000bigV_20002000bigV_30003000big

6、V_50005000特征工程粉丝对用户行为不同用户在不同时间段其粉丝行为分布0.9粉丝0.78950.8无互动有互动0.70.61310.60.56970.54240.50.46420.39280.40.31360.285240.27910.3Hour0.210520.20.15120.14390.14290.101630.100用户A用户B用户C用户D用户Er1_ratior2_ratior3_ratio特征工程用户本身用户常发话题统计20000001763747173653618000001614671160000014000001200000总用户数常发话题用户数100000080000

7、060000040000020000002014.11-2015.012014.12-2015.02时间区间2015.01-2015.03用户数687246610774463特征工程Uid: 001b4831c4f69cf139a6ece74f4a3c5c用户本身2014.11-2015.01常发话题:#数目:92level1:100%早安#2015.02发该话题28个,level1:100%特征工程符号特征发博时间用户历史互动情况粉丝对用户的行为词性特征BlogUser用户社交人脉网络用户本身的特征特征工程特征一些在各level的idf值level1level2109level3 level4level5876543210晚安打车表示手气领取份额人民图早安即可参与更新Idf算法框架TraindataReplic ateRFMResultTestdata模型选择GBDT回归GBDT二分类RF二分类RF训练速度快:RF GBDT回归 RF二分类 GBDT二分类效果好:RF RF二分类 GBDT二分类 GBDT回归不易过拟合:训练过程中的数据抽样和特征选择模型融合0.02%Linearweighting.ResultRF8RF7RF2RF1模型融合未完成真正的融合方案RF/GBDT/LR.ResultRF8RF7RF2RF1可用性分析单模型R

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论