基于图算法的跨设备受众识别技术_第1页
基于图算法的跨设备受众识别技术_第2页
基于图算法的跨设备受众识别技术_第3页
基于图算法的跨设备受众识别技术_第4页
基于图算法的跨设备受众识别技术_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于图算法的跨设备受众识别技术目录问题是什么AdMaster 的方案工程实现和权衡有趣的副产品问题是什么人多机有固定账号体系是种幸福QQtabooJD天涯没有账号体系怎么办?cookiedeviceID问题是什么cookie 的攻防战隐身模式“安全”浏览器定期清 cookieDeviceID 的尴尬md5 AABBCCDDEE MD5)idea (md5)mac ( aa:bb:cc:dd:eeaabbccddeeIMEI ( 15 位, 14 位, md5, MD5)openudid统第三方 idgoogleIDqqAdMaster 的方案假设: 人, 定会在同个地方用不同的设备上网.奇葩:

2、 只要在不同的地方, 就用不同的设备上网我只在网吧上网我在家用家里的电脑, 在公司用公司的电脑, 不用手机我很长段时间内(比如 4 周), 只用电脑, 另段时间只用手机不同的人, 用同个设备我和老婆共用个电脑家人共用台电视 ( tv 到人识别, 另个话题 )AdMaster 的方案我们认为:有多个设备的人, 定会用电脑所以定可以用 cookie - device 这样的关联来联系起来AdMaster 的方案每次取 15 天的访问数据 (?)同天, 同 ip, 找出 cookie 和 device, 做笛卡尔积, 形成 pair (?)每个 pair 对生成特征向量根据已知数据, 对特征向量训练

3、, 生成模型把模型应用到新的 pair, 根据可信度, 取可信的 pair用这些 pair 生成森林, 每棵树就是同个人工程实现和权衡特征取哪些cookie - ip - countdevice - ip - countcookie-ipsdevice-ips common countip-public-weightsum( pair-count / ip-public-weight )越大越好same web page count同电视剧工程实现和权衡清洗blueAir 10%15 天内, 同个 ip 出现的次数应该小于 4000 次 40%训练gbdtxgboost with spark工

4、程实现和权衡森林生成算法GraphX基于 aerospike 自己实现kv 数据库4 台 机器 160w/s把 pair (C-D)当成流, 逐个加入, 用两张表, 个是 key-superID, 另个是, superID- keys两个 key 都不在库里两个都加入库里, 共用同一个 superID只有一个 key 在库里把不在库里的, 加入库里, 用另一个的 superID两个 key 都在库里superID 合并, 把另一个superID 下所有的 keys 的id 修改有趣的副产品群组大小最多的, 3-7, 似乎不合逻辑(人手两个手机, 台电脑, 基本上标准配置了, 3 个也 足够了), 原因在于, 不同数据源得到的数据格式是不相同的, 以 android 为例32 位 imei md5 大写是 MMA 的标准做法15 位 imei 原值14 位 imei, 没有校验吗32 位 imei md5 后再 md5可以发现很多作弊的 id最大的群组大小为 267, 同个设备id, 不

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论