速记稿-21号下午新技术与应用201厅_第1页
速记稿-21号下午新技术与应用201厅_第2页
速记稿-21号下午新技术与应用201厅_第3页
速记稿-21号下午新技术与应用201厅_第4页
速记稿-21号下午新技术与应用201厅_第5页
免费预览已结束,剩余63页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

:新技术与应时间:2016421日下地点:国际会议中心201会议:大家好我们下午的会议即将开始我在这里自我介绍一下我是QCon的主编,我们QCon有两个主编,一个是大家比较熟悉的臧秀涛,一个是银行的讲师为大家。首先让我们看一下第一个出场的中信银行软件开发中心系统分析和设计王晶老师2015年才加入中信银行现在在这个领域有十多年的工作经验,他的是《人脸识别在商业银行的应用以及接受让我们看一下到底有哪些痛点大家掌王晶大家下午好我是来自中信银行的王晶,今天很荣幸参加QCon2016技术开发大会。今天想借这个机会跟大家一下人脸识别技术在商业银行的应用情况以及我们面对的其中会介绍业务相关的需求,应对业务需求技术构架的设计,以及我们具体遇到的哪些实际问题的发展,技术构架经受的,也需要跟业务需求一起演进,最我今天的重点是如何应用人脸识别技术,来构建银行行业的风险管控比较高的地方。它首先要识别客户的,大家可以试想一你的客户做什么样的业务,它的怎样,你无法提供一个高质量的我不知道哪些是金融行业的,从国际上看巴塞尔97年推行了KYC概念,04年巴塞尔要求银行建立以客户为基础的程序,你要了解你的客户,以及客户的业务。传统的银行都有它的风控、内审和外部审计,要求银行定期辨识客户的,确定在我国识别的情况97年和2000年对于巴塞尔的KYC概念,推出实名制,你要带着办理业务。06年从的角度颁布了《洗钱法,你可以通过技术确认客户的真实。特别是2015年12月,大家从一些上看到,央行发布了通知,鼓励有条件的银行使用生物识别技术,结合其他的来识别客户的。这里强调的是,这个只是作为辅助的,并不是作为唯一的来辨识客户的的是真实的,冒用其他人不会办理这样的业务。大家日常办,这些是银行风险相对高的地方,这些需要识别。包括需要对VIP客户识别,如何为你的VIP客户提供个性化、精准化的,这些也需要识别客户的身份。柜业务,它可以通过刷脸的方式进行识别进行开卡业务。第二个是VTM就是柜台终端,你也可以在VTM上做开卡、消卡、挂失、存款证明,这些去柜的业务都可以在自助终端上办。第三个你可以通过自己的移动设备,通过刷脸的方式申请,再到就近的网点领卡,这个都是通过刷脸实现的。业内同业有银行在去年八月份推出在ATM上面进行小额的取款,进行刷脸的ATM脸。比如险和行业都有很多的应用。用刷脸的方式进行,作为一种新业务的探索。在商业银行或者是国有银行实践人脸识别技术相对比较早去年11先可以通过联网核查取得,同时根据现场的,有一个业务阈一个的判断,特性比较高,没有统一的程序可以采用,可以人脸识别辅助判断可以帮助业主降低风险,杜绝。第二块业务刚才提到的VTM,柜台机,这个也是通过跟人员进行交互,通过刷脸之后可以办很多你必须要跑到柜台第三块是移动终端的业务,这块比如说是电子,以后用户申请,他可以在家里通过申请,通过刷脸的方式可以申请。从银行做这些业务的方式来看,首先是做人工,再一个是电子。为什么是这种方式呢?因为人工,比如说在柜台或者是VTM都是在银行的网点,有人员辅助帮你判断。如果想做人脸识别的是比较的。移动终端客户可以在任何时间、任何地点用这时候不可避免有些人可能会尝试人脸识别的尝试会,会接入很多互联网的应用甚至尝试私有云或者是公有云的方式,业务量会更大,这对业务构架提出的。目前人脸识别对比的速度是1到1.5,我们也在不断的优化和探索,希望把时间缩的更短。目前基本上是1:1的对比,比如说做VIP客户识别,可能做1对N的识别有一个案例,某客户在分行办业务,他拿着办,人工看这个身份证的看不出任何区别基本上是一个人通过人脸识别的程序,员跟他解释,我们的系统识别出来你可能跟不是同一个人,如果不是一个人需要出示辅助证件、委托书,我们不允许拿别人的证件办业务,跟他沟通以后是他拿弟弟的来办业务,这就杜绝了冒用其他办业务,这样是不是也降低客户体验了呢?其实对、简单看一下为什么最近大家在上看到人脸识别,为什么只有刷脸最近会占据很多版面,为什么刷脸会这么火,传统的可能会忘签名对于电子识别比如说虹膜这是一种侵入式的方式,有一个跟大的缺点,样本库很难建立,试想一为商业银行面对客户时是甚至是全球的客户,你如何红膜、、掌纹数据样本信息。但是对于人脸或者来说,这就相对简单容易的多。、比如说苹果如果手上有水识别程度比较差,静脉也不是永的识别方式,可能会变,随着的变化,因为它设备非常庞机因为它的处理速度快大家可以看到目前我们是1秒到1.5秒,人行和联网核查,我们作为比较可靠的数据源。去年有些银行业推出颜值,实际上也是收集数据源的操作。的感受还有两点,一个是随着移动设备的普及,,包括人脸越来越方便,不像虹膜专有设备,现在每个人都有和PAD,更重要据,包括深度学习跟算法相关的演进,人脸识别现在已经成为一果大家比较了解可能都知道,信息系统通过刷脸登录,不需要。包括也有很多重复的情况,帮助解决重复,帮助了解像通过可以识别出的朋友ID都是哪些目前是从流中截出多张,通过质量检测程序,这个后面会体说。检测出来质量能达到我们阈值的一张,这张会做人脸做裁剪,下一步是提取特征值,这里面主要是基于深度学习相关的后面会继续介绍。质量检测是用来从流或者是拍的多张中挑出质量最高,适合人脸识别的一张。裁剪是根据人脸识别出定位坐标以后,对和人脸进行裁剪。中间这一部分是目前接入查联网核查会返回人行或者是的信息有一个流控机制,网核查的,这个跟现场的,我们跟人脸识别的引擎提取都存在关系数据库,这是原数据。这些原数据会导入到下游的ODS和报表系统,供业务部门,比如说运营管理部门做进一步的业务分析这是一个简单的技术构架份证,在中信息,首先判断是否真实,把核查的信息跟现场从流中的信息,送往人脸识别的,在送之前首先会做检测,避免防止,这在互联网多一点,在柜台可能不太需要。同时需要做质量检测和裁剪,这个请求会把这两张发到人脸识别服务集群,核查之后会发到人脸识别的引擎,跟大家一下,我们的服务是面向全行发展标准化的服务,是规范人工进行处理。通过超时控制,包括对超时的统计,服务在多长时内超过多少秒的请求,我们会记录下来,同时也有运维相关的机然后再写给Netty,通过这种方式我们可以处理海量的并发请求,而这部分并不是前台和非常多的技术内容,但是也是我们实践跟大家简单一下。人的生理特征的差异,比如说80年滩的跟86年本色的几乎分辨不出来。通过人工跟业务对比和自动对比的差异,些我判断这个是不是符合人脸识别引擎的要求,如果不符合可能需要从新,避免了不合格的到后端造成对业务的影响。经过能有问题,我们做了应用上的优化。包括人行有些是带网文的,需要算法做不同的适应,这些后面都做了很多优化,所以达到了现的结果说有人通过跟的方式做,有些人做一些面具。如果了后期检测方式,它会对连部的关键点检测和,还有3D的方式,定用户是真实的人,而不是或者是一段,这个方式其实也有后续我们还看3D脸检测,通过红外的方式来判断是一个人。同时检测,我们有两个可以供大家参考,实现机制和重试的次数,防止的用户不断尝试进行人脸识别的。魔高一尺,道高一丈,3D打印人脸效果,目前识别比较。右边是中第三,技术构架的和演进,业务发展对技术的进一步需求,是人脸识别还包括其他的比如说手写等等方面的综合应用。刚才也看到了跟被的技术不断引进,作为银行对安全性非常敏感的业务如何应对。还要提升处理速度,目前是一对一的对比的场景,以后对于识别VIP客户可能是一对多以及其他,对于处理化。比如说我们可以通过程序来控制终端设备,比如说在不同的光线下实现不同的程度,包括对于服务端阈值的动态调整。我们可以支持的协议后端的处理模块实际上跟协议本身无关。整个更替构架是基于行业业务的云平台构架来打造生物识别的PaaS得到非常海量的数量,比如说内容管理平台,同时整个服务希望它的可用性,以及就近的特点。哪些呢?我们跟相关的业内做过探讨,银行的技术构架是比较传统的,随着去IOE的变化,后续拥抱云平台,需要对构架做出开发,需要与时俱进。刚才提到人脸识别技术非常适合做PaaS服务,目前行内已经有相关的服务,如何打造PaaS务,我们计划在今年对人脸服务做PaaS服务的试点上线应用需要解决服务的发现编容器跟现有AAS平台的集成这些在银行中如何跟PaaS服署,这些基础机制的支持。同时,银行可能是开发规范比较严格的改进,对银行来讲可能比较,银行需要对上线的时间,包括层层上支持。但是最终上线还是需要有等等类似的环节。中心,你是通过DNS或者是二层往三层的改造,实现服务的路由。可能涉及到数据跟,这里面又涉及到数据移植性的问题,这些都是我们的,以及跟后续改进优化的过程。最后一部分是简单的总结,人脸识别可以作为一个辅助,比较好的解决商业银行识别的需求。目前已经有了一些业务应用的结合使用,英国有一个银行是完全的互联行,它的机制就是通过人脸完全,通过刷脸,当然它也是结合了声音两种方式,可以非常简单的完成,这点目前是国内微众银行的瓶颈,目前央行不允许这种业务。来看,随着人脸识别技术不断发展跟其他技业务,对于无论是互联行,还是传统的商业银行都是非常大的契们银行作为私有云的部分存在这就是我今天的内容谢谢大家:提问人脸数据都要在系统云端。怎么防止到时候人脸库到时候被偷库第二个问题,现在像VR术的发展,很多VR备是可以通过视到的是真实的人脸,还是VI虚拟出来的人脸,对于这种的,王晶在银行的数据中心本身都有很严格的要求,不会存在整体的提问人脸识别能不能做成并不需 你 图像,而只需要特征就可以完成识别和认证王晶考虑。比如说我们对VIP客户的识别,很多人来银行办业务,想识别的做法是对于这些不做,在级别中做特征值的。比如说VIP客户来得人只是通过特征值的方式进行对比不会做提问是像UK上面的吗王晶这是我们专有的设备,它有和计算,这是专门做的你说的第二个问题关于VR或者是其他的方式,目前我们也在探讨一些类似3D像或者是红外的方式,它的成像究竟是一个视频,还是一个物体,或者是有温度的人面做,而不是虚拟的一段,一段VR影像就可以通过的。提问你好,问一下这里面像是的检索,我输入一张进去,把相似 检索出来。你刚才提到深度学当中的用因为深度学习参数规模是很大的在这里面是怎么处理的呢?因为我看到有图象识别集群是不是已经做了分布式的方法,现有的框架用了哪些呢?王晶西有些可能涉及到商业,只能大致说一下实现思路。比如说对于人脸的检测,包括深度学习来实现特征的检索,如果对这些感的提问你好问一下是不是你刚才讲的人脸识别检索分布式系统,王晶可以这么说提问以后有没有类似提供一些API或者是合作的可能性王晶提问因为我看到也有其他的公司在做人脸识别解决方案,的优势王晶:谢谢几位踊跃提问的同学,也谢谢王晶老师的解答,现在我下面即将开始我们今天下午的第二场,大家应该都有滴滴出行的APP,反正我现在已经离不开滴滴了,以前晚上打车的时候经程生产力团队研发技术总监齐贺老师,他的题目是《用数据驱动齐贺大家下午好这个部门主要是为了提升滴滴运转效率所组建的。今天要跟大家在始之前先了解一下在座的听众大家来自于哪儿,有来自于互联网的吗?有来自于移动互联网的吗?大家有坐过AB测试或者大家有产品和技术,涉及到AB测试场景的同学有多少呢?我相信今天听完我的会有一些收获这也是我们滴滴在实践AB测试将近大半年时间里面,我们所做技术上的沉淀,以及我们踩过一些坑,希望大家能有所收获。先看一下大纲,首先给大家讲一个故事,就是发生在滴滴APP里一些相对通用,大家提及的方法。再介绍一下滴滴数据驱动平台产品架构,以及对应的技术架构。最后给大家一些真言,如果你做AB测试,你通过AB测试拿到某一些数据辅助决策或者直接产生决策时候,你要注意的点非常重要,最后是其他的技术我们先进入第一个,左侧这张是我们滴滴APP的截图,这是去年截图而这张截图是由我们的大截的当时在APP工具里面,他把这张放上面提了一个问题,为什么我看到的车的数量少了,很迅速,这时候有一个PM跳出来说了,程总是这样的,我们最近刚上了一个应用,通过一些算法的匹配,找到对于打开APP的用户来讲,为一个重度用户,我首先的感觉是不安全,是不是滴滴都跑了,很多车,但是结合很多条件,比如说的接单意愿,所处的位车好,或者什么样一个数字是最好的。包括,他也没有说我们要滴滴APP面开放给用户。我说一个背景,滴滴APP大家基本上都用过,它的发展时间其实披露的信息。比如说321号我们订单首次达到了一天综合1000达到了88.4,日均订单量占比84.1%,截止到现在我们仍然有很多竞,这个模型是好的模型,适合按好的策略匹配。如何证明通过或者是AB两种方案里面哪个更好测试一下在西二旗这些用户,这些功能我希望先从5%还是,如果效果OK的话我再逐步转全的场景之后,先跳出来,我们了解一些相对基础的概念,这对接比如说我投放到,我们把人群的属性做一个抽象。比如说时间,接下来我们再看另外一个概念,可能这个词汇听的一些,我然后是ABAB一个变量,某一个按钮的大小、颜色、位置等等。当然这个变量的调节,放在一个大型的APP里面或者是产品里面,它会对用户的行为产能要优于另外一个方案,然后再借助灰度发布的逐步转权,实现要找到一个优化指标,我们通常在内部叫做KPI,你要优化什么样的比如说最常见的使用配置上线的问题,在于它的周期比较长,全,大家知道隐含着很大的,即使你延后了半天上线,有可杂的时候,这种方式经常捉襟见肘。我希望要一个20到50岁区间的样的用户,它必须要建立服务之间的调用,来检查某一个人在不特别像苹果IOS产品,通常情况下你把包丢到Stroe里面,你需要灰它描述成一种功能或者是我们经常用的PRD形式,在由开发人员、测试人员,把包拿到,最后由对应的OP同学部署,同时发布就做了,这是非常常见的情况。为了应对我们刚才提到灵活的发布,我们希望高效短周期的方式支持灰度发布或者是AB测试举一个例子,比如说就是有一个特别纠结的场景。首先从1%开始测试一个模型,没有问题,再扩大5%,再到50%,但是刚到50%觉得数据不是特别好,怎么办?先回到20%观察一段时间,如果你把发布环节单独拿出来做,意味着在一个平台或者是一个开放的API里面完模型这个过程如果你把发布单独做的话意味着你的流量细分,当然很有可能,这个验证是没有什么用的,你怎么挑选变量依基于这个想法,有没有这样法,它像一个开关一样,然后当署一个版本的时候,它已经具备了两个版本的能力,只是在我端返回实验的变量所决定的。比如说我们做一个按钮,一个红色在我们看到的,我们希望有一个功能或者有一个实验,它投放在市。但是它又不在国贸地区,当然原因可能有很多,苹果,二十到五十岁之间的,在3月1号到3月20号早晚之间投放某过不同语言的SDK来拿到对应的开关状态。端上的人只需要写对应红基于这两个在产品上的设计,我们把一个完整的过程进行描这个配置发布到服务上,由服务提供这样一种匹配的能力。因为滴滴有很多的语言,在端上还有IOS、安卓和H5的页面,不同的业务场景使用不同语言的SDK来加载我刚才提到的直接匹配的结果,能会看到不同的行为。这时候它会表现出不同的动作,比如说点击愿和留存。这些东西通过一些日志收集的工具或者是,就可以流署上去,整个后面的过程,比如说算法的同学、产品的同学或者是BI一系列对外的服务。比如说我们有给产品人员或者是运营人员、BI人员提供的UI,他可以在平台上进行配置逻辑语或者是非等这些逻辑的打交道,比如说用户的系统。它会帮助我们提供用户的分段区在不在当然还有帮我们做用户ID的反解很多操作都是在这个环我们最的部分比如说通过我们的UI或者是通过开放的API,一样要定期检查或者是重传等等这些机制。它把配置分发在哪儿呢?分发在我们提到的服务,主要响应的是一些APP请求。当然延的要求提供不同的方式,当然最的现在我们正在开发的使用共服务定位以后,在左下角这个层,我们提供了各种语言的SDK,容错,比如说A政策挂掉的时候,我们的SDK要拦着,如果它挂的话原则上不应该影响主业务。SDK抓到异常,我们会做一些及时的在使用SDK以后,它形成了不同的用户行为,会通过各种各样的直至收集工具,我们对应的计算模块会定期的,因为它有不同的时间策略,有一些可以天或者更长级别的数据。我们的分析模块,主据扔到这里面。包括对不同唯独的数据进行对比,来方便不同的业务场景,大概的过程就是这么几个系统来组成的。刚才我们一开始给大家卖了一个关子,就是车标的实验。首先们这个实验设计是在广洲、做的,当车的数量大于十辆的时候,有多少展示多少,它运营的指标跟专车、快车比较的业务指标,因为有不少同学其实也做过实验,说一下我们在做这个平台第一个是实验碰撞以前我们最简单就是拿号的奇数和偶数,一个实验没有问题,两个实验个实验,实验的时候,问题就会产生了,我们内部叫做实验碰撞。对于号奇数的用户来讲,如果有三个实验,它会匹配到A1、B1和C1,它最终的结果是A1+B1+C1,这块有什么问题呢?我做A验的PM能他看到的A1、B1、C1大于A1+B1+C1。其实引申出来一个问题,你怎么样来做百分比的分桶,者是做实验,所有的东西都是在尾号第一位的1到5这几个人来根儿不会被灰度,这个实验很简单,你拿号的最后两位,比如说01920%这个很容易出问题两个灰度两波人会被同时圈住。还有并行实验,如果你在物理上希望把每个实验进行,资源的上么实现并行的时候怎么实现,这里面我们的方式,大概是这样一个实现,用户有一个标尺。比如说设备号或者是用户ID,我奇欧也是实现幂等的方式。用户在这个时间里面他是1%,在另外一个时间里面他可能是99%到100%的区间里面。并行实验和互斥实验因为它把分桶完全打散掉了意味着A1和A2,对于B1和B2的影响是均衡的,从而把这种方式扣掉了。怎么实以实现。我要做这么一个实验,A组、B组,对应的是60%,当把A组扩到30%的时候就有问题了我们拿号取下面的人群大家可以看20、20、60的比例,从B组挪两个人过来,这就实现了30:20:50的结是因为你在做实验的时候,你希望看到的A和B,它们彼此和实验主体是双盲的,这个时候你把B组的用户挪到A组,这个结果作为在较好理解,我对B组不做任何的变化,这个就会转化为一个问题,对决策的,如果日志,打的乱七八糟会有很多的问题。所以我有一些日志的,比如说你怎么样做连接和。然后你才能的系统,还会做行为分析,或者是一些分析定位等等,这些东西当然要考虑新鲜期,你可能要放到两周甚至更长的时间,你才能达面的东西,你要考虑犯一型错误和二型错误,让他支持A组和B组的最后一个是其他应用的场景,比如说主干开发,所有的家基于做开发的时候,我要上线,有些功能没有完成,我把功能进行里面说一个点。其实我们的乘客赫斯基,我们经常做会面对这样一个问题,就是资源共享的问题。比如说我对的百分之五十的司机做实验的时候,有可能它的倾斜会导致这50%的用户另外50%的订单,但是在AB测试里面,假设它们两个彼此不受影响,做类似这还有模型训练对比,我们可以实现新跑出来的模型能够第一时:再次感谢齐贺老师,由于时间关系,现在我们只问一个问题提问问一下,刚刚我们看到功能开关通过SDK的状态位来判断开的两段代码做对比,而是我把代码A改成了A+,这种代码修改的增量齐贺,,提问这个对于我们的开发者提出了开发模式的要求齐贺现在新旧都要测提问我们看到的都是代码级的AB试或者是代码级的灰度发布,我们刚才说的阿平台有没有做到支持零开发资源介入纯业务方的调有可能用阿平台在运行时动态调整UI上面的东西呢?齐贺提问个UI统是指功能调整的UI,还是说条件创建和调整的UI。齐贺面要加对应的实验分组,只要它的代码能解释实验分组的变量,它提问性的看一些指标。当做一个实验的时候,我出一张新的报表,这个报表是需要我BI门支持,还是在这套系统里面业务方可以齐贺但是有一种指标需要在事后算比如说追订单标这些东西要BI一个一个接,接完之后其他人可以实现订阅了,这是的成本。提问,我们刚才说的是常规的数据统计我们做AB测试的时候所,齐贺那当然了,其实刚才有一个细节没有讲,SDK在实现分组的A或者是B,在计算的时候只要两组信息进行照应就可以了提问整个滴滴上线第一天就支持这种对比还是说后面改造的齐贺去年十月份改的提问整个一套都改掉,是天生支持对比,还是一块一块的齐贺:谢谢齐老师耐心的解答,下面我们休息十分钟下面我们开始第三场的,她是腾讯高级工程师田兰老师,大田兰大家好我是来自腾讯游戏的田兰,今天我给大家的是在关于新技术第一,数据之困第二,数据服务产品化探索第三,iData数据服务团队的介绍部的中心,主要负责游戏数据、传输、统计分析和运营支持。在腾讯游戏十年道路当中,数据曾经遇到过很多的和,当然发生在2010年,这一年有什么重大事件,就是我们的页游爆发,这里面我们可以看到整个新游接入量是此前N年的综合。我们页游保持高速增长的趋势下,2014年整个新业务接入几乎在2013年的基础上再这个标准化平台,我们也取得了一些成绩,可以很好的为游戏行数据的服务但是到了2014年手游爆发的时候我们发现仅仅效率的提升并不能满足游戏的需要,游戏需要我们数据团队能够提供产品化的进程2014年我们整个团队从平台型的团队转向了产品方面有的需求。由于游戏数量的大增,我们整个游戏运营的从业人员也增加了,这对我们的运营平台提出了的要求。比如说运营2014个腾讯游戏服务数据团队,也对我们数据服务的产品化做了探索,我们怎样进行团队的。首先我们来看一个问题,它是关注我们运营结果这一部分的用户,它可能的是看数据内容,以及可视化的结果,它通常是什么人呢?我们的、研发、策划运营,这一部分在期满足的比较好,从需求的效率到结的呈现都能够满足我们游戏运营的需要。但是在2014之后有很多担的职能是进行数据抽取和计算帮助游戏改善游戏的品质,当游戏进行全量运营之后,我们的运营人员关注到精细化运数据服务当中比较少涉及,这是在数据产品期间对我们提出更高的。我们的数据是怎么切入的呢?游戏的精细化运营,它通常是围绕我们用户的生命周期来进行的,用户的生命周期就是从到留存。我们大致可以划分为五个运营场景,比如说玩家之前我们有到需要干预的用户,并且为它做出一些运营的决策,帮助我们达到营的目标比。我们通过从各个来的用户考量它的生命价值,来我们拉新的质量,这个也是重要的指标。比如说在拉回流的时候,我们我们可能需要考虑的问题,在这些我们希望把有效果的运营分析、报表浏览,的数据详细的分析,再到用户触达干预过程又回到,在这么一个循环的过程当中,不断的调整我们整个腾讯内部的游戏服务,目前应该有两百多个大中型游戏。iData数据把它分为五个阶段,新进、留存、活跃、、流失。然后我们通过我们通过数据上报与指标设计,来完成和,数据管理、抽取和可视化的呈现。再通过数据分析服务支撑的分析平台来完成我们的分析的计算和的可视化。最后我们再通过运营知识服务来支撑数据平台进行投放的管理,以及数据的应用。大家看到这三个平台对应到我们看的个服务生态下,我们需要有一个系统来支撑。iData有这么一套数据服务的架构来支撑我们服务生态,它主要分为四个部分,传输、计算、分析服务和数据应用。在计算部分使用到腾讯的分布式数据仓库,以及我们自研的不是计算平台,以及我们的计量施分布平台,共同支撑我们整个分析服务的计算在分析服务层,通过刚刚的计算服务来支撑什么样的服务呢?准用户的获取过程,以及用户的分析,我们可以关注一群用户,他们在某一个时间段内,在游戏类各个方面的表现,以及分析,的详细信息提供了一项数据服务,由我们的计算和分析服务,共介绍一下三个平台,数据管理平台,分析平台和数据平数据管理平台,如果我们从流程来看,、、抽取计算、理超过200大众型游戏的数据,每天新增30T的数据量,通过我们采刚才提到闭环服务,除了我们提取以外,我们还会做度量标的逻辑。比如说充值用户数,总充值金额,这些度量指标,它的算法,我们会将它进行逻辑,这是为了后面我们在分析的不断提升我们的效率,我们做的报表,把报表做的更快、更好看分析下来。我们会有玩家的ID、大区金额是纬度信息,比如说总存运算,它的规则比较复杂,这时候我们会结合一些计算的APP来比如说分析立方体的数据源,我们数据服务,我们上需表系统,这是一个小,这是可视化报表系统的界面,我们可以选还看一下我们制作报表的过程,怎么来简单制作。其实现在在iData的报表供我们使用。它偏向于传统经营分析系统的部分。第二部分是分析平台部分这个是在产品化进行过程当中最重要的部分,比如说我们一次运营的过程可能通过一个开始。比如说我们在手不断的圈定用户,我们圈定所关注的用户,对用户进行趋势的分析,针对这批用户的分析,这是游戏类较为全面的表现,可能包含一百多个指标,我们还可以对这个用户进行的分析,这个完成这个过程。比如说我们的目标是要找到二月充值10QB的用我们分析的过程可以实现,这是我们分析的功能。然后是用户,从多个纬度同时展现玩家的分布,这是寻找不的分析,我们可以使用一个热度分析,来综合展现属性在交叉结果上的热度分布我们看到的例子QQ等级和QQ交叉分析结果通过这样的热度图,我们可以快速找到需要干预的目标群体过一个来看一下。这个当中,我们可以感受到提取用户的速度很快千万的用户基本上10秒钟可以触包数据准备的时间不会过10秒钟,的分析数据的可视化操作,它的响应时间小于3秒,在2月份有新增用户的用户,选择在2月曾经活跃过,在三月不活跃的用户就流失掉了。我们发起和分析,我们一个月的时件,以及我们可以这批用户或者我们在腾讯内部有帐号转换的问维分析部分。我们首先看到的是用户的分析,左侧有一个用户的关键数据的展现,右侧是用户自定义的。我们在当中选择用户我们可以看到它其他属性的变化。我们再选一个省的用户,我们可以到条件是省,我们可以一个。当我们保存以后,我们可以在处看到男仔占10%的比例,以后我们再填充其他的包可以随时看到这个规律。现在是我们在分析,我们可以根据不同的纬度选择它的时间段,比如说1219的用户,我们可以看一下等级分布,这个在目标比较刚才提到了分析,帮助我们精确找到目标群体。我们客户、、游戏等级,通过这个图我们可以看到流失用户集中在到19等级在四到二十多的用户我们把这批用户获取出来进行精准化的干预,完成以后我们还可以对这个效果进行一次的分析,刚才看到这些,在我们iData服务结构里面还是做出了很多的努力,才能达到分析的效果,而这里面有一个关键点,就是我们的体验和成本的平衡,我们在整个数据分析的过程当中,我们会做一些什么小的设计呢?我们整个流程是传输纬度清理预处理、宽表和客户的生成。比如说用户常见的登录、行为,低频指它分为高频和低频以后,我们对高频指标做一个操作,这个数据进行纬度系列化的,这个是为了提升分析的计算速度。在我们分析里面,比如说在提取当中,我们基本上提取一个常有意义的。在我们的平台上,每天有几百人使用这样的分析系统在分析当中,我们只需要花十到三十秒的时间,这是视用户的群体大小而定来计算一天的数据,大概有一百多个指标,包括游戏这是我们分析平台,这是精细化运营承载的平台。我们一方数据就是我们提到的数据应用部分,我们所有的用户干预,分就是我们的管理,比如说在腾讯内部有腾讯信鸽,通过我们的样的。投出去以后,其实我们更关注的是落地的效果和页面,对用户有没有我们在这里面能够帮助运营人员来完成什么事情。比如说帮助运营人员识别玩家的,以及提供给玩家个人的信息,来帮助吸引我们的用户,这是我们在数据这块,我们可以在数据上面发挥的能量。比如说玩家识别,这是一个规则库,一个新用户登录,游戏可以根据的结果,对我们用户采取不同的新手引导方案。当用户触发这个,我们还可以记录下这个信息对他进行的效果群体采样10%的用户保留到旁边,我们通过两种不同的方式,把效做对比评估,这些在我们系统上是现成的方法或者是工具及世界的,或者在游戏世界整体宏观的数据。整个玩家有多少个战队,战队表现怎么样,这样的信息目前只是用于活动的推广。我们有一个赛事活动我们需要上做推广,比如说这是2015季的宣传,里面会提及我已经进行了游戏的总场次多少场,我比如说游戏榜,因为它对数据的计算要求比较高。原来游戏内都是以单服来作为纬度。现在我们在数据,其实可以利用大数据的技术做到数据丰富的呈现帮助我们把数据再重新做回到游戏内,需要调用信息就可以了,帮助它来验证效果,更则。想要的指标,不管是或者是数字都可以。我们在帮它生成出果更好的用户,帮助游细化运营,不断的重复数据处理、分析和数据触达的事情,这是我们iData所做的事情,今天的就到:谢谢田老师的,现在是QA环节,大家有什么问题吗提问你好,问一个问题,刚才关于分析,因为从刚才的讲解看,分析从前台下发的条件,应该是用户可以各种组合,各种自定义的。如何实现前台页面提交完之后,快速的查询、过滤、汇聚台展现出来,能不能更深入的讲解一下,包括数据的预处理的过程,以及数据是怎么的。田兰我可以简单介绍一下这个过程,现在我们整个分析数据,我们会将我们数据首先做一个位图序列化的处理,它适合我们快速的过程,最后帮我们的数据通过的服务处理返回到前端。具体细节,我们会让相关的同学跟你一起交流提问你好,问一下你刚才提到位图序列化,这个是在度下的田兰它形式,简单来说位图处理,我们再处理过程当中通常都0、1来计算的提问比如说用户的留存和回访田兰这一套在我们经营分析系统当中有应用,我们以前可能是属于:我们再次用热烈的掌声感谢田老师现在我们掌声有请,搜狗搜 研发部高级研究员叶祺老师大家带来《星辰系统百万量级细粒度查询意图识别》的叶祺大家好我刚才说的背景,实际上我是做搜索的。它的其实就是和高频以很高的精确性,从而为后面的和相关性特征服务。下面是一个现在我们讲一下动机和目标我们的搜索引擎,特别是搜索的现状,搜索引擎主要是基于关键字匹配的方式出,客户会买很多,并在上面投不同的价格。但是这个时候会有问题了客户不能投很长在学术上来说我们要牵涉到,很多。比如说微软亚洲,他们会有专门的讨论意图发现会非常稀疏。现在我们的搜索引擎,主要是基于在搜索中是基于征,我们就很容易有很多的生成。一是用户的搜索体验,大家会说这个怎么这么烂,还有一个对客户造成很多无用的消耗一旦用户误点击进去以后,我们是按点击扣费的,会对它进行,客户也不满意,也浪费我们自己的位。缺乏相关性是最重要工业界的。我们会讲一些我们认为的系统,这个肯定是行业的标它把发现的聚类称为概念它会基于Bayesian络的推断方法我研三类,这里面的意图发现,可能还会包括短文本,包括它们有时候对意图的识别,他们可以用类似的方法。总的来说,我们可以把比较广泛的是TopicModeling,聚类这种东西可以发现,只要你的方不同的训练数据集上跟我们以前的Topic相对应,这个在工业界是很需要的。因为我们会基于以前的Topic,我们认为以前在这上面已经2014个Topic方法,它在短文本分析的情况下,它的精确性不足。其实我们在用它的时候,我们也会发现同样的问题,只是当时我们很多相当于大家在做这个事情当中口口相传,没有看到过正式文件。为你说我搜一个数码相机,你帮我一个电器类的电饭锅肯定是不Query级别的,因为它是基于聚类的,所以它不再是短文本,而是相对较长击日志,我们会对它进行数据清理。我们会在同点击网络当中抽出Query间的贡献关系,这点大家的思路比较像。最后,我们会会对Query聚类进行一些优化、命名,以及一些短发了项的方法。其实我们这个系统当中,能够达到比较高的精确实际上是相似的。我们一旦把这种查询意图相似的Query连接起来以后面我们会发现,以前在图上做聚类十年代的算法,他们当择应该是当中的一族,我们发现在图挖掘当中社团发现算法,我们我下面给大家讲一下,在图挖掘领域,什么叫做社团发现呢 教授和他的学生Girvan提到这种方法来挖掘实际的网在08年左右又有一个意大利的教授说,这个目标函数并不是越大越好,可能它在比较大的时候挖出来的比较好。它提出来一种情况做多解析度模块优化的方法,我们把它简称是MMO,这个算法我们并差不多,它会略好于我们。须告诉大家,在实际的网络当中,有很多小的意图在里面,可能很多Query都是指一些意图,然后会很多很小的Query,其实它是其他意图的变体是迭代的算法也就是说它可以放在Hadoop的环境当中运行它是近们真的用它来抓Query,实际上这边我们应该切开,这边也是切开,很多小的也是应该切开的。所以就在这篇上面,他们用自己的方法做了亚马逊同的数据,他们发现最大的里面什么都有,可能也有一些的光碟或者是书。但是我们用这个方法,其实我们发现做下面是我们的日志,我们用两年的点击日志,这个规模是要实际上是1300Query。如果他们在URL当中有同点击的话,我们会连一条边,最后我们可以得到Query的同点击网络,在这个网络里面有1300个查询,我们可以放在算法上面跑。我们在做很多问题的时候,如果它的很多意图交叉在一起,这就算们还需要用一些短文本相关性的方法来定义,这个F函数是我们自己开发的,做出来的概率函数。Queryq和QueryS的相关性,我们可以两两之间的Query我们也可以给它算一下也可以打出相关性分数,净的Query聚类。下面要做的问题是,我们要把Query意图发现的问题,把它变成大规模多分类问题,把一个Query靠在最相关的,我们还有一个是我们是不是要前面的分类结果。给定QueryQ项量的时候,我们要推断出在一百多万个意图纯净我们得到最相关的方法的时候我们会把它当成是候选的概念,在Query的文本相关性,这个时候我们会看在Query面,它们中间交际的那部分特征Query身所有特征的覆盖率,我们打出01中所有的Query和自身平均的相关性分数,如果只有在这个相关性分数上面,新来的Query和他打的相关性分数超过自身相关性分数的时少数聚类,就是精细化的聚类,它的个数会大于1个,这类聚类,们检查过是没有错的实际上这种大于一万的都是和相关的聚类。这是我们刚才所说到的方法给每个聚类打分,效果基本上大于们刚才所说的方法,我们的准确率可以在97%左右,覆盖率大概能够覆盖到60%多,其实我们在后面讲到具体应用当中,我们还有一些准确率稍微有一些下降,但是它的覆盖率可以到70%多的方法。实际上这个图我们追踪的是双11的时候,连绵的每个点是我发现的用户意图点越偏向于红色表示用户在双11期间越倾向于搜索这些东西。其实我们会发现,在这个概念网络当中,它的实际现商品,大家比较感,这里面大家搜的羽绒服,以及和季节相关的小孩的棉衣,以及皮草,还有化妆品和衣服。我们还看了,苹果和三星,我们估计在双11的时候,它情况,这当中会有比较红的点,这块就是的皮草之类的东西,这是和季节相关的。当我们把这个PPT打开细看的话,大家会发现在10号和11爆发了很

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论