万字干货:越过18个让数据变成谎言的陷阱_第1页
万字干货:越过18个让数据变成谎言的陷阱_第2页
万字干货:越过18个让数据变成谎言的陷阱_第3页
万字干货:越过18个让数据变成谎言的陷阱_第4页
万字干货:越过18个让数据变成谎言的陷阱_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、编辑导语:数字化时代,数据深深地影响并且改变着我们的生活和工作方式。在享受数据为我们带来便利的同时,我们也要警惕数据这把双刃剑隐藏着的一些陷阱。本文作者为我们总结了 18个会让数据变成谎言的陷阱,希望看后对你有所帮助。数据在改变着当下的世界,但同时它也蕴藏着巨大的陷阱。在数据还叫统计数字的年代,马克吐温有何名言:统计数字经常欺骗我,特别是我自己整理它们时。针对这一情况,有种说法十分准确: 世界上有三种谎言:谎言、该死的谎言、统计数字。 ”生活中,我们已经听过太多实现数据掘金,赚取巨大回报的故事了。但实际工作中,我们自己处理数据时,它却很容易成为马克吐温口中的谎言。而身陷这个巨大谎言陷阱中的我们

2、,往往后知后觉,浪费了很多金钱和心血。为了让更多的朋友不在深陷其中,中士哥根据自己服务过的 300 多家企业,上千个数据分析项目的实战经验,总结了 18 个让数据变成谎言的陷阱,让你能提早防范,并给出了逃离陷阱的建议,希望你能喜欢。在分享者 18 个让数据变成谎言的陷阱之前,我们需要先看一看完整的数据分析工作大致是什么样的,通常有5 个步骤:做成这 5 个步骤,很可能会遇到如下 18 个让数据变成谎言的陷阱。在如今这个网站、APP、H5和各类小程序,共同构建在线业务的年代,选个现成的数据分析工具一接入,获取的数据就能满足数据分析需求的情况还有吗?有!但太少了,少到我不得不告诉你,也许你们的在线

3、业务发展空间很大、很大、很大。在如此复杂的在线业务面前,我们必须先做一些必要的规划工作才能有效的量化业务,绝大多数第三方公司管这个过程叫一一指标体系搭建。(PS:包装的真好!)我们看一下这里面有哪4 个陷阱,及如何应对他们。统计口径不统一是指:同一个指标每个平台得是一个意思,否则不同平台的数据对比也好和汇总也罢,意义都不大。以阅读量为例,见如下表格:虽然都叫阅读量,但这仨货明显不是一个东西,直接对比三者毫无意义。汇总三者顶多知道打开次数至少是三者之和 和 可能真的阅读了的次数至多是三者之和,得不到什么确切结论。为什么会出现统计口径不统一的情况呢?一方面是因为,这么多平台,大概率是不同人运营,难

4、免会有差异,统一起来需要时间;另一方面是因为,互联网行业还没有统一的行业标准,没有统一标准人员流动小也可以,至少可以自成一派,偏偏互联网又人员流动性大,总是你方唱罢我登场,就没个统一的时候。写在应对建议前的话:如果你就是想割资本的韭菜,那看过上面的内容,你可能就把 “阅读量 ” 的统计口径统一成刷新+1 了,我想劝你善良,但估计你会选择性失聪,所以,我就不多说了;如果你是要接盘的资本方, “阅读量 ”是不是 “虚高” ,也许你刷新一下就知道了。不扯了,进入正题。陷阱一的应对建议,这是一个管理问题,管理问题管理手段才能解:PS:想看现成的名字与含义相符的、全平台适用统计口径的朋友,记得留 言告诉

5、我,并关注及时查看更新,让你成为圈子里最像数据专家的那个人。大数据已经聊了快10 年了,完全不做量化的基本没有了,但量化不完整的,还是屡见不鲜,让人甚是惋惜。例如:一个购物流程是:活动页详情页购物车结算页订单页 支付页 成功页, 7个页面,但只有活动页、详情页和支付页进行了详细量化,其他页面没有量化。这些页面就成了 “黑盒 ” ,我们根本无法了解到底发生了什么,也就没法凭据十足的制定优化策略,更谈不上推动我们希望的优化方案落地了。再举个栗子:一波广告活动,要投放很多渠道,但有些渠道没有详细量化单元、计划和素材;结果只知道总转化,却不知道具体哪个单元、计划和素材效果更好,这事成 “黑盒 ”了,没

6、法把好钢用在刀刃上,提升投入产出。为什么会出现部分业务并未全面量化的情况呢?一方面是不同平台业务流程并不完全相同,且很可能是不同的产品经理独立迭代,不同平台间有差异的地方,就特别容易在量化时遗漏;另一方面是虽然大家都能意识到可能存在这个问题,但这个事不是任何人的 KPI ,且都已经996 了,谁还有余力做 “分外 ”事呀。陷阱二的应对建议:归根究底是这事没人负责,找能负责的人来管。注意,这里分产品里的业务流程和广告投放两部分。PS:先找负责人,再说怎么推动,否则就是踢皮球,无解。一切不与财务数据挂钩的业务量化,都是耍流氓。我们看看下面这组数据:这时,多数人会判定 A 渠道的价值更高,但加上一个

7、成本数据后呢?现在,你觉得哪个渠道的价值更高呢?再加上收入看看。你和你老板说, A 渠道转化率是B 的 3 倍,他不一定会有反应。但你和他说, A 渠道的成本是B 的 4 倍,他很可能会皱一下眉。要是你能再告诉他, A渠道赚的钱是B 渠道的 5 倍,且成本不到 5 倍,相信他会觉得 A 渠道比 B 渠道好。这个场景只是些基础数据,但你应该能感受到,不考虑财务数据的量化,其实没有什么价值。任何一个财务数据的加入,都可能改变最终的分析结果。陷阱三的应对建议:量化的时候,一定要和财务数据挂钩才全面,后续的分析才有价值。哪怕你是toB 或者大 C 企业、单价高、线下成交,也要做这种关联。虽然,中间经历

8、了很多环节,成本容易被低估,收入的归因可能不准确,但好过不做任何关联。凡事过犹不及,与财务数据挂钩是必须的,但掉进钱眼里,是会赔钱的,尤其是那种用户不直接在你这里花钱的、通过广告变现类的业务。我们以曝光计费广告为例,了解下为什么。我们先看下此时广告收入的指标拆解公式:广告收入 =访问用户数* 日人均访问次数* 每访问浏览页数* 被访问页面平均广告位个数* 曝光单价。一个垂直内容社区朋友的真实案例是这样的。他认为:前3 个指标只要坚持做优质内容就会持续上涨,最后一个指标主要取决于竞价,他只能接受,需要专门提升的是第 4 个指标 访问页面平均广告位个数。他的策略简单粗暴:把页面做成了满屏广告的那种

9、。你肯定见过,能想得出来那有多烦人。结果,单价大幅上升,前3 个指标初期下降不多,总收入短期内上升了!但随后是持续的下跌,那种广告位减少了,都无法挽回的下跌。我们事后总结,发现刚开始还有些老用户不知道已经满屏广告了,所以初期下跌不明显;但当老用户都知道广告太多时,他们就不来了,也不推荐了。陷阱四的应对建议:要注意指标间的升降关系是否存在关联,如果本来就是不能同时提高的指标,即使他们都是乘法关系,也得舍弃一些。PS:在非无限延长的页面上,被访问页面平均广告位个数与访问用户数、日人均访问次数、每访问浏览页数三者间的关系,大体符合:广告位从0到 1,三者下降很大;广告位从1 到某个数字,三者变化不大

10、;广告位超过该数字,三者大幅下跌的情况。无限延长的页面上把一定的屏数当成1 个页面,也有类似有趣的现象。量化这部分聊完了,我们进入 有数。当我们根据指标体系把业务不重不漏的量化并与财务数据关联后,如何在技术和项目实施层面,真的将数据采集回来,就成了最重要的任务。毕竟,数都没有,你还分析个P 呀!在这个时候,很多企业发现自己从咨询公司花费重金建立了指标体系之后,却无法落地、无法产生效益,觉得钱都打了水漂,指标体系毫无用处。但这并不是因为指标体系搭建这个量化过程有什么问题,而是数据采集涉及了太多的技术、认知和多方协作的问题。稍有不慎你有的数,就成谎言了。下面和大家分享有数阶段5 个最常见,且危害最

11、大的陷阱。指标体系搭建时,统一制定了用户 ID 的统计口径,写数据采集代码时,不能用中文,你觉得不同程序员会如何写用户 ID 呢?以下是真实案例:5 个程序员都认为自己是在采集用户 ID ,且它们的发音都一样。但在系统计算数据时,会把它们当成5 个不同的东西,因为系统只知其名,不知其意。陷阱一和陷阱五很像,但有区别;陷阱一是同一个词、写法相同、意思不同,陷阱五是意思一样、写法不同、电脑程序认为不是一个东西。陷阱一容易识别,陷阱五隐蔽性极强。因为如果只是语言沟通,很可能所有人都觉得彼此相互理解,但一回数发现大家做的完全不是一回事。陷阱五的应对建议:统计口径汇总表表头,一定要有英文名这个字段,且要

12、有各平台该数据实际采集字段名的记录,并且这个记录动作要发生在实际采集代码撰写前。PS:这样做是否一致,就像上面的表格一目了然了,且此时通常是程序员们先发现不一致,数据计算会存在问题,就自发统一了。PPS:说远点,建议大家在做需要跨多个部门和工种协作的工作时,一定要写下来,让不同部门不同工种的同事看理解是否一致。不同部门不同工种的人对同一个词和用一个音的理解,千差万别;写下来看看,起码可以避免同音不同字的情况,导致的差异。这里主要有3 种情况:1)混合开发的APP,不打通结果是:用户的真实行为是:在原生页面A,点击能到H5的链接,到了H5页面,在H5页面点击能到原生页面 B的链接,到了原生页面

13、Bo你监测成了两个用户,小明和张三:小明在原生页面A 点了个链接,很久后出现在了从A 到不了的原生页面B 上;另一个用户张三,突然出现在打开APP不能直接到的H5页面上。2)跨平台(如:APP和微信小程序),不打通结果是:用户的真实行为:在 APP 里分享拼团到群里,然后通过分享入口进入小程序,在小程序里完成支付。你监测成了两个用户,小明和张三:小明在 APP 里分享之后,啥也没干。张三通过小明的分享进入小程序完成支付。PS:其他跨平台也类似,会监测成多个用户。PPS:你想想如果上述例子中的 APP还是混合开发的,也没打通,那数据 会有多么 “精彩绝伦” 。3) 一个人同时使用手机+电脑+pa

14、d访问同一个公司的网站、APP和小程序 是很常见的现象这时候,不打通的话,至少算3 个人。陷阱六的应对建议:使用相同的账号体系,让各平台统一把账号ID 作为用户唯一身份标识。灵魂拷问:我们公司APP、网站和小程序要分别注册账号不统一的,且永 远不会统一,该怎么办呢?答:鄙人才疏学浅,不知道有什么合法手段可以打通这种数据。有太多人问过我,不合法但能做到的方法是啥了,这种问答题了,我都选择性失聪。而问我不合法能做得到方法是不是啥啥啥,这种判断题的,我会回答YES orNO。但我劝你,即使是为了能睡的踏实,也别碰红线。简而言之,就是数据是下面这样的,不知道某个渠道的转化和收入。你别笑,我服务的企业不

15、乏月广告投放预算上亿的,但他们当中也有一半以上,刚开始的时候,不知道这个数据。80%以上的企业,我服务初期没有这个数据,包括很多拿过互联网营销大奖的公司。如果要的更细,比如, A 渠道某个广告素材的转化和收入是多少,我服务初期能拿出这个数据的也就2-3%。Why? !为什么会是这样? !这不是造孽吗? !主要是 4 种情况:前 3 种情况嘛,你永远叫不醒装睡的人。针对陷阱七里的第4 种情况的应对建议:PS:实现转化来源追踪,不同平台需要不同的技术,足够单独写篇文章 了。这里先挖个坑,找机会填。我们能追踪到的数据,一定比真实发生的要少!随便举几个场景吧:更不要说,数据接收、数据消费、数据存储和数

16、据查询,这么多技术环节,多多少少都会出点问题,只是问题多大、多频繁的问题;更何况还有个人隐私保护法案这类东西,这年头追求所有数据的绝对准确,可能你会被赠送一副连在一起的手镯吧。即使合法,即使技术上没问题,就要追求所有数据的绝对准确吗?数据本身也是有成本的:软件费、服务费、咨询费、硬件费、使用工具员工的薪酬等 等。陷阱八的应对建议:在合法范围内,有几个分析价值巨大的数据,还是要尽可能追求准确的:页面打开次数(无限加载页面可以一定长度算1 页)、账号登录次数(含自动登录)及其打通、来源追踪、收入和投放成本。我很能理解为什么这么多刚做数据采集的朋友想一次性解决数据采集问题,但应用开发的技术在不停升级

17、、变化,数据采集技术也在不断演进,只有变才是不变的!除非你的应用不在继续迭代升级,不再做任何活动页面,只扩充内容或商品数量;否则,数据采集就总得随着应用本身的变化,而不断调整。很多朋友觉得,起码首次上线解决大部分问题,然后,随着变化而变。我对陷阱九的应对建议是: “二八原则 ” 。很多工作中,我们都会用到它。优先采集那些容易产生效益数据,即:页面打开次数(无限加载页面可以一定长度算1 页)、账号登录次数(含自动登录)及其打通、来源追踪、收入和投放成本,后面根据情况补充。PS:如何更好地在数据采集时,用上八原则”提高效益,也是能单独写篇文章的。这里只说个思路:例如:你细分页面标题查看页面流转图,

18、发现搜索后付款的比例低于导航、推荐和运营位,那是不是可以考虑对搜索进行详细监测,看如何优化搜索功能呢?通常搜索后付款的比例不会是垫底的。做好数据采集后,我们有可以反映真实情况的数据了!那么,如何看数才能让人更容易从数据中看出门道呢?刚开始做看数这项工作时,我总觉得看数就像写文案,好像谁都能看得出来什么是好文案,谁都能写两笔文案,似乎这项工作没什么门槛,谁都能做似的。做多了看数工作,我更觉得看数很像写文案了,确实没什么门槛,谁都能做;但文案金句不是谁都能写得出来的,不是谁都能让大家把数看好的。我们来看看看数阶段的 3 个陷阱,你会发现避免起来,没那么难。但平凡中见神奇,把大多数人都能学会的事情做

19、到出类拔萃,却是最难的。我们不追求自己也能做出那些,让人一眼惊艳的数据可视化作品。但把数字做成图表,真的还不够;数据可视化要帮助查看者更容易读懂数据包含的信 息、甚至隐藏的秘密。看看下面这组数据:比较常规的数据可视化方法,就是做个饼图,表示构成比例:但一眼没看到图例的话,不容易直接意识到哪部分是男,哪部分是女。如果想一下子,把比例和男女,两个信息都传达出去,也许可以这么做:是不是一目了然了呢?我再抛砖引玉下:钱相关的可以用金币(甚至收入和成本用不同颜色)、省份可以用地图、设备占比可以用手机/PC/平板的icon等等。除了这些以外呢?根据转化流程增加指标,是个好方法,如下图:绝大多数人,应该一眼

20、就能看到,哪个来源是最特殊的吧!另外,两个坐标轴都平均数搞个4 象限,效果也十分明显,就不具体举例了。相信大家开动脑筋,能想到更多好方法,让你的数据可视化变得更容易传递信息,更容易让人看出数据背后的秘密。先走出这一步,也许你就会成为人群中,那个与众不同的人了。这是最可怕的,往往导致内耗巨大,很多亟需解决的问题没人管,看相同数据的人相互之间无限踢皮球,就是不作为,企业效益每况愈下。这事听起来像笑话,但总能碰见。为什么呢?主要是如下 3 种情况:陷阱十一的应对建议:有次和一位数据产品经理交流时,听到: “我们客户的需求就是,一个数据变化超过百分之多少,立刻收到一条短信或者微信,让他们知道! ”非常

21、典型的需求,你是不是也想立刻知道数据的实时巨变?但不是所有的指标都适合关注实时变化的。统计型指标、标量、累加的那种,比如:用户数、浏览次数、打开次数、访问次数、销量、销售金额等,在有大动作的时候,关注它们的实时变化,是很有意义的。比如,推广活动上线后,稍有延迟用户数就应该上升,没上升大概率是出了什么问题;再比如,做了个促销,销量应该上升等等。但计算型指标,需要做个四则运算的,都不太适合关注实时变化,比如,转化率、留存率、每访问浏览页数、平均访问时长、视频观看完成率等,这些数据关注实时变化意义不大,因为他们是浮动型的,可涨可跌。你收到提醒,焦急的去查看波动巨大的原因,发现它们又到正常范围内了。另

22、外,像留存率这种,最小时间颗粒度是天,看实时变化根本没有任何意义。终于到了直接创造价值的部分了!前面三个步骤,十二个陷阱,通常会占据数据分析工作80%以上的工作量,但大家感受不到他们的价值。那些工作的价值几乎都是隐性的,没有他们做基础,万万不能。但让那些付出产生回报的分析里,却藏着4 个是最容易让数据变成谎言的陷阱。近 5 年,在线广告的假流量占比持续降低,但平均下来占比也高达30%,虽然假流量的比例在逐年下降,但即使是最乐观的估算2020年这个占比也能到四分之一。而某些重灾区,这个数字甚至会超过50%,更有甚者超过80%。这么大的比例,不剔除出去,数据分析还有什么意义!为什么会有这么大的比例

23、呢?首先,造假的直接成本太低。机器人假流量的直接成本很低,是真流量的千分之一!即使是那种技术含量很高,很难识别的机器人假流量,直接成本也不到真流量的百分之一。而 “肉鸡 ”则更难识别,且直接成为也不到真流量的五十分之一。利润太大了,总是有人抵抗不住这种诱惑的。其次,广告主买到假流量仍赚钱就没事。我们拿最夸张的80%举例,只要这 20%的真流量带来的收益,比广告投放成本高,广告主就没必要较真,当做流量的真实价格是标价的 5 倍就好。除非有另一平台,带来的收益更高,那即使假流量更大,广告主也会考虑换到那里。再次,实锤假流量很难。造假技术也是在不断升级的,能升级到什么程度呢?猫鼠游戏里有段台词说得好

24、: “技术上来讲,他不是在做假支票,就是在做真支票。 ”有些假流量高级到,除了没有付款,所以你怀疑它是假流量外,你找不到任何证据。最后,假流量是个巨大的利益集团点到为止!点到为止!如何应对假流量呢?总说在线业务的例子,很枯燥,这里换个篮球场上数据分析的例子。有个球员,新赛季投篮命中率55.7%,上赛季投篮命中率48.7%,提升了7个百分点,那我们是不是就可以认为,他们投篮更准了呢?命中率更高和投篮 更准是一回事吗?听起来像是一回事哈,数据支持这种想法吗?我们把投篮区域分成:篮下、中投和三分,细分看看数据是什么情况。惊不惊喜!意不意外!这是开了什么挂?!篮下、中投和三分和上赛季比都下降了,但合计

25、命中率居然上升了!我们加入按投篮区域细分命中/出手数据,再看下:看出来了吗?即使和上赛季比篮下命中率略有下降,但它还是上赛季合计命中率的近1.5倍,而篮下出手比例比上赛季提升了 50%以上,低命中率的三分和中投又减少的更多,使总出手比上赛季都低了。这个命中率的提升,不是靠提高投篮准确度,而是靠提高更擅长投篮方式的占比实现的。依照这个思路,你可以查看下,那些没有细分、添加其他相关指标验证的数据,估计你会找到一个大宝藏!举个真实案例,一个公司年营业额从去年的 2,000万到了今年的 4,000万,CEO给董事会汇报时,说:业绩翻番,做的很好。前4个字是描述事实,没有问题;后 4 个字是表达观点,业

26、绩翻番和做的好有什么关系吗?真的有关系 吗?行业第一从10 亿做到了 20 亿也是业绩翻倍,但人家基数是你 50 倍,这个难度差得有点大呀。该公司的主要竞争对手,从1 亿做到了 4 亿,业绩翻两翻。基数是你 5倍,业绩成长是你 2 倍,哪个更难不言而喻。而去年营业额在2,000万左右的同行,今年营业额全在5,000万以上。业绩翻番是增长最少,且总营业额最低的!能说做得好吗?分析业务数据时,加上行业第一、竞争对手、其他同行,再看看自己的业务数据变化,也许你会发现,世界不一样了!做业务时,数据分析是手段,业务提升是目的,不能本末倒置。举个例子,归因模型大家应该都听过,一个非常高级的分析技术,用来分配价值的。一个用户看了某个产品很多次,才购买,每次的入口不同,应该如何分配这笔收入呢?这么高级的东西,很多做数据分析的朋友,都很愿意尝试,用它来做数据分析,甚至是自定义归因模型,听起来很高大上哈。高达上和假大空往往只有一线之隔,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论