版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
来自大数据的反思
需要读懂的10个小故事
2015-07-2909:46:08来源:CIO时代网
中国大数据2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国大数据已然成为继云计算、物联网之后新一轮的技术变革热潮。谷歌趋势(GoogleTrends)显示的有关大数据热度的趋势大数据分析:面向过去,发现潜藏在数据表面之下的历史规律或模式数据是与物质、能源一样重要的战略资源。中国工程院李国杰院士更是把大数据提升到战略的高度单身狗伤不起,相亲还要看大数据
2015-09-1712:21:09来源:新周刊
本文刊发于《新周刊》第450期(2015.9.1)
2013年4月28日,武汉大学举行博士相亲会200多名男女研究生参加了活动。全国《第六次人口普查数据》显示,70后男性有1195.9万人处于非婚状态,同年龄段非婚女性也有582万人,男女性别比例高达206:100。严峻的“脱光”形势,刺激着各家父母催婚的号角。又一次败退于相亲饭局,又一次将对方拉黑或被对方拉黑,深感效率低下之际,你会不会想要一份指南,按图索骥?还真有。零点指标数据、世纪佳缘、百合网等,先后推出相关婚恋调查报告,地域成为其中重要参考指标。全国相亲指南图四川妹子最受欢迎;广东男光棍数量最多,却也是全国男性脱单率第一名,第二、三名是上海、北京;黑龙江男性在择偶时更听父母的话;吉林女性择偶时更听父母的话;全国相亲指南图重庆青年在恋爱对象选择上最有主见;宁夏“妻管严”的男人最多;河南“怕老公”的女人最多;陕西女婿受到丈母娘疼爱的指数最高;四川、辽宁、贵州女婿受丈母娘疼爱指数最低;安徽婆媳关系最和谐;贵州、福建、云南的婆媳关系最不和谐。零点指标数据显示,54.5%的男性和57.7%的女性在选择伴侣时都倾向于本省份的老乡。兔子也吃窝边草:一样的方言、共同的风俗、相似的生活环境与童年回忆,都增进了交流效率。地域上,四川妹子成为男同胞最想娶的外省姑娘。不仅多才,天府之国更多美女。气候温润,紫外线不强,嗜辣的生活习惯利于新陈代谢,妹子皮肤白皙可人,一白遮三丑。地域上,四川妹子成为男同胞最想娶的外省姑娘。享受生活的慢节奏能让姑娘们有更多时间充实和打扮自己。人俏嘴巧,还做得一手好川菜,川妹子当然是“出得厅堂下得厨房”的首选。女性相亲市场最受欢迎前三甲:北京爷们、温柔上海男人和务实广东男。女性最想嫁的,北京、上海和广东喜夺前三甲。北京男人喜欢自称“爷们”。热情、幽默、好面子、讲义气是他们的特征。脱光成功率全国排行榜上,北京爷们喜夺亚军。许多女人认为,北京男人能侃,一起生活不会无聊能说会道也是一门本事。女性相亲市场最受欢迎前三甲:北京爷们、温柔上海男人和务实广东男。胜出北京爷们的是温柔上海男人。上海男人的好形象仍深入人心——文质彬彬、尊重女性、体贴周到、承担家务、价值观是家庭第一,女人们都愿意被他们捧在手心里。女性相亲市场最受欢迎前三甲:北京爷们、温柔上海男人和务实广东男。龙应台曾经赞美:“上海男人竟然如此可爱:他可以买菜烧饭拖地而不觉得自己低下,他可以洗女人的衣服而不觉得自己卑贱,他可以轻声细语地和女人说话而不觉得自己少了男子气概,女性相亲市场最受欢迎前三甲:北京爷们、温柔上海男人和务实广东男。他可以让女人逞强而不觉得自己懦弱,他可以欣赏妻子成功而不觉得自己就是失败。上海的男人不需要像黑猩猩一样砰砰捶打自己的胸膛、展露自己的毛发来证明自己男性的价值。”女性相亲市场最受欢迎前三甲:北京爷们、温柔上海男人和务实广东男。令人意外的是,脱单率冠军是广东地区——这同时也是男光棍数量最多的省份。广东男性头脑灵活、富于冒险,不谈空头理论,人人忙着赚钱,具备一定的经济实力,而这正是维持恋爱婚姻的必要因素之一。女性相亲市场最受欢迎前三甲:北京爷们、温柔上海男人和务实广东男。另外,作为南方男人,广东男人同样有上海男人的温和细腻,做事不温不火,给别人留有余地,深得女性赞赏。女性相亲市场最受欢迎前三甲:北京爷们、温柔上海男人和务实广东男。经济发展是硬道理,在相亲版图上,地理位置偏远、经济欠发达的新疆、西藏、贵州、广西等省份,被选为理想伴侣的比例就低得多了。中国讲究“父母之命,媒妁之言”,即便今天,父母们仍会给子女提出诸多择偶条件和考察标准。85.4%的单身人士认为自己对另一半的要求符合父母期待,其中,经济条件是共同考虑的重要因素。近三成单身人士表示因父母的干涉而感情失败。听妈妈的话,东北父母影响相亲市场东北地区相亲市场受父母因素影响最大。当父母与子女对婚姻产生意见分歧时,39%的吉林女性和18%的黑龙江男性都会选择听从父母的建议。而南方的重庆青年在恋爱对象选择上最有主见。从恋爱步入婚姻,每个家庭在柴米油盐的琐事碰撞中建立了自己的相处模式。全国超六成夫妻推崇平等互待,16.7%的家庭是“妻管严”模式,剩下6.6%的家庭则以丈夫为中心。“妻管严”宁夏最多,
河南女人普遍“怕老公”在全国“怕老婆”排行榜上,宁夏老公以29.6%的比例勇夺榜首,浙江以29%紧随其后。上海老公反而屈居第七。俗话说“怕老婆会发达”。“妻管严”宁夏最多,
河南女人普遍“怕老公”不过,长时间的“怕”会让丈夫感到身心疲惫,建议在婚姻之初就建立平等的相处模式,互敬互爱才是长远之计。“妻管严”宁夏最多,
河南女人普遍“怕老公”老公地位最高的是河南家庭。19.1%河南女性承认自己“怕老公”,也是31省中唯一一个“怕老公”比例高于“怕老婆”比例的省份。故事01:
大数据预测得准吗?
从前,有一头不在风口长大的猪。自打出生以来,就在猪圈这个世外桃源里美满地生活着每天都有人时不时地扔进来一些好吃的东西,小猪觉得日子惬意极了!高兴任性时,可在猪圈泥堆里打滚耍泼。忧伤时,可趴在猪圈的护栏上,看夕阳西下,春去秋来,岁月不争。“猪”生如此,夫复何求?根据过往数百天的大数据分析,小猪预测,未来的日子会一直这样“波澜不惊”地过下去,直到它从小猪长成肥猪……在春节前的一个下午,一次血腥的杀戮改变了猪的信念:尼玛大数据都是骗人的啊……惨叫嘎然而止。从前,有一头不在风口长大的猪。自打出生以来,就在猪圈这个世外桃源里美满地生活着每天都有人时不时地扔进来一些好吃的东西,小猪觉得日子惬意极了!高兴任性时,可在猪圈泥堆里打滚耍泼。忧伤时,可趴在猪圈的护栏上,看夕阳西下,春去秋来,岁月不争。“猪”生如此,夫复何求?针对大数据分析,无非有两个方面的作用:(1)面向过去,发现潜藏在数据表面之下的历史规律或模式,称之为描述性分析(DescriptiveAnalysis);(2)面向未来,对未来趋势进行预测,称之为预测性分析(PredictiveAnalysis)。把大数据分析的范围从“已知”拓展到“未知”,从“过去”走向“将来”,这是大数据真正的生命力和“灵魂”所在。那头“悲催”的猪,之所以发出“大数据都是骗人的啊”呐喊,是因为它的得出了一个错误的“历史规律”:根据以往的数据预测未来,它每天都会过着“饭来张口”的猪一般的生活。但是没想到,会发生“黑天鹅事件”——春节的杀猪事件。黑天鹅事件(BlackSwanEvent)通常是指,难以预测的但影响甚大的事件,一旦发生,便会引起整个局面连锁负面反应甚至颠覆。舍恩伯格教授在《大数据时代》的一个核心观点就是大数据即全数据(即n=All,这里n为数据的大小),其旨在收集和分析与某事物相关的“全部”数据,而非仅分析“部分”数据。那头小猪,仅仅着眼于分析它“从小到肥”成长数据——局部小数据,而忽略了“从肥到没”的历史数据。数据不全,结论自然会偏,预测就会不准。数据不全,不仅坑爹,还坑命啊!问题来了,大数据等于全数据(即n=All),能轻易做到吗?故事02:
“n=All”只是一个幻觉
波士顿手机应用——“颠簸的街道”利用内置的加速度传感器,检查出街道上的坑洼之处在路面平稳的地方,传感器加速度值小,而在坑坑洼洼的地方,传感器加速度值就大。热心的波士顿市民们,下载并使用后,开着车、带着手机,他们就是一名义务的、兼职的市政工人,这样就可以轻易做到“全民皆市政”。市政厅全职的工作人员就无需亲自巡查道路,而是打开电脑,就能一目了然的看到哪些道路损坏严重,哪里需要维修。波士顿市政府也因此骄傲地宣布,“大数据,为这座城市提供了实时的信息,它帮助我们解决问题,并提供了长期的投资计划”。著名期刊《连线》:这是众包(Crowdsourcing)改善政府功能的典范之作。众包(Crowdsourcing)是《连线》杂志记者JeffHowe于2006年发明的一个专业术语,用来描述一种新的商业模式。它以自由自愿的形式外包给非特定的大众网络的做法。众包利用众多志愿员工的创意和能力——这些志愿员工具备完成任务的技能,愿意利用业余时间工作,满足于对其服务收取小额报酬,或者暂时并无报酬,仅仅满足于未来获得更多报酬的前景。然而,从一开始,“颠簸的街道”的产品设计就是有偏的(bias),因为使用这款App的对象,“不经意间”要满足3个条件:(1)年龄结构趋近年轻,因为中老年人爱玩智能手机的相对较少;(2)使用App的人,还得有一部车。虽然有辆车在美国不算事,但毕竟不是每个人都有;(3)有钱,还得有闲。前面两个条件这还不够,使用者还得有“闲心”,想着开车时打开“这个App。很多年轻人安装的应用程序数量可能两位数以上,除了较为常用的社交软件如Facebook或Twitter记得外,还有什么公益软件“重要地”一开车就记得打开?“颠簸的街道”的理念在于,它可以提供“n=All(所有)”个坑洼地点信息,但这里的“n=All(所有)”也仅仅是满足上述3个条件的用户记录数据,而非“所有坑洼点”的数据上述3个条件,每个条件其实都过滤了一批样本,“n=All”注定是不成立的。在一些贫民窟,可能因为使用手机的、开车的、有闲心的App用户偏少,即使有些路面有较多坑洼点,也未必能检测出来。用“n=All”来定义大数据集合如果真能这样,那么就无需采样了,也不再有采样偏差的问题,因为采样已经包含了所有数据。不要简单地假定自己掌握了所有有关的数据:“N=All(所有)”常常仅仅是对数据的一种假设,而不是现实。现实数据是含有系统偏差的,通常需要人们仔细考量,才有可能找到并纠正这些系统偏差。大数据,看起来包罗万象,但“n=All”往往不过是一个颇有诱惑力的假象而已。“n=All”梦想很丰满,但现实很骨感!问题是,即使具备全数据,就能轻易找到隐藏于数据背后的有价值信息吗?故事03:
大数据的研究方法可笑吗晚上,一醉汉在路灯下不停地转来转去,警察就问他在找什么。醉汉说,我的钥匙丢了。于是,警察帮他一起找,结果路灯周围找了几遍都没找到。于是警察就问,你确信你的钥匙是丢到这儿吗?醉汉说,不确信啊,我压根就不知道我的钥匙丢到哪儿。警察怒从心中来,问,那你到这里来找什么?醉汉振振有辞:因为只有这里有光线啊!在面临复杂问题时,我们的思维方式也常同这个醉汉所差无几,同样也是先在自己熟悉的范围和领域内寻找答案,哪怕这个答案和自己的领域“相隔万里”!数据那么大,价值密度那么低,你也可以去分析,但从何分析起?首先想到的方法和工具,难道不是当下你最熟悉的?而你最熟悉的,就能确保它就是最好的吗?在醉汉例子里,浩瀚的黑夜就是如同全数据,“钥匙”就好比是大数据分析中我们要找到的价值目标,“路灯”就好比我们要达到这个目标的测量“标尺”,如果这个标尺的导向有问题,顺着这个标尺导引,想要找到心仪的“钥匙”,是非常困难的!在我们痴迷于某项自己熟悉的特定测量标尺之前,一定要提前审视一下,这个测量标尺是否适合帮助我们找到那把“钥匙”,如果不能,赶快换一盏“街灯”吧!在醉汉例子里,浩瀚的黑夜就是如同全数据,“钥匙”就好比是大数据分析中我们要找到的价值目标,“路灯”就好比我们要达到这个目标的测量“标尺”,如果这个标尺的导向有问题,顺着这个标尺导引,想要找到心仪的“钥匙”,是非常困难的!在我们痴迷于某项自己熟悉的特定测量标尺之前,一定要提前审视一下,这个测量标尺是否适合帮助我们找到那把“钥匙”,如果不能,赶快换一盏“街灯”吧!如果在黑暗中丢失的钥匙,是大数据中的价值,那这个价值也太稀疏了吧。故事04:
大数据的价值鉴于大数据信息密度低,大数据是贫矿,投入产出比不见得好。大数据价值挖掘的风险还在于,会有很多的“误报”发现在数据的大干草垛中,发现有意义的“针”,其困难在于“很多干草看起来也像针”Thetroublewithseekingameaningfulneedleinmassivehaystacksofdataisthat“manybitsofstrawlooklikeneedles李国杰院士《园中有金》有父子二人,居山村,营果园。父病后,子不勤耕作,园渐荒芜。一日,父病危,谓子曰:园中有金。子翻地寻金,无所得,甚怅然。是年秋,园中葡萄、苹果之属皆大丰收。子始悟父言之理。人们总是期望,能从大数据中挖掘出意想不到的“大价值”。实际上,大数据的价值,主要体现在它的驱动效应上,大数据对经济的贡献,并不完全反映在大数据公司的直接收入上,应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术,理解通用技术的价值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,并非是自己酿造的蜂蜜,而是蜜蜂传粉对农林业的贡献——你能说秋天的累累硕果,没有蜜蜂的一份功劳?《园中有金》中儿子翻地的价值,不仅在于翻到园中的金子,更是在于翻地之后,促进了秋天果园的丰收。醉汉黑暗中寻找的钥匙,亦非最终的价值,通过钥匙打开的门才是。对于大数据研究而言,一旦数据收集、存储、分析、传输等能力提高了,即使没有发现什么普适的规律或令人完全想不到的新知识,也极大推动了诸如计算机软硬件、数据分析等行业的发展,大数据的价值也已逐步体现。我们不必天天期盼奇迹出现,多做一些“朴实无华”的事,实际的进步就会体现在扎扎实实的努力之中。一些媒体总喜欢宣传一些抓人眼球的大数据成功案例。但从事大数据行业的人士,应保持清醒的头脑:无华是常态,精彩是无华的质变。如果把“大数据”比作农夫父子院后的那片土地,那么土地面积越大,会不会能挖掘出的“金子”就越多呢?答案还真不是,下面来说说大数据的大小之争。故事05:
大小之争
“大”数据一定胜过小抽样吗?1936年,兰登与罗斯福竞选下届总统颇有声望的杂志《文学文摘》承担了选情预测的任务《文学文摘》曾在1920年、1924年、1928年、1932年连续4届美国总统大选中,成功地预测总统宝座的归属。再次雄赳赳、气昂昂地照办老办法——民意调查,范围拓展得更广。数据集合越大,预测结果越准确。计划寄出1000万份调查问卷,覆盖当时四分之一的选民。最终在两个多月内收到了惊人的240万份回执,在统计完成以后,《文学文摘》宣布,兰登将会以55比41的优势击败罗斯福赢得大选另外4%的选民则会零散地投给第三候选人。真实的选举结果与《文学文摘》的预测大相径庭:罗斯福以61比37的压倒性优势获胜。让《文学文摘》脸上挂不住的是,新民意调查的开创者乔治·盖洛普,仅仅通过一场规模小得多的问卷——一个3000人的问卷调查,得出了准确得多的预测结果:罗斯福将稳操胜券。盖洛普的3000人“小”抽样,居然挑翻了《文学文摘》240万的“大”调查,实在让专家学者和社会大众跌破眼镜。从数据体积大小的角度来看,“大”并不能决定一切。民意调查是基于对投票人的大范围采样。这意味着调查者需要处理两个难题:样本误差和样本偏差。在过去的200多年里,统计学家们总结出了认知数据过程存在的种种陷阱(如样本偏差和样本误差)。如今数据的规模更大了,采集的成本也更低了,“大数据”中依然存在大量的“小数据”问题,大数据采集同样会犯小数据采集一样的统计偏差。我们不能掩耳盗铃,假装这些陷阱都已经被填平了,事实上,它们还都在,甚至问题更加突出。盖洛普成功的法宝在于,科学地抽样,保证抽样的随机性,没有盲目的扩大调查面积,而是根据选民的分别特征,根据职业、年龄、肤色等在3000人的比重,再确定电话访问、邮件访问和街头调查等各种方式所在比例。由于样本抽样得当,就可以做到“以小见大”、“一叶知秋”。《文学文摘》的失败在于,取样存在严重偏差,调查对象主要锁定为它自己的订户。虽然问卷调查数量不少,但订户多集中在中上阶层,样本从一开始就是有偏差的(samplebias)因此,推断的结果不准,就不足为奇了。而且兰登的支持者似乎更乐于寄回问卷结果,这使得调查的错误更进了一步。这两种偏差的结合,注定了《读者文摘》调查的失败。类比一下《文学文摘》的调查模式中国春运来临时,在火车上调查,问乘客是不是买到票了即使你调查1000万人,这可是大数据啊结论毫无意外地是都买到了但这个结果无论如何都是不科学的因为样本的选取是有偏的。采样也是有缺点的,如果采样没有满足随机性,即使百分之几的偏差,就可能导致“黑天鹅事件”因此,在全数据集存在的前提下,全数据当然是首选。一般来说:全数据>好采样数据>不均匀的大量数据。采样也是有缺点的,如果采样没有满足随机性,即使百分之几的偏差,就可能导致“黑天鹅事件”因此,在全数据集存在的前提下,全数据当然是首选。一般来说:全数据>好采样数据>不均匀的大量数据。大数据分析技术运用得当,能极大地提升人们对事物的洞察力但技术和人谁在决策中起更大作用?故事06:
数据流PK球探,谁更重要?美国职业棒球队教练们挑选心仪的球员依据球员的“击球率”(其值等于安打数/打数),奥克兰“运动家球队”的总经理比利.比恩采用“上垒率”指标来挑选球员。数量化分析和预测对棒球运动的贡献长期以来,美国职业棒球队教练们挑选心仪的球员依据球员的“击球率”(其值等于安打数/打数),但是,奥克兰“运动家球队”的总经理比利.比恩采用“上垒率”指标来挑选球员。运用了数据量化分析取代了球探。大数据时代两个流派,技术主导派:
“万物皆数”,要么数字化,要么死亡技术在决策中占有举足轻重地作用。技术为辅派:技术仅仅是为人服务的,
属于为人所用的众多工具的一种,
不可夸大其作用。技术为辅派球探对运动员定性指标,如竞争性、抗压力、意志力,勤奋程度等的衡量,是少数结构化数据(如上垒率等)指标无法量化刻画的。技术为辅派运动家棒球队虽然在数据分析的指导下,获得了震惊业界的好成绩,然而他们并没有取得季后赛的胜利,也没有夺取世界冠军。这说明,数据分析虽重要,但人的作用更重要!事实上,在运用这些数据量化工具的同时,比恩也增加了球探的费用,“军功章里”有数据分析的一半,也有球探的一半。为了让读者相信数据分析的能力,灌输一些“心灵鸡汤(或称洗脑)”,是少不了的,哪怕它是假的。故事07:
经典故事是伪造的,你知道吗?关于零售帝国沃尔玛的故事一次例行的数据分析之后,研究人员突然发现:跟尿布一起搭配购买最多的商品,竟是啤酒!关于零售帝国沃尔玛的故事一次例行的数据分析之后,研究人员突然发现:跟尿布一起搭配购买最多的商品,竟是啤酒!尿布和啤酒,听起来风马牛不相及,但这是对历史数据进行挖掘的结果,反映的是数据层面的规律。这种关系令人费解,但经过跟踪调查,研究人员发现,一些年轻的爸爸常到超市去购买婴儿尿布,有30%~40%的新爸爸,会顺便买点啤酒犒劳自己。随后,沃尔玛对啤酒和尿布进行了捆绑销售,不出意料,销售量双双增加。这个案例,出自于涂子沛先生的所著的大数据畅销书《数据之巅》要情节有情节,要数据有数据,誓言旦旦,不容你置疑。但是,这个故事虽经典,但是让你意想不到的是:1.案例是编造的2.相关性并非什么大事这个案例,出自于涂子沛先生的所著的大数据畅销书《数据之巅》要情节有情节,要数据有数据,誓言旦旦,不容你置疑。但是,这个故事虽经典,但是让你意想不到的是:1.案例是编造的2.相关性并非什么大事这个案例,用来解释“关联规则(AssociationRule)”要求大家多研究“相关性”,少研究因果关系!事实的真相是:这是Teradata公司一位经理编出来的“故事”,目的是让数据分析看起来更有力,更有趣,而在历史上从没有发生过。实践是检验真理的唯一标准。如果这个故事是真的,按理说,应该给超级市场以无限启发才对,可实际上,不管是中国还是在美国,在超市里面观察一下,就会发现,根本没有类似的物品摆放,相近的都很少。但公平地讲,这个故事对数据挖掘的普及意义重大,仅从教育意义上看,仍不失为一个好故事。即便真的有这个案例,也不说明数据分析出来的“相关性”,有什么特别的神奇之处。早在2008年,《连线》主编在“理论的终结:数据洪流让科学方法依然过时(EndofTheory:theDataDelugeMakestheScientificMethodObsolete)”
中率先提出:在PB时代,我们可以说,有相关性足够了(Petabytesallowustosay:"Correlationisenough)"。
舍恩伯格教授的《大数据时代》核心观点之一就是:趾高气扬的因果关系光芒不再,卑微的相关关系将被“翻身做主人”,知道“是什么”就够了,没必要知道“为什么”。“要相关,不要因果”的观点,并不受学术界待见。“放弃对因果关系的追求,是人类的堕落”。李国杰院士认为:在大数据中,看起来毫不相关的两件事同时或相继出现的现象比比皆是,相关性本身并没有多大价值,关键是找对了“相关性”背后的理由,才是新知识或新发现。大数据分析更为核心的功能在于预测。对未来进行筹划,大到产业的布局,小到流感的预警。但是对未来的预测,能准吗?故事08:
谷歌流感预测是如何失效的?2009年2月,谷歌公司的工程师们在国际著名期刊《自然》发表:《利用搜索引擎查询数据检测禽流感流行趋势》,并设计了流感预测系统GFT(GoogleFluTrends)访问网址为:/flutrends/GFT预测H1N1流感的原理非常朴素:如果某个区域某时间段,有大量的有关流感的搜索指令,那么,就可能存在一种潜在的关联:在这个地区,就有很大可能性存在对应的流感人群,相关部门就值得发布流感预警信息。GFT监测并预测流感趋势的过程仅需一天,有时甚至可缩短至数个小时。相比而言,美国疾病控制与预防中心同样也能利用采集来的流感数据,发布预警信息。但流感预测结果,通常需要滞后两周左右才能得以发布。对于一种飞速传播的疾病(如禽流感等),疫情预警滞后发布,后果可能是致命的。GFT一度被认为是大数据预测未来的经典案例,给很多人打开了一扇未来的窗口。据此,大数据布道者们给出了4个令自己满意的结论1.由于所有数据点都被捕捉到,故传统的抽样统计的方法完全可以被淘汰。换句话说,做到了“n=All”;2.无需再寻找现象背后的原因,只需要知道某两者之间的统计相关性就够用了。针对这案例,只需知道“大量有关流感的搜索指令”和“流感疫情”之间存在相关性就够了。3.不再需要统计学模型,只要有大量的数据就能完成分析目的,印证了《连线》主编ChrisAnderson提出的“理论终结”的论调。4.大数据分析可得到惊人准确的结果。GFT的预测结果和CDC公布的真实结果相关度高达96%。谷歌工程师们开发的GFT,可谓轰动一时,但好景不长论文发表4年后,2013年2月13日,《自然》发文指出:在最近(2012年12月)的一次流感爆发中谷歌流感趋势不起作用了。GFT预测显示某次的流感爆发非常严重,然而疾控中心(CDC)在汇总各地数据以后,发现谷歌的预测结果比实际情况要夸大了几乎一倍。问题的根源在于,谷歌工程师并不知道搜索关键词和流感传播之间到底有什么关联,也没有试图去搞清楚关联背后的原因,只是在数据中找到了一些统计特征——相关性。这种做法在大数据分析中很常见。为了提高GFT的预测准确性,谷歌工程师们不断地微调预测算法,但GFT每一次算法微调,都是为了修补之前的测不准,但每次修补又都造成了另外的误差。谷歌疫情之所以会误报,还因为大数据分析中存在“预测即干涉”的问题。在量子世界中,测量粒子位置,必然会影响粒子的速度。媒体热炒的“大数据”世界中,类似于“测不准原理”,即存在“预测即干涉”悖论。“预测即干涉”悖论和“菜农种菜”的现象“曲艺同工”之处当年的大白菜卖价不错(历史数据),预计明年的卖价也不错(预测),于是众多菜农在这个预测的指导下,第二年都去种大白菜(采取行动),结果是,菜多价贱伤农(预测失败)。GFT预测失准在很大程度上是因为,一旦GFT提到了有疫情,立刻会有媒体报道,就会引发更多相关信息搜索,反过来强化了GFT对疫情的判定。这样下去,算法无论怎么修补,都无法改变其愈发不准确的命运。大数据的分析是很复杂的,但由于大数据的收集过程,很难保证能像传统“小数据”那样缜密,难免会出现失准的情况。问题的根源,是“大数据傲慢(BigDataHubris)”。“大数据傲慢(BigDataHubris)”还体现在,存在一种错误的思维方式,即误认为大数据模式分析出的“统计学相关性”,可以直接取代事物之间真实的因果和联系,从而过度应用这种技术。这就对那些过度推崇“要相关,不要因果”人群,提出了很及时的警告。毕竟,在某个时间很多人搜索“流感”,不一定代表流感真的暴发,完成有可能只是上映了一场关于流感的电影或流行了一个有关流感的段子。“个性化”服务,最有前途的商业模式需要了解顾客的“个性化信息”如果顾客许可使用,那么这是贴心的。如果没有许可呢?下面这个有关商品个性化推荐的故事,体现出来的是数据分析的智慧,还是愚蠢呢?故事09:
“大数据”智慧,还是愚蠢?一位男性顾客怒气冲冲地来到一家折扣连锁店Target,向经理投诉,因为该店竟然给他还在读高中的女儿,邮寄婴儿服装和孕妇服装的优惠券。但随后,这位父亲与女儿进一步沟通发现,自己女儿真的已经怀孕了。于是致电Target道歉,说他误解商店了,女儿的预产期是8月份。一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?这里就需要用到“关联规则+预测推荐”技术。事实上,每位顾客初次到Target刷卡消费时,都会自动获得一个唯一顾客识别编号(ID)。以后,顾客再次光临Target消费时,计算机系统就会自动记录顾客购买的商品、时间等信息。再加上从其它管道取得的统计资料,Target便能形成一个庞大数据库,运用于分析顾客的喜好与需求。有了数据特别是“大”容量的数据,后面的问题就简单了。Target的数据分析师,开发了很多预测模型,其中怀孕预测模型就是其中的一个。Target通过分析这位女孩的购买记录——无味湿纸巾和补镁药品,就预测到了这为女顾客可能怀孕了而怀孕了,未来就有可能需要购置婴儿服装和孕妇服装,多么贴心的商店啊。但是需要我们注意的是:1.这是“大”数据的傲慢,而非聪慧。2.这并非大数据的案例。3.更重要的是,这个神奇的数据预测故事
被人为地灌入了很多“心灵鸡汤”。1.这是“大”数据的傲慢,而非聪慧。由于故事极其具戏剧性——亲生爸爸居然比不上一台电脑更了解自己的女儿,因此,这故事往往被用来作为“数据比人更了解人”的证明并在当下,被用来论证大数据的功力。大数据的无所不能的“傲慢”,跃然纸上。1.这是“大”数据的傲慢,而非聪慧。这案例并不能说明,数据比人更“聪慧”,更了解人,恰好相反,这证明计算机是“愚蠢的”:还在读高中的女儿,显然想保护自己的隐私,并不想父亲知道,但“愚蠢的”计算机却自作主张,把孕妇优惠卷寄寄到了她家里,结果被爸爸逮个正着。1.这是“大”数据的傲慢,而非聪慧。这正是(大)数据的另一种傲慢——好像有了(大)数据,就可以“君临天下”,对顾客的理解就可做到出神入化,对顾客的隐私就可以肆无忌惮。2.这并非大数据的案例。实际上这个例子并不属于大数据的案例,它不需要太强的计算能力,甚至用一台普通的电脑就能实施类似的关联规则分析。很多有关大数据的图书和文章都把这个案例当作大数据的案例来讲,其实是不恰当的。2.这并非大数据的案例。大数据一般要具备典型的4个V特征,Target收集的消费数据属于典型的结构化数据,即使数量再大,也仅满足4V特征之一Volume(体积大)。但是,“数据大”不等于“大数据”。如果光拼体积“大”,那么早在20年前,天文、物理和生物信息学的数据,也够得上是“大数据”了。3.被人为地灌入了很多“心灵鸡汤”。数据挖掘界的数据分析师、咨询师们有时候同样也需要“心灵鸡汤”,励志自己,忽悠客户。很多人在看到这个故事时,都误认为Target的预测算法是非常可靠的——几乎每个收到婴儿连体服和湿纸巾优惠券的人,都是孕妇3.被人为地灌入了很多“心灵鸡汤”。但这是不可能的!更为实际的情况是,孕妇之所以能收到这些购物券,是因为Target给非常多客户都邮寄了这种购物券。在众多客户中,碰巧有那么一位高中女生“不太可能但却又真地”怀孕了碰巧那位父亲发现并投诉了,碰巧那位父亲发现自己错了并道歉了,这么多巧合,“无巧不成书”。因为极具有故事性,所以大家都爱听。3.被人为地灌入了很多“心灵鸡汤”。各位读者在相信Target这类读心术般的故事之前,首先应该先想想,这类商家的预测命中率到底有多高。这里并不说,数据分析一无是处,相反,数据分析极具商业价值,即使能够把“直邮”的准确度提高一点点,哪怕是1%,对商家而言,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。3.被人为地灌入了很多“心灵鸡汤”。各位读者在相信Target这类读心术般的故事之前,首先应该先想想,这类商家的预测命中率到底有多高。这里并不说,数据分析一无是处,相反,数据分析极具商业价值,即使能够把“直邮”的准确度提高一点点,哪怕是1%,对商家而言,都将是有利可图的。但能赚钱并不意味着这种工具无所不能、永远正确。商家能够提供个性化服务,确实很贴心但倘若在利益的驱使下,商家对顾客个性化信息运用不当或越界,就会给顾客带来不能承受的隐私之痛。故事10:
大数据的隐私之痛Uber优步,著名的打车软件服务公司,乘客可以通过发送短信或是使用移动应用程序来预约车辆利用移动应用程序时还可以追踪车辆的位置曾在官网上发布一篇题为“荣耀之旅”的博客。“我知道,我们不是你们生命中唯一的爱人,我们也知道,你们会在别的什么地方寻找爱情Uber称作的“荣耀之旅(RoG)”——实际上就是所谓的一夜情(one-nightstand)代名词。Uber利用数据分析技术,专门筛选出那些在晚上10点到凌晨4点之间的用车服务,并且这些客户会在四到六小时之后(这段时间足够完成一场快速的RoG),在距离上一次下车地点大约1/10英里(约160米)以内的地方再次叫车。根据对这些数据的分析,Uber推断出那些发生一夜情的时间和地点,并将这些地点在纽约(NYC)、旧金山(SF)、波士顿(Boston)以及其他美国城市的地图上进行标注,得出一夜情频繁的高发区。数据分析发现,波士顿位于美国“一夜情”之首,而纽约人则显得比较保守,“一夜情”的比率仅为波士顿的1/5在时间节点上,一夜情“发作”的高频发段是在周五和周六晚上,如果你的另一半在这个时间点上说自己工作忙要加班,你就要“悠着点”相信。当然,Uber此处虽多为开玩笑之举,但也确实严重侵犯了用户的隐私,在遭到了很多用户及媒体的抗议之后,Uber迅速删除了这篇博客,但在这个数字时代,一旦上网,“侯门一入深似海”,踏雪无痕梦难成”。感兴趣的读者仍可访问互联网文档收录网站/,找到这篇文章。不可否认的是,大数据时代的到来,为我们的学习、生活带来诸多便利。但是,收之桑榆,失之东隅。任何事情都有两面性。目前,人的行为(诸如购物、乘车、甚至游戏等)已经被数字化了,隐私已经无处可藏!不论是美国斯诺登“棱镜门”监听项目的曝光,还是层出不穷的诸如Uber等公司企业泄露客户资料事件,都向我们发出大数据时代下个人隐私保护的预警。恐怖的大数据某比萨店的电话铃响了,客服人员拿起电话。客服:XXX比萨店。您好,请问有什么需要我为您服务?顾客:你好,我想要一份......客服:先生,烦请先把您的会员卡号告诉我。顾客:16846146***。客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646****,您公司电话是4666****,您的手机是1391234****。请问您想用哪一个电话付费?顾客:你为什么知道我所有的电话号码?客服:陈先生,因为我们联机到CRM系统。顾客:我想要一个海鲜比萨......客服:陈先生,海鲜比萨不适合您。顾客:为什么?客服:根据您的医疗记录,你的血压和胆固醇都偏高。顾客:那你们有什么可以推荐的?客服:您可以试试我们的低脂健康比萨。顾客:你怎么知道我会喜欢吃这种的?客服:您上周一在中央图书馆借了一本《低脂健康食谱》顾客:好。那我要一个家庭特大号比萨,要付多少钱?客服:99元,这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。顾客:那可以刷卡吗?客服:陈先生,对不起。请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。顾客:那我先去附近的提款机提款。客服:陈先生,根据您的记录,您已超过今日提款限额。顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?
客服:大约30分钟。如果您不想等,可以自己骑车来。顾客:为什么?客服:根据我们CRM全球定位系统的车辆行驶自动跟踪系统记录。您登记有一辆车号为SB-748的摩托车,而目前您正在解放路东段华联商场右侧骑着这辆摩托车。支付宝是如何用大数据憋死伪基站骗子的
2015-06-1618:13:28本文摘自:网优雇佣军
小偷用伪基站发送钓鱼短信费尽心机偷了用户的支付宝密码结果却死活拿不走里面的钱这看得见吃不着的感受该有多心塞呀!但,就是有这么憋屈的小偷。广州用户黄XX6月7日接到一条10086的短信(小偷通过伪基站发送的钓鱼短信)他点击了短信中的链接依据指示先后输入了自己的身份证信息和银行卡信息同时,手机中了木马病毒小偷登陆了黄某的支付宝并修改了密码随后小偷进入淘宝下单购买一台4600多元的iphone手机就在小偷得意之时他发现自己就是不能支付成功而且很快这个支付宝账户被限权无法进行任何支付行为!小偷明明拿到密码却为何无法动黄某支付宝里的钱?原来,支付宝有
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 沈阳理工大学《激光器件与技术》2021-2022学年第一学期期末试卷
- 食品安全宣传主题班会
- 沈阳理工大学《工程爆破》2023-2024学年第一学期期末试卷
- 沈阳理工大学《传感器与检测技术》2023-2024学年第一学期期末试卷
- 国有企业买卖合同保证金管理办法
- 合同备案注销、更名申请书
- 昆明机场控制区通行证考试
- 2024-2025年度部编版八年级上册历史复习训练一
- 2024水泥采购运输合同
- 深圳矫正牙齿-口腔医院
- 四大行当生旦净丑京剧课件
- 计算思维与程序设计课件
- 残疾儿童送教上门教案10篇
- 【核心素养目标】浙教版五上《劳动》项目二 任务二《制作七巧板》教学设计
- 云南省保山市各县区乡镇行政村村庄村名居民村民委员会明细
- 沃尔玛山姆会员店管理层结构
- 承台基础模板施工方案完整
- 高考议论文写作指导:议论文主体段落的写法 课件60张
- 小学二年级上册《道德与法治》教材解读分析
- 无线电基础知识课件
- 我不生气了-完整版课件
评论
0/150
提交评论