大数据应用基础统计学_第1页
大数据应用基础统计学_第2页
大数据应用基础统计学_第3页
大数据应用基础统计学_第4页
大数据应用基础统计学_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学1目录批判性思维统计学思维A/B测试统计学方法分类2懂统计学有什么用?能更好地辨别各种分析。3熟悉一下常见的批判性思维4歧义语言经常是模糊的。有些词是多义词。听众要结合上下文弄明白发言者的每个词的确切意思。发言者要界定清楚那些多义词的确切含义。5因果关系以先后论因果:A在B之后发生,不见得说明A会导致B很多事情发生的原因其实不止一个不应盲目以结果好坏判断决定的优劣分析的结论不一定只有一个6证据与信息源发言者有时把个人经历、典型个案、专家意见作为证据。这些证据都可靠吗?发言者是否省略了重要的数据信息源可靠吗?发言者所引用的数据是否来历不明7证据从众心理:大家都认为如此,就一定如此吗?共识有可能是危险的。就算有数百万人声称某件蠢事是对的,这件蠢事也不会因此成为聪明之举。虚假类比——他总玩游戏但是上MIT了,你跟他都是人,所以你总玩游戏也能上MIT。样本能代表总体吗?样本有代表性吗?样本足够大吗?8个人经验可靠吗?你是否纠缠于沉没成本?为什么我们试过衣服后一般就会买下来?为什么经验有时让人变蠢?为什么拿锤子的人会把一切看成钉子?为什么自己做的菜吃起来更香?为什么我们会认为现状最好?9分析一下发言者的背景和目的应该试图了解发言者的背景、并判断其可能想要达到的目的。发言者是否试图转移别人的注意力,回避真正的问题。为什么推销员说出产品缺陷时,我们也须谨慎?显眼的不一定等于是重要的为什么我们不要购买包装过于精美的产品?为什么要忽略讨人喜欢的推销员?10典型的统统计学思思维11重视变异异性应高度关关注变异异性,不不要用平均数数来掩盖盖异常值值。在社会会上,对对平均值值的滥用用随处可可见。平均值就就像安眠眠药,把你催催眠,但但你没有注意意到变异异性,就有可可能带来来损失。。比如,一一个富翁翁走入一一家坐满满了穷人人的酒吧吧,酒吧吧里人均均收入将将迅速提提升,但但每个穷穷人并没没有因此此致富。。比如,有有两家公公司的年年均增长长率都相相同,但但是其中中一家每每年增长长率很稳稳定,而而另一家家的每年年的增长长率不断断上下波波动,那那么显然然,两家家公司的的资金需需求就截截然不同同了。12重视组间间差异如果组间间存在差差异,就就应该把把几个组组分开,,而不应应合并起起来统计计。不同的组有时时是不具具有可比比性的。13不要过分分在意小小概率事事件不要过分分在意小小概率事事件:遭遭遇空难难和中彩彩票其实实都是小小概率事事件,发发生的可可能性很很小,所所以不必为了了活命而而惧怕坐坐飞机,也不必必为了赚赚钱而玩玩彩票。。在个体体遇到医医疗健康康相关的的问题,或者企企业家遇到经营营管理问问题的时时候,都都容易以以偏概全全,认为为个人体体验到的的就是总总体的全全局的情情况。另一方面面,如果果你觉得得奇迹的的发生是是天意,,你就错错了。几几乎不可可能发生生的事件也有有发生的的必然性。。14尽量提高高预测精精度在有监督督学习中中,应努努力减少假阴阴性和假假阳性,,两者都都要尽量量减少。比如,在通过过分析网网上数据据识别恐恐怖分子子时,如如果宁可可错杀三三千,不不可放过过一个,,那么很很可能会会冤枉很很多好人人。15重视随机机对照试试验和回回归分析析相关关系系并不等等同于因因果关系系。最强的用于检检测因果果关系的的统计学学武器:随随机对照照试验无法进行行随机对对照试验验时该怎怎么办??做回回归分析析。16回归分析析中的遗遗漏变量量偏差在回归分分析时,,有时会会出现变量遗漏漏偏差。比比如,有有研究认认为“常常打高尔尔夫易患患心脏病病、癌症症和关节节炎”——真的吗??其实是是因为打打高尔夫夫者年龄龄更大,,疾病多多只是因因为年龄龄大而已已。一些教育育学者就就常常用用数据说说话,声声称电子子游戏会会加大孩孩子的暴暴力倾向向,却遗漏了暴力倾倾向加大大有着多多重诱因因。家庭庭教育、、父母性性格及行行为习惯惯所起到到的作用用更大。。17循环论证证即便存在在因果关关系,因因与果之之间可能能会存在在双向影影响。需需要在得得出结论论前把这这一点考考虑到。。是否存在在循环论论证?18统计学思思维的通通俗入门门书《看穿一切切数字的的统计学学》《赤裸裸的的统计学学》《数据统治治世界》19A/B测试A/B测试是互联网网产品设设计人员员最熟悉悉的网页页优化方法法,能够够对比不不同版本本的设计计,选取取更吸引引用户眼眼球的那那一款,,以便增增加用户户点击、、回访、、购买等等行为,,或者增增加转化化率注册册率等。。为了搞搞清楚楚哪个个功能能或设设计更更好,,每个个网站站或移移动应应程序序的数数据科科学家家都离离不开开A/B测试工工具。。A/B测试有有点类类似于于统计学学里面面的随随机对对照实实验。。20A/B测试的的重要要性不少互互联网网巨头头都是是A/B测试的的忠实实信徒徒,这这其中中就包包括Google、Amazon、Bing、Netflix等。搜索引引擎、、有推荐荐系统统的网站、、大型型门户户网站站往往往非常常倚重重A/B测试。。这种种公司司的网网站设设计很很多时时候是是数据据驱动动的。。谷歌连连工具具栏上上的颜颜色选选择也也要A/B测试。21A/B测试的的步骤骤使用A/B测试首首先需需要建建立一一个测测试页页面((variationpage),这这个页页面可可能在在标题题字体体、背背景颜颜色、、措辞辞等方方面与与原有有页面面(controlpage)有所不不同。。然后将这两两个页页面以以随机机的方方式同同时推推送给给所有有浏览览用户户。接下来来分别统统计两两个页页面的的用户户转化化率,,即可可清晰晰的了了解到到两种种设计计的优优劣。。22A/B测试怎怎样识识别用用户它通过过Cookie或用户户名识识别用用户。。它对同同一个个用户户展现现同一一个版版本。。所以以,同同一个个用户户不会会发现现不同同的测测试版版本。。不过过,如如果你你换台台电脑脑,可可能就就会发发现网网站的的不同同版本本。23A/B测试的局限限性必须在在有大大量被被测用用户的的前提提下,,才是是有意意义的的。很很多用用户少少的网网站不不适合合做这这种测测试。。它是为为了验验证已已有产产品想想法。。你只只有知知道A方案和和B方案分分别是是什么么,才才能去去比较较这两两种方方案。。你在A和B之间做做比较较的时时候,,可能能会忽忽略了了其他他很多多可能能更好好的方方案24A/B测试的基本本注意意事项项A/B测试必必须是是单变量一般都都着眼眼于转转化率率注意控制访访问各各个版版本的的人数数,大大多数数情况况下希希望将将访问问者平平均分分配到到各个个不同同的版版本上上。不一定定仅限限于分分成两两个组组。分分成多多个组组也可可以。。要确保保两个个组的的用户户是来来自同同一个个总体体的,,也就就是说说它们们的特特征要要相同同。否否则,,组间间的转转化率率的差差异到到底是是由于于用户户本身身的差差异造造成的的,还还是真真的由由于A和B两种方方案的的不同同而造造成的的,就就很难难说清清楚了了。25你可以以对比比不同同标题题或文文案的的效果果26你还可可以对比不同图图片的的效果果27你可以以对比比不同同按钮钮设计计的效效果例如,,“立即购购买!!(BuyNow!)””按钮钮在某个个主页页上效果果不佳。。我们们可以以尝试改改变按按钮的的形状状、大大小、、颜色色或者者位置。。28A/B测试服服务商商的出出现有些公公司帮帮助网网站或或移动动应用用更便便捷地地做A/B测试::Optimizely、Leanplum、Splitforce、PredictiveEdge等。这种工工具可可以帮帮助小小白用用户测测试网网站的的不同同版本本。用用户可可以轻轻松地地测试试不同同版本本的对对比效效果,,从而而选择择出效效果最最好的的网页页版本本,或或者选选出最最适合合某种种特定定访客客的网网页版版本。。这种测测试工工具能能帮助助营销销人员员测试试和优优化网网站,,非常常适合合销售售、市市场、、公关关等人人员使使用。。有了了这种种工具具,营营销人人员不不一定定要求求助于于公司司IT人员。。这种公公司的的收费费依据可可以是是:参加加测试的的用户户数量29A/B测试服服务商商的出出现Optimizely、PredictiveEdge都是2010年前后后成立立的,,成立立之初初都是是帮网网站做做A/B测试的的。近近来才才开始始帮app做测试试。将将来的的趋势势是,,它们们还会会帮可可穿戴戴设备备、实实体零零售店店做测测试。。有些公公司专专门帮帮助移移动app做A/B测试::Leanplum(2012年成立立)、、Splitforce。30A/B测试服服务商商的出出现这些公公司的的创始始人大大多之之前具具有主主要的的互联联网产产品的的测试试的经经验。例如,Leanplum的两位位创始始人之之前在在谷歌歌做测测试工工作。。Optimizely的创始始人曾曾担任任GoogleChrome产品经经理,,并曾曾担任任奥巴巴马竞竞选活活动的的网站站分析析主管管。31App推送领域的的A/B测试服服务A/B测试在在应用用推送送领域域也有有运用用。例例如,,app消息推推送服服务商商(swrve、个推推等))开通通了A/B测试功功能。。3233互联网网巨头头也提提供A/B测试工工具对于网网站来来说::谷歌歌的WebsiteOptimizer或者VWO(VisualWebsiteOptimizer)对于app来说::AmazonAppstore、GooglePlay34网页推推送领域域的A/B测试服服务FacebookParse增加了了一项全全新的的功能能--ParsePushExperiments。35网页推推送领领域的的A/B测试服服务在ParsePushExperiments功能下,开开发者者可轻轻松地地创建建用于于推送送通知知的A/B测试,,这样样他就就能对对数据据进行行分析析然后后了解解怎样样的内内容以以及怎怎样的的时机机才是是最有有效的的。36网页推推送领领域的的A/B测试服服务开发者者可在在测试试结束束之后后通过过数据据分析析选择择反响响更好好的那那组通通知内内容进进行推推送。。37统计学学方法法38常见的的统计计方法法描述性性统计计:这是是最基基本的的一类类统计计方法法。方差分分析(ANOVA)因子分分析(factoranalysis)回归(regression):这这是最最常用用的一一种。。OLS回归::适于于因变变量是是连续续值的的情形形。广义线线性模模型(generalizedlinearmodels):主主要包包括逻逻辑回回归((logisticregression)和泊松松回归归(poissonregression)。它它们适适于因因变量量不是是连续续值的的情形形。生存分分析((survivalanalysis)判别分分析((discriminantanalysis)39T检验它往往往用于于比较较两个个组的的转化化率、、访问问次数数等是是否有有明显显差异异。具具体有有两种种:对照组组和干干预组组这两两个组组的用用户群群体的的对比比:采采用独独立组组样本本T检验。。比如,,可以以看看看两组组用户户的转转化率率是否否有明明显差差异。。比较同同一组用户户在运运营活活动的的前后后的访访问活活跃度度的差差异::采用用配对对组样样本T检验。。这种检检验有有助于于说明明运营营活动动是否否明显显提升升了用用户的的访问活活跃度度。40方差分分析方差分分析用用来检检验多多个总总体的的均值值是否否相等等。换换言之之,它它可以以确定定各总总体的的均值值之间间是否否存在在差异异。它用来来研究究分类类型自自变量量对数数值型型(连连续型型)因因变量量的影影响。。它可看看成是是t检验的的扩展展。t检验用用于两两组连连续型型因变变量的的比较较;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论