深入浅出统计学的读后感10篇_第1页
深入浅出统计学的读后感10篇_第2页
深入浅出统计学的读后感10篇_第3页
深入浅出统计学的读后感10篇_第4页
深入浅出统计学的读后感10篇_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——深入浅出统计学的读后感10篇

《深入浅出统计学》是一本由DawnGriffiths著作,电子工业出版社出版的平装图书,本书定价:89.00元,页数:677,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。

《深入浅出统计学》读后感(一):通俗易懂,适合非统计学人士

优点:

(1)此书比较通俗易懂,适合非专业人士的统计学入门;

(2)书中的好多案例和习题比较好,能从简单的角度阐述繁杂的概率统计的理论知识;

(3)本书比较内容相对连贯,读下去一气呵成

缺点:

(1)有少许印刷错误

《深入浅出统计学》读后感(二):期望,均值,方差~好吧我撕开了读的

吞不太认同这种毁书的阅读方式,可这个厚度真不适合地铁,撕开后还是很有成果的,新问题是如何装订回去?

正题:均值是发生了的期望的话,方差计算的一致性就可以解释了,现在再开始几何分布的期望速算方式就好理解点儿了,这次是要feel几何分布的方式不是推理

《深入浅出统计学》读后感(三):苏格拉底助产术之统计入门

这是一本十分适合入门的统计书:

1.内容轻重得当,可高效窥见统计学全貌:

可视化;

度量集中与分散(均值、距、差);

概率计算、描述(四类分布)与预计(期望、方差);

用样本(抽取样本)预估总体(抽样分布、点估计量、置信区间)、以及进行假设检验(拒绝域);

多变量之间的独立性(x分布)、相关性、线性回归、非线性回归。

2.叙事方式采用苏格拉底助产术,引导读者思考得出结论,学习效果好。

TW,headfirst系列的叙事风格十分值得学习,特别在这轮内容消费的浪潮下。

《深入浅出统计学》读后感(四):好玩儿且明了的入门书目

本科时上过统计和测量的课,还有spss,stata这些课程,考研时专业课里也有教育统计,但我觉得到看这本书之前都没有学明白统计的一些基本概念。之前的学习方式都是从干巴巴的概念入手,加以枯燥的题目训练,本科的时候不知道学这些有什么用,后来也是想起来头就痛。

这本书十分适合像我这样文科背景数学小白的学生来作为入门的自学教材,相见恨晚啊。书看起来很厚,一心读的话很快就可以读完。我重点看的是后半部分,跟国内的统计教材一个很大的不同是排版比较愉快友好,虽然人像的插图有点突兀==另外很重要是基本都是以情景例子引入,然后提问,这才符合人类的学习规律好嘛,要是大学老师也这样教我早该学会了啊==然后还会有问题的系统的思路和解法,最终还会有小结。不过觉得还是自备笔记本边看边总结好。

不足的地方觉得主要是内容还是比较浅的,不过对于基础又重要的概念理解和入门应当是足够了的。要去继续发现好教材啦~

《深入浅出统计学》读后感(五):深入浅出统计学

样章试读请到下面的链接下载:

目录http://goo.gl/tlCLf

序言http://goo.gl/65x6e

第一章http://goo.gl/WTnC9

其次章http://goo.gl/5WUhT

若下载遇到问题,请邮件联系:[emailprotected]。感谢!

《深入浅出统计学》具有深入浅出系列的一贯特色,提供最符合直觉的理解方式,让统计理论的学习既好玩儿又自然。从应对考试到解决实际问题,无论你是学生还是数据分析师,都能从中受益。本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等,完整涵盖AP考试范围。本书运用充满互动性的真实世界情节,教给你有关这门学科的所有基础,为这个枯燥的领域带来鲜活的乐趣,不仅让你充分把握统计学的要义,更会告诉你如何将统计理论应用到日常生活中。

《深入浅出统计学》读后感(六):十分适合入门

前面有一位豆友说这本书十分不适合入门,从我个人感觉,还是一本比较漂亮的入门书。在数据分析那本书的书评里面,我提到两点,一个是简单易懂,一个是系统全面。至少第一点是比较符合的,其次点也差强人意吧。

这本书的前半部分,一直到第7章吧,对于学过概率的人来说,基本上意义不大。不过对于一些概念,有了重新和深入的理解,譬如均值和平均数的差异,贝叶斯方法用条件概率树来解释确实一目了然,简单理解。

真正收获比较大的是其次部分,虽然里面提到的各种分布:几何、二项、泊松、正态,以及抽样统计、置信区间,假设检验等各个概念前几天看别的统计学书的时候也看过,也大约知道怎么算(虽然基本都用SPSS算的),但是个人通过这本书里面的动动脑、动动笔里面的内容一路根着做下来,对于统计这个事情本身有一个比较全面系统的理解。

书的主要内容,目录表达得很明显了。我个人理解的统计这个事情主要有以下几点:

1我们对于世界和事物是难以看到本质的。(透过现象看到本质只是一种美好的愿望)

2在信息无法全面把握的状况下,我们可以根据获得的部分数据来猜测事情背后的原因。

3一般来说,对于大量的总体数据,可能遵守二项、泊松、正态等分布,在遵守这些分布的状况下,我们可以计算一些概率或者事情的可能。

4那么对于猜测的规律是不是靠谱,或者我们作出的结论是否可行,可以采用假设检验来一定程度上进行检验。

5除了单变量的以外,我们还可以关注多个数据间的关系(线性回归)。

6非线性关系以及更多(附录)。

这本书最不如深入浅出数据分析的地方在于,那本书把故事写了悬疑故事,这本书把故事讲成了数字游戏。没有猛烈的剧情冲突,没有一波三折的故事情节,用什么来吸引观众呢?(好像这里不是探讨写小说:)

《深入浅出统计学》读后感(七):钱,我来啦!

这老话说的好啊,“女怕嫁错郎,男怕入错行〞。还有“一如侯门深似海,此后君王不早朝〞。说的是什么意思呢?就是说,现在流的汗,都是当时做决定时脑子里进的水。因此,在我们做决定的时候,千万别喝水。

以上纯属瞎扯下面说些正经的。

但开篇说的这些其实是感慨工作以及学习。大学毕业工作时恰好所在的软件项目是与数据统计挖掘相关的,相关性还很强。以致于后来在一个项目的实施过程中,直接全面的涉及到了一个标准数据挖掘咨询工作的所有环节。此后对数据挖掘着迷了。不仅是由于第一次亲身体会到海量数据背后蕴含的巨大商业价值,更是由于这四两拨千斤的知识竟然能赚如此多的钱!两个人花了半个月时间就卷走了客户几十万的合同,妈妈咪呀。有幸的是,我全程参与了这一件工作。当然,只是工作,跟钱没关系……此后这个项目就在我的脑子里面一遍一遍的循环播放。这个项目向我透露了一种可能。那就是如此高端的咨询工作并不是如想象中的高深艰难。相反,它实用,有针对性,在使用当中存在较高的普遍性和重复性。因此,我也能做。此后以后我便投入了更多的注意力在这一领域。经营分析、数据挖掘、统计学等等等等,尽管它们有好多标签,但我知道,它们的目的是一样的,发现数据背后的机要。于是我决定,朝着这个目标,开始进发。同时,钱是这个宝藏的伴生矿。哈哈。

但是,我需要从零开始。由于所有的这一切都是以统计学为基础的,而我那点点可怜的统计学知识早就还给了大学老师了。而本书,《深入浅出统计学》,给了我从零开始的可能性。当我拿到这本足足有600多页的大部头时,我还是有些担忧的。担忧自己没有坚持的毅力。由于从前就有过一次败在一部名叫《数据挖掘导论》的大部头面前。不过幸运的是,本书不是一本读起来很生涩的书。它起步低,我想有初中的数据知识就可以开始了;趣味足,将要讲的知识恰当地放入一些简单实际的实例中;展开缓,让你在进取的过程中并不会意识到台阶的存在;条理强,在陈述的过程中规律明了,目标明确;手段多,怪招用完就是想让你记住一些基本的概念和公式;有成就,你总是能基于刚刚学到的东西马上解决掉一个之前不久提出的问题;编排好,全书在用一种循环滚动的方式将问题与知识交织提出浮现,就像用松子和坚果来引诱读者继续下去。所以,这是我最开心的一次学习经历。尽管如此,我还是用了四五个月的时间才认真读完……感觉离金山好远啊。

认真研究你会发现,这本书涵盖了数据挖掘的一些领域,譬如描述、预计。这很重要,由于在大多数状况下,数据分析工作是以描述开始,预计结尾的。而统计学可以应用的领域甚至比计算机还要高。因此,即时我们不需要考虑将工作投入到这个方向,我们也会在当前所处的工作生活环境中,由于知道那么一点点统计学知识而显得聪明那么一点点。我想说的是,统计学是一门实用的学科,值得任何人去学习。在此猛烈推荐,从本书开始。

《深入浅出统计学》读后感(八):深入浅出统计学-书评

前言

道德经云:〞道生一,一生二,二生三,三生万物“。学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。

笔者结合自己对统计学和概率论知识的理解写了这篇文章,有以下几个目标

目标一:构建出可以让人理解的知识架构,让读者对这个知识体系一览无余

目标二:尽l量阐述每个知识在数据分析工作中的使用场景及边界条件

目标三:为读者搭建从“理论〞到“实践的桥梁

注意:本文不涉及对概念及方法公式的推导,读者有兴趣可以自行查阅《概率与统计》

概述

你的“对象〞是谁?

此对象非彼“对象〞,我们学习“概率和统计学〞目的在于应用到对于“对象〞的研究中,笔者将我们要研究的“对象〞依照维度分为了两大类。

一维:就是当前摆在我们面前的“一组〞,“一批〞,哪怕是“一坨〞数据。这里我们会用到统计学的知识去研究这类对象。

二维:就是研究某个“事件〞,笔者认为事件是依托于“时间轴〞存在的,过去是否发生,现在是可能会出现几种状况,每种状况未来发生的可能性有多大?这类问题是属于概率论的范畴。

因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。

分析就像在给“爱人〞画肖像

从外观的角度描述一个姑娘,一般是面容怎么样?身体怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象〞在描述性分析中也是通过两个维度去来描述即,“集中趋势代表值〞,“分散和程度〞。

看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说明白你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值〞,“方差〞之类的。下面我们进入正题,笔者将详细阐述整个知识架构。

第一部分:对“数据〞的描述性分析

数据分析中最常规的状况,譬如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述〞从这些数据中获取的信息,寻常可以从两个维度去描述:

一、集中趋势量度为这批数据找到它们的“代表〞

均值(μ)

公式:

均值的局限性

均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的状况,会产生偏差〞;例如下面一组数据就不太适合用均值来代表

这5个人的年龄均值是:31.2岁

很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不适合的,那么我们该如何确凿的表征这组数据呢???

中位数

中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。

中位数的局限

回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。

那么我们在看一下下面一组数据,中位数的表现又如何?

中位数:45

这组数据的中位数为:45,但是中位数45并不能代表这组数据。

由于这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。

众数

众数是样本观测值在频数分布表中频数最多的那一组的组中值。

平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。

二、分散性与变异性的量度

(全距,迷你距,四分位数,标准差,标准分)

全距=max-min

全距也叫“极差〞极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。

全距的局限性

全距虽然求解便利快捷,但是它的局限性在于“若数据中存在异常值的状况,会产生偏差。为了摆脱异常值带来的干扰,譬如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。

四分位数

所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。

Q1:第一四分位数(Q1),又称“较小四分位数〞,等于该样本中所有数值由小到大排列后第25%的数字。

Q2:其次四分位数(Q2),又称“中位数〞,等于该样本中所有数值由小到大排列后第50%的数字。

Q3:第三四分位数(Q3),又称“较大四分位数〞,等于该样本中所有数值由小到大排列后第75%的数字。

迷你距也叫“四分位距〞

迷你距。它是一组数据中较小四分位数与较大四分位数之差。

即:迷你距=上四分位数-下四分位数

迷你距可以反映中间50%的数据,假使出现了极大或微小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。

全距,四分位距,箱形图可以表征一组数据极大和微小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?

我们度量每批数据中数值的“变异〞程度时,可以通过观测每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。

方差

方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。

标准差

标准差为方差的开方。

通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?

标准分表征了距离均值的标准差的个数

标准分为我们提供了解决方法,当比较均值和标准差各不一致的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。

标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。

第一部分小节

1.描述一批数据,通过集中趋势分析,找出其“代表值〞;通过分散和变异性的描述,查看这批数据的分散程度。

2.集中趋势参数:均值,中位数,众数

3.分散性和变异性参数:全距,四分位距,方差,标准差,标准分

其次部分:关于“事件〞的研究分析概率论

一、一个事件的状况

为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事〞了。

事件有概率可言的一件事情,一个事情可能会发生好多结果,结果和结果之间要完全穷尽,相互独立。

概率每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!!

概率分布我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。

概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布

期望表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值〞,类似于统计里面的均值)

公式:

方差表征了事件不同结果之间的差异或分散程度。

公式:

二、细说分布

理想很饱满,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。

因此,为了能更快更确凿的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。

“离散型〞数据和“连续性〞数据差异

在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异?

离散数据:一个粒儿,一个粒儿的数据就是离散型数据。

连续数据:一个串儿,一个串儿的数据就是连续型数据。

好啦,开个玩笑!!!别打我,下面共享干货!!!

其实上述描述并没有错误,离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。

举个例子

人这个单位,对于一个家庭来说,就离散型数据,一个家庭可能有3个人,4个人,5个人等等。

对于一个国家来说,就是连续型数据,我们的国家有14亿人口,那么以个人为单位在这个量级的数据群体里就是连续型数据。

明白了离散型和连续型数据的差异,我们接下来一块科普这几种常用的特别分布。

离散型分布

离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件〞中可以采用,就是一个事只有成功和失败两种状态。

连续型分布

连续型分布本质上就是求连续的一个数据段概率分布。

正态分布

代表式:

f(x)是该关于事件X的概率密度函数

μ均值

σ^2方差

σ标准差

绿色区域的面积该区间段的概率

正态分布概率的求法

tep1确定分布和范围,求出均值和方差

tep2利用标准分将正态分布转化为标准正态分布(还记得第一部分的标准分吗?)

tep3查表找概率

离散型分布→正态分布(离散分布转化为正态分布)

精彩的地方在这里,笔者已经阐述了连续型数据和离散型数据是一对相对的概念,那么这就意味着在某种“边界〞条件下,离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了(编公式快吐了!!!!)

三、多个事件的状况“概率树〞和“贝叶斯定理〞

多个事件就要探讨事件和事件之间的关系

对立事件假使一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件

穷尽事件如何A和B为穷尽事件,那么A和B的并集为1

互斥事件如何A和B为互斥事件,那么A和B没有任何交集

独立事件假使A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。

例子:10个球,我随机抽一个,放回去还是10个球,其次次随机抽,还是10选1,那么第一次和其次次抽球的事件就是独立的。

相关事件假使A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。

例子:10个球,我随机抽一个,不放回去还是10个球,其次次随机抽是9选1,那么第一次和其次次抽球的事件就是相关的。

条件概率(条件概率,概率树,贝叶斯公式)

条件概率代表:已知B事件发生的条件下,A事件发生的概率

概率树一种描述条件概率的图形工具。

假设有个甜品店,顾客买甜甜圈的概率是3/4;不买甜甜圈直接买咖啡的概率是1/3;同时买咖啡和甜甜圈概率是9/20。

从图中我们可以发现以下两个信息

1.顾客买不买甜甜圈可以影响喝不喝咖啡的概率,所以事件甜甜圈与事件咖啡是一组相关事件

2.概率树每个层级分支的概率和都是1

贝叶斯公式提供了一种计算逆条件概率的方法

贝叶斯公式用于以下场景,当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。

其次部分小节

1.事件,概率,概率分布之间的关系

2.期望,方差的意义

3.连续型数据和离散型数据之间的区别和联系

4.几何分布,二项分布,泊松分布,正态分布,标准正态分布

5.离散分布和正态分布可以转化

6.多个事件之间的关系,相关事件和独立事件,条件概率和贝叶斯公式

第三部分:关于“小样本〞预计“大总体〞

现实生活中,总体的数量假使过于巨大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。

一、抽取样本

总体:你研究的所有事件的集合

样本:总体中选取相对较小的集合,用于做出关于总体本身的结论

偏倚:样本不能代表目标总体,说明该样本存在偏倚

简单随机抽样:随机抽取单位形成样本。

分成抽样:总体分成几组或者几层,对每一层执行简单随机抽样

系统抽样:选取一个参数K,每到第K个抽样单位,抽样一次。

二、预计总体(点估计预计,区间估计预计)

点估计量一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。

场景1:样本无偏的状况下,已知样本,预计总体的均值,方差。

(1)样本的均值=总体的估算均值(总体均值的点估计量)≈总体实际均值(误差是否可接受)

(2)总体方差估计总体方差

场景2:已知总体,研究抽取样本的概率分布

比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布〞。样本的比例就是随机变量。

举个栗子:已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。

样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布〞,样本的均值就是随机变量。

中心极限定理:假使从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则的分布近似正态分布。

区间估计量点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。

举个栗子:今天下午3点下雨;今天下午3点到4点下雨。假使我们的目的是为了尽可能预计正确,你会使用那句话术?

如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材)

求置信区间简便公式(直接上皂片)

关于C值参数:置信水平90%C=1.64,95%C=1.96,99%C=2.58

待补充知识一(t分布)

我们之前的区间预计有个前提,就是利用了中心极限定理,当样本量足够大的时候(寻常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论