“数据分析观念”的内涵及教学建议.doc_第1页
“数据分析观念”的内涵及教学建议.doc_第2页
“数据分析观念”的内涵及教学建议.doc_第3页
“数据分析观念”的内涵及教学建议.doc_第4页
“数据分析观念”的内涵及教学建议.doc_第5页
免费预览已结束,剩余8页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

_ “数据分析观念”的内涵及教学建议数学教育热点问题系列访谈录史宁中(东北师范大学,吉林 长春 130024) 收稿日期:2007年12月10日 作者简介:史宁中,1950年4月出生,江苏宜兴人,研究方向:应用统计学、数学课程与教学。东北师范大学校长、校学术委员会主任,统计学博士生导师,数学教育博士生导师,国务院学科评议组成员,国家自然科学基金评委会成员,中国教育学会副会长,国家义务教育数学课程标准修订组组长,全国中小数学教材审查委员(中学数学教材主审委员)。张丹,1972年5月出生,陕西西安人,研究方向:数学课程与教学、教师培训。北京教育学院副教授,博士研究生,国家义务教育数学课程标准研制组核心成员,国家义务教育数学课程标准修订组成员。张丹(北京教育学院,北京 100011) 摘要:统计是数据分析的科学和艺术,统计课程的核心是发展学生的数据分析观念。准确把握数据分析观念的内涵是进行统计课程设计、教科书编写和教学实施的必要前提和重要基础。体会数据中蕴涵着信息、认识到需要根据问题的背景选择合适的方法、通过数据分析体验随机性是数据分析观念的重要方面。义务教育阶段统计教学关键是使学生想到用数据,愿意“亲近”数据,能从数据中提取信息。 关键词:数据分析观念;教学建议Abstract: Statistics is the science and art of data analysis,and the main purpose of the course itself is to develop students concept of it. The accurate comprehension of that concept is the premise and the important basis of course designing, textbook compiling and the conduction of classroom teaching. Thus, a pivotal aspect of developing the concept of data analysis is cultivating students ability to profit from the information contained in the data, to recognize the necessity of choosing the right way of conducting it against the background from which the problem emerges. In one word, the most urgent task in the period of compulsory education is to enable students to make proper use of data analysis, to “befriend” it and benefit from the information obtained from it. Key words: the concept of data analysis, advice for teachers我国在基础教育阶段将统计作为重要的学习内容,随着大家对统计教学的不断探索和实践,人们逐渐认识到对于统计学习而言,重要的不是画统计图、求平均数等技能的学习,而是发展学生的数据分析观念。那么,数据分析观念到底体现在哪些方面呢?如何设计课程和实施教学,才能更好地发展学生的数据分析观念呢?本文访谈了东北师范大学著名统计学家史宁中教授,并辅助于资料查询等形式就这些问题提出了一些思考。一、发展学生的数据分析观念问:您在多种场合不断强调,无论哪一部分内容的学习,都应该抓住这部分的核心内容,那么统计学习的核心内容是什么呢?史教授:首先必须明确的是,我们希望在课程中给出一些关键词。关键词是某部分学习的核心内容。核心内容不是指具体的知识点,甚至不是指具体的知识本身,而是概括很多知识的共性所反映出来的思想和思维方式,这个就叫做核心词,或者叫做核心内容。统计最核心的就是数据分析,统计是处理数据的一门科学和艺术。在这部分内容中,我们提出了数据分析观念的核心词,就跟代数学习里的数感、符号意识、模型等都是核心内容。问:统计的核心是数据分析,那么到底是什么是数据呢,数据与数有什么关系呢?史教授:我们在义务教育阶段处理的数据主要是用数来表达的,当然这些数都是有实际背景的。脱离实际问题的单纯地数的研究是数与代数的内容,不是统计的内容。但是,这些年随着信息的迅速增长,我们需要扩大对数据的认识。事实上,现在的数据不仅仅是数,图是数据、语句也是数据。比如,人们在网上经常用GOOGLE来进行检索,GOOGLE是用统计的方法来进行语句检索,此时统计处理的是语句,我们把这些都叫做数据。问:能不能这样理解,只要蕴含着一定信息,无论是什么表现形式,就是数据,统计能帮助人们从这些数据中提取出大量的信息?史教授:是这样的。人们在实际生活和各行各业中面临的数据越来越多,必须树立利用数据的意识,掌握一些分析数据的方法和模型。所以,数据分析观念是非常重要的。数据分析观念主要体现在三个方面:第一,了解在现实生活中有许多问题应当先做调查研究,收集数据,通过分析做出判断,体会数据中是蕴涵着信息的。第二,了解对于同样的数据可以有多种分析的方法,需要根据问题的背景选择合适的方法。第三,通过数据分析体验随机性。二、数据随机性的内涵和教学 (一)数学随机性的内涵问:对于很多人而言,对第三点“通过数据分析体验随机性”都比较陌生。首先遇到的一个困难是,数据随机性的涵义是什么呢?史教授:简单而言,数据的随机主要有两层涵义:一方面对于同样的事情每次收集到的数据可能会是不同的;另一方面只要有足够的数据就可能从中发现规律。举一个例子,袋中装有若干个红球和白球,一方面,每次摸出的球的颜色可能是不一样的,事先无法确定;另一方面,有放回重复摸多次(摸完后将球放回袋中,摇晃均匀后再摸),从摸到的球的颜色的数据中就能发现一些规律,比如红球多还是白球多、红球和白球的比例等。问:那么,构成数据随机性的原因主要有哪些呢?史教授:一般来说,产生随机有两方面的原因。一方面,是运用部分来推断总体,我们知道这是统计的一个基本思想。这里首先假设每一次实验取得的数据是来源于一个总体的,这是很重要的一个假设。比如上面提到的摸球例子,第一需要假设摸的是同一个袋子里的球,而且是有放回的摸;第二,摸之前需要晃一晃,摇晃均匀了。为什么要强调这些呢,就是要保证每一次要处理的事情都是一样的,数据是来源于一个总体的。有了这个假设后就去做重复实验,每一次在摸之前,你不可能知道这次摸的是什么结果,但是摸的次数多了,就能估计出来摸到各种结果的可能性是多大,由此推断总体的情况。比如在上面的例子中,可以推断袋子中什么颜色的球多,各种颜色球的比例,如果知道了袋中球的总数,我们还可以推断出各种球的数量。但是,由于是用部分来推断总体,就不能担保推断一定是准确无误的,而是允许结论可能出错。好的统计方法的主要标志就是出错的可能性较小。另一方面,是重复测量中的误差。对一些数据,特别是连续型数据总是有测量误差的,而产生误差的原因是多方面的。比如多次测量同一人的身高,由于测量工具、观察者的角度、测量时间等各种各样的原因,每次测量的结果可能都是不一样的,测量数据是随机的。但是如果出现随机误差的平均是零,也就是有时候比真实结果大一点,有时候比真实结果小一点,平均下来零,这个时候就能研究了,如何进行研究这里就不细谈了。主要是以上两方面原因构成了我们研究问题的随机性。(二)数据随机性的教学问:说到这里,我感觉您非常强调运用统计(数据分析)来帮助学生体会随机。不少老师有这样的一个困惑,概率也是研究随机现象的,在概率中教师也组织学生做了很多摸球、掷硬币等游戏。那么为什么又提出数据的随机性呢?史教授:我听了一些课,老师们经常这样处理:比如对于掷一枚均匀的硬币,先得到出现正面或反面的概率是,然后让学生通过反复掷硬币去验证这个结果()。这里有两个问题。第一,一个硬币,先假定它出现正面和反面的可能性是,这是数学(或者称为概率)。这个是通过概率的定义得到的,不是依靠掷硬币验证出来的。实际上,学生做了很多次实验也得不到,反而更加糊涂了。第二,运用定义的方式教学随机,不能很好的培养学生的随机观念。需要指出的是,我们赞成做实验,赞成运用统计的思想来做实验。统计是通过数据来获取一些信息,来帮助人们做出一些判断。同样是掷硬币的问题,在统计上就会这样设计实验:先让学生多次掷硬币,计算出现正面的比例(频率),然后用频率来估计一下出现正面的可能性是多大。如果这个可能性接近的话,就推断这个硬币大概是均匀的,这是统计的思想。对于先给出定义,教师往往比较习惯,而对于“逆过来”通过数据来进行推断,教师往往比较陌生。为了帮助大家理解,再阐述一下上面的摸球的例子。同样是一个袋子里有5个球,4个白球、1个红球,如果让学生通过摸来验证出现白球的可能性是、出现红球的可能性是,这不是统计。统计是这样的,告诉学生们袋子里有很多球,有白颜色的和红颜色的。让孩子们去摸,摸到一定程度的时候,学生发现摸出白球的次数比红球的次数多,由此推断袋子里白球可能比红球多。进一步的话,能推断出白球和红球的比例大概是多少。再告诉球的总数的时候,能够估计出来几个白球和几个红球,这个是统计的过程。我并不是反对前一种教法本身,而是说如果这么教,蕴含的随机思想并不强,学生也不感兴趣,都知道了概率为什么还要做实验。而后来的这种教法,学生体会到每一次摸的结果事先都不知道,但是摸多了能够帮助我们做一些判断。这样一来,学生既体会了随机,又感受到了数据中蕴含着信息,我想这种类似于“猜谜”的活动学生也会很有兴趣。问:实际上,并不是简单地赞成或反对做实验,而是做实验的目的。不是通过实验去验证概率是多少,而是通过实验从数据中获取信息,对总体做一些推断。说到做推断,老师们还有一个困惑,因为数据是随机的,用部分的数据进行估计有时可能会估计得准一些,有时会偏差很大。那么这种推断是不是有点“瞎猜”的味道,能不能保证这种估计是合理的。史教授:这里绝不是“瞎猜”。还是上面摸球的例子(袋子里有5个球,4个白球,1个红球),我们知道如果真是随机摸球的话,那么出现白球的概率是。而实验中,要使摸球的频率刚好是()的可能性并不大。但是如果取一个范围,比如在之间,此时频率落在这个范围内,用它去进行估计是可以接受的。如果要使摸出白球的频率落在这个范围之间的可能性达到80%的话,通过计算只要做27次左右的实验;如果要使95%的可能性落在这个范围内的话,摸球的次数要增加,大概是60次左右。所以,实际上有相当多的科学依据在后边支撑着我们做类似摸球的试验。也就是虽然不能保证估计得完全一致,但能保证在一定实验次数下,估计值与实际情况相差不大的可能性是很大的。问:听了您的解释挺有启发的。是不是虽然不能达到100%的精确,但无论实际情况需要多高的精确度,都可以计算出需要做多少次实验来保证达到这个精确度?史教授:是这样的。因此,我们可以提供一些数据,如果想达到95%的可能性,你至少要摸多少次球。再比如社会上通过打电话做民意调查,不可能给所有拥有电话的人都打,如果调查允许在一定的误差范围内,通过计算可以提供至少需要打电话的数量。当然计算中需要概率的知识,从这些例子中我们也能看到统计与概率的联系。问:通过上面的两种教法和您的分析,我们可以感觉到概率是定义出来的,它的推理方式是主要是演绎;而统计是用数据来进行推断,它的推理方式主要是归纳。两种思维方式是不一样的。史教授:是这样的。统计体现了与传统数学不一样的思路,而这种思路是培养学生归纳能力的最好方法之一。在义务教育阶段,也有一些素材可以让学生经历归纳的过程,比如归纳一些公式和规律,但这些公式和规律往往都是准备好了的。很难找到让学生真正通过归纳自己得到结论的素材,但是通过统计可以让学生做一些,所以说,运用统计中部分推断整体是培养学生归纳的很好内容。问:您对归纳能力非常重视,能说说为什么吗?史教授:归纳能力和演绎能力都很重要。演绎是由一般到特殊,用于证明结论的正确性,这在数学中是重要的。而归纳是由特殊到一般,或者说是由一个范围中的结论推断更大范围中的结论,这往往导致了创新。我想培养我们的学生学得灵活一些,有一些创新。培养学生灵活、创新,不仅仅是把数学中的例子生活化就够了,而是要培养学生去尝试发现。统计从个别的现象去了解整体,这可以鼓励学生去发现结论。当然,利用数据分析来体现随机性,这样做的可行性以及如何去做,都需要经过教学实验,经过广大教师的实践和研究。无论如何,要使学生“喜欢”数据而不是害怕它。三、使学生产生对数据的亲切感问:正如您所说的,要让学生愿意亲近数据,就必须使他们体会到数据中是蕴含着信息的,就象摸球的例子一样。除了这种游戏,您还能再举出一些这样的例子吗?史教授:除了游戏以外,生活中有大量需要通过分析数据获取信息的例子。比如,要设计校服,就需要调查同学们的身高等情况。当把调查出来的数据汇总后,我们就需要分析数据提取信息。一提到分析数据,老师们马上就让学生计算平均数,其实平均数不是唯一的也不是万能的。这里,有这么几个信息是很重要的,比如学生可能首先关注这些数据中最大的是多少、最小的是多少,有了这两个数就把数据的范围定了下来。接着,学生就可能会对数据按段进行分组,统计出在各个身高段的人数,发现在哪个身高段的人数最多(众数的意义),中等水平学生的身高是多少(中位数的意义),当然也可以计算平均身高。还可以把自己的身高与班级的身高进行比较,看看自己处在什么位置上。所以这里有很多信息可以获得,不一定一开始就忙于去计算。开始提取的信息可以是不基于计算的信息,只是基于关系(最多、最少等)的信息,这个是非常必要的。再举一个例子,人们往往调查每天卖出最多的菜是什么,然后以这个菜价格的变化来判断蔬菜价格是否有所变化了。问:我想如果学生这种活动从事多了,不断地获取信息,就会逐渐“亲近”数据,也会对统计感兴趣。因此,我们的教学是不是应该首先让学生不惧怕数据,喜欢数据,然后再合理的运用和分析数据。史教授:我想,孩子不对这件事情感兴趣是不行的,所以我们教学很重要的是培养孩子们对于数据的感情,使他们知道通过数据能够帮助人们做点事,通过数据判断比瞎猜好,而这个数据自己也能够得到。问:刚才提到了平均数、中位数、众数,它们都是刻画一组数据集中情况的统计量。老师们非常困惑的问题,这三个量之间到底有什么区别,什么时候该用什么统计量?史教授:我们现在处理的数据,大部分是对称的数据,数据符合或者近似符合正态分布。这时候,均值(平均数)、中位数和众数是一样的(如下图)。只有在数据分布偏态(不对称)的情况下,才会出现均值、中位数和众数的区别。所以说,如果是正态的话,用哪个统计量都行。如果偏态的情况特别严重的话,可以用中位数。问:有的书上写道:平均数容易受极端数据的影响(数据偏到一面去了),是不是就是这个意思呢?在有极端数据的时候是不是一定要用中位数?史教授:平均数是容易受极端数据的影响,但是这种情况下不一定非要用中位数。其实,用中位数的情况并不多。那么,出现极端数据怎么办呢?一般认为这个数据不是来源于这个总体,统计上有一个方法,就要把这个数据去掉。比如大家熟悉的跳水比赛评分,为什么要去掉一个最高分、一个最低分呢,就认为这两个分不是来源于这个总体,不能代表裁判正常的鉴赏力。于是去掉以后再求剩下数据的平均数。问:看来,平均数还是经常使用的刻画数据集中情况的统计量。我想它为什么常用的原因是,与中位数和众数相比,平均数能更多地利用所有数据的信息,另外它也好算。除此之外,在数学上还有什么其他原因吗?史教授:假设我们得到了2个数据,令为平均数,利用中学的知识就可以证明:是与这2个数据差的平方和达到最小的实数,即对任意的实数有。这个例子给出了在进行数据分析时经常使用平均数的理由:使误差平方和达到最小,也就是说利用平均数代表数据,可以使二次损失最小。而利用中位数代表数据,是使一次损失(误差绝对值的和)最小。而我们都知道,二次函数有着很好的数学性质,而绝对值函数的性质不好,所以比较难研究。所以人们都选择用平均数来进行研究,在义务教育阶段更加注重平均数的教学是有道理的。但是现在平均数教学也存在着问题,比如有人做过调查,学生学习了平均数,会进行计算,但是当遇到真正的数据需要分析时,他们却很少想到用平均数。所以说,又回到前面的话题,也是我们谈话的中心,义务教育阶段统计教学关键是发展他们的数据分析观念,使他们想到用数据,愿意用数据,能从数据中提取一些信息。四、统计是关于数据的科学和艺术问:数据分析观念中还有一条是:了解对于同样的数据可以有多种分析的方法,需要根据问题的背景选择合适的方法。也就是统计的这些方法没有简单意义上的对和错,只有“好”和“不好”,您能具体说明一下吗?史教授:很多事情都是这样的。比如统计图表,对于一组数据,你往往可以用任意的统计图表来表示。但是你会发现,为了要表达一种信息、解决一个问题,用某些图表会比较合适,也就是说比较“好”。比如,想表达某部分数据在整个数据中所占比例的情况,用扇形图比较好;想比较各种数据之间的数量关系,用条形图或直方图比较好;如果数据是随着时间而变化的话,想了解数据的变化情况,那么用折线图比较好。这就是,同样的数据,根据你希望研究的问题不同,应该选择用不同的方法。问:最近听了一堂小学数学课,老师想讲平均数。他给了学生两组数据,一组数据是7个人每个人拍球的数量,一组数据是8个人每人拍球的数量。然后,老师提出问题:你觉得哪个小组拍的好。他的本意是希望学生意识到,因为每组排球的总数、每组的人数都不一样,应该比较两组的平均数。但是学生却想出了很多方法,比如有的学生认为应比较每组中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论