版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
StatisticswithPython
统计学
基于Python
课程内容描述统计、推断统计、其他方法使用软件
Python
语言学分与课时3学分,1~17周,每周3课时课程简介贾俊平2023/12/191.1数据与统计学1.2Python的初步使用第1章数据与Python语言
统计学(statistics)
分析数据的一门科学,它所提供的是一套通用于所有学科领域的获取数据、处理数据、分析数据并从数据中得出结论的原则和方法统计学是一套通用的数据分析方法,虽然这些方法可用于不同学科领域数据的分析,但它不是为某个特定的问题领域构造的统计方法不是一成不变的,使用者在特定情况下需要根据所掌握的专业知识选择使用这些方法,如果需要,还可以进行必要的修正什么是统计学
1.1
数据与统计学数据分析(dataanalysis)
运用统计方法对收集来的数据进行分析,从中提取有用信息并得出结论的过程数据分析的目的是把隐藏在数据中的信息有效地提炼出来,从而找出所研究对象的内在规律和特征在实际应用中,数据分析可帮助人们做出判断和决策,以便采取适当行动什么是数据分析
1.1
数据与统计学统计学提供的就是一套数据分析方法数据分析所用的方法就是统计方法数据分析方法——基本分类
1.1
数据与统计学从分析目的看
可以将数据分析分为描述性分析(descriptiveanalysis)、探索性分析(exploratoryanalysis)和验证性分析(confirmatoryanalysis)三大类描述性分析和是对数据进行初步的整理、展视和概括性度量,以找出数据的基本特征;探索性分析侧重于在数据之中发现新的特征,为形成某种理论或假设而对数据进行的分析;验证性分析则侧重于对已有理论或假设的证实或证伪从所使用的统计分析方法看可大致可分为描述统计(descriptivestatistics)和推断统计(inferentialstatistics)两大类描述统计是利用图表形式对数据进行汇总和展示,计算一些简单的统计量推断统计是根据样本信息来推断总体的特征,内容包括参数估计和假设检验数据分析方法从分析目的看描述性分析探索性分析验证性分析从统计方法看描述统计推断统计商业软件——不推荐使用
商业类软件种类繁多,较有代表性的软件有SAS、SPSS、Minitab、Stata等。多数人较熟悉的Excel虽然不是统计软件,但提供了一些常用的统计函数以及数据分析工具这类软件虽有不同的侧重点,但功能大同小异,基本上能满足大多数人做数据分析的需要。商业类软件使用相对简单,容易上手主要问题是价格不菲,多数人难以接近,此外,更新速度慢,难以提供最新方法的解决方案数据分析工具
1.1
数据与统计学非商业软件——推荐使用
非商业类软件则不存在价格问题。目前较为流行的软件有R语言和Python语言,二者都是免费的开源平台R语言的一种优秀的统计软件,它是一种统计计算语言。优点:更新速度快,可以包含最新方法的解决方案;提供丰富的数据分析和可视化技术,功能十分强大。R软件中的包(package)和函数均由统计专家编写,函数中参数的设置也更符合统计和数据分析人员的思维方式和逻辑,并有强大的帮助功能和多种范例,初学者也很容易上手Python则是一种面向对象的解释型高级编程语言,并拥有丰富而强大的开源第三方库,也具有强大的数据分析可视化功能。Python于R的侧重点略有不同,R的主要功能是数据分析和可视化,且功能强大,多数分析都可以由R提供的函数实现,不需要太多的编程,代码简单,容易上手。Python的侧重点则是编程,具有很好的普适性,但数据分析并不是其侧重点,虽然从理论上说都可以实现,但往往需要编写很长的代码,帮助功能也不够强大,这对数据分析的初学者来说可能显得麻烦,但仍然不失为一种有效的数据分析工具数据分析工具
1.1
数据与统计学数据及其来源——变量和数据
1.1
数据与统计学数据(data)变量的观测结果数据是个广义的概念,任何可观测并有记录的信息都可以称为数据,它不仅仅包括数字,也包括文本、图像等。比如,一篇文章也可以看作数据,一幅照片也可以视为数据,等等变量(variable)描述所观察对象某种特征的概念,其特点是从一次观察到下一次观察可能会出现不同结果观察一个企业的销售额,这个月和上个月不同;观察股票市场上涨股票的家数,今天与昨天数量不一样;观察一个班学生的生活费支出,一个人和另一个人不一样;投掷一枚骰子观察其出现的点数,这次投掷的结果和下一次也不一样“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”等就是变量数据及其来源——变量和数据的分类
1.1
数据与统计学类别变量(categoricalvariable)取值为对象属性或类别以及区间值(intervalvalue)的变量,也称分类变量(classifiedvariable)或定性变量(qualitativevariable)可分为无序类别变量(disorderedcategoryvariable)和有序类别变量(orderedcategoryvariable)两种无序类别变量也称名义(nominal)值变量,其取值的各类别间是不可以排序的有序类别变量也称顺序(ordinal)值变量,其取值的各类别间可以排序只取两个值的类别变量也称为布尔变量(booleanvariable)或二值变量(binaryvariable类别变量(categoricalvariable)数值变量(metricvariable)是取值为数字的变量,也称为定量变量(quantitativevariable)可以分为离散变量(discretevariable)和连续变量(continuousvariable)离散变量的取值是只能取有限个值的变量,而且其取值可以列举,通常(但不一定)是整数连续变量是可以在一个或多个区间中取任何值的变量,它的取值是连续不断的数据及其来源——变量和数据的分类
1.1
数据与统计学数据是变量的观测结果,因此,数据的分类与变量的分类是相同的本书混合使用变量和数据这两个概念在讲述分析方法时多使用变量的概念,在例题分析中多使用数据的概念了解变量或数据的分类十分必要,因为不同的变量或数据适用的分析方法是不同的变量分类类别变量(定性)无序类别变量(名义值)有序类别变量(顺序值)布尔变量(二值)数值变量(定量)离散变量(离散值)连续变量(连续值)时间变量(定性或定量)定性:离散值定量:连续值间接来源——二手数据直接来源——抽取样本总体(population):包含所研究的全部个体(或数据)的集合样本(sample):从总体中抽取的一部分元素的集合样本量(samplesize):构成样本的元素的数目概率抽样方法根据已知的概率抽取样本元素,也称随机抽样数据及其来源——数据来源和抽样方法简单随机抽样从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中抽取元素的具体方法有放回抽样和无放回抽样分层抽样将总体单位按某种特征或规则划分为不同层,再从不同的层中随机地抽取样本系统抽样将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本元素整群抽样将总体中若干个单位合并为组(群),抽样时直接抽取群,再对中选群中的所有单位全部实施调查
1.1
数据与统计学Python
Python是一种面向对象的解释型高级编程语言简单易学、免费、拥有丰富而强大的开源第三方库被广泛应用于系统和网络编程、数据处理、云计算、机器学习和人工智能等多个领域已成为目前广泛使用的编程语言之
Python与Anaconda
1.2
Python的初步使用Anaconda
Anaconda是一种适合数据分析的Python开发环境,也是一个开源是Python版本Anaconda包含了多个基本模块,如numpy,pandas,matplotlib,IPython等,安装Anaconda时,这些模块也就一并安装好了Anaconda还内置了JupyterNotebook开发环境,十分方便代码的编写和修改本书代码编写和运行使用的就是Anaconda平台的JupyterNotebook界面,推荐初学者使用Anaconda的下载与安装进入官网(),点击右上角“GetStarted”选择Anaconda个人版选项,并单击在弹出的页面中选择自己的电脑系统,如果是Windows系统,需要选择电脑系统的位数,比如64位,即可以下载
Anaconda的下载与安装
1.2
Python的初步使用Anaconda界面有几种不同的界面可供使用,如JupyterNotebook,Spyder,Ipython等,可根据自身偏好选择JupyterNotebook是一个交互式编辑器,它是以网页的形式打开程序,可以在线或非在线编写代码和运行代码,代码的运行结果可以直接在代码块下显示,对使用者这而言比较直观,易于代码的编写和修改JupyterNotebook还可以使用Markdown和HTML来创建包含代码块和标题或注释的文档,便于代码块的区分本书代码编写和运行均使用JupyterNotebook
Anaconda——创建JupyterNotebook文件创建JupyterNotebook文件打开JupyterNotebook,点击右上角的New按钮,选择Python3,即可以创建一个Python文件在JupyterNoteboo中编写代码在in[]后的代码框(称为“cell”)中可输入代码。点击“运行”按钮或使用组合键<Ctri+Enter>,即可运行该代码,运行结果会在代码块的下面显示,其中out[]内的数字表示代码块的第几次运行输出要增加新的代码编辑框,可以点击“+”在下方增加代码编辑框,点击“Insert”,可以在上方或下方增加代码编辑框,即可继续编写代码
1.2
Python的初步使用保存JupyterNotebook文件要保存编写的代码,常用的有两种格式:一种是JupyterNotebook的专属文件格式,另一种是Python格式要保存成JupyterNotebook格式,在文件界面中点击file菜单,选择SaveandCheckpoint,文件会自动保存在默认路径下,文件的扩展名为ipynb。如果要保存在自己的文件夹中,可以在桌面上先建立一个文件夹,比如,Python_code,进入JupyterNotebook后,点击“Desktop”就能显示你的文件夹Python_code,点击该文件夹,并点击右上角的New按钮,选择Python3,即可以创建一个Python文件,这个文件就会自动保存至文件夹Python_code中,你可以建立多个不同名称的文件保存在该文件夹中要保存成Python文件,点击file菜单,选择Downloadas下的Python(.py),文件会自动保存在默认路径
1.2
Python的初步使用
Anaconda——保存JupyterNotebook文件模块Python中的模块(module)或称为库(package)是指包含Python类、函数等信息的集合,可以看作一个工具包大部分统计分析和绘图都可以使用已有的Python模块中的函数来实现一个Python模块中可能包含多个函数,能做多种分析和绘图,对于同一问题的分析或绘图,也可以使用不同模块中的函数来实现,用户可以根据个人需要和偏好选择所用的模块。模块的下载与安装可以在Python中进行,也可以在Anaconda中进行,这取决于你使用是操作平台或环境在最初安装Python软件时,自带了一序列内置模块,如time,random,sys,os,json,pickle,shelve,xml,re,logging等除内置模块外,Python还提供了丰富的开源的第三方模块,统计常用的模块有数值计算模块numpy,数据处理模块pandas,作图模块matplotlib,统计计算模块statistics,统计建模模块statsmodels内置模块与第三方模块都需要导入这些模块才能使用其中的函数模块的加载与安装
1.2
Python的初步使用使用Python安装pip工具是Python自带的第三方安装工具,在python安装过程中已经安装完成,无需独立安装。如果安装Python时成功将其加入PATH,就可以在操作系统终端直接使用pipinstall<模块名称>命令安装第三方模块。Windows系统的操作是,同时按下电脑上的win+R键,在左下角弹出的运行窗口输入“cmd”即可打开终端。MacOS直接打开Terminal即可使用Anaconda安装使用Anaconda中的conda进行包的管理和环境管理。安装模块需要在AandondaPrompt中输入命令。点击Windows的“开始”按钮,在Anaconda点击AandondaPrompt,在打开的界面中输入安装命令即可完成安装。比如,要安装模块pandas,输入condainstall<模块名称>即可完成安装模块的加载与安装
1.2
Python的初步使用模块缩写对于名称较长的模块,为方便使用,通常在导入后将其简化命名。比如,importpandasaspd表示导入模块pandas并简化命名为pd,importmatpoltlibasplt表示导入模块matploylib并简化命名为plt,等等当你看到pd.read_csv时,意味着引用的是pandas模块中的read_csv函数,看到np.average时,意味着引用的是numpy模块中的average函数,等等模块的缩写
1.2
Python的初步使用查看帮助每个Python模块和函数都有相应的帮助说明。使用中遇到疑问时,可以随时查看帮助文件查询Python内置的模块或函数时,直接使用help(函数名)或help(’模块名’)即可。比如,要想了解sum函数功能及使用方法,可以使用help(sum)或?sum来查询。要了解random模块的功能及使用方法,可使用help('random')查询,或先使用import导入该模块,使用help(random)查询要查询从第三方平台安装的模块和其中的函数时,需要先用improt导入模块,确保坏境内有这个对象查看帮助文件
1.2
Python的初步使用对象赋值Python有一个重要的概念,即一切皆对象。在Python中,数字、字符串、元组、列表、字典、函数、方法、类、模块,包括你写的代码都是对象(object)对象是给某个变量、数据集或一组代码起一个名字。比如,d=example1_1就是将数据框example1_1赋值给了对象d,要使用该数据框,直接使用d就可以了Python语言的标准赋值符号是“=”。使用者可以给对象赋一个值、一个列表、一个矩阵或一个数据框、一个代码块等。比如,将5个数据组成的列表[80,87,98,73,100]赋值给对象x,将数据文件example1_1赋值给对象d等编写代码脚本
1.2
Python的初步使用变量命名在Python中,变量名是所指定的一种特定标识符(字符串)。Python的变量命名规则如下标识符可以由字母、数字、下画线(_)组成,其中数字不能打头。字母并不局限于26个英文字母,可以包含中文字符等Python语言区分大小写,因此abc和Abc是两个不同的标识符标识符不能包含空格另外,Python有33个关键字,如表1-1所示。这些关键字在语法中有特定的含义和功能,不能作为变量名编
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 船舶股权转让协议
- 公司采购合同
- 产品双方购销合同
- 驾校租赁场地合同
- 兑店转让合同范文
- 湖南省张家界市2024年七年级上学期期中数学试题【附答案】
- 工程项目施工现场管理制度(班组)
- 湖南省衡阳市祁东县2023-2024学年高一下学期7月期末统考政治试卷
- 工程项目管理资料归档类别
- 高考生物一轮复习讲义选修3第2讲细胞工程
- 信息系统应急管理培训
- 2024年教育事业统计培训
- 装修工程施工方案
- 社会保险稽核工作计划
- 无人机应用2024年的无人机技术和无人机行业
- ISTA-2A-包装运输测试报告-审核通过
- 魁北克腰痛障碍评分表(Quebec-Baclain-Disability-Scale-QBPDS)
- 政府采购网上商城服务规范第1部分:交易流程
- 新生儿身份识别课件
- 幕墙施工计划书
- 卤味官方直播话术
评论
0/150
提交评论