




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章数据分析概述《Python数据分析与应用:从数据获取到可视化(第2版)》学习目标/Target
了解数据分析产生的背景,能够简述数据分析产生的背景
了解数据分析的概念及层次,能够说出数据分析的概念以及4个层次
了解数据分析的应用领域,能够列举至少3个数据分析的应用领域
熟悉数据分析的流程,能够归纳数据分析的基本流程学习目标/Target
了解Python做数据分析的优势,能够说出Python有哪些优势
了解Anaconda工具,能够说出Anaconda工具的特点
掌握Anaconda的安装与使用,能够独立安装Anaconda工具并操作包
掌握JupyterNotebook工具的启用方式,能够通过多种方式启用工具学习目标/Target
熟悉JupyterNotebook的界面,能够归纳脚本文件窗口各组成部分的功能
掌握JupyterNotebook的使用方式,能够使用该工具编写与运行代码
熟悉常见的数据分析库,能够归纳每个数据分析库的功能章节概述/Summary随着大数据时代的到来,数据得到了前所未有的爆发性增长,我们每天都生活在庞大的数据群体中,能够从数据中挖掘有价值的信息变得愈发重要,数据分析技术应运而生。数据分析可以运用计算机工具和数学知识处理数据,并从海量数据中发现规律性的信息,帮助企业规避自身问题以及预测未来趋势。由此可见,数据分析在大数据时代扮演着不可估量的角色。目录/Contents01020304数据分析产生的背景什么是数据分析数据分析的应用场景数据分析的流程目录/Contents05060708为什么选择Python做数据分析搭建开发环境启用JupyterNotebook常见的数据分析库数据分析产生的背景1.11.1数据分析产生的背景了解数据分析产生的背景,能够简述数据分析产生的背景学习目标1.1数据分析产生的背景随着计算机技术全面地融入社会生活,信息爆炸已经积累到开始引发变革的程度,不仅使得世界上充斥着比以往更多的信息,而且增长速度也在逐步加快,驱使着人们进入了一个崭新的大数据时代。互联网、移动互联网、物联网、车联网、GPS、医学影像、安全监控、金融、电信等一些领域每天都在疯狂产生着数据。到目前为止,无论是线下的大超市还是线上的商城,每天都会产生TB级以上的数据量。1.1数据分析产生的背景以前,人们得不到想要的数据,是因为数据库中没有相关的数据。然而,现在人们依旧得不到想要的数据,主要的原因就是数据库里面的数据太多了,缺乏一些可以快速地从数据库中获取有利用价值数据的操作方法。在这种需求的推动下出现了数据分析技术。1.1数据分析产生的背景数据分析可以从海量数据中获得潜藏的有价值的信息,帮助企业或个人预测未来的趋势和行为,使得商务和生产活动具有一定的前瞻性。数据分析可以最大程度地开发数据的价值,发挥数据的作用,以提升人们对现实事物进行分析规划和问题识别的能力。什么是数据分析1.21.2什么是数据分析了解数据分析的概念及层次,能够说出数据分析的概念以及数据分析的4个层次学习目标1.2什么是数据分析数据分析是指使用适当的统计分析方法对收集到的大量数据进行分析,从这些数据中提取有用信息和形成结论,并加以详细研究和概括总结的过程。概念数据分析的目的在于,将隐藏在一大批看似杂乱无章的数据信息集中提炼出来有用的数据,以找出所研究对象的内在规律。目的1.2什么是数据分析数据分析的四个层次层层递进,经历了这四个层次分析后,可以对企业未来决策和行动提供更有力支撑。1.2什么是数据分析数据分析的四个层次1.描述性分析:发生了什么?描述性分析是数据分析中最简单形式的分析方式,它主要是在历史数据的基础之上,利用一些核心指标(如流量、转化率、收入、成本等)对业务的现状做出准确的描述,使人们能够对业务的整体情况有个认知。描述性分析一般通过简单的数学运算和统计运算便可以完成分析指标,典型的分析指标有均值、中位数、众数、方差等,不需要更加复杂的计算逻辑。为了帮助用户轻松地理解分析指标,经常会搭配折线图、热力图、直方图等一些图表进行展示。1.2什么是数据分析数据分析的四个层次2.诊断性分析:为什么会发生?诊断性分析是建立在描述性分析基础之上的分析方式,它会根据业务逻辑,通过数据寻找引起最终结果的原因、有哪些影响因素,以及可以改变未来结果的有效方法。在诊断性分析中,企业相关人员需要基于对业务的理解,分析业务结果和很多因素的相关性,通过一些方式快速定位到某些因素和结果的关系,这些方式包括头脑风暴、调研、与业务关键角色进行深度访谈等。1.2什么是数据分析数据分析的四个层次3.预测性分析:可能会发生什么?预测性分析专注于预测并理解未来可能发生的情况,它通过分析历史数据与客户洞察总结过去的数据模式和趋势,对业务未来进行动态预测,并在此过程中为业务提供多方面的信息,包括设定实际的目标、圈定正确的客户群体、设计有效的营销计划、管理绩效的预期以及规避风险等。预测性分析中应用的分析技术有很多,比如数据挖掘、统计建模、机器学习算法等,通过这些技术可以达到预测未来结果以及结果发生可能性的目的。由于预测性分析能够告诉企业未来可能发生的事情,所以这种方法会让企业采取更加主动的态度制定战略和决策。基于概率的,不一定准确1.2什么是数据分析数据分析的四个层次4.规范性分析:我该做些什么?规范性分析是数据分析中最为复杂的分析方法,它建立于其他三种分析方法之上,通过算法或最优化决策帮助企业消除未来可能发生的问题,做出最佳决策。规范性分析可以预测多个事件发生的可能性,同时在做出决定之前考虑每种可能的结果,这就意味着规范性分析的实施和管理更加复杂,它不仅需要依赖企业内部的历史数据,还需要依靠很多来自社交媒体的外部信息,甚至需要更加复杂的技术,比如机器学习、业务规则和算法等。数据分析的应用场景1.31.3数据分析的应用场景了解数据分析的应用领域,能够列举至少3个数据分析的应用领域学习目标1.3数据分析的应用场景营销方面的应用医疗方面的应用零售方面的应用网络安全方面的应用交通物流方面的应用5个应用场景1.3数据分析的应用场景营销方面的应用据一项研究表明,习惯促成了人们每天45%的选择,这意味着只要我们了解了习惯的形式,就可以简单地控制它们。平台运营人员通过用户的购买数据分析消费者的购物行为,这样便可以精准地预测用户下一步的消费对象,适时推送广告或优惠券促使用户开启全新的购物方式。1.3数据分析的应用场景医疗方面的应用数据分析应用的计算能力可以让我们能够在几分钟内就可以解码整个DNA,并且让我们可以制定出最新的治疗方案,同时可以更好地去预测疾病,就好比人们戴上智能手表等可以产生的数据一样,数据分析同样可以帮助病人及早预防和预测疾病的发生,做到早治疗、早康复。1.3数据分析的应用场景零售方面的应用比如零售业的“啤酒-纸尿裤”故事,经过分析发现,这些购买者多数是已婚男士,这些男士在为小孩购买尿不湿的同时,会给自己购买一些啤酒。发现这个秘密后,商店就大胆地将啤酒摆放在尿不湿旁边,这样顾客购买起来的时候更方便,销量自然也会大幅上升。啤酒与尿布的例子启示我们,挖掘数据潜在的价值是零售业竞争的核心竞争力。1.3数据分析的应用场景网络安全方面的应用传统的网络安全主要依靠静态防御及处理病毒的流程发现威胁、分析威胁和处理威胁。这种情况下,往往在威胁发生以后才能做出反应。新型的病毒防御系统可以使用数据分析技术,建立潜在攻击识别分析模型,监测大量网络活动数据和相应的访问行为,识别可能进行入侵的可疑模式,做到未雨绸缪。1.3数据分析的应用场景交通物流方面的应用随着各国数据系统逐渐完善,以及对数据的深入分析,物流行业得以快速的发展。我们可以通过业务系统和GPS定位系统获得数据,使用数据构建交通物流状况预测分析模型,有效预测实时路况、物流状况、车流量、客流量和货物吞吐量,进而提前补货,制定库存管理策略。数据分析的流程1.41.4数据分析的流程熟悉数据分析的流程,能够归纳数据分析的基本流程学习目标1.4数据分析的流程数据分析的流程数据收集数据分析数据展现基于对项目的理解,整理出分析的框架和思路。不同的项目对数据要求不一样,使用的分析手段也是不一样的。数据处理数据收集是按照确定的数据分析思路和框架内容,有目的收集、整合相关数据的一个过程,它是数据分析的基础。数据处理是指对收集到的数据进行清洗、加工、整理等一些操作,是数据分析整个过程中最耗时的,也在一定程度上保证了数据质量。数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规划,为商业提供决策参考。数据分析的结果都会通过图表方式进行展现,借助图表这种展现数据的手段,可以更加直观地呈现信息、观点和建议。明确目的和思路为什么选择Python做数据分析1.51.5为什么选择Python做数据分析了解Python做数据分析的优势,能够说出Python在数据分析方面有哪些优势学习目标1.5为什么选择Python做数据分析近年来,数据分析正在改变我们的工作方式,数据分析的相关工作也越来越受到人们的青睐。很多编程语言都可以做数据分析,比如Python、R、Matlab等,Python凭借着自身无可比拟的优势,被广泛地应用到数据科学领域中,并逐渐衍生为主流语言。1.5为什么选择Python做数据分析Python的优势01语法简单精炼,适合初学者入门02拥有一个巨大且活跃的科学计算社区03拥有强大的通用编程能力04人工智能时代的通用语言05方便对接其他语言1.5为什么选择Python做数据分析Python相比其他编程语言,语法简单,代码可读性高,非常适合初学者学习。例如,在使用Python处理数据时,如果希望将一组性别数据转换成计算机能够运算的数值形式,也就是说“男”变成“0”,“女”变成“1”,这时可以直接用一行列表推导式完成,十分简洁。1.语法简单精炼,适合初学者入门Python在数据分析、科学计算、数据可视化等方面都有非常成熟的库和活跃的社区,这为Python成为数据处理的重要解决方案提供了有力支撑。Python拥有NumPy、pandas、Matplotlib、scikit-learn等一些非常优秀的库,其中pandas在处理中型数据方面有着很大的优势,并逐渐成为各行各业进行数据处理任务的首选库。2.拥有一个巨大且活跃的科学计算社区1.5为什么选择Python做数据分析对一家公司来说,使用一种编程语言完成全部业务成为可能。例如,使用Python的爬虫框架Scrapy收集数据,然后把收集到的数据交给pandas库进行处理,最后使用Django框架开发Web网站展示,整个过程中所有任务全部是用Python完成的,大大地提高了公司的开发效率。3.拥有强大的通用编程能力在人工智能领域中,Python已经成为了十分受欢迎的编程语言,这主要得益于其语法简洁、丰富的库和社区,使得大部分深度学习框架都优先支持Python语言编程。比如目前比较流行的深度学习框架PyTorch,它在PyTorch里面加入了很多使用Python编写的功能,变得更加灵活。4.人工智能时代的通用语言1.5为什么选择Python做数据分析Python作为一门胶水语言,能够以多种方式与其它语言的组件“粘连”在一起,可以轻松地操作其它语言编写的库,这就意味着用户可以根据需要给Python程序添加功能,或者在其它环境系统中使用Python语言。
5.方便对接其他语言搭建开发环境1.61.6.1
Anaconda概述了解Anaconda工具,能够说出Anaconda工具的特点学习目标1.6.1
Anaconda概述Anaconda是目前比较流行的用于数据分析的开发工具,它包含了Conda(开源的包管理器和环境管理器)、Python在内的超过180个科学计算包及其依赖项,可以便捷地获取和管理包,同时对开发环境进行统一管理,另外它默认安装了很多工具,包括IPython、JupyterNotebook等。1.6.1
Anaconda概述Anaconda特点具有众多流行的科学、数学、工程和数学分析的Python包社区版本完全开源和免费额外的加速和优化是收费的,但对于学术用途,可以申请免费的许可证全平台支持Linux、Windows、macOS1.6.1
Anaconda概述多学一招:Miniconda
Miniconda是Anaconda的简化版的工具,它只包含Python、conda及其它们的必须依赖项,以及少量有用的包,包括pip、zlib等。用户若想要使用其他包,则需要自己通过conda命令或pip命令手动进行安装。对于计算机内存空间要求严格的用户来说,Miniconda是个不错的选择。1.6.2
Anaconda的安装掌握Anaconda的安装,能够独立在计算机中安装Anaconda工具学习目标1.6.2
Anaconda的安装在浏览器中打开Anaconda官方网站的首页。
Step
11.6.2
Anaconda的安装把鼠标悬浮至Products菜单上方,自动弹出Products菜单的下拉列表。Step
21.6.2
Anaconda的安装单击“AnacondaDistribution”选项页面会切换到AnacondaDistribution的下载页面。
Step
31.6.2
Anaconda的安装单击“Download”按钮页面会切换至谢谢下载的页面。
Step
4在该页面底部单击“Sign-up”按钮,填写个人信息进行注册,注册完成后会开始下载安装包。1.6.2
Anaconda的安装右击Anaconda3-2022.10-Windows-x86_64.exe,以管理员身份运行安装程序,打开WelcometoAnaconda32022.10(64-bit)Setup界面。
Step
51.6.2
Anaconda的安装单击“Next”按钮进入LicenseAgreement界面。
Step
61.6.2
Anaconda的安装单击“IAgree”按钮同意最终用户许可协议,进入SelectInstallationType界面。
Step
7仅为当前用户安装Anaconda工具为计算机中所有用户安装Anaconda工具1.6.2
Anaconda的安装选择JustMe选项,单击“Next”按钮进入ChooseInstallLocation界面。
Step
81.6.2
Anaconda的安装保持默认配置,单击“Next”按钮进入AdvancedInstallationOptions界面。Step
9是否将Anaconda添加到系统环境变量是否安装版本号为3.9的Python解释器1.6.2
Anaconda的安装勾选两个复选框,单击“Install”按钮进入Installing界面,该界面的进度条会显示当前的安装进度。
Step
101.6.2
Anaconda的安装等待片刻后,安装完成会自动进入InstallationComplete界面。
Step
111.6.2
Anaconda的安装单击“Next”按钮进入Anaconda32022.10(64-bit)界面。
Step
121.6.2
Anaconda的安装单击“Next”按钮进入CompletingAnaconda32022.10(64-bit)Setup界面。
Step
13此处取消勾选两个选项,单击“Finish”按钮完成安装,关闭CompletingAnaconda32022.10(64-bit)Setup界面。1.6.2
Anaconda的安装Anaconda3文件夹AnacondaNavigator;用于管理包和环境的图形用户界面。AnacondaPowershellPrompt:Anaconda自带的命令行工具,支持更多的Linux命令。AnacondaPrompt:Anaconda自带的命令行工具。JupyterNotebook:基于Web的交互式计算环境,可以编辑易于人们阅读的文档,用于展示数据分析的过程。ResetSpyderSettings:用于重置Spyder的设置信息。Spyder
:一个使用Python语言开发的、跨平台的、科学运算集成开发环境。1.6.2
Anaconda的安装启动Anaconda单击“AnacondaNavigator”图标,若能够正常启动AnacondaNavigator,则说明Anaconda工具安装成功。
1.6.3通过Anaconda管理包掌握Conda命令的功能,能够通过Conda命令安装、更新、卸载包学习目标1.6.3通过Anaconda管理包Conda介绍Conda是一个开源的包管理器和环境管理器,用于帮助开发人员在独立的环境下安装多个版本的包及其依赖关系,并在多个环境之间进行切换,适用于Windows、macOS或Linux系统。Conda提供了一系列管理包的命令。我们若想要管理包,可以先在AnacondaNavigator页面找到“CMD.exePrompt”,单击“Launch”按钮启动AnacondaPrompt工具,或者直接在开始菜单中启动AnacondaPrompt工具,再在AnacondaPrompt中执行相应的Conda命令。1.6.3通过Anaconda管理包常用Conda命令1.查看当前版本通过“conda–version”或“conda–V”命令可以查看Conda当前使用的版本。>>>(base)C:\Users\admin>conda--versionconda22.9.01.6.3通过Anaconda管理包常用Conda命令2.查看当前环境下的包信息通过“condalist”命令可以查看当前环境下已经安装的全部包的信息。>>>(base)C:\Users\admin>condalist#packagesinenvironmentatC:\Users\itcast\anaconda3:##NameVersionBuildChannel_ipyw_jlab_nb_ext_conf
0.1.0
py39haa95532_0alabaster0.7.12
pyhd3eb1b0_0anaconda
2022.10py39_0……1.6.3通过Anaconda管理包常用Conda命令3.查找包通过“condasearch”命令可以查找可供安装的包。
condasearch--full-name包的全名condasearch--full-namepython例如:查找全名为python的包有哪些版本可供安装1.6.3通过Anaconda管理包常用Conda命令4.安装包通过“condainstall”
命令既可以在当前环境中安装包,也可以在指定环境中安装包。
condainstall[--name环境名称]包名称condainstalldjango例如:在当前环境中安装django包1.6.3通过Anaconda管理包常用Conda命令4.安装包还可以切换到conda-forge渠道进行安装。condainstall-cconda-forgejieba例如:从conda-forge渠道安装jieba包condaconfig--addchannelsconda-forge例如:添加conda-forge渠道1.6.3通过Anaconda管理包常用Conda命令4.安装包还可以直接使用pip命令安装包。如果不是在当前环境下安装包,则需要先切换到指定环境下,再使用pip命令进行安装。pipinstalljieba例如:在当前环境下安装jieba包1.6.3通过Anaconda管理包常用Conda命令5.卸载包通过“condaremove”
命令既可以卸载当前环境中的包,也可以卸载指定环境中的包。
condaremove[--name环境名称]包名称例如:卸载刚才安装的django包condaremovedjango1.6.3通过Anaconda管理包常用Conda命令6.更新包通过“condaupdate”命令可以更新当前环境中指定的一个包或多个包。
condaupdate
包名称1包名称2包名称3……一次性更新当前环境下的所有包。condaupdate--all启用Jupyter
Notebook1.71.7.1启动Anaconda自带的Jupyter
Notebook掌握JupyterNotebook的启用方式,能够通过Anaconda或命令的方式启用JupyterNotebook工具学习目标1.7.1启动Anaconda自带的Jupyter
Notebook什么是JupyterNotebookJupyterNotebook(交互式笔记本)是一个支持实时代码、数学方程、可视化和Markdown的Web应用程序,它支持40多种编程语言。对于数据分析来说,JupyterNotebook的优点是能够重现数据分析的完整过程,并将说明文字、代码、图表、公式和结论都整合在一个文档中,用户可以通过电子邮件、Dropbox、GitHub和JupyterNotebookViewer将文档分享给其他人。1.7.1启动Anaconda自带的Jupyter
NotebookJupyter启动方式通过AnacondaNavigator启动JupyterNotebook通过命令的方式启动JupyterNotebook
方式一:方式二:1.7.1启动Anaconda自带的Jupyter
Notebook通过AnacondaNavigator启动JupyterNotebook单击Launch按钮启动1.7.1启动Anaconda自带的Jupyter
Notebook通过命令启动JupyterNotebook执行命令后启动1.7.1启动Anaconda自带的Jupyter
Notebook通过命令启动JupyterNotebook若希望JupyterNotebook展示其他目录,则需要先通过cd命令将当前路径切换至指定的目录,然后在此目录下输入命令“jupyternotebook”,执行该命令后会在JupyterNotebook首页看到指定目录下的目录结构。切换的工作目录的名称尽量不要使用汉字,否则可能会出现无法识别的问题。1.7.2
Jupyter
Notebook界面详解熟悉JupyterNotebook的界面,能够归纳Python脚本文件窗口各组成部分包含的主要功能学习目标1.7.2
Jupyter
Notebook界面详解新建文件新建按钮Python运行脚本文件其他可选择的新建类型1.7.2
Jupyter
Notebook界面详解Python脚本文件1.7.2
Jupyter
Notebook界面详解Python脚本文件1.标题栏JupyterNotebook的图标JupyterNotebook的简称脚本文件的名称当前文件所处的状态Python图标注销按钮1.7.2
Jupyter
Notebook界面详解Python脚本文件2.菜单栏包含打开、重命名、保存、关闭等功能1.7.2
Jupyter
Notebook界面详解Python脚本文件2.菜单栏包含剪切单元格、复制单元格、删除单元格等一些与单元格有关的操作1.7.2
Jupyter
Notebook界面详解Python脚本文件3.快捷键区域1.7.2
Jupyter
Notebook界面详解Python脚本文件4.编辑区域代码类型的单元格Markdown类型的单元格1.7.3
Jupyter
Notebook的基本使用掌握JupyterNotebook的使用方式,能够使用JupyterNotebook工具编写与运行代码学习目标1.7.3
Jupyter
Notebook的基本使用编辑和运行代码代码输入框输出结果框运行代码1.7.3
Jupyter
Notebook的基本使用设置标题使用“#”字符作为标记写标题。
#一级标题##二级标题###三级标题####四级标题#####五级标题例如:添加一级标题和二级标题#第一个标题##简单示例1.7.3
Jupyter
Notebook的基本使用导出文件①②可导出的文件类型常见的数据分析库1.81.8常见的数据分析库熟悉常见的数据分析库,能够归纳每个数据分析库的功能学习目标1.8常见的数据分析库常见的数据分析库NumPy库Matplotlib库pandas库Seaborn库Pyecharts库NLTK库scikit-learn库1.8常见的数据分析库NumPy库NumPy是Python开源的科学计算库,它提供了Python对多维数组的支持,能够支持高维数组与矩阵运算。此外,针对数组运算也提供了大量的数学函数库。快速高效的多维数据对象ndarray多维数组具有矢量运算能力,快速且节省空间矩阵运算。无需循环即可完成类似Matlab中的矢量运算线性代数、随机数生成以及傅里叶变换功能1.8常见的数据分析库pandas库pandas是一个基于NumPy的数据分析包,它是为了解决数据分析任务而创建的。pandas中纳入了大量库和标准的数据模型,提供了高效操作大型数据集所需要的函数和
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美发双氧水知识培训
- 线上装修知识培训课件
- 人物整体造型课件
- 精酿啤酒屋知识培训课件
- 围墙分界范围协议书二零二五年
- 二手房买卖合同无房产证
- 个人欠款协议书二零二五年
- 学校足球场地租赁合同二零二五年
- 国际贸易合同的订立和履行二零二五年
- 202x工作汇报总结
- 2022年江苏对口单招市场营销试卷剖析
- 同等学力工商管理综合复习资料(全)
- 爱爱医资源-生理学-122排卵、黄体形成与月经周期
- 科技小巨人工程验收培训
- 大班绘本教案《月亮冰激凌》
- 关键过程(工序)和特殊过程(工序)管理办法
- 火力发电厂运煤设计规程
- 01-第一章--粉末的制取雾化法
- 专利挖掘和布局专题培训课件
- 3D打印学习教案
- 六年级动员大会(课堂PPT)
评论
0/150
提交评论