Python人工智能技术与应用课件 6.【课件】2-3 Python 数据探索性分析_第1页
Python人工智能技术与应用课件 6.【课件】2-3 Python 数据探索性分析_第2页
Python人工智能技术与应用课件 6.【课件】2-3 Python 数据探索性分析_第3页
Python人工智能技术与应用课件 6.【课件】2-3 Python 数据探索性分析_第4页
Python人工智能技术与应用课件 6.【课件】2-3 Python 数据探索性分析_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《Python人工智能技术与应用》能力模块二

掌握Python人工智能的基础应用任务三

Python数据探索性分析TaskImport任务导入解决了产品开发和数据来源的问题,BI产品的最后一步是进行数据探索性分析,通过对数据进行探索,更好地理解客户、发现业务机会、帮助决策制定等。

作为该商业咨询公司商业智能团队中的Python数据分析师,你的主要职责是使用Python编程语言和数据分析工具来处理和分析大量数据,具体包括数据清洗和预处理、数据分析和建模、可视化和报告等,现在需要你通过使用Python脚本在该BI产品中对数据进行探索性分析,确定影响汽车销售量价格、保险费用等关键因素,了解汽车市场的潜在需求和趋势,为汽车市场研究和市场策略制定提供支持。素养目标引导问题的过程中,培养学生形成勤于思考的能力获得分析解决问题以及多元化思考解决问题的方法,形成创新意识。TaskObject任务目标知识目标了解数据探索性分析的定义。了解数据探索性分析的流程。了解Python实现数据探索性分析的常用库。能够判断数据集特征的类别。技能目标掌握使用matplotlib实现对不同类别数据的可视化。掌握使用numpy库、Pandas库实现对数据的缺失值、异常值、变量相关关系的洞察.能够思考并确定对汽车产品数据探索性分析的思路。在实践中培养决策分析的职业能力。新

授Python实现数据探索性分析的常用库05CONTENTS目录汽车产品数据探索性分析项目实现06数据探索性分析技术认知01数据分类02数据可视化03洞察数据0401数据探索性分析技术认知数据探索性分析主要用于查看哪些数据可以揭示超出常规建模或假设检验任务的洞察,帮助更好地理解数据集变量以及它们之间的关系;数据探索性分析是成功实现人工智能与机器学习的第一步;数据是用来描述特定事物或概念的信息,可以是文本、数字、图像或其他形式的信息;探索性数据分析被数据科学家用于分析和调查数据集并总结其主要特征,通常采用数据可视化方法;01数据探索性分析技术认知探索报表数据的趋势数据分类02数据探索性分析步骤探索性数据分析的过程大致分为3步:数据分类、数据可视化、洞察数据。数据分类02在数据科学领域,一般将数据分为结构化数据和非结构化数据。而对应地,非表格形式组织的都是非结构化数据。例如:文本、图片、视频等。世界上20%数据是结构化数据,80%的数据是非结构化数据。非结构化数据结构化数据指的是能够用表格来组织的数据。例如:Excel里的数据、数据库MySQL里的数据等。结构化数据

结构化数据VS非结构化数据数据分类02结构化数据结构化数据定类等级定比等级定序等级定距等级定性数据定量数据数据分类02结构化数据在定类等级的基础上加了自然排序,这样我们就可以对不同数据进行比较。例如:餐厅的评星,公司的考核等级。定序等级是数据的第一个等级,其结构最弱。只需要按照名称来分类。例如:血型(A,B,AB,O)、姓名、颜色。定类等级数据的4个等级示意数据分类02结构化数据是在定距等级的基础上,加入了绝对零点,不但可以做加减的运算,还可以做乘除的运算。例如:金钱、重量。定比等级一定是数值类型的,并且这些数值不仅可以用来排序,还可以用来加减。例如:华氏度、摄氏度(温度有负数,不可以进行乘除运算)。定距等级数据的4个等级示意数据可视化03

数据可视化是一种将数据抽象成图表或图形的过程,它可以帮助人们更容易理解数据,从而更快捷地分析出数据中的趋势和模式。用于表示一组数据的分布情况,可以很直观地看出每个分组所占的比例。饼图数据可视化03

数据可视化是一种将数据抽象成图表或图形的过程,它可以帮助人们更容易理解数据,从而更快捷地分析出数据中的趋势和模式。用于表示一组数据的分布情况,可以很直观地看出每个分组的大小。条形图数据可视化03

数据可视化是一种将数据抽象成图表或图形的过程,它可以帮助人们更容易理解数据,从而更快捷地分析出数据中的趋势和模式。用于表示两个变量之间的关系,比如时间与价格之间的关系或者不同产品之间的销量关系。拆线图数据可视化03

数据可视化是一种将数据抽象成图表或图形的过程,它可以帮助人们更容易理解数据,从而更快捷地分析出数据中的趋势和模式。箱线图是一种用于表示数据分布情况的图表,它由一个箱子和两条线组成箱线图03不同数据等级对应的可视化方法数据可视化数据等级属性描述性统计图表定类离散、无序频率占比、众数条形图、饼图定序有序类别、比较频率、众数、中位数、百分位数条形图、饼图定距数字差别有意义频率、众数、中位数、均值、标准差条形图、饼图、箱线图定比连续均值、标准差条形图、曲线图、饼图、箱线图04缺失值:如果数据中存在缺失值,可能会导致模型的结果不准确,或者无法获得正确的结论。例如,在分析一个用户的消费行为时,如果某个用户的收入数据缺失,则无法准确判断该用户的消费能力。异常值:如果数据中存在异常值,可能会导致模型的结果不准确,或者无法获得正确的结论。例如,在分析一个用户的消费行为时,如果某个用户的收入数据存在异常值,则无法准确判断该用户的消费能力。重复值:如果数据中存在重复值,可能会导致模型的结果不准确,或者无法获得正确的结论。例如,在分析一个用户的消费行为时,如果某个用户的收入数据存在重复值,则无法准确判断该用户的消费能力。洞察数据(一)检查数据中是否存在缺失值、异常值或重复值04例如,一家公司想要探究为什么他们的产品销量不佳,那么他们应该先区分出对于销量最重要的数据,比如产品价格、宣传渠道、产品质量等,而不重要的数据就可以忽略,比如产品的颜色、外观等。洞察数据(二)区分重要数据

区分出重要与不重要的数据对于探究问题至关重要,因为这样可以更好地把握关键信息,更加准确地分析出问题的根源,从而给出更有效的解决方案。04(三)探究数据之间的关联洞察数据探究数据之间的关联可以帮助我们更好地了解数据之间的联系,从而更好地理解数据的分布特点,并有针对性地对数据进行分析和处理。例如,假设我们正在研究一个城市的人口变化,我们可以通过探究不同年龄段人口数量的变化,以及不同性别人口数量的变化,来探究城市人口的变化趋势,并从中分析出相关的结论。Python实现数据探索性分析的常用库05(一)Matplotlib库实现数据的可视化Matplotlib库Matplotlib是一个强大的数据可视化的Python库,在数据探索性分析中可以帮助用户快速可视化数据,从而更好地理解数据的特征和分布。Matplotlib提供了一系列用于绘制图形的函数和工具。它可以用于创建各种各样的2D图表,包括线型图,条形图,散点图,折线图,饼图,直方图,箱形图,热图等。它还可以用于创建3D图形。Python实现数据探索性分析的常用库05(一)Matplotlib库实现数据的可视化功能命令导入matplotlib库importmatplotlib.pyplotasplt画图plt.plot()设置图形大小plt.figure(figsize=(x,y))设置标题plt.title()设置坐标轴标签plt.xlabel()、plt.ylabel()设置坐标轴刻度plt.xticks()、plt.yticks()设置图例plt.legend()设置网格线plt.grid()显示图形plt.show()Matplotlib基础功能及其命令Python实现数据探索性分析的常用库05(一)Matplotlib库实现数据的可视化Matplotlib绘制不同类型的图形图形类型绘制函数直方图matplotlib.pyplot.hist()折线图matplotlib.pyplot.plot()散点图matplotlib.pyplot.scatter()饼图matplotlib.pyplot.pie()条形图matplotlib.pyplot.bar()箱线图matplotlib.pyplot.boxplot()Python实现数据探索性分析的常用库05(二)Numpy库和Pandas库实现数据的洞察Numpy可以用来执行快速的数据分析和探索性分析。例如快速计算统计量,计算矩阵运算,以及处理复杂的数据结构。它还可以用来进行数据可视化,以及创建更复杂的数据可视化,以及利用其他类库进行更复杂的数据分析。NumPy基础Numpy支持二维数组(2DArray)三维数组(3DArray)一维数组(1DArray)Python实现数据探索性分析的常用库05(二)Numpy库和Pandas库实现数据的洞察NumPy基础Numpy数组结构图Numpy数组定义图Python实现数据探索性分析的常用库05(二)Numpy库和Pandas库实现数据的洞察ndarrary是NumPy中专门用于操作数组的模块,通过ndarrary可实现数组之间的基本算术运算与索引、切片等高级运算。ndarrary基础操作数组的创建:numpy.empty,numpy.zeros,numpy.ones数组的算术运算:numpy.arrary.sum()、numpy.arrary.max()、numpy.arrary.min()等。数组的索引和切片:arrary[2:7:2]、arrary[1:]、arrary[2:5]数组的属性查询:numpy.arrary.dtype、numpy.arrary.ndim、numpy.arrary.size等。Python实现数据探索性分析的常用库05(二)Numpy库和Pandas库实现数据的洞察Pandas是一个强大的数据分析库,它可以帮助用户从原始数据中提取有用的信息,并将其转换为更容易理解的形式。Pandas可以用来清洗和准备数据,以及对数据进行汇总、聚合、排序和绘图等操作。Pandas还允许用户从数据中提取模式和趋势,从而帮助他们做出更好的决策。Pandas基础

Pandas中DataFrame数据框和Series数据序列处理结构图Python实现数据探索性分析的常用库05(二)Numpy库和Pandas库实现数据的洞察Pandas的基础数据结构是Series和DataFrame。Series是一种一维的数据结构,由一组数据和一组与之相关的数据标签(索引)组成。DataFrame是一种二维的数据结构,由一组有序的列和一组带标签的行组成。Pandas基础

Series代码形式示例例子代码形式时间为索引的温度序列pd.Series([20,22,24,26,28],index=['2020/1/1','2020/1/2','2020/1/3','2020/1/4','2020/1/5'])城市人口序列pd.Series([20000,30000,40000,50000,60000],index=['北京','上海','广州','深圳','杭州'])电影评分序列pd.Series([9.2,8.5,8.9,7.8,6.5],index=['肖申克的救赎','教父','阿甘正传','泰坦尼克号','美国往事'])汽车品牌序列pd.Series(['宝马','奔驰','特斯拉','路虎','奥迪'],index=[1,2,3,4,5])国家GDP序列pd.Series([13.5,15.7,12.9,16.3,18.1],index=['美国','中国','日本','英国','德国'])Python实现数据探索性分析的常用库05(二)Numpy库和Pandas库实现数据的洞察以处理数据框dataframe为例,右表展示了Pandas基本功能及其常见命令。处理序列series时操作类似。Pandas基础操作Pandas基本功能及其常见命令功能常见命令导入Pandas库importpandasaspd导入数据pd.read_csv(filepath_or_buffer,sep=',',header=None,names=None)查看DataFramedf.head()df.tail()查看DataFrame的基本信息()查看DataFrame的统计信息df.describe()查看DataFrame的列名df.columns查看DataFrame的行索引df.index访问DataFrame中的某一列df['column_name']访问DataFrame中的某一行df.loc[index]访问DataFrame中的某一个元素df.loc[index,column_name]筛选DataFrame中的某一列df[df['column_name']==value]排序DataFrame中的某一列df.sort_values(by='column_name',ascending=False)统计DataFrame中某一列的值df['column_name'].value_counts()删除DataFrame中的某一列df.drop('column_name',axis=1)更改DataFrame中某一列的值df['column_name']=new_value合并DataFramepd.concat([df1,df2],axis=1)汽车产品数据探索性分析项目实现06通过对汽车产品的数据探索性分析,探究影响数据探索性分析的要素,了解汽车产品的市场情况。收集汽车产品的相关数据,包括汽车产品的价格、质量、性能、外观等。(一)实现思路(二)实现流程

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论