版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
主讲人:AiPPT时间:20XX.XXPOWERPOINTDESIGN202XPowerPointDesign------------------Python的数据读取与处理Python数据读取与查看01Python数据清洗02Pandas读取与处理表格数据03NumPy处理数据04scikit-learn处理数据05目录--------------PowerPointDesignPython数据读取与查看01PARTPOWERPOINTDESIGNPython中使用open函数进行文件读写。例如,使用open('filename.txt','r')读取文件,open('filename.txt','w')写入文件。使用with语句可自动关闭文件,如withopen('filename.txt','r')asf:。文件读写操作默认使用系统编码,一般为utf8。可使用encoding参数设置编码方式,如open('filename.txt','wt',encoding='ascii')。遇到编码错误可使用errors='ignore'或errors='replace'参数处理。读写字节数据读写字节数据如图片、音频时,使用'rb'和'wb'模式。例如,withopen('filename.bin','rb')asf:读取字节数据,withopen('filename.bin','wb')asf:写入字节数据。从字节数据中读写文本需编码和解码。如withopen('filename.bin','rb')asf:后使用.decode('utf-8')读取文本,写入时使用.encode('utf-8')。02文件读写操作01Python的文件读写Python中使用pickle模块实现对象序列化和反序列化。例如,pickle.dump(l1,f1)序列化对象l1到文件f1,pickle.load(f2)从文件f2反序列化对象。pickle模块中的dump和dumps方法区别在于dumps将对象存储为字符串,对应的loads()用于反序列化。大部分Python对象可通过这种方式存储和加载,但一些特殊对象如进程对象、网络连接对象等无法序列化。使用pickle模块对象序列化CSV文件以纯文本形式存储表格数据,由记录组成,记录之间以换行符分隔,每条记录中是字段。Python的csv模块用于操作本地CSV文件。读取网络资源中的CSV文件时,可先下载到本地或转换为StringIO对象操作。使用csv.DictReader可将CSV的每一行作为字典返回,csv.reader则把每一行作为列表返回。写入CSV文件时,使用csv.writer的writerow()方法写入一行,writerows()方法写入多行。CSV文件操作CSV的读写在Python中使用数据库需通过特定程序模块(API)实现。以MySQL为例,使用PyMySQL模块连接数据库。首先安装模块,创建数据库和用户,然后使用pymysql.connect()连接数据库,执行SQL语句进行操作,最后关闭连接。SQLite3是一种轻量型关系型数据库系统,Python内置sqlite3模块用于交互。使用sqlite3.connect()连接数据库,执行SQL语句创建表和插入数据,使用commit()提交操作,最后关闭连接。不同数据库类型使用的通配符可能不同,操作完毕后需关闭数据库连接。使用PyMySQL和SQLite3数据库的使用--------------PowerPointDesignPython数据清洗02PARTPOWERPOINTDESIGN处理方法对于缺失值,可忽略有缺失值的数据,删除存在缺失项的记录或缺失值过多的属性列,但可能损失大量数据。也可进行缺失值填补,填补某一固定值、平均值或根据记录填充最有可能值,最有可能值的确定可利用决策树、回归分析等方法。缺失值处理处理技术分箱技术通过考察相邻数据确定最终值,实现异常或噪声数据的平滑处理。基本思想是按属性值划分子区间,将数据放入对应“箱子”内,然后按箱平均值、中值、边界值等方法对数据进行平滑处理。聚类技术将数据集合分组为多个簇,找出并清除落在簇之外的孤立点,这些孤立点被视为噪声。回归技术通过发现两个相关变量之间的关系,建立数学模型预测下一个数值,包括线性回归和非线性回归,用于平滑数据。噪声数据处理处理方案对于数据不一致性问题,需根据实际情况给出处理方案。可使用相关材料人工修复,用知识工程的工具修改违反给定规则的数据。在多个数据源集成处理时,对不同数据源的数据进行数据转化,解决编码规则差异问题。不一致数据的处理处理方法异常数据如字符编码问题引起的乱码、字符被截断、异常的数值等,大部分情况难以修正,只能过滤。但有些异常数据可还原,如原字符中掺杂无用字符可用取子串方法处理,字符被截断的情况若能推导出原字符串也可还原。数值记录中异常大或小的值可分析是否数值单位差异引起,通过转化处理,数值单位差异也可视为数据的不一致性。异常数据的处理--------------PowerPointDesignPandas读取与处理表格数据03PARTPOWERPOINTDESIGN支持的数据格式Pandas支持多种格式数据读取,包括CSV、Excel、SQL数据库和JSON。读取CSV文件使用pd.read_csv('example.csv'),读取Excel文件第一个工作表使用pd.read_excel('example.xlsx',sheet_name=0),读取JSON文件使用pd.read_json('example.json')。还可只读取特定列,如pd.read_csv('example.csv',usecols=['Column1','Column2']),跳过文件开头的行,如pd.read_csv('example.csv',skiprows=2),将特定字符串视为缺失值,如pd.read_csv('example.csv',na_values=['NA'])。读取表格数据在数据可视化项目中,常需将不同来源的数据集合并为统一数据结构。Pandas提供pd.concat()、pd.merge()和df.join()等函数实现数据合并和连接。pd.concat()用于沿轴堆叠多个对象,如pd.concat([df1,df2],ignore_index=True)。pd.merge()适用于数据库连接操作,如pd.merge(left,right,on='key',how='left')。df.join()用于按索引合并不同索引的DataFrame,如left.join(right,how='outer')。数据合并与连接处理表格数据--------------PowerPointDesignNumPy处理数据04PARTPOWERPOINTDESIGNndarray对象NumPy是开源Python库,支持大量维度数组与矩阵运算,提供数学函数库。NumPy核心是ndarray对象,由Python的n维数组封装而来,通过C语言预编译数组操作,比原生Python执行效率高,但使用Python语言编码。ndarray与数组区别在于元素类型相同且创建时大小固定。创建数组最简单方式是使用array函数,如np.array([1,2,3])创建一维数组,np.array([[1,2,3],[4,5,6]])创建二维数组。数组属性包括ndarray.ndim(数组维数)、ndarray.shape(数组形状)、ndarray.size(数组中元素总数)和ndarray.dtype(数组元素类型)。NumPy库介绍常见操作NumPy数组可进行索引、切片和迭代操作。还可使用一系列数学函数直接在数组上操作,如加减乘除、平方根、指数、对数等。例如,数组加法c+d,数组乘法c*d。对于数组合并,使用np.concatenate()方法,如np.concatenate((a1,a2))合并数组,np.concatenate((a1,a2),axis=1)指定合并的轴。数组操作--------------PowerPointDesignscikit-learn处理数据05PARTPOWERPOINTDESIGN数据处理功能Scikit-learn是广泛使用的Python机器学习库,建立在NumPy、SciPy和matplotlib之上,提供数据挖掘和分析工具。自带多个数据集,如鸢尾花数据集load_iris()、手写数字数据集load_digitals()等。不直接从文件读取数据,通常与Pandas结合使用处理任务。提供预处理库preprocessing,包括标准化、编码分类特征、处理缺失值、特征选择等功能。标准化将特征数据缩放至均值为0、方差为1,如StandardScaler().fit_transform(X)。编码分类特征将分类特征转换为数值数据,如OneHotEncoder().fit_transform(X).toarray()。处理缺失值使用SimpleImputer填充缺失值,如SimpleImputer(missing_values=np.nan,strategy='m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课题申报参考:聚焦体育新课标小学体育课运动负荷主观测评路径与调控策略研究
- 课题申报参考:教师教学洞察力的表现特征、生成机制及发展路径研究
- 包含维修条款的2025年度二手手机买卖合同范本3篇
- 二零二五版桉树种植与星海生态教育合作项目合同3篇
- 二零二五年度出国留学学费支付及管理合同3篇
- 二零二五年度煤炭运输合同范本:多式联运与综合物流服务协议4篇
- 二零二五版文化中心场地租赁协议书4篇
- 2025年度海洋工程聘用工程师及项目实施合同4篇
- 2025版充电桩安全风险评估与应急预案制定合同3篇
- 二零二五版智慧医疗路演投资合同范本4篇
- 2025年度版权授权协议:游戏角色形象设计与授权使用3篇
- 心肺复苏课件2024
- 《城镇燃气领域重大隐患判定指导手册》专题培训
- 湖南财政经济学院专升本管理学真题
- 全国身份证前六位、区号、邮编-编码大全
- 2024-2025学年福建省厦门市第一中学高一(上)适应性训练物理试卷(10月)(含答案)
- 《零售学第二版教学》课件
- 广东省珠海市香洲区2023-2024学年四年级下学期期末数学试卷
- 房地产行业职业生涯规划
- 江苏省建筑与装饰工程计价定额(2014)电子表格版
- MOOC 数字电路与系统-大连理工大学 中国大学慕课答案
评论
0/150
提交评论