版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据加载与预处理1数据预处理目录数据加载2数据加载读取MNIST数据集时可以将数据集划分训练集和测试集,用于之后训练与测试模型。例如,在手写数字识别的例子代码2-1中,keras.datasets.mnist.load_data()方法首先查找在~/.keras/datasets目录下是否有mnist.npz文件,若没有该文件,则需要从指定网站下载数据并保存为mnist.npz,否则直接从mnist.npz读取数据。除了可以从.npy文件(numpy数据文件)中读取数据外,还可以从Matlab特有的数据文件即.mat文件中读取数据。例如,使用scipy.io模块读取.mat文件,并将数据保存为.mat文件或.npz文件。数据加载在图像分类问题中,原始数据通常是一些图像文件,并且同一个文件夹保存同一个类别的图片,这时可以利用Keras自带的读取数据的函数,读取硬盘上的原始数据并转换为tf.data.Dataset对象,从将其可用于训练模型。假设有10类的图像数据,分别存在10个文件夹中,每个文件夹中的图像为同一类,并且要训练一个图像分类器。训练数据文件夹结构如下图所示。如果有验证数据,还可以构造验证数据文件夹。数据加载1.image_dataset_from_directory函数26-9月-23该函数将返回一个tf.data.Dataset数据集,该数据集将从training_data子目录(文件夹)中生成批图像,假设存在子目录class_a和class_b,使用函数后将生成标签0和1(0对应class_a,1对应class_b)。函数的基本语法格式如下。keras.preprocessing.image_dataset_from_directory(directory,labels='inferred',label_mode='int',class_names=None,color_mode='rgb',batch_size=32,image_size=(256,256),shuffle=True,seed=None,validation_split=None,subset=None,interpolation='bilinear',follow_links=False)常用参数及其说明参数名称说明directory接收字符串,表示数据所在的目录。如果labels为'inferred',则子目录表示类别。无默认值labels接收列表类型,表示对应每个图像文件的标签。默认为'inferred',则子目录表示类别label_mode接收字符串,如'int''categorical''binary',表示标签的编码类型。默认为'int'class_names接收列表类型,与子目录的名称一致,用于控制类的顺序。默认为Nonecolor_mode接收字符串,表示图像转换的格式,为'grayscale''rgb''rgba'之一。默认为'rgb'batch_size接收整数类型,表示每批包含的样本数量。默认为32image_size接收元组类型,表示图像经过调整后的大小。默认为(256,256)shuffle接收布尔类型,表示是否随机排列数据。默认为True数据加载数据加载2.load_img函数26-9月-23此函数可以用于调整目标图像的大小与格式。函数的基本语法格式如下。keras.preprocessing.image.load_img(path,grayscale=False,color_mode='rgb',target_size=None,interpolation='nearest')常用参数及其说明参数名称说明path接收字符串,表示图像文件的路径。无默认值grayscale接收布尔类型,表示图像是否转换为灰度图。默认为Falsecolor_mode接收字符串,表示图像转换的格式,为'grayscale''rgb''rgba'之一。默认为'rgb'target_size接收元组类型,表示图像经过调整后的大小。默认为Noneinterpolation接收字符串,表示调整图像大小时使用的插值方法。默认为'nearest'1数据预处理目录数据加载2数据预处理1.图像数据预处理针对图像数据的预处理可以使用ImageDataGenerator类实现,该类将实时传入的图像数据增强并生成一批张量图像数据。每张原始图片都会叠加执行指定的所有变换(参数在指定范围内随机),增强成一张相应图片,并不断循环。ImageDataGenerator类的基本语法格式如下。keras.preprocessing.image.ImageDataGenerator(featurewise_center=False,samplewise_center=False,featurewise_std_normalization=False,samplewise_std_normalization=False,zca_whitening=False,zca_epsilon=1e-06,rotation_range=0,width_shift_range=0.0,height_shift_range=0.0,brightness_range=None,shear_range=0.0,zoom_range=0.0,channel_shift_range=0.0,fill_mode='nearest',cval=0.0,horizontal_flip=False,vertical_flip=False,rescale=None,preprocessing_function=None,data_format=None,validation_split=0.0,dtype=None)数据预处理常用参数及其说明参数名称说明featurewise_center接收布尔类型,表示是否使特征的平均值为0,逐特征进行,对输入图片的每个通道减去每个通道对应的平均值。默认为Falsesamplewise_center接收布尔类型,表示是否将每个样本的平均值设置为0,每个样本减去样本平均值。默认为Falsefeaturewise_std_normalization接收布尔类型,表示是否使特征的标准差为1。默认为Falsesamplewise_std_normalization接收布尔类型,表示是否使样本的标准差为1。默认为Falsezca_whitening接收布尔类型,表示是否使用ZCA白化。默认为Falserotation_range接收整数,表示随机转动的角度范围,0~180。默认为0width_shift_range接收浮点数、一维数组或整数,表示随机水平平移的幅度范围,0~1。默认为0.0brightness_range接收元组(a,b),表示随机亮度变化的范围。默认为None数据预处理常用参数及其说明参数名称说明shear_range接收浮点数,表示剪切变换的程度范围,以弧度逆时针方向剪切角度。就是让所有点的x坐标(或y坐标)保持不变,而对应的y坐标(或x坐标)按比例发生改变,且改变的大小和该点到x轴(或y轴)的垂直距离成正比。默认为0.0zoom_range接收浮点数或形如[lower,upper]的列表,表示随机缩放的范围。若为浮点数,[lower,upper]=[1-zoom_range,1+zoom_range]。默认为0.0channel_shift_range接收浮点数,表示通道平移的范围。默认为0.0horizontal_flip接收布尔类型,表示是否随机水平翻转。默认为Falsevertical_flip接收布尔类型,表示是否随机竖直翻转。默认为Falserescale接收浮点数,表示固定放大的比例。默认为None数据预处理keras.preprocessing.image.ImageDataGenerator.flow(self,x,y=None,batch_size=32,shuffle=True,sample_weight=None,seed=None,save_to_dir=None,save_prefix='',save_format='png',subset=None)常用参数及其说明参数名称说明x接收numpy数组,表示输入的数据,一般是秩为4的numpy数组。无默认值y接收列表或numpy数组,表示数据的标签。默认为Noneflow函数ImageDataGenerator类的flow函数可以对图像进行实时增强,函数的语法格式如下。数据预处理flow_from_directory函数如果训练数据的规模很大,无法一次性全部读入内存,则可以用ImageDataGenerator类的flow_from_directory函数。此函数以文件夹路径为参数,生成经过归一化处理后的数据,归一化后的数据占用的内存会变小,这是解决内存不足问题的方法之一。函数的语法格式如下。keras.preprocessing.image.ImageDataGenerator.flow_from_directory(self,directory,target_size=(256,256),color_mode='rgb',classes=None,class_mode='categorical',batch_size=32,shuffle=True,seed=None,save_to_dir=None,save_prefix='',save_format='png',follow_links=False,subset=None,interpolation='nearest')数据预处理常用参数及其说明参数名称说明directory接收字符串,表示文件夹路径,无默认值target_size接收整数元组,表示图像改变后的大小,默认为(256,256)color_mode接收字符串,表示图片会被转换为单通道或三通道的图片,默认为'rgbbatch_size接收整型,表示批大小。默认为32shuffle接收布尔类型,表示是否打乱数据。默认为True数据预处理2.时间序列数据预处理在使用循环神经网络及其变体时,大多数是为了解决时间序列问题,即数据是有时序性质的。并且循环神经网络要求输入的数据是3D张量,即(samples,time_steps,features),其中samples表示数据样本,time_steps表示时间,features表示特征。为了将二维数据转换成这种三维的格式,可以使用keras.preprocssing.sequence模块下的TimeserisGenerator类。基本语法格式如下。keras.preprocssing.sequence.TimeserisGenerator(data,targets,length,sampling_rate=1,stride=1,start_index=0,)End_index=None,shuffle=False,reverse=False,batch_size=128数据预处理常用参数及其说明参数名称说明data接收列表或numpy数组,表示要转换的原始的时间序列数据。data一般是二维的,第0个轴为时间维度,无默认值targets接收整数列表,表示data中各样本的类别,和data长度一样,无默认值length接收整数,表示输出序列的长度,无默认值sampling_rate接收整数,表示序列中连续的各个时间步之间的时间间隔,默认为1stride接收整数,表示连续输出序列之间的周期,默认为1start_index接收整数,数据点早于start_index的样本不输出,默认为0end_index接收整数,数据点晚于end_index的样本不输出,默认为Noneshuffle接收布尔类型,表示是随机输出样本,还是按时间顺序输出样本,默认为Falsereverse布尔值,如果值为True,每个输出样本中的时间步将按照时间倒序排列,默认为Falsebatch_size接收整数,表示每个批次中的时间序列样本数,默认为128数据预处理TimeseriesGenenator类在数组形式的时间序列上创建滑动窗口,接收以相等间隔收集的一系列数据点,以及时间序列参数(例如序列/窗口的长度,两个序列/窗口的间隔等),返回一个Dataset实例。如果向该类传递了targets参数,则数据集将由元组(batch_of_sequences,batch_of_targets)组成,其中batch_of_sequences表示序列,batch_of_targets表示数据中各样本的类别。如果batch_of_targets表示的不是数据中各样本的类别,则数据集仅产生batch_of_sequences。series=np.array([[i,i,i]foriinrange(20)])targets=np.arange(20)*10generator=TimeseriesGenerator(series,targets,length=3,sampling_rate=2,stride=3,batch_size=2)print('Samples:%d'%len(generator))fori
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论