数据科学技术与应用8时序数据和语音处理课件_第1页
数据科学技术与应用8时序数据和语音处理课件_第2页
数据科学技术与应用8时序数据和语音处理课件_第3页
数据科学技术与应用8时序数据和语音处理课件_第4页
数据科学技术与应用8时序数据和语音处理课件_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、时序数据与语音处理时序数据时间序列数据连续观察同一对象在不同时间点上获得的数据样本集处理目标:对给定的时间序列样本,找出统计特性和发展规律性,推测未来值语音是一类特殊的时序数据识别语音对应的文本信息是当前人工智能的热点时序数据特性1)趋势性时间序列在长时间内所呈现出来的行为,指受某种根本性因素影响而产生的变动或缓慢的运动2)循环性指时间序列的变动有规律地徘徊于趋势线上下并反复出现3)季节性一年内随季节变换而发生的有规律的周期性变化,比如流感季,但更小单位的周期变动也被看成季节成分,如日交通流量反映了一天内“季节”变化情况4)波动性围绕前3个要素的随机性波动,是一种无规律可循的变动从趋势性角度,

2、时间序列可划分为平稳序列和非平稳序列。观察时序数据最简单、有效的方法是以时间为横轴,以序列观察值为纵轴绘制时间序列图 (a) 人口增长趋势 (b)语音数据时序数据特征的提取(1)(1)基于统计方法的特征提取提取数据波形的均值、方差、极值、波段、功率谱、过零率等统计特征,代替原时序数据作为特征向量(2)基于模型的特征提取用模型去刻画时间序列数据,然后提取模型的系数作为特征向量时序数据特征的提取(2)(3)基于变换的特征提取通过变换使数据的特性突显出来,以便提取主要有时频变换和线性变换如快速傅里叶变换、小波变换和主成分分析(4)基于分形理论的特征提取分形是指具有无限精细、非常不规则、无穷自相似的结

3、构在大自然中, 海岸线、雪花、云雾这些不规则形体都属于分形, 即部分与整体有自相似性,可提取分维数作为特征参数从文件中读取日期及当日股票收盘价两列数据构成时序数列例8-1:某公司2017年股票价格保存在数据集stockPrice.csv,绘制股票收盘价的时序图,并提取该时序数据的常用特征值import pandas as pdimport matplotlib.pyplot as plt plt.rcParamsfont.sans-serif = SimHei #设置中文字体#设置usecols,从文件中只读取指定列df = pd.read_csv(data/stockPrice.csv, i

4、ndex_col = 0, usecols=0,1)print(df.describe()#绘制时序图,并添加图元df.plot(title=2017年某公司股票价格变化图, grid=True)plt.xlabel(时间(天))plt.ylabel(股价 (美元)plt.show() 用DataFrame的describe()方法统计该序列的一些常用特征序号特征量特征值1count249.002mean150.833std14.354min116.61525%142.27650%152.76775%159.868max176.42表8-1 某公司2017年股票收盘价数据的特征值用plot()

5、方法绘制折线图思考与练习1.利用我国人口统计时序数据集(population.csv)绘制30年来我国人口增长的趋势图,如图8-1(a)所示。时序数据分析方法时序分析模型的类别线性模型非线性模型线性模型用时间序列中前若干时刻的观察值的线性组合来描述以后某时刻的值线性时序模型,首先考虑序列平稳性平稳时间序列指均值和方差为常数的时间序列,其自协方差函数与起点无关可采用自回归滑动平均模型(ARMA,Auto-Regression Moving Average)处理非平稳时间序列可以考虑将其经差分后转化为平稳时间序列,然后用自回归积分滑动平均模型处理有些序列成因及其复杂,则需要采用非线性模型(如岭核回

6、归模型和神经网络模型)时序数据分析过程时序数据分析过程(1)1. 纯随机性检验纯随机序列也被称为白噪声序列序列中各项之间没有任何相关关系,数据波动完全随机,自相关系数为0数据中没有可提取的信息,无需进一步分析,使用Q(Pierce-Box)或LB(LJung-Box)统计量来进行白噪声检验2. 平稳性检验在时间序列图上,序列值将在一个常数附近随机波动,没有明显的趋势性或周期性平稳序列具有短期相关性采用单位根(ADF,Augment Dickey-Fuller)检验进行定量分析时序数据分析过程(2)3. ARIMA建模通过n次差分运算将非平稳的时序转换为平稳序列,然后获取ARIMA(n,p,q)

7、模型的参数p 和q4.ARMA建模计算平稳时间序列的自相关函数和偏自相关函数通过对自相关图和偏自相关图的分析获得参数p 和q的大概范围根据AIC信息准则,计算候选参数空间内每个模型的AIC值,最小的AIC值对应的p 和q为最佳的阶数。此过程也称为定阶5.预测使用ARMA或ARIMA模型对时间序列进行预测,计算预测值的误差与置信区间,观察有效预测周期股票预测实例例8-2:从例8-1股票数据中选取78月份股票收盘价,保存到stockClose.csv文件。采用线性方法建模分析数据,预测股价,并与实际股价进行比较。1)绘制时间序列图import matplotlib.pyplot as pltdat

8、a = pd.read_csv(data/stockClose.csv, index_col = 日期,encoding=ANSI)plt.rcParamsfont.sans-serif = SimHei #用来正常显示中文标签data.plot()plt.show()图中股价有明显的持续上升趋势,意味着序列是非平稳的。股票预测实例(1)股票预测实例(2)2)纯随机性和平稳性检验绘制股票数据的自相关图,并输出纯随机性LB检验和ADF检验的结果。from statsmodels.graphics.tsaplots import plot_acfplot_acf(data) #自相关图from s

9、tatsmodels.stats.diagnostic import acorr_ljungboxprint(白噪声-检验结果:, acorr_ljungbox(data股价, lags=1)from statsmodels.tsa.stattools import adfuller as ADFprint(ADF-检验结果:, ADF(data股价) 从图可以看出,自相关系数长期大于零,前4期的相关系数在深色的临近区之外,而且拖尾,说明序列间具有很强的长期相关性股票预测实例(3)白噪声-检验结果:(array( 36.25689108), array( 1.72947396e-09)ADF-

10、检验结果: (-1.1405685913236308, 0.69862557992011121, 6, 36, 1%: -3.626651907578875, 5%: -2.9459512825788754, 10%: -2.6116707716049383, 139.60845303017535)ADFcValuep值 -1.14065%5%10% 0.6986-3.6267-2.9460-2.6117p值:1.72947396e-09,远小于0.05的显著水平,说明此间序列远不是随机的白噪声ADF输出结果,p值远大于0.05显著水平,该序列为非平稳序列股票预测实例(4)3)差分转换尝试对原

11、始序列做阶差分运算绘制时序图自相关图和偏相关图。自相关图显示出明显的截尾现象,说明数据具有正常的短时相关性。D_data = data.diff().dropna() #对原数据进行1阶差分,删除非法值D_data.columns = 股价差分D_data.plot() #时序图plot_acf(D_data) #自相关图from statsmodels.graphics.tsaplots import plot_pacfplot_pacf(D_data) #偏自相关图print(差分序列ADF检验结果为:, ADF(D_datau股价差分) #平稳性检测差分序列的时序图()自相关图()偏自相

12、关图股票预测实例(5)差分序列-ADF-检验结果: (-3.5102690762978326, 0.0077272460017382026, 5, 36, 1%: -3.626651907578875, 5%: -2.9459512825788754, 10%: -2.6116707716049383, 134.62668560027245)经过阶差分,序列已经变为平稳序列值已降为0.0077,远低于0.05自相关系数都在深色的临界区之内,而且趋近于零偏自相关系数也逐渐趋近于零股票预测实例(6)4)定阶确定模型参数、的值。程序采用AIC信息准则度量模型之优劣,尝试各种阶数值,选择最优者from

13、 statsmodels.tsa.arima_model import ARIMAdata股价 = data股价.astype(float)pmax = int(len(D_data)/10) #一般阶数不超过length/10qmax = int(len(D_data)/10) #一般阶数不超过length/10e_matrix = #评价矩阵for p in range(pmax+1): tmp = for q in range(qmax+1): try: #存在部分报错,所以用try来跳过报错。 tmp.append(ARIMA(data, (p,1,q).fit().aic) exce

14、pt: tmp.append(None) e_matrix.append(tmp)e_matrix = pd.DataFrame(e_matrix) #从中可以找出最小值p,q = e_matrix.stack().idxmin() #先用stack展平,然后用找出最小值位置。print(AIC最小的p值和q值为:%s、%s %(p,q)输出的、值分别为和,这样就得到了模型ARIMA(1,4,1)股票预测实例(7)5)预测使用ARIMA(1,4,1)模型对股票价格进行天的预测model = ARIMA(data, (p,1,q).fit() #建立ARIMA(1,4,1)模型model.sum

15、mary2() #给出模型报告model.forecast(5) #作为期5天的预测,返回预测结果、标准误差、置信区间。序号预测值实际值标准差置信区间误差1164.04164.051.48161.14166.93 166.9347 166.93472849 166.934728490.0%2164.47162.082.22160.10168.841.4%3165.15161.922.43160.38169.911.9%4165.63161.262.58160.58170.692.6%5166.31158.632.62161.18171.444.6%预测结果与真实数据还有一定差距,时间越远,差距

16、越大,时序模型一般只能进行短期预测。思考与练习1.文件shop.csv是某商店的销售记录,仿照例8-2对其月份数据进行ARIMA建模分析,对月份前天的销售额进行预测,并与实际结果比较。扩展评价模型和好坏需要一个标准,常用的模型评价标准有AIC、BIC和HQ其中L是该模型中的极大似然函数值,n是数据数量,k是模型的变量个数准则名称计算方法AIC (Akaike Information Criterion)-2ln(L)+2kBIC (Byesian Imformation Criterion)-2ln(L)+ln(n)kHQ (Hannan-Quinn Criterion)-2ln(L)+ln(

17、ln(n) k语音识别让机器通过识别和理解过程把语音信号转变为相应文本或命令语音数据采样语音数据是一种典型的时序数据,它通过对连续声音信号的振幅进行固定频率采样,实时转换为离散时间序列每次采样得到的振幅用若干位二进制数记录,称为采样大小语音识别基本框架语音识别技术涉及很多研究领域,包括:声学、信号学、语言学和统计学等等语音识别中的时序数据处理(1)预处理降噪和语音断点检测分帧把将语音切割成按时间顺序排列、等长的语音段,每一段称为一帧通常相邻的语音帧之间是有交叠的语音识别中的时序数据处理(2)特征提取由于波形在时域上的描述能力非常有限,需要对这些语音帧进行变换,以提取较容易识别的声学特征最常用的

18、特征是梅尔倒谱系数MFCC(Mel-Frequencey CepStral Coefficient)(b) 梅尔倒谱(a)语音波形语音识别中的时序数据处理(3)语音识别采用音素作为识别单元音素是构成单词发音的基本单位语音识别的实例语音识别系统需要庞大的数据支撑许多供应商提供在线语音识别和语音合成服务谷歌、微软、百度和科大讯飞等线语音识别系统提供多种语音识别API百度语音开放平台为用户提供免费的语音识别和语音合成服务的工具包:baidu-aip语音识别初始化:client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) 语音识别: result = client

19、.asr(speech, format, rate, dev_pid: code,) 参数说明: speech建立包含语音内容的Buffer对象format语音文件格式,pcm(不压缩)、wav、amrrate采样率,16000,固定值dev_pid语言类型。1536:普通话,1537:带标点的普通话1736:英语,1636:粤语,1836:四川话读取本地的voice.wav语音文件,其语音内容为“数据智能分析技术”,使用百度语音服务平台的语音识别服务进行识别。1)注册百度账户,获取开发授权key例8-3:使用百度语音开放平台识别一段语音文件对应的文字2)安装百度语音开发包baidu-aip打开“Ana

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论