版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 以巴克頻譜失真為基礎之語音音調週期估測科會專題研究計畫成果報告計畫編號:NSC90-2213-E-324-025執行期限:90年8月1日至91年7月31日主持人:朝陽科技大學資訊工程系助理教授王德譽E-mail: HYPERLINK mailto:dywang.tw dywang.tw共同主持人:計畫參與人員:音高估測(pitchdetection在語音信號處Pitchdetectionisanimportantissueina理中是一個相當重要的問題,尤其在語音varietyofspeechprocessingapplications.Many理中是個相當重要的問題,尢其在語曰pitchd
2、etectionalgorithms(PDAs),bothinthe編碼器(Vocoders)1中經常假設清音為完timeandfrequencydomains,havebeen美週期性信號以減少編碼位元。對於此問proposedforthevoiced/unvoiceddetectionandpitchabstraction.Duringhighlyvoicedstationary題,已有很多的研究提出並由Hess整理於sectionsofspeech,thepitchperiodiseasily2,大體上可分成時域音調估測及頻域音observedusingPDAsbasedonpeakde
3、tection一、中文摘要音高估測在語音信號理中是一個當重要的問題,目前研究不論是時域或頻域之估測,基本上都是藉由比較預估波形與原始波形的關聯性或信號雜訊比來決定音調週期。對於完美清音,簡單的波形比對即可達到正確之音高估測,然而實際語音是時變信號,對於清/濁音變換、共振峰混淆等,若音高估測不當,將使合成之語音品質嚴重下降。故本論文以巴克頻譜失真,比較原始語音及預估諧波頻譜,求得最佳之音高週期。模擬結果發現以巴克頻譜失真為基礎之音高估測,配合正弦語音模型,可有效合成高品質之語音。關鍵詞:音高估測、巴克頻譜失真,正弦語音模型。inthetimedomain,suchasauto-correlati
4、onfunction,zerocrossingrateandaveragemagnitudedifferencefunction(AMDF).Inthefrequencydomain,thePDAsutilizetheharmonicstructureofthespeechspectrumorthespectralauto-correlationproperty.Alloftheproposedalgorithmshavetheirlimitations,andnopresentlyavailablePDAscanbeexpectedtogiveperfectlysatisfactoryres
5、ultsacrossawiderangeofspeakers,applications,andoperatingenvironments.Inthispaperw,eprovideapitchdetectionalgorithmbasedonBarkSpectralDistortion(BSD),inwhichseveralknownfeaturesoftheperceptualprocessingofspeechsoundsbythehumanearareemulated.Theexperimentalresultsshowthattheproposedmethodcanprovideamo
6、reaccuratethanthatofsinusoidalspeechmodel,andthereconstructedspeechsoundsmorenaturalness.Keywords:Pitchdetection,BarkSpectralDistortion,sinusoidalspeechmodel.二、緣由與目的高估測,時域估測往往利用波形位移前後的關聯性(correlation找到音高週期。運用的關聯函數如自相關函數(auto-correlation)3,或平均振幅差函數(AverageMagnitudeDifferenceFunction,AMDF)3;頻域估測則是計算頻譜
7、的基頻(fundamentalfrequency)音高週期的倒數)諧波(harmonic匹配程度來決定清音的週期性,例如正弦轉換編碼中的基頻估測4。然而,實際語音信號並非完美的週期信號,估測時必須面對下列問題:(1)語音信號並不是完美的週期信號,而只是準週期性信號;(2)較強的共振腔的共振峰(BarkSpectralDistortion,BSD)9來評估諧波頻譜之失真,並藉以找到最佳之估測音高及清/濁音機率。三、巴克頻譜失真(BSD)根據聲響心理醫學報告,人耳聽覺系統在低頻率具有較清晰的解析能力,而且不同頻率信號的響度反應也存在著明顯差異。巴克頻譜分析如圖一所示,包含頻率轉巴克,臨界頻帶濾波、
8、等響度預強調,以及主觀響度轉換。針對此非線性聽覺響應之事實巴克頻譜分析分為三部分來解決:(formant會影響音高週期的估測;(3)倍音高頻率解析度等化週期混淆,例如音高週期為T,2T也會是其週期,所以估測時亦要避免錯估為音高週期的倍數;(4)清/濁音(Voicing/Unvoicing)之間的變換不能完全以週期性的清音處理。不當的音高估測將造成聲音品質的嚴重衰減。為了更精確的估測暫態之音高變化,目前更有研究5使用諧波小波轉換(Waveletetransform來改善此一問題。多頻帶激發(Multi-BandExcitation,MBE)6語音編碼及正弦轉換編碼(SinusoidalTrans
9、formCoder,STC)7等正弦語音編碼已廣泛使用於低位元率語音編碼,為了改善正弦語音編碼中基頻(Fundamentalfrequency,音高的倒數)的估測,更有研究8利用連續音框音高的相關性增加估測準確性。由於目前的研究無論是在時域或頻域上的音高估測,基本上是利用預估週期波形與原始波形的匹配程度來決定音高週期及清/濁音機率,皆尚未考慮人耳對不同頻率信號的解析度與響度均存在非線性聽覺響之事實,因此本論文特以巴克頻譜失真人耳對高低頻解析度並不相同。此非線性特性可以臨界頻帶濾波器等化,其分為二個步驟:步驟一:利用下列關係將語音頻譜|s(w)|2刻度f(=w/2n)轉換成巴克刻度b:f=600
10、sinh(b/6)。並取得對應之臨界頻帶密度X(b)。步驟二:經由頻寬1巴克的臨頻帶濾波器100logF(b)=77.5(b0.215)10,17.50.196+(b0.215)2i/2得到臨界頻帶之頻譜能量分布為D(b)=X(b)*F(b)。此能量對應到人耳聽覺神經之激發分布,故稱為激發原型。聽覺強度等化在不同頻率下,人耳聽覺激發靈敏度並不同。例如,一個100Hz的單音大槪要提高35dB,在聽覺上才會和1000Hz等音量,這些特性皆被完整的描述在圖二:等響度圖,其中phon即是所謂的聽覺音量, 10 也就是等效於1000Hz單音的音量。為補償此一非線性特性,必須將音量單位dB轉換為phon,
11、一般電話語音頻寬約300至3400Hz,而音量約40至80dB。此範圍的語音可以下列預強調濾波器等化:+z-1H(z)二+z-1若其相對應之巴克刻度之預強調濾波器為Hb),則激發原型經等化後之響度為:P(b)=H(b)-D(b)。主觀響度等化在不同的響度(單位phon)下,聽覺對響度的增減是非線性。例如,在40phons的響度下增加10phons,感受到響度加倍;但在接近0phon響度時增加10phons,卻感覺響度增加10倍。為等化此非線性特性,各臨界頻帶響度P最後再以下列關係轉換成主觀響度L:2(p-40)/10ifP40L=(P/40)2.642ifP13dBP=t(SNR4)v904d
12、BSNR13dBSNR4dB其中匚即是清/濁音機率。五、實驗結果本實驗語音分析取樣頻率8kHz,音框長度17.5ms,而傳利葉分析使用512點的FFT。基頻估測分別使用Sinusoidal-Based基頻估測法4及本論文提出之BSD-Based基頻估測法。為比較兩者之效能,本實驗採用信號雜訊比(SNR)片段式信號雜訊比(SegmentSNR,SNRseg)、Mel倒頻譜距離6(Mel-CepstralDistance,MCD)11、巴克頻譜失真(BSD)及巴克頻譜失真等級(BarkSpectralDistortionRating,BSDR)12等五種客觀測試標準,分別對二男ml,m2及二女8f
13、l,f2四段約3.5秒的語音進行測試,表一列出其模擬結果,其中BSDR愈高表示聲音品質愈好。結果顯示BSD-Based基頻估測皆比Sinusoidal-Based基頻估測好。因此可見以考慮人耳聽覺效應巴克頻譜失真為評估標法的基頻估測確實可以有效估測基頻,以減少聽覺上的失真。六、結語語音基頻估測在語音編碼中,合成語音的品質影響非常大,而正弦語音編碼已廣泛使用低位元率語音編碼,本論文提出以巴克頻譜失真評估基頻匹配程度,以決定最佳之估測基頻,由於最佳之估測音高對應之BSD最小,故其造成之聽覺失真最小。配合正弦語音分析/合成法產生合成語音,實驗結果顯示BSD-Based基頻估測法確實可以有效改善聲音品
14、質。七、參考文獻K.K.Paliwal,SpeechCodingandSynthesis,Elsevier,Amsterdam,1995.W.Hess,PitchDeterminationofSpeechSignals,Springer,1983.L.R.RabinerandR.W.Schafer,DigitalProcessingofSpeechSignals,PrenticeHall,EnglewoodCliffs,1978.R.J.McAulyandT.F.Quatieri,“PitchestimationandvoicingdetectionbasedonaSinusoidalmode
15、l,”Proc.IEEEInt.Conf.Acoust.,SpeechandSignalProc.,pp.249-252,Albuquerque,NM,Apr.3-61990.Y.Chisaki,T.UsagawaandM.Ebata,“ImprovementofPitchEstimationUsingHarmonicWaveleteTransform,”IEEETENCON,1999.D.D.GriffinandJ.S.Lim,“Multi-bandexcitationvocoder,”IEEETrans.Acoust.,Speech,SignalProcessing,Vol.36,pp.1
16、223-1235,Aug.1988.R.J.McAulayandT.F.Quatieri,Sinusoidalcoding,Chapter4InSpeechCodingandSynthesis,Editor,W.B.KleijnandK.K.Paliwal,Elsevier,Amsterdam,1995.J.Fu,S.Xu,andJ.Chen,“AModifiedPitchDetectionAlgorithm,”IEEECommunicationsLetters,Vol.5,No.2,February2001.9S.Wang,A.Sekey,andA.Gersho,“AnObjectiveMe
17、asureforPredictingSubjectiveQualityofSpeechCoders,”IEEEJournalSelectedAreasinCommunications,Vol.10,No.5,June1992.D.B.Paul,Thespectralenvelopeestimationvocoder,IEEEtrans.onAcoustics,SpeechandSignalProcessing,Vol.ASSP-29,pp.786-794,1981.R.F.Kubichek,Mel-cepstraldistancemeasureforobjectivespeechquality
18、assessment,Proc.IEEEPacificRimConf.Commun.,Computation,andSignalProc.,pp.125-128,1993.T.WatanabeandS.Hayashi,Anobjectivemeasurebasedonanauditorymodelforassessinglow-ratecodedspeech,IEICETrans.Inf.andSyst.,Vol.E78-D,No.6,pp.751-757,June,1995.圖一:巴克頻譜分析圖二:等響度曲線圖p)0COH一翘JJOQAS圖三:BSD-Based基頻估測表一:客觀標準比較BSD-Based的Sinusoidal-Based基頻
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【课件】部编语文三上14 不会叫的狗【国家级】一
- 学校安全网格化管理培训
- 《隋唐社会生活》课件
- AI服务器BOM表解密报告
- 会计专业认知与职业规划
- 适老智能家居技术路线设计
- 《线性规划研究生》课件
- 压缩空气的安全培训
- 性格的形成和发展微电影分库周欣然
- 社区工作价值观社会工作专业教学案例宝典
- 肝气郁滞对NAFLD肝细胞自噬的影响
- 建筑保险行业市场深度分析报告
- 个人理财-形考作业3(第6-7章)-国开(ZJ)-参考资料
- 2024年导游资格证基础知识考试题库(附含答案)
- 公司注资合同范本2024年
- 2024年供应链管理师技能竞赛理论考试题库(含答案)
- 中建某局科技创新助推降本增效图集
- 统编版语文三年级上册第七单元 《习作我有一个想法》公开课一等奖创新教学设计及反思
- 职业院校“金课”建设方案
- 经济学的思维方式(第13版)
- 2024年电力交易员(中级工)职业鉴定理论考试题库-下(多选、判断题)
评论
0/150
提交评论