声音搜索讲稿_第1页
声音搜索讲稿_第2页
声音搜索讲稿_第3页
声音搜索讲稿_第4页
声音搜索讲稿_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、声音检索第一、什么是声音声音是一种压力波:当演奏乐器、拍打一扇门或者敲击桌面时,他们的振动会引起介质空气分子有节奏的振动,使周围的空气产生疏密变化,形成疏密相间的纵波,这就产生了声波,这种现象会一直延续到振动消失为止。声音作为波的一种,频率和振幅就成了描述波的重要属性,频率的大小与我们通常所说的音高对应,而振幅影响声音的大小。声音可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅立叶变换(Fourier Transform)。因此,一般的声音总是包含一定的频率范围。人耳可以听到的声音的频率范围在20到2万赫兹之间。高于这个范围的波动称为超声波,而低于这一范围的称为次声波

2、。狗和蝙蝠等动物可以听得到高达16万赫兹的声音。鲸和大象则可以产生频率在15到35赫兹范围内的声音。第2、 搜索的原理 网络爬虫是搜索引擎的下载系统,它的作用是内容的获取,手段就是在万维网中通过链接不断爬取收集各类网页。但是互联网的页面浩如烟海,而且每天不断有新的内容产生,根据爬取目标和范围,可以将爬虫简单分为以下几类:批量性爬虫:明确的抓取目标和范围,达到即停止增量型爬虫:应对网页不断更新的状态,爬虫需要及时反应。通用商业引擎一般都是这类垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤。爬虫在爬取网页的时候,应该怎样确定下一步的目标呢?主要有以下策略:宽度优先:最简单的方式,即将某个页面中

3、的链接依次加入待爬取队列局部PageRank:PageRank是一种网页重要性指标,这种方式根据一定时期内的局部PageRank值决定下一步爬取目标OPIC:当下载当前网页后,将其重要性平均分给包含的链接,每次选取最重要的页面,不用迭代计算,速度较快大站优先:思想很简单,以网站为单位衡量页面重要性。接下来,简要介绍一下搜索引擎中的一个重要问题:暗网抓取。所谓暗网,是指常规方式很难爬到的网页,而在网络中,这样的网是大量存在的。有的网页没有外链,有的主要内容存储于数据库中(如携程网),没有链接指向这些记录。暗网挖掘是商业搜索引擎的一大研究重点,Google是这样,百度的“阿拉丁”计划也在于此。第3

4、、 如何实现声音搜索 那么究竟是什么产生了音色呢?答案是谐波。我们知道声音是振动产生的,而一个物体来回振动,几乎不可能一直按照确定的周期振动的。也就是说一个物体发生的同时,会发出很多不同频率的波(谐波)。这许多不同频率的波由于相位差很小(也就是相隔时间很短),人是无法单独分辨的,所以这些波会混合起来一起给人一个整体的感受,而这个感受就叫做音色。正是由于不同的声音里所包含的不同频率的波的频率,响度,和分布都不同,才导致了我们能分辨各种声音。 你可能会有点糊涂。既然每一个声音都包含很多个频率的声波,那我们又是怎么分辨音调的呢?答案是,一个声音中某一个频率的相对量最大的那个频率决定了声音的音调。比如

5、说一个声音里如果有3单位的444hz(la音),1单位222hz的频率,那么我们听其来就是la音。而有3单位的444hz,1单位的333hz的频率,那我听起来仍然是la音,只不过音色不同罢了。 如果一个声音中从1到20K赫兹频率的波都有,并且都是1:1的关系,即相对强度都相同。这样一个声音就称为白噪音,听起来就和收音机收不信号时的音色一样。这就是一个人造音色的例子(因为这种声音再自然界是不会有的)。 也就是说,如果我有2万只音箱,每一个音箱分别对应放从1到20k赫兹不同频率的声波。那么我通过开关不同的音箱,调节每个音箱的音量,从理论上讲我就可以得到任何我想要的音色。不论是韩红的声音还是孙楠的声

6、音,小提琴的声音还是汽车刹车的声音。 下面用数学的方法来分析一下你所提的例子(觉得头痛可以跳过数学部分)。 学过物理的人因该知道,我们可以用一个sin或者cos函数来描述一个声波如 coswt 其中w 就是声波的频率。 而我们知道,任何一个声音fx都可以写成下面的形式; fx=a1coswt+b1sinwt+a2cosw2t+b2sinw2t+a3cosw3t+b3sinw3t+ 这个式子中的 w1 w2 w3 就是一个声音所包含的各种分振动的频率,a b 就是分振动所占的分量。 一个声音所包含各种不同的w1 ,w2 ,w3 和不同的a b 就是形成音色的关键参数。一般的,如果w1,w2,w3

7、 分布没有规律,就成为噪声,而w1,w2,w3成倍数分布,就成为乐音。 下面看看,韩红和孙楠的问题。 我们知道,Do这个音的频率是261.6赫兹。也就是说他们如果都唱DO这个音的话,261.6这个频率的声音肯定是相对量最大的声音,所以听起来他们发出的声音都是DO。但是两人声音的其他频率又个不相同,所以我们能分辨出来是谁场的。 用数学表示就是:(设c=261.6) f=a1cosct+b1sinct+a2cosw2t+b2sinw2t+a3cosw3t+b3sinw3t+ f=c1cosct+d1sinct+c2cosw2t+d2sinw2t+c3cosw3t+d3sinw3t+ 其中 a1=c

8、1 ,b1=d1 an!=cn ,bn!=dn ( n!=1) 注:“!=”为不等于 总之记住一句话,一个声音中相对能量最大的那个频率决定了音调,所有分频率的分布不同决定了音色,也就是我们能分辨不同声音的原因。 补充问题:关于语言的辨别。 这是很有意思的一个问题,充分说明了我们大脑的复杂程度。 首先说一下语言的机制。任何一个字或者是单词都可以分解成为辅音和元音。比如“他”就是由辅音“t和元音“a(啊)” 由于辅音发生时声带不振动,所以没有音调,所以不存在你说的问题。而我们是如何区别元音的呢?同样是通过音色。不过这里有些不一样的地方。 你去翻一下学习音标的书,可以发现,所有的元音发声都建立在不同

9、的口型(包括舌头的位置)上面。 也就是说区别不同的元音靠的是不同口型。口腔的形状决定了口腔内固有震动模式的频率,由声带所发出的声音中的某些频率由于振动的模式不同而改变并且这些改变不随着音调的变化而变化,而我们的大脑正是能辨别这样的特殊的频率的改变,从而使我们能区分元音的不同。 但是我们又能以不同高低的频率来念一个元音,这是由于我们声带所发出的不同频率声音所致。也就是说,我们的大脑对某些特殊频率非常敏感,即使这些频率并不是占优势(占优势的地位的频率使我们分辨出音调),只要这些频率被加强,我们就能分辨出来。至于是哪些频率,至今研究的还不是很清楚,这就是为什么我们至今还无法完美的模拟人声,大脑对这方

10、面的运算太复杂了。 最后举个例子。许多人同时唱“他”这个词,用的音调是A1=444Hz(la音)。首先发出一个辅音“t”,由于声带不发音,所以是没有音调的,大家听起来也都差不多。然后带发出声音,这个声音中占优势的是444Hz声波,导致我们听起来是la音。而不同的人的声音中其它成分的组成不同,导致我们能分辨出不同人的音色。然后通过口形的改变,使声带发出声音的某些特殊频率的声波发生加强,大脑的语言中枢分辨出这个频率的加强,这个音就被认为是元音“a”,然后和前面的“t”一起,语言中枢就分别出这是一个“他”字。 而现在换成是用c1=261.6来唱“他”由于口形没有变化,语言中枢任然能认得出这是一个“他

11、”字。但是声带发出的声音却变化了,261.6Hz占到了优势地位。于是就给了我们这样一个用Do唱出来的“他” 实际上知道了大脑的结构也就不觉得奇怪了,分辨频率的是听觉中枢,而分别语言的是语言中枢,正是人大脑的这种复杂的结构,才使得我们能够欣赏歌曲.第4、 midomi声音搜索引擎midomi 基于您的声音搜索,因此是终极乐曲搜索工具。唱歌、哼歌或者吹口哨就可以立即找到您喜爱的乐曲,并连接到与您的音乐兴趣相同的社区。请试一试。真的令人惊奇!第5、 我们的使命是建立最全面的可搜索乐曲数据库。您可以通过使用任何语言或以任何流派在 midomi 的在线录音棚内唱歌来为数据库贡献歌曲。下一次任何人搜索这首歌时,您的演唱都可能会成为首条搜索结果!您可以在 midomi 建立自己的档案,演唱您自己喜爱的歌,与朋友分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论