版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1大熊猫识别技术规范本文件规定了大熊猫个体识别有关术语定义、数据采集、数据分析等。本文件适用于基于图像和音频的大熊猫个体识别。2规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。CJJ/T263-2017动物园动物管理技术规程GB/T26238-2010信息技术生物特征识别术语3术语、定义和缩略语3.1术语和定义下列术语和定义适用于本文件。3.1.1生物特征识别biometrics基于动物个体的行为特征和生物学特征,对个体进行的识别。3.1.2目标检测objectdetection从图像中找出目标的位置坐标,一般用矩形框框出目标,并对该目标进行分类。3.1.3特征提取featureextraction使用计算机提取大熊猫图像中属于特征性的特征序列的方法及过程。3.1.4特征比对featurematching计算两个特征向量之间的相似度。特征比对包括1:1比对验证和1:N比对识别两种方式。3.1.5相似度similarity衡量两个特征的相似程度,数值越大说明它们越相似。3.1.62阈值threshold做出判定所依据的边界值或值集。3.1.7错误接受率falseacceptrate在验证过程中,将新个体识别为数据库中个体的比率,用百分比表示。错误接受率也称认假率。3.1.8错误拒绝率falserejectrate在验证过程中,将数据库中个体识别错误的比率,用百分比表示。错误拒绝率也称拒真3.1.9残差网络residualnetwork残差网络其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。3.1.10声纹voiceprint声纹是各种常见声学特征图谱的集合,是指通过专门的电声转换仪器(声谱仪、语图仪等)将声音绘制成波普图形。3.1.11声纹识别voiceprintrecognition声纹识别常称为说话人识别,该技术主要通过提取不同发声者语音中的特征参数,经过模型训练和得分计算等过程,进行语音区分和个体识别。3.1.12Mel频率倒谱系数Mel-FrequencyCepstralCoefficientsMel频率倒谱系数是把人耳的听觉感知特性和语音的产生机理结合起来提取的声纹特3.1.13快速傅里叶变换fastfouriertransform利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称。3.1.14卷积神经网络convolutionalneuralnetworks3以卷积计算为主的深度神经网络,通常包含卷积层、批归一化层、激活层、池化层、全连接层、损失函数层等基础结构。3.1.15长短期记忆longshort-termmemory长短期记忆网络是一种特殊的循环神经网络模型,其特殊的结构设计使得它可以避免长期依赖问题,记住很早时刻的信息是LSTM的默认行为,而不需补充专门为此付出很大代价。3.1.16精准率precision精准率是指分类正确的正样本个数占分类器判定为正样本的个数的比例。3.1.17交并比IntersectionoverUnion交并比是产生的候选框与原标记框的交集与并集的比值。3.2缩略语下列缩略语适用于本文件。MFCC:Mel频率倒谱系数(Mel-FrequencyCepstralCoefficients)FFT:快速傅里叶变换(fastfouriertransform)CNN:卷积神经网络(convolutionalneuralnetworks)LSTM:长短期记忆(longshort-termmemory)IOU:交并比(IntersectionoverUnion)4数据采集4.1大熊猫图像采集4.1.1大熊猫图像采集流程大熊猫图像数据采集流程如下:a)通过调取某一区域对应大熊猫的监控视频或者野外红外相机视频数据,将含有大熊猫的片段挑选出来,并确认视频片段中每一只大熊猫的身份信息,将挑选的视频片段与大熊猫身份信息一同记录完成视频数据采集,然后通过视频拆帧的形式将视频转化成图像数据;b)借助野外红外相机或者人工拍照设备,对大熊猫个体进行多方位拍摄,将拍摄到的图片与大熊猫身份信息一同记录完成图像数据采集工作。4.1.2大熊猫全身图像采集大熊猫全身图像的采集需满足以下要求:a)大熊猫全身图像光线自然,无过度曝光,清晰完整;b)拍摄的画面里只有一只目标大熊猫;4c)需对大熊猫进行多角度、多方位拍摄,确保每一只大熊猫的正面姿态、侧面姿态、背面姿态至少有一张图像和一段视频;d)大熊猫全身图像的分辨率不低于1080×720像素。4.1.3大熊猫脸部图像采集大熊猫脸部图像的采集需满足以下要求:a)大熊猫正脸图像光照均匀,无过度曝光,清晰完整;b)大熊猫正脸在水平面方向和垂直面方向上的旋转角度±10°;c)大熊猫两眼、耳朵、鼻子、嘴清晰可见,重点拍摄睁眼闭眼、张嘴闭嘴等部位姿态d)在不影响关键部位的情况下,允许存在10%—20%的遮挡;e)大熊猫脸部图像的分辨率不低于256×256像素。4.1.4大熊猫个体图像档案库建立流程当接收到大熊猫图像数据时,应让专业工作人员对图像数据进行标注,确定每一张图像中大熊猫的具体身份,然后根据工作人员的标注创建多个文件夹,每一个文件夹对应着图像数据中的每一只大熊猫,并以对应的该只大熊猫的身份信息命名(例:谱系号_个体名),把对应的图像数据存入文件夹中,最后将图像数据的大熊猫身份信息与相应的图像数据存储位置记录在Excel表格中。大熊猫个体图像档案库建立流程需满足以下要求:a)每个文件夹中的图像数据应属于同一只大熊猫,且图片之间应保证唯一,无重复;b)每个文件夹应保证唯一,无重复;c)Excel表格中的每条记录应保证唯一且准确。4.2大熊猫声音采集4.2.1大熊猫声音采集流程大熊猫声音采集需满足以下要求:a)采样频率为44.1kHz,量化精度为16位;b)所录制的音频中包含目标大熊猫的声音;c)确保每一只大熊猫至少含有一段音频。4.2.2大熊猫音频整理收集到的音频文件过大,为了便于网络模型训练,需补充将原始文件手动裁剪成时长在规定范围内的音频片段。大熊猫音频整理需满足以下要求:a)裁剪后的音频片段应在1秒—2秒之中;b)裁剪后的音频应保持叫声清晰、波形完整;c)裁剪后的音频应保证有且仅包含单个大熊猫的叫声。4.2.3大熊猫个体音频档案库建立流程当接收到大熊猫音频数据时,应让专业工作人员对音频数据进行标注,确定每一段音频中大熊猫的具体身份,然后根据工作人员的标注创建多个文件夹,每一个文件夹对应着音频5数据中的每一只大熊猫,并以对应的该只大熊猫的身份信息命名(例:谱系号_个体名),把对应的音频数据存入文件夹中,最后将音频数据的大熊猫身份信息与相应的音频数据存储位置记录在Excel表格中。大熊猫个体音频档案库建立流程需满足以下要求:a)每个文件夹中的音频数据应属于同一只大熊猫,且音频之间应保证唯一,无重复;b)每个文件夹应保证唯一,无重复;c)Excel表格中的每条记录应保证唯一且准确。5数据处理5.1大熊猫图像数据处理5.1.1大熊猫脸部图像检测第一阶段给定一张图像,从这张图像中通过矩形框框出大熊猫正脸区域。如果在一幅图像中检测到超过一个大熊猫脸,则只返回面积最大的那一个。得到边界框后,根据该边界框裁剪大熊猫的脸部图像,裁剪后的图像转换为单通道灰度图。大熊猫正脸图像检测算法需满足以下要求:a)算法推理的实时性应达到20FPS;b)当无新个体图像输入时,检测算法Rank-1准确度应达到96%,Rank-5准确度应达到97%;c)当交并比(IOU)达到70%时,检测精度应达到90%。5.1.2大熊猫正脸图像分割将检测得到的大熊猫正脸图像输入至预训练后的残差网络中,提取特征,接着将输出的特征图输入至面部分割网络中,生成二元掩膜。二元掩膜与原输入脸部图像相乘,输出分割后的大熊猫正脸图像。大熊猫正脸图像分割算法需满足以下要求:大熊猫正脸图像部分与分割后图像IOU不低于90%。5.1.3大熊猫正脸对齐将分割后的图像输入至面部对齐网络中,提取正脸特征,并裁剪,接着确定裁剪后的图像依据模板进行校准。大熊猫正脸图像对齐算法需满足以下要求:a)算法推理的实时性应达到30FPS;b)关键点预测误差应不大于5像素。5.2大熊猫音频数据处理5.2.1大熊猫音频降噪处理大熊猫音频样本在录制的过程中可能会参杂其他噪声,影响音频文件的质量,在进行特征提取之前需补充对音频进行降噪处理。大熊猫音频降噪处理需满足以下要求:降噪后的音频信噪比应不低于90db。65.3大熊猫正脸数据库通过智能成像设备采集,批量导入实现大熊猫正脸图像数据注册。在大熊猫脸部图像登记过程中,实现大熊猫脸部图像与大熊猫标识之间绑定关系的建立。大熊猫脸部数据库需满足以下要求:a)对所有图像,标注大熊猫正脸目标框区域的左上角和右下角坐标;b)对大熊猫正脸图像使用多边形来标注左耳、右耳、左眼、右眼、鼻子、嘴巴、正脸;c)使用SSIM方法测量图像间的像素及相似度,进行图像去重操作。5.4大熊猫识别5.4.1大熊猫正脸识别给定一张裁剪好并对齐后的大熊猫正脸图像,使用卷积神经网络来提取特征并用于身份识别。首先,使用ResNet-50卷积神经网络在ImageNet数据集上预训练;接着,用处理好的大熊猫正脸图像对该模型进行微调;最后,将微调得到的ResNet-50模型用于从输入的大熊猫正脸图像中提取特征ƒ,并根据特征间的余弦距离计算两幅大熊猫正脸图像的相似度。为了确定输入大熊猫正脸图像的身份,首先如上所述提取其脸部特征,然后将其与注册集中登记的所有大熊猫正脸图像特征进行比较。它的身份最终被确定为与它最相似的特征所属的大熊猫身份。在最后输出层会增设一个节点,此节点会输出此大熊猫不是注册集中任意一只大熊猫的概率。指定一个阈值,若概率大于阈值,则输入的大熊猫图像被判定为未知的大熊猫新个体。大熊猫正脸图像识别算法需满足以下要求:a)当错误接受率为5%时,算法识别出新个体准确率不低于93%;b)当无新个体输入时,算法Rank-1应不低于96%,算法Rank-5应不低于97%;c)当存在新个体输入时,算法Rank-1应不低于92%,Rank-5应不低于95%。5.4.2大熊猫声纹识别MFCC是把人耳的听觉感知特性和语音的产生机理结合起来提取的声纹特征。MFCC特征的提取流程如下:a)将语音信号进行预加重、分帧、加窗;b)进行FFT变换到频域,通过Mel尺度的滤波器阵列后,滤波器输出后进行离散余弦变给定一段音频文件的MFCC特征,使用卷积神经网络提取MFCC中的关键性特征并用于身份识别。使用卷积神经网络提取MFCC中的关键性特征流程如下:a)使用CNN卷积神经网络在空间维度上提取表征能力强的高层特征;b)通过调整层将特征调整到一定的维度
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024-2025学年河南新高中创新联盟TOP二十名校高三上学期化学试题及答案
- 财务报表分析 教案 项目三 利润表分析
- 三年级数学(上)计算题专项练习附答案
- 湘版九年级音乐上册教案全集
- 二年级语文上册教学设计
- 《电气控制系统设计与装调》教案 项目六 任务一:中间继电器
- 陕西省咸阳市实验中学2024-2025学年八年级上学期第二次质量检测地理试卷(含答案)
- 发光门牌市场发展预测和趋势分析
- 微笑服务培训
- 女用阳伞产业规划专项研究报告
- 职工宿舍安全培训
- 工程项目承揽建设股权合作协议(居间协议)
- 2024年四川省绵阳市中考数学试题(无答案)
- 滤波器出厂试验报告
- 1.1公有制为主体+多种所有制经济共同发展课件-高中政治统编版必修二经济与社会
- 2024年中国空气净化节能灯市场调查研究报告
- 2023-2024学年北京市通州区九年级(上)期中物理试卷
- 期中模拟试卷-浙2024-2025学年统编版语文四年级上册
- 下肢深静脉血栓的预防和护理新进展
- 大学生国家安全教育学习通超星期末考试答案章节答案2024年
- 学术论文文献阅读与机助汉英翻译智慧树知到答案2024年重庆大学
评论
0/150
提交评论