非结构化数据分析与应用课件第7-9章图像数据分析、音频数据分析、典型非结构化数据分析案例

上传人：q*** IP属地：山东上传时间：2024-01-23 格式：PPTX 页数：211 大小：28.07MB 积分：25 举报 版权申诉

非结构化数据分析与应用课件第7-9章图像数据分析、音频数据分析、典型非结构化数据分析案例_第2页

非结构化数据分析与应用课件第7-9章图像数据分析、音频数据分析、典型非结构化数据分析案例_第3页

非结构化数据分析与应用课件第7-9章图像数据分析、音频数据分析、典型非结构化数据分析案例_第4页

非结构化数据分析与应用课件第7-9章图像数据分析、音频数据分析、典型非结构化数据分析案例_第5页

已阅读5页，还剩206页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第七章图像数据分析5.1卷积神经网络5.2卷积神经网络CNN5.3RNN和LSTM5.4强化学习5.5贝叶斯图网络5.6自编码器5.7生成对抗网络目录和内容图像数据分析的任务分类、检测、分割、检索、推荐、行人重识别。。。图像数据分析的任务

分类任务：针对给定的图像或视频，判断其中的目标包含什么类别。检测任务：针对给定的图像和视频，定位出某目标的位置，进一步判定目标物的类别。分割任务：针对给定的图像或视频，判断不同像素区域属于哪一个目标物或场景。分为实例分割（Instance-level）、场景分割（Scene-level）和语义分割。检索任务：根据输入图像，查找具有相同或相似目标、对象或内容的其他图像。推荐任务：从用户的历史购买记录中发掘其消费偏好，筛选出用户感兴趣的部分，提供个性化的服务。行人重识别任务（PersonRe-Identification，简称ReID）：解决跨摄像头跨场景下行人的识别与检索。基于经典特征的图像系统分析框架图像特征提取是数据分析系统的关键步骤基于深度学习的图像分析系统框架

输入图像或视频，系统输出的结果为分类标签深度学习是端到端的系统，特征嵌入在网络架构中权值通过网络不断的迭代和优化获得深度特征如何设计出有效的深度网络架构和损失函数是关键经典特征和深度学习特征的区别图像的经典特征图像的经典特征分为全局特征和局部特征全局特征描述图像的整体属性，为像素级的低层特征例如统计特征、直方图、颜色特征、纹理特征和形状特征具有良好的不变性、计算简单、表示直观等特点但特征维数高、计算量大，图像混叠和有遮挡情况有局限局部特征是对图像特征的局部表达特征检测重复率高、速度快、易于实现和快速匹配局部特征描述对光照、旋转、视点变化具有鲁棒性灰度级在范围[0，L-1]的数字图像的直方图是一个离散函数h(rk)=

nknk是图像中灰度级为rk的像素个数rk

是第k个灰度级k

=0,1,2,…,L-1rk的增量是1，直方图可表示：

p(k)=nk图像中不同灰度级像素出现的次数图像的统计特征-灰度直方图9图像的统计特征-灰度直方图统计了图像像素的灰度级分布或单色彩分布可以看出图像是否曝光不足或曝光过度图像的统计特征-颜色直方图彩色图像直方图可以看出各个颜色的规律性苹果、大海、草原图像都有红、蓝、绿三色直方图看出主色调的像素数量多于其余两色图像直方图的均衡化p(rk)

nk较亮图象的直方图当图像的灰度分布不均匀且集中在较窄区域时采用直方图均衡化或直方图规一化进行优化处理，使其分布均匀图像信息熵描述一幅图像含有的信息量。一幅图像有K个灰度级，各个灰度级出现的频率为P

i,图像的信息熵H用以下公式计算：当图像中的各个灰度级出现的概率相等时，图像的熵值最大。图像信息熵图像的方差和协方差

图像的统计特征

图像信息熵图像信息熵描述一幅图像含有的信息量图像中的各个灰度级出现的概率相等时，图像的熵值最大图像的方差和协方差灰度平均值指一幅图像中所有像素灰度值的算术平均值灰度方差反映图像中各个像素的灰度值与整个图像灰度平均值的离散程度遥感图像和灰度图像的不同之处是前者有多个波段，协方差也需要考虑各个波段之间的相关性图象的颜色特征－颜色空间图像的颜色特征－颜色矩

AMAStricker和MOrengo提出颜色矩可有效地表示图像中的颜色分布颜色矩:简单有效的颜色特征表示方法一阶矩(均值mean)二阶矩(方差variance)三阶矩(斜度skewness)优点：不需要颜色空间量化特征向量维数低缺点：该方法的检索效率比较低实用中用来过滤图像以缩小检索范围三个颜色矩的数学定义如下：

表示彩色图像第j个像素的第i个颜色分量N表示图像中的像素个数。图像的三个分量Y,U,V图像的前三阶颜色矩组成一个9维直方图向量，即图像的颜色特征表示如下：StrickerAMA,OrengoM.SimilarityofColorImages[J].ProceedingsofSPIE-TheInternationalSocietyforOpticalEngineering,1970,2420:381--392.一阶矩(均值)二阶矩(方差)三阶矩(斜度)图像的形状特征-傅里叶描述符图像旋转对傅里叶描述符的影响图像的形状特征-不变矩

图像的形状特征-形状参数区域面积：描述区域的大小，对属于区域的像素计数，为区域中的像素总数。位置：用物体面积的中心表示物体位置，面积中心是单位面积恒定的相同形状图形的质心。方向：如果物体是细长的，可以将较长方向的轴定义物体的方向。周长：区域边界的长度，即位于区域边界上的像素数目。长轴和短轴：用最小外接矩形法可以求物体的长轴和短轴。圆形度：根据区域周长及面积计算，F=（4π面积）/（周长*周长）偏心度：区域的偏心度常用区域主轴和辅轴的比来表示，另外一种方法是计算惯性主轴比。图像的形状特征-形状编码链码是一种边界的编码表示法给每个线段边界一个方向编码有4-链码和8-链码两种编码方法从起点沿边界编码，至起点结束某对象的编码0123014672354-链码8-链码通常称之为Freeman链码，表示曲线时需要曲线的起点边界表达链码（Freeman码）图像的形状特征-链码表示举例

4-链码：000033333322222211110011（7*7／24）01203图像的形状特征-链码表示

链码表示的问题：1）链码可能很长2）噪音会产生链码3)起点变，链码变改进方法：1）加大（宽）网格空间2）依据原始边界与结果的接近程度，确定新点的位置图像的形状特征-链码表示举例4-链码：003332221101（4*4）／120312问题2：1）由于起点的不同，造成编码的不同2）由于角度的不同，造成编码的不同改进2：1）从固定位置作为起点(最左最上)开始编码2）通过使用链码的首差代替码子本身的方式图像的变换

图像的灰度变换离散傅里叶变换离散余弦变换图像的变换-灰度变换[0,L-1]为图像的灰度级,黑的变白，白的变黑✓ 原图动态范围太大超出设备范围，能丢失细节✓ 解决办法是对原图进行灰度压缩，如对数变换反转变换：

r对数变换：

log

✓ c是常数r

026图像灰度变换-幂次变换幂次变换：s

c和

是正常数

提高灰度级，在正比函数上方，使图像变亮

降低灰度级，在正比函数下方，使图像变暗27

4离散傅立叶变换DFT

离散余弦变换DCT图像经过DCT变换后，其能量主要集中在中低频分量上DCT变换是网络上广泛使用的JPEG格式中的标准变换图像的局部特征局部特征提取一般包括特征检测和特征描述基于局部特征SIFT的提取和匹配框图图像的局部特征-边缘特征

为提取图像边缘，需要边缘滤波器的帮助这类滤波器以矩阵形式存在，称为卷积核图像的局部特征-边缘特征Sobel算子-101-202-101121000-1-2-1检测水平边沿模板检测垂直平边沿模板将水平模版和垂直模版得到的结果进行方向梯度归一化运算，得到梯度模版的图像。计算梯度G值的大小如下图像的局部特征-边缘特征拉普拉斯算子拉普拉斯是二阶偏导数，对离散图像：图像的边缘特征-拉普拉斯算子

-1-14-1-1-1-1-18-1-1-1-1-111-411111-811111常用Laplace梯度模板-1-15-1-1-1-1-19-1-1-1-1-111-311111-711111对应Laplace锐化模板4邻点模板8邻点模板未通过平滑滤波边缘检测结果通过平滑滤波边缘检测结果原图4邻点模板8邻点模板原图8邻点模板平滑滤波结果线性滤波器35线性滤波器：包含在滤波器邻域内像素的平均值，为均值滤波器作用：减小图像灰度的尖锐变化，减小噪声，但导致边缘模糊对原始图像的像素点

，在取局部邻域加权和111111111010111010常用模板：1212421211111211113*3均值模板4邻域均值模板高斯模板加权平均模板实现过程：将模板对应的灰度值相加求平均，用均值代替

图像的边缘特征-其他算子Canny算子算法过程：图像降噪平滑、计算图像梯度、抑制非极大值、双阈值筛选Harris角点提取与匹配找往任何方向移动窗口都会引起比较大的灰度变换的角点Harris角点提取结果图像的局部特征-纹理特征

灰度共生矩阵GLCM局部二值模式LBP特征LBP特征提取纹理特征-灰度共生矩阵GLCM利用灰度共生矩阵可以得到一系列的纹理特征统计量如能量、对比度、相关、熵和方差图像的局部特征-局部二值模式LBP特征

灰度不变性的基本LBP算法3*3的纹理单元窗口3*3窗口的LBP新灰度值图像的局部特征-局部二值模式LBP特征灰度不变性的圆形LBP算法旋转不变性的LBP算法如果最初得到的LBP特征值为225，它所对应的8种LBP模式下的特征值最小为15，则无论图像如何旋转，该像素点的LBP特征值都选择为15。图像的局部特征-HOG方向梯度直方图

HOG（histogramoforientedgradients）步骤：颜色空间归一化、计算梯度、构建单元格生成方向梯度直方图、区块和梯度归一化预处理Gamma矫正、灰度化等颜色空间归一化2.计算图像XY梯度和方向用sobel计算X和Y的梯度图像计算梯度的大小和方向3.计算8×8单元格中梯度直方图图像的局部特征HOG特征：颜色空间归一化、计算梯度、构建单元格生成方向梯度直方图、区块和梯度归一化直方图包含9个箱，对应于角度0、20、40...160.使用红色包围像素处的梯度角度为10度，星等为4。

10度介于0和20之间，像素的投票均匀分成两个箱。如果角度大于160度，则介于160和180之间角度为165度的像素按比例贡献0度箱和160度箱可视化方向梯度直方图计算定向梯度特征向量的直方图将8×8个单元格中所有像素的贡献相加以构建9箱直方图/histogram-of-oriented-gradients/对直方图进行“归一化”，以便它们不受光照变化的影响HOG特征的特点HOG特征描述子的优点：图像的几何和光学形变仍能保持很好的不变性区块直方图归一化部分抵消了光照变化影响由于不需考虑光照影响，特征维数降低了HOG特征描述子的缺点：无法处理遮挡问题，对尺度变化敏感检测窗口大小稍有改变时HOG的表现下降描述子生成速度慢，实时性较差图像的局部特征-SIFTSIFT特征：(Scale-InvariantFeatureTransform)尺度空间构造、关键点寻找、剔除不稳定点、关键点方向参数确定、关键点描述子生成二维高斯核函数矩阵描述1.尺度空间构造（DoG金字塔）图像的局部特征-SIFTSIFT特征：尺度空间构造、关键点寻找、剔除不稳定点、关键点方向参数确定、关键点描述子生成关键点周围邻域选择关键点邻域块划分方向直方图特征的距离度量

欧式距离：连接两个点的线段长度余弦相似度：指两个向量夹角的余弦汉明距离：汉明距离度量两个向量之间异值个数汉明距离为2的A、B字符串用于比较两个相同长度的二进制字符串，使用XOR函数计算两个向量之间的差。计算不同字符的数量能够比较不同字符串之间的相似程度。特征的距离度量

闵科夫斯基距离不同参数p得到不同距离度量：p=1是曼哈顿距离p=2就是欧氏距离当p=∞是切比雪夫距离p可迭代并找到最适合用例的距离度量。特征的匹配策略在特征空间中，距离近的特征被认为是相似的，相似度得分高的排在前列.全局特征之间通过向量的欧氏距离、余弦距离等阈值进行匹配，策略为：如特征之间的距离小于某个阈值，则认为他们相互匹配。但阈值确定非常困难，目标容易匹配上多个模型，产生大量的误匹配。局部特征数量众多，需要设计特殊的索引结构来实现高效度量树状索引、倒排索引是最常用的局部描述子匹配方式。特征的匹配策略

马氏距离图像的深度分类方法

追溯CNN网络的发展历程:90年代的LeNet，针对ATM中支票的手写数字进行识别（Fukushima1980，LeCun1989）从ILSVRC图像识别竞赛，自2012年开始，网络越来越深，架构越来越复杂，准确性越来越高下图是ILSVRC从2010年到2015年历年的图像识别错误率

ImageNet图像识别挑战赛的网络深度和Top-5的错误率

CNN网络的主要架构-LeNet网络的架构YannLecun在1990年开发LeNet，用于读取邮政编码和数字。一个5层的CNN，用5x5步长为1的卷积核，用池化层和全链接层在独立字符识别中的准确度达到了99.2％。卷积层

卷积层由一组在输入数据上滑动的过滤器组成。每个内核都一个宽度×高度的权重，提取输入数据的特征。训练时权重用随机值初始化，然后从训练集中进行学习。CNN网络的基本架构包括：卷积层、池化层、全连接层。在几乎每个CNN中，都会看到这三种主要的图层类型。CNN网络的主要架构池化层池化层用于减少特征图的维数，保留特征图中最关键的信息。在池化层中，可选择最大、最小、平均池化操作。

全连接层

整个CNN网络中的“分类器”。全连接层则是将前部分学习到的深度特征映射到样本标记空间上。全连接层的每一个结点都与上一层的所有结点相连，损失函数神经网络使用损失函数来量化给定训练样本的预测输出与基本事实之间的误差损失函数可用于指导学习过程，即以提高未来预测准确性的方式更新网络权重梯度下降（优化）

AlexNet网络由5个卷积层、最大池化层和3个全连接层、1000分类的softmax组成，有6000万参数和650，000神经元。前面5层是卷积层，即两次卷积-池化-归一化连接的方式并增加了三层卷积最大池化层用ReLU作为激活函数，后面3层是全连接层和dropout。输入-卷积-池化-卷积-池化-卷积-卷积-卷积-池化-全连接-全连接-全连接-输出。AlexNet是在2012年赢得ImageNet大规模视觉识别挑战赛的冠军框架以超过第二名10.9个百分点的绝对优势一举夺冠，达到了84.6％的测试准确度。（Krizhevskyetal.,2012）AlexNet网络第1个卷积层：接收224*224*3大小的图像作为输入，使用96个11*11*3的卷积核提取特征，步长stride为4；第2个卷积层：使用第1个卷积层经过响应归一化和池化层的输出作为输入，使用256个5*5*48的卷积核；第3个卷积层：使用384个3*3*256的卷积核；第4、5个卷积层：分别使用384个3*3*192、256个3*3*192的卷积核；全连接层：FC6，FC7等每个全连接层包含4096个神经元第七层：输出的4096个数据与第八层的1000个神经元进行全连接，经过训练后输出1000个float型的值，即预测结果。AlexNet网络主要特点

AlexNet架构具有更深的网络，，采用数据增广技巧，使用ReLU代替Sigmoid来加快SGD（随机梯度下降）的收敛速度；使用最大池化替代平均池化Dropout:选择性地在训练期间剪掉某些神经元，有效缓解了模型的过拟合。提出了局部响应归一层LRN（LocalResponceNormalization）的概念，即对局部神经元的活动创建竞争机制，响应比较大的值相对更大，抑制其他反馈较小的神经元，增强了模型的泛化能力。VGG19网络分类

2014年，牛津大学计算机视觉组和GoogleDeepMind公司的研究员共同研发出了VGGNet在ILSVRC2014取得了比赛分类项目的第二名，第一名是GoogLeNetVGG的主要贡献是在构建各种深度的卷积神经网络结构时使用很小的卷积核(3×3)常用来提取图像特征的VGG-16和VGG-19即使用类似大小的卷积核进行模型构建VGG19网络分类

VGG16－卷积块和池化层

在VGG-16的情况下，有五个卷积块（Conv-1到Conv-5）VGG16-19网络分类

VGG的输入为224×224×3的图像。均值预处理，将图像上的每个像素减去在训练集上计算的RGB均值。用小卷积核(3×3)做连续卷积，固定步长为1，为保持卷积后图像大小，边缘填充1个像素。在一些卷积层之后（不是所有的卷积层之后都是最大池化）添加五个最大池化层卷积层后，增加3个全连接层，前两层每层有4096个通道，第三层是输出层1000个分类。隐藏层的激活函数都使用ReLU。为了添加非线性激活函数的个数，同时对卷积层的感受野无影响，使用1×1的卷积核。ResNet网络分类问题：增加网络深度到一定程度时，更深的网络意味着更高的训练误差，导致退化。ResNet在增加网络深度的同时，还能有效解决深层网络梯度消失的问题，网络更深时，参数空间更大，很难优化，增加网络深度导致训练误差大深层网络虽然收敛，但网络层数却产生了更大的误差，产生了退化问题ResNet设计了如上图的残差模块，以实现训练更深的网络，更好的性能ResNet网络图像的深度检测方法

目标检测的两步过程查找包含目标的边界框，以便每个边界框只有一个目标。对每个边界框内的图像进行分类，并为其分配一个标签。传统目标检测流程：区域选择、特征提取和分类器区域选择：不同尺寸的滑动窗口遍历整个图像，重复操作导致时间复杂度很高。特征提取：用SIFT、HOG等特征，但目标形态、光照、背景改变时，鲁棒性降低。传统目标检测的主要问题：基于滑动窗口的区域选择策略没有针对性时间复杂度高，窗口冗余手工设计的特征对于复杂的变化不具备鲁棒性图像的深度检测方法

深度学习的目标检测算法第一类是两阶段（two-stage）的算法将检测分两部分展开：物体类别（分类问题）和物体位置（回归问题）。基于RegionProposal的RCNN系算法包括RCNN，FastRCNN，FasterRCNN等用算法产生目标候选框RegionProposal，再对候选框做进一步的分类与回归。这类方法准确度高，但速度慢。第二类是一阶段（one-stage）算法直接用一个卷积神经网络CNN完成不同目标类别与位置的预测，例如Yolo、SSD类。第二类算法速度快，准确性要比一阶段低一些。

目标检测方法发展里程碑

RCNN方法

给定图像，用selectivesearch算法从下到上提取图像中2000个独立的候选区域RegionProposal；将每个RegionProposal输入到预训练好的AlexNet中，将CNN的FC7层的4096维输出作为特征；将每个RegionProposal提取到的CNN特征输入分类器SVM，对每个目标和背景进行二分类，判断某个候选区域是否包含目标类别。4.对SVM分好类的RegionProposal做边框回归，让regionproposal提取到的窗口跟目标真实窗口更接近。RCNN的主要贡献

使用了AlexNet进行特征提取？在ImageNet数据集下，用AlexNet进行训练。然后再在自己的数据集上fine-tuning，网络结构不变（除了最后一层输出由1000改为21）输入是前面的regionproposal进行尺寸变换到一个统一尺寸227*227，保留f7的输出特征2000*4096维。针对每个类别（一共20类）训练一个SVM分类器，以f7层的输出作为输入，训练SVM的权重4096*20维，测试时候会得到2000*20的得分输出，且测试的时候会对这个得分输出做非极大值抑制NMS，就是去掉重复框的过程。用回归算法调整检测框的大小。定位精度：用算法得出的物体检测框（黄色）与实际标注的物体边界框（绿色）的IoU值来近似表示。IoU（交并比）两个区域的重叠程度overlap：侯选区域和标定区域的IoU值R-CNN将PASCALVOC上的检测率从35.1%提升到53.7%FastRCNN方法

RCNN的缺点：训练耗时：会出现重复计算重叠区域，提取特征的操作冗余，训练时间84小时。模型非端到端：三个部分是分离式的，流程不易训练，存在大量的重复特征计算。SVM和回归与深度学习网络相互分离，在SVM和回归过程中CNN特征没有被学习更新。为提高了检测效率，RossGirshick在2015年推出FastRCNN（Heetal.,2015）

对整张图像只进行一次ROI（RegionofInterest）提取，大幅缩短了运算时间。ROI（RegionofInterest）指SelectiveSearch提取的候选框。在VGG16的框架下，FastRCNN能够达到RCNN检测速度的9倍。与原RCNN方法对比，FastRCNN有两处不同：最后一个卷积层后加了一个ROI池化层；损失函数使用了多任务损失函数，在CNN网络中直接加入边框回归，统一进行训练。FastRCNN方法RossGirshich的FastR-CNN论文FastRCNN的主要贡献

特征提取与分类的步骤都是用深度神经网络执行的，区域搜索仍为传统的方法。利用ROI池化直接对全局特征图的候选区域进行特征提取；将分类与边界框调整整合进神经网络可以一起训练。FastRCNN的局限：比较耗时：SelectiveSearch花费的2s还是难以实时检测；模型非端到端，对于每一个ROI提取的候选区域特征图，都需要训练后续部分的神经网络，这也是采用SelectiveSearch的问题，即在区域候选上的瓶颈。FasterRCNN方法

FasterRCNN算法(Girshicketal.,2017)由同一个网络同时完成生成proposal、特征提取、目标分类、位置微调等多项工作。简单流程为：输入图像、生成候选区域、特征提取、分类和位置精修。FasterR-CNN算法由两大模块组成：PRN候选框提取模块+FastR-CNN检测模块。RPN是全卷积神经网络，用于提取候选框；FastR-CNN识别其中的目标。FasterRCNN在FastRCNN的基础上添加了RPN结构替代SelectiveSearch，用神经网络来完成整个目标检测过程。FasterRCNN在每个像素点产生9个anchorbox，以便对不同大小和不同比例的目标设置不同的anchor参数，再依据参数设置生成不同的box进行目标检测，执行FastRCNN的定位与分类过程。FasterRCNN方法FasterRCNN方法FasterRCNN由四部分组成：共享卷积层、RPN、ROIpooling以及分类和回归先用共享卷积层提取特征featuremaps，再featuremaps送入RPN。RPN生成待检测框的同时对ROI的包围框进行第一次修正；ROIPoolingLayer根据RPN的输出，在featuremap上选取每个ROI对应的特征；用全连接层(FCLayer)进行分类，第二次修正目标包围框。FasterRCNN实现了端到端的训练(end-to-endtraining)特色是替换了SS算法，使用RPN来获取ROI。YOLO系列深度检测方法

YOLO系列是实时检测算法系列把整个检测问题视为边界回归问题直接通过网络生成预测框将整个检测过程整合到一个系统中YOLOv1

YOLOv1：YouOnlyLookOnce，Redmonetal.,2016）是CVPR2016上的口头文章原理是把目标检测中原本分离的组件整合到一个神经网络中。如何仅训练一个深度网络，就能回归出目标的位置和归类，是YOLO需要解决的问题。基础YOLO检测器的速度能够达到45fps，更快的FastYOLO则能够达到155fps。YOLOv1的训练模式整体流程

输入图像划分成S*S的网格。如果物体的中心落在某个网格中，这个网格就负责对物体进行检测。如设S=7，将图像划分成7*7的网格。每个网格都需要预测个边界框。每个预测框包含5个参数：x,y,w,h,和置信度。x,y表示预测框的位置，w,h是预测框的宽度和高度。置信度反映当前预测框是否包含物体。当网格中没有物体，类别置信度等于0；否则，置信度等于预测框和实际框的重合度为了得到预测框对某一个类别的得分，在测试时将类别概率与预测框的置信度相乘，如下式:得到每个预测框的得分以后，设置阈值过滤低得分的预测框，对保留的预测框进行NMS处理，就得到最终的检测结果。YOLOv1优点：通过一次前向计算就能得到检测结果，算法快速、简洁，背景误检率较低；缺点：检测框精准性较差；对于小物体的检测容易漏检。

YOLOv2与YOLOv3对小目标的精度比较货架商品的检测和识别-商业需求零售企业需求：需要及时掌握人货场状态，提供给销售、营销，支撑其运营策略。货架巡检：线下商超经营者想了解货架上的商品类别、可视排面占比、缺货率等，需要货架巡检。自动理货：“理货”就是进行货架上商品SKU类别和数量的统计。自动理货通过拍照自动生成店内审计报告，实现铺货率、排面数、货架占有率、促销执行度各项指标的捕捉智能化。取货识别结算：自动识别顾客从货架上拿走的商品，用取物识别技术结算，降低成本。挑战的问题：商品种类繁多：SKU数量可能达到百万千万级；货架摆放密集：部分商品相似，同款商品不同规格；商品位置随意：拍摄角度倾斜、照片模糊等都加大了商品识别的难度。应用案例-标准商品检测服务EasyDL零售版是百度对零售场景的训练和服务平台，提供服务：定制商品检测服务标准商品检测服务货架拼接服务标准商品检测服务五步体验流程如下：创建模型：根据业务需求和陈列场景选择模型类创建SKU：自定义创建SKU标签，名称、品牌和规标注图集：上传实际业务中的实景图并标注训练模型：选择SKU和实景图集训练模型模型部署：部署在云端，发布为云服务API进行调用EasyDL检测识别结果

陈列场景：普通货架货架总层数：2层货架利用率：95.8%空位数：1商品总排面占比：34.7%商品标签1：冰红茶_康师傅_500ml商品排面数：5个商品位置：第1层，第5、6、7、8、9个商品标签2：绿茶_统一_500ml商品排面数：3个商品位置：第2层，第3、4、5个商品的自动收银结算自动收银结算（AutomaticCheck-Out/ACO）旨在根据收银场景进行商品图像识别，自动生成结算清单，实现零售行业的降本增效。面临的挑战：大规模、细粒度、少样本和跨模态旷视南京研究院提出商品识别数据集——RPC（RetailProductCheckout）。RPC的商品种类200，图像总量83k，真实模拟零售场景。商品的自动收银结算商品的自动收银结算数据采集方式从不同角度0-360度模仿商品的拍摄视角模拟了真实商店进行商品录入的过程商品的自动收银结算对商品在结算时的摆放模式分为简单、中等、困难三种模式添加了三种不同强度的监督标签，从弱到强，最强的是边界框商品的自动收银结算基于“单品图作训练、结算图作测试”的思想，基准方法三步：通过Saliencydetection和CRF将商品从原始数据中抠出来然后用自动合成方法，将这些商品图像直接在结算背景上进行组合。这样合成的结果不够真实，在第三步使用了渲染方法，把合成图转换成接近真实的图像。用渲染以后的图像来训练detector。在RPC数据集下执行ACO任务的结果：百度的PaddleClas的通用图像识别系统百度的PaddleClas的开源项目，是一个通用图像识别系统快速搭建神器—PP-ShiTu，达到”开箱即用”的效果。商品识别、车辆、人脸、Logo、行人重识别。PP-ShiTu的步骤：通过目标检测模型，进行主体检测；对每个候选区域进行特征提取；将特征提取的向量在检索库中进行检索、匹配，返回识别结果。PP-ShiTu使用流程

行人目标重识别Personre-identification

行人再识别是指在多个不同的摄像设备，对行人进行检索以及识别同一行人。与人脸识别相比，人的姿态、行为、外观会因为不同摄像机覆盖的范围彼此不重叠而发生变化。不同时间、场景的光照、背景和遮挡物各不相同，背景中存在不同的遮挡和干扰等，行人重识别既需要准确还需要效率。商场行人目标重识别商业需求:通过行人重识别技术，将顾客的行为轨迹信息数字化，帮助商家挖掘其中的商业价值，实现为客户定制化服务。行人重识别在零售场景内尝试全程无感知体验，并对各种突发事件做出及时的响应。行人重识别除了应用在线下零售解决方案中，与其他技术的相结合可以用来打通线上、线下零售场景，提供“一站式”的消费服务体验。PersonRe-ID从不同的摄像头中，正确地匹配相同的人主要挑战：

较大的姿态变化；视觉角度变化；不同的光照条件；较低的分辨率；遮挡、截断等。行人再识别的挑战行人不对齐；不同行人之间细节的区分；相同行人之间存在遮挡。

图像哈希函数的目标

基于三元组深度哈希模型的行人再识别框架基于三元组深度哈希模型的行人再识别方法框架：包含网络训练、特征提取和行人再识别三个过程。网络训练是利用数据集中提供的训练样本，根据行人的身份学习一个鉴别性的模型，使得相同行人彼此聚集，不同的行人彼此分离。特征提取是利用网络训练得到的模型，获得未知行人图像的特征。行人再识别是通过特征之间的距离计算，来执行跨摄像头的行人特征检索，通过返回排序列表得到最终的结果。基于三元组深度哈希模型的行人再识别框架如何划分局部区域，按照人体的黄金分割。行人是：头、躯干、腿等，理想上符合黄金分割比例（0.618:1），将行人划分为3个或4个区域。行人样本中各部位的比例并不固定。头部和躯干不处于同一水平线会对行人的表达产生影响。基于三元组深度哈希的行人再识别框架谢谢大家勤学/修德/明辨/笃实第八章音频数据分析5.1卷积神经网络5.2卷积神经网络CNN5.3RNN和LSTM5.4强化学习5.5贝叶斯图网络5.6自编码器5.7生成对抗网络目录和内容本章内容了解音频数据分析的基本内容掌握音频数据特征提取的基本方法掌握语音增强和语音识别基本方法和原理了解语音合成的模型及框架和评估音频数据音频数据包括语音、音乐和其他声音等声音由声源振动产生，在空气等介质中传播音频信号包括声波的频率、幅度变化等音频数据的表示音频信号是带有语音、音乐和音效的有规律声波用连续的曲线表示，图示显示出振幅、时间的变化等参数振幅，是声音在振动过程中可能达到的最大强度范围。振幅是标量，在数值上等同于振动过程中最大位移的绝对值大小。周期，是信号的最小循环单位，记作𝑇，单位为秒（s）。声音波形的多种变化音量的大小取决于波的振幅（高度），振动越大时，声音就会越响。音高由波的频率（一定时间内震动的次数）决定，低频波形成低音、高频波形成高音。音色是发声器的性质：两种乐器可能发出相同的音调，但声音不同，音色由音波形状决定。音频分析的的类型音频分析主要包括时域分析和频域分析。时域分析：按照时序展开的声音信号分析，时域数据包括幅度和时间频域分析：数据经过傅里叶变换后分析，频域数据包括幅度和频率语音数据的时域表示女声“你好”对应的时域波形图语音的原始数据通常是与时间相关的不定长时序信号

音频数据的频域表示包括频率、幅度变化的信息载体声波或正弦波有三个重要参数：幅度An

频率ω0相位ψn音频信号预处理-时域分帧：在后期的语音处理中要输入的是平稳信号，一段语音信号整体上看不是平稳的，但是在局部上可以看作是平稳的，要对整段语音信号分帧，即切分成很多段。帧移：分帧方法为交叠分段法，前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般为0~0.5,10-30ms范围内都可以认为信号是稳定的，一般以不少于20ms为一帧，1/2左右时长为帧移分帧每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠，称为以帧长25ms、帧移10ms分帧时域上的预处理-分帧(1)原始音频和分帧的一帧(2)分帧后的某一帧数据展开时域上的预处理-帧长和帧移

帧长和帧移在语音片段中的示意一般帧移的长度为帧长的50%~60%，大约为10ms前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般为0~0.5时域上的预处理-加窗加窗是为了保证分析单元间的连续性。分帧本质上就是一个音频数据加矩形窗进行的处理。矩形窗就是仅作截断，不对信号内容做任何修改的一种最简单的窗。实际工程中通常选用更复杂的窗口以避免音频信号信息泄露。hamming窗是一种常用窗函数叠加hanning窗例如：混合信号100Hz与200Hz混合信号的时域频域对应图信号淹没在啸叫噪声中；(b)信号与噪声的功率谱；

(c)去噪后的功率谱；(d)重构原语音信号混合语音信号消噪过程

短时傅里叶变换

频域上的预处理傅里叶变换（DiscreteFourierTransform,DFT）的目的是将语音信号从时域转化到频域进行分析。信号里包含的频率可以用正弦波表示，由于正弦函数具有正交性，因此可以从语音信号中分离出不同频率的正弦信号。任意周期函数，通过傅里叶变换都可以表示为一组不同频率的正弦波和余弦波之和。在傅里叶变换中，时域横轴为时间，纵轴为声音信号的幅度变化；频域的图像横轴为频率，纵轴为该频率信号的幅度。FFT:FastFourierTransform

傅立叶变换将时域信号转换为频域信号，信号不同的观察角度FFT是DFT的一种快速实现，本质上是对信号的分解1965年，Cooley-Turky发表文章《机器计算傅里叶级数的一种算法》，提出FFT算法解决DFT运算量太大，在实际使用中受限制的问题。DSP芯片实现：TI公司的TMS320c30，10MHz时钟，基2-FFT1024点FFT时间15ms。不同频率成分FFT变换将一个时域信号分解为在频域中表示，可以分析信号中的不同频率成分。频域中信号有助于发现信号中的干扰、噪声和抖动傅里叶变换频域可视化语音的基本特征基础特征-响度一段音频从主观听力角度可以从三个主要维度简单衡量：响度、音色、音调。响度（loudness）是人对于声音响亮程度的主观感知。响度在波形上为振幅的大小，在物理上对应到声强（intensity），声强为单位面积上的声音功率，由于人耳对声音的感知并非线性关系，因此声强是一个对数增长的量，声强的单位为分贝（dB）

响度除了和声压级、频率有关外，和信号的持续时间也有关系。对于持续时间少于200ms的纯音信号，人们会觉得声音越来越响，持续时间超过200ms后响度趋于稳定。音色（Timbre）是由声源和声道特性决定的特异性特征。发声体的材质、大小、结构等特性的细微变化都会引起音色的变化。基础特征-音色不同的发声体由于其材料、结构不同，则发出声音的音色也不同。例如钢琴、小提琴和人发出的声音不一样，每一个人发出的声音也不一样。因此，可以把音色理解为声音的特征。音色通过基音（Pitch）和泛音调节，在频谱图中对应基音的位置与共振峰的形状和位置。基音就是声源最主要的发声频率，也是人耳最容易听到的部分。基音在音频分析中通常称之为F0，在小的片段中可以近似认为F0是一个确定的值由于自然界的声音大多为复合音，因此我们感知到的声音里也包含泛音。基音与泛音基音，泛音和叠加的过程如下图：泛音所关联的共振峰（Formant）在语音信号处理中通常被认为反映了声道的运动。由于人的发音需要整个声道不同部位的协调运作，因此声道的形状和大小的改变随时间变化，这种变化被反映在了语音信号的共振频率中。泛音关联的共振峰音调指人主观感受到的调子的高低。音调主要与声音频率有关，但也受到响度的调节。对于一段纯音而言，高频纯音（1500Hz以上）的音调随响度增加而增加，低频纯音（500Hz以下）的音调随响度增加而降低。基础特征-音调语音学特征语音学的特征就是音素。音素是根据语音的自然属性划分出来的最小语音单位。音素分为元音与辅音两大类，不同语言中元音和辅音的划分并不相同。以汉语为例，汉语中的元音分为单元音与复元音；以英语为例，英语中的辅音分为清辅音和浊辅音。元音与辅音的有序排列组合形成音节，音节是自然语言中能感受到的最小语音片段。在英语中，可能出现连续辅音；在汉语中每个辅音必须后跟元音。汉语音节通过声调表达不同含义，在语音处理中即表现为相对音高的变化。音素也根据上下文存在变形，例如弱读、变调、协同发音、辅音浊化等。短时能量

短时能量：音频信号的短时能量随时间变化相对比较明显，区分清音和浊音。识别静音帧：当短时能量值小于阈值时，这帧是静音帧。把静音帧看作是一段音乐开始或结尾，区分有声和无声的依据。理论分析：短时能量体现的是信号在不同时刻的强弱程度。语音的基本特征-短时能量音频数据的特征-过零率

短时平均过零率表达式为：其中N为一帧的长度，n为对应的帧数，按帧处理。理论分析：过零率是信号过零点的次数，体现的频率特性。因为需要过零点，信号处理之前需要中心化处理。单位时间内过零的次数就称为过零率。一段长时间内的过零率称为平均过零率。短时平均过零率信噪比（SignalNoiseRatio）信噪比即电子系统或设备输出信号与输出噪声的功率比值，单位是分贝（dB）。信噪比越高意味着系统产生的杂音越少、噪声越小、录音片段的质量越高。

语音的频域特征-频谱图频谱图是通过视觉表示信号随时间变化的频率。频谱图有时被称为声纹或语音图。在二维阵列中，一是频率，二是时间。Mel滤波器组Mel滤波希望模拟人耳对低频敏感、对高频不敏感的特点。经过Mel滤波后，原本无法线性比较的频率在Mel滤波后转化为了线性可比的Mel频率。

FBank滤波器FBank实际上是使用40个相互重叠的三角滤波器作用于傅里叶变换后得到的功率谱。每个滤波器对其中间的频率最为敏感，对频率的原振幅不做修改，随后在两侧频率上将对应振幅线性衰弱到0，滤波器的效果可以用下式表达。

其中，f(m-1)为上一滤波器主要通过的频率，f(m)为当前滤波器主要通过的频率同理，f(m+1)为下一滤波器主要通过频率，由此可见相邻的滤波器不断叠加的过程。梅尔频率倒谱系数MFCC梅尔频率倒谱系数（MelFrequencyCepstrumCoefficient,MFCC）在FBank的基础上增加了倒谱的过程。倒谱就是对Mel频谱再进行逆变换，在这里逆变换一般选用离散余弦变换（DiscreteCosineTransform，DCT）。MFCC的计算相当复杂，书中不展开介绍DCT的计算过程，仅介绍结果。以自动语音识别（AutoSpeechRecognition,ASR）这一常见场景为例，离散余弦变换后得到的第2至13个参数即MFCC系数。语音情感识别语音情感识别是语音分析的重要组成部分，通过先前提到的特征提取以及预处理手段，将得到的特征放到算法中进行模式识别进而判断说话人的情感状态是一种常见的语音分析问题。在解决这些工程问题的过程中，涉及到情感识别特征集、训练数据、算法模型等多个环节的选择和组合。语音情感的识别本质是一个分类问题，因此模型的变化主要在于：（1）输入特征的差异；（2）分类器的选取。输入中可以选择的特征有语谱图、MFCC、手工特征（LLDs以及HSFs）、特定特征集（如：GeMAPS、eGeMAPS）。分类器的选择中除了传统的高斯混合模型（GMM）、支持向量机（SVM）、KNN、隐马尔可夫模型（HMM），也可以选择CNN、DBN、LSTM等深度学习模型。

语音合成语音合成指的是通过计算机或其他设备模拟得到语音的过程。其中，最常见的定义是将语音合成描述为书面文本转换成机器生成的合成语音的过程(Keller1994)，即文本转语音(TTS)系统。以TTS系统为例，前端是文本分析模块、后端是语音处理模块。典型级联式TTS系统处理流程

听众对各种应用场景下TTS的需求TTS应用合成语音质量需求可行的评估维度和方法语音导航足够的清晰、响亮和及时可理解性(o,s,b)，任务成功率(b)，综合性(s,b)商场向导清晰，悦耳可理解性(o,s,b)，喜爱度(b)，交互时间(b)，综合性(s,b)对话系统及时，渐进，合适的话语标记偏好与自愿交互时间(b)，任务成功率与效率(b)，适应行为(b)教育性质有声读物提升在线阅读的可理解性全面性(s,b)，任务成功率与效率(b)虚拟助手清晰，声音悦耳亲和性(s)，可理解性(o,s,b)，综合性(b)，喜爱度(b)、自愿互动时间(b)、任务成功率与效率(b)注：主观评估(s)、客观评估(o)、行为评估(b)阿里云语音识别和录音服务阿里云智能语音服务（/nls）提供了“语音识别”和“语音合成”两大智能语音服务。实现“能听、会说、懂你”式的智能人机交互体验适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。录音文件内容识别阿里云语音服务中的录音文件转写服务阿里云语音识别服务“语音识别”产品：录音文件识别、录音文件极速版、一句话识别、实时语音识别；“语音合成”产品：语音合成、长文本语音合成“功能体验”环节：例如“语音识别”“语音合成”“录音文件识别”“自学习平台”，客户可以自定义输入文件，进行免费的产品体验。在注册和登录阿里云网站后，用户可以免费试用当达到使用次数或市场、客户需要相应地进行付费购买谢谢大家勤学/修德/明辨/笃实第四部分场景典例篇

第9章典型非结构数据分析案例智能零售案例行人再识别（ReID）与实体商业数智化案例背景

在人口红利和流量红利消退的大背景下，国内消费品零售市场已经出现线上电商增速趋缓，获客成本水涨船高的问题，线下实体商业成为亟待开辟的掘金“新大陆”。随着数字化建设的全面深化，AI从算力、算法向应用场景全面落地，泛零售行业企业的数智化转型需求迫在眉睫。中国30万亿线下实体零售市场开展线上线下一体化融合升级，为AI应用提供了最佳实践场景。我国零售市场线线下和线上的规模AI+线下零售的渗透赢识科技构建的实体商业数字化底座赢识科技实体商业数智花流程框架购物中心、区域级别客流分析和客群洞察基于ReID的精准客流洞察和门店转化漏斗分析消费者全生命周期精细化运营闭环ReID的批次识别、客流洞察分析总结人、货、场在实操中是三位一体，本案例从消费者链路介绍了ReID技术在实体商业场景中数据采集分析利用方面的应用。赢识科技采用端-边-云+全栈AI的系统架构，通过海量异构智能设备抽象管控连接，形成线下数据“埋点”。结合全场景ReID、智能感知识别、行为语义化技术，结合供给侧与消费侧的全链路营运服务工具，构建消费者数据资产。实现以数据驱动的智能商业闭环，为实体商业提供从精准营销到精细化管理的整体数字化解决方案。案例的思考和问题针对AI和零售的结合，简述“人-货-场”的全面在线化的过程？针对线下零售需求，如何结合商圈/购物中心场景，开展行人再识别应用？如何利用数智化，进行从获客到转化的全生命周期服务？开户审核案例多模态识别在证券开户业务应用

案例背景

网上开户业务可以改善客户业务办理体验、缓解证券经营机构现场开户压力、降低证券公司业务拓展成本等在20全市场新开A股证券账户中，约99%的账户是通过网上开户的方式开立。双向视频见证方式：指证券公司通过公安部身份信息核查系统核验投资者所提交身份信息的真实性证券公司见证人员与投资者进行双向视频，将视频中的投资者相貌与其上传的身份证件影像资料进行比对确保二者一致，确认本人自愿开户。单向视频见证方式：指投资者在证券公司提供的技术环境下实时录制开户申请视频，记录其本人自愿开户的意思表达证券公司通过公安部身份信息核查系统核验投资者所提交身份信息的真实性开户代理机构见证人员审核投资者提交的视频，将视频中的投资者相貌与其上传的身份证件影像资料进行比对确保二者一致，并确认本人自愿开户。2013年以前临办理2021单向视频全面应投资者开立证券账户应当向证券登记结算机构提出申请。中国证券登记结算有限责任公司（以下简称“中国结算”）对证券账户实施统一管理，具体账户业务委托开户代理机构办理。2013年中国结算首次发布《证券账户非现场开户实施暂行办法》，开启非现场开户业务（网上开户）。2021年中国结算修订发布《证券账户非现场开户实施细则》，全面放开单向视频非现场开户，AI全面应用。证券开户业务真实意愿真实身份效率提升体验更优通过人工智能技术在开户业务各环节的应用一方面满足非现场开户的两大核心需求：验证投资者真实身份，记录投资者开户真实意愿表达。另一方面提高证券开户业务的效率，提升投资者业务办理的体验。开户业务需求业务流程概述验证手机号码采集身份证件影像并核查信息真实性采集基本客户资料选择三方存管银行风险测评并签署确认书股东账户选择填写问卷回访视频见证（单向或双向）复核开户申请资料：影像、视频、填报信息并确认开户意愿真实通过审核并开通证券账户权限业务办理环节数据形态与获取应用人工智能实现业务需求技术服务商身份信息采集图片形式由投资者手机拍摄上传光学字符识别OCR(OpticalCharacterRecognition)识别身份证信息自动填充，减少人工操作，提高效率。易道博识

验证投资者身份信息真实性视频形式由手机摄像头实时拍摄活体检测确保投资者为真人，实现风控需求图片形式由活体检测过程抓拍人像对比与公安系统核验确保投资者为本人，实现风控需求开户意愿确认（单向视频）文字转语音由后台上传话术话术转换语音合成通过AI语音完成开户问答，客户无需排队等待人工客服双向视频科大讯飞语音转文字由视频录制语义识别通过语义识别确认客户意愿，实现合规风控要求视频形式前流程录制视频质检通过AI实时质检、实时纠偏，确保录制合规要求。减少人工复核和客户重复提交财人汇非结构数据的应用形式客户拍摄/上传人像面过程中，系统自动检测相片质量是否合规。包括检测照片是否为身份证人像面、是否存在曝光、缺角、遮挡、复印件、翻拍、PS、模糊等不合规情况。在符合规范的情况下，自动拍照并识别证件信息。图像和OCR识别与质检活体检测通过眨眼、张嘴、摇头、点头等组合动作，使用人脸关键点定位等技术，验证用户是否为真实活体本人操作。可有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段。通过活体检测同时，系统会自动抓拍一张较为清晰的正面相貌照片提交到服务后台。将投资者相貌与其上传的身份证件影像资料进行比对，确保二者一致。活体检测与人脸识别系统通过语音播报的方式对客户提问。客户根据情况及时回答，采用智能语音识别技术进行开户意愿确认。系统实时对用户的回答进行语音识别，识别标准答案则进行下一题。错误次数达到指定次数，提示客户转到人工见证模式。语音合成与语义识别在视频录制过程中，增加人脸是否在人相框内检测。视频录制失败达到指定次数，提示客户转到人工见证模式。视频录制完成后，对用户录制视频进行实时审核若视频审核不通过，实时提示客户审核失败原因。视频检测降本增效与传统的临柜开户业务办理相比，目前网上开户业务通过人工智能的成熟应用，大大提升了工作效率，降低了营业网点的人力成本和运营成本。“让信息多跑路，群众少跑腿”网上开户的方式大大降低了投资者的开户成本。通过AI技术手段快速识别身份信息、自动录入信息并实现自动对比审核，简化了业务办理流程，有效提升了用户体验。合规监管要求对于证券公司和合规监管而言，通过AI技术手段，极大程度打击了虚假伪造行为，确保《证券法》规定的证券账户实名制要求得到有效落实，反洗钱风控措施得到有效保障，大幅度提升了风控安全水平。实际业务效果案例的思考和问题1.网上开户利用多模态数据识别身份的优点和缺点？2.这个案例介绍的开户智能审核过程有哪些局限？3.针对以上提出的局限，提出几点改进的方案。智能制造案例空调主板检测应用和汽车装配指导案例背景

格力空调公司为保证空调主板的装配和焊接质量，导入了AOI自动光学检测设备对主板的元器件和焊点进行检验，算法采用图像数据分析和识别。先以一块标准板制作检测程序，将检测的板与标准对比，判断是否符合标准。模板在实际生产过程中受材料、环境等变化影响，焊接的图像会存在差异，设备报出的差异非常多，与实际情况匹配度低。所以设备检验出的异常图像，还需要人工进行复判，一人负责两台设备的复盘，比较耗人工，且员工一直盯着屏幕，眼疲劳严重。空调主板的装配和焊接系统AI检测方案AOI设备人工复判智能缺陷分类系统产品扫描不良成像图片收集自学习高效高产AI系统Defect标注深度学习不良分类传统机器视觉系统人眼识别

低效费力利用人工智能技术，实现检测方法的自主学习、检测模型的自主优化，取代AOI检测人员复判。深度学习分析AOI设备判断异常的照片深度学习分析AOI设备判断异常图像系统智能制造案例汽车装配线AI辅助实时装配指导和质检案例背景

目前,汽车生产企业已经步如大规模流水线式生产,并在逐步实现现代化和自动化,但生产细节部分仍然需要人工操作,重复性操作及记录难免出现差错。在汽车生产装配过程中，因装配的零部件多、工艺复杂、员工熟练度不一等，导致装配过程容易产生零件错装、漏装等质量问题，造成损失。已有防呆技术方案为固定高速摄像头搭配电脑系统，识别较为固定单一的位置的错装漏装，不具备类似作业指导的人机交互功能。吉利集团针对以上问题，通过AR和AI技术构建了辅助实时装配指导和质检系统。

AI辅助实时装配指导和质检案例的思考和问题

1. 这两个智能制造案例用了什么样的非结构数据？2. 案例中需要用的数据和人的作用？如何结合的？3. 针对其他智能制造场景，提出人机结合的需求？智能教育案例

智云课堂-语音技术应用案例智云课堂功能框架

智云课堂系统架构

智能媒体处理平台

智能媒体处理平台分为媒体处理平台、媒体AI平台等两大核心服务。媒体处理平台主要是包含媒体汇聚、直播收录、媒体编辑工具集、转码渲染，实现全流程的采编播存发布一体化内核能力。媒体处理平台：整体架构使用了策略机制，策略由调度中心统一管理，策略中包含了复合任务的构成、子任务的依赖关系和子任务工作参数三个主体部分。灵活的策略定义模式可适配教学场景下，不同来源的课程资源汇聚、多样化处理流程。媒体AI平台：实现智云课堂的文字识别能、语音识别能力、智能PPT识别能力、多语言转译能力。智云课堂应用服务

1）教室流收录与录播系统进行对接，实现教学信号流的自动收录。在平台中创建直播课程后会自动生成视频流地址，在录播主机上填写推流地址实现资源收录。2）PPT识别利用PPT识别技术，将课堂内教师播放的PPT实时同步显示在课程直播页面中，学生可通过多种终端实时查看，解决课堂中看不清的问题。对于识别出的PPT图片，学生可以在课程观看过程中进行切换。3）语音识别通过语音识别技术，将课堂内教师授课的音频信息进行AI识别并转写成文字，学生在观看课程直播的过程中可以翻动查看教师的授课语音信息，便于更好的理解授课内容。4）热词标签通过自然语义理解技术，提取教师授课内容的核心词汇形成热词标签，快速理解课堂内容。智云课堂应用服务

5）智能笔记观看直播课程的同时，可以在笔记区域输入需要记录的文字内容，同时学生可选择涂鸦工具直接在ppt显示框中进行涂鸦笔记的勾画，完成涂鸦笔记勾画和文字笔记记录后并自动保存到个人中心。6）课程直播管理对平台中的直播课程进行综合管理，包含课表对接管理、课程管理以及教室管理等。直播课程由管理员批量创建，需要填写教室、教学楼、上课时间等相关信息；之后通过课表导入的方式统一创建课程直播间。7）直播监控与统计监控直播状态、语音识别状态、ppt识别状态，展示所有课程的直播列表以及状态，包括ID、课程名称、教师姓名、上课时间、教室、直播状态、语音识别状态、ppt识别状态。监控收录任务状态、收录状态、收录结果，展示所

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

非结构化数据分析与应用课件第7-9章图像数据分析、音频数据分析、典型非结构化数据分析案例

文档简介

温馨提示

最新文档

评论

非结构化数据分析与应用 课件 第7-9章 图像数据分析、音频数据分析、典型非结构化数据分析案例

文档简介

温馨提示

最新文档

评论

相关文档

非结构化数据分析与应用课件第7-9章图像数据分析、音频数据分析、典型非结构化数据分析案例