人机交互多通道人机交互课件_第1页
人机交互多通道人机交互课件_第2页
人机交互多通道人机交互课件_第3页
人机交互多通道人机交互课件_第4页
人机交互多通道人机交互课件_第5页
已阅读5页,还剩203页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章多通道人机交互12/15/20221第7章多通道人机交互12/10/20221本章内容多通道交互技术概述眼动跟踪三维输入实例介绍12/15/20222本章内容多通道交互技术概述12/10/20222多通道交互技术概述为适应目前和未来的计算机系统要求,人机界面应能支持时变媒体(time-varingmedia),实现三维、非精确及隐含的人机交互,而多通道人机界面是达到这一目的的重要途径80年代后期以来,多通道用户界面(MultimodalUserInterface)成为人机交互技术研究的崭新领域,在国内外受到高度重视12/15/20223多通道交互技术概述为适应目前和未来的计算机系统要求,人机界面多通道用户界面消除当前WIMP/GUI用户界面通信带宽不平衡的瓶颈综合采用视线、语音、手势眼神、表情等新的交互通道、设备和交互技术使用户利用多个通道以自然、串行/并行、协作的方式进行人机对话通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图,提高人机交互的自然性和高效性12/15/20224多通道用户界面消除当前WIMP/GUI用户界面通信带宽不平衡图5-1多通道人机界面概念模型

12/15/20225图5-1多通道人机界面概念模型12/10/20225多通道用户界面研究的目标多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解交互的自然性使用户尽可能多地利用已有的日常技能与计算机交互,降低认识负荷;交互的高效性使人机通讯信息交换吞吐量更大、形式更丰富,发挥人机彼此不同的认知潜力;与传统的用户界面特别是广泛流行的WIMP/GUI兼容12/15/20226多通道用户界面研究的目标多通道用户界面主要关注人机界面中用户多通道用户界面的基本特点

使用多个感觉和效应通道

允许非精确的交互

三维和直接操纵

交互的双向性

交互的隐含性

12/15/20227多通道用户界面的基本特点使用多个感觉和效应通道12/10使用多个感觉和效应通道感觉通道侧重于多媒体信息的接受,效应通道侧重于交互过程中控制与信息的输入,两者密不可分、相互配合一种通道(如语音)不能充分表达用户的意图时,需辅以其它通道(如手势指点)的信息;有时使用辅助通道以增强表达力交替而独立地使用不同的通道不是真正意义上的多通道技术,必须允许充分地并行、协作的通道配合关系12/15/20228使用多个感觉和效应通道感觉通道侧重于多媒体信息的接受,效应通允许非精确的交互人类语言本身就具有高度模糊性,人类在日常生活中习惯于并大量使用非精确的信息交流允许使用模糊的表达手段可以避免不必要的认识负荷,有利于提高交互活动的自然性和高效性多通道人机交互技术主张以充分性代替精确性12/15/20229允许非精确的交互人类语言本身就具有高度模糊性,人类在日常生活三维和直接操纵人类的大多数活动领域具有三维和直接操纵特点人生活在三维空间,习惯于看、听和操纵三维的客观对象,并希望及时看到这种控制的结果多通道人机交互的自然性反应了这种本质特点12/15/202210三维和直接操纵人类的大多数活动领域具有三维和直接操纵特点12交互的双向性人的感觉和效应通道通常具有双向性的特点,如视觉可看可注视,手可控制、可触及等多通道用户界面使用户避免生硬的、不自然的、频繁的、耗时的通道切换,从而提高自然性和效率视线跟踪系统可促成视觉交互双向性,听觉通道利用三维听觉定位器实现交互双向性12/15/202211交互的双向性人的感觉和效应通道通常具有双向性的特点,如视觉可交互的隐含性追求交互自然性的多通道用户界面并不需要用户显式地说明每个交互成分,反之是在自然的交互过程中隐含地说明用户的视线自然地落在所感兴趣的对象之上用户的手自然地握住被操纵的目标12/15/202212交互的隐含性追求交互自然性的多通道用户界面并不需要用户显式地多通道用户界面评价基于多通道用户界面所追求的目标,人们提出相应的评价多通道用户界面的若干指标(Nigay等人提出的CARE指标):互补性(complementary);指派性(Assignment);等效性(Equivalence);冗余性(Redundancy);12/15/202213多通道用户界面评价基于多通道用户界面所追求的目标,人们提出相互补性互补性是指若干通道必须以互补方式完成特定的交互任务,也就是说,当单个通道不能提供充分的任务信息时,需要其他通道补充,如手势指点补充语音命令互补性可能存在一个“优势通道(DominantModality)”,并需要其他通道予以辅助,例如,用语音直指(“Thiscity”),则需鼠标在屏幕对象上指点12/15/202214互补性互补性是指若干通道必须以互补方式完成特定的交互任务,也指派性指派性是指某通道是完成特定交互任务唯一途径的情形,即某通道必须被用于实现特定交互任务而没有其他通道可以替代指派性可分为两种情形一种是不存在其他选择,称为严格的指派性(StrictAssignment)另一种是虽然存在选择,但用户或系统总是倾向于使用同一种通道,称为代理指派性(AgentAssignment)12/15/202215指派性指派性是指某通道是完成特定交互任务唯一途径的情形,即某等效性等效性是指在完成特定交互任务时至少有两种以上通道可以互相替代,由于设备特性、用户习惯或临时因素(如手头正忙)而使某种通道不能使用时,可选择其他通道代替。12/15/202216等效性等效性是指在完成特定交互任务时至少有两种以上通道可以互冗余性冗余性是指在特定交互中多个通道同时使用并具有相同的表达作用不同通道为相同参数提供所需信息,并且所表达信息可能是一致的,也可能是矛盾的12/15/202217冗余性冗余性是指在特定交互中多个通道同时使用并具有相同的表达眼动跟踪(Eye-GazeTracking)

与视觉有关的人机交互自始至终都离不开视线的控制如果能通过用户的视线盯着感兴趣的目标,计算机便“自动”将光标置于其上,人机交互将更为直接,也省去了上述交互过程中的大部分步骤有关视觉输入的人机界面研究主要涉及两个方面一是视线跟踪原理和技术的研究二是在使用这种交互方式后,人机界面的设计技术和原理的研究12/15/202218眼动跟踪(Eye-GazeTracking)与视觉有关的眼动跟踪早期的视线跟踪技术首先应用于心理学研究、助残等领域,后来被应用于图像压缩及人机交互技术视线跟踪技术有强迫式与非强迫式、穿戴式与非穿戴式、接触式与非接触式之分视线追踪主要用于军事领域(如飞行员观察记录),阅读及帮助残疾人通信等

12/15/202219眼动跟踪早期的视线跟踪技术首先应用于心理学研究、助残等领域,

图5-2StanfordUniversity和ThePoynterInstitute合作研究人们对于Internet上新闻的注意程度12/15/202220图5-2StanfordUniversity和The图5-3人们对于Internet上新闻的注意程度研究结果12/15/202221图5-3人们对于Internet上新闻的注意程度研究结果人们对于Internet上新闻的注意程度研究结果

内容注视率文章文字(Articlestext)92%简讯(Briefs)82%照片(Photos)64%标题广告(BannerAds)45%图形(graphics)22%12/15/202222人们对于Internet上新闻的注意程度研究结果内眼动的主要形式

眼动有三种主要形式跳动(Saccades)在正常的视觉观察过程中,眼动表现为在一系列被观察目标上的停留及在这些停留点之间的飞速跳跃在注视点之间的飞速跳跃称为眼跳动。注视(Fixations)停留时间至少持续100ms以上的称为注视。在注视中,眼也不是绝对静止不动,会有微小运动,但大小一般不会超过1°视角。绝大多数信息只有在注视时才能获得并进行加工。平滑尾随跟踪(SmoothPursuit)缓慢、联合追踪的眼动通常称为平滑尾随跟踪。12/15/202223眼动的主要形式眼动有三种主要形式12/10/202223眼动跟踪的基本要求

在人机交互中眼动跟踪技术必须满足以下几点要求,才能满足实际需求:

不能妨碍视野不要与用户接触,对用户基本无干扰精度要高动态范围要从1弧分(六十分之一弧度)到45º反映速度要快,实时响应能与获取的身体和头部运动相配合

定位校正简单可作为计算机的标准外设

12/15/202224眼动跟踪的基本要求在人机交互中眼动跟踪技术必须满足以下几眼动跟踪的基本原理

利用红外发光二极管发出红外线,采用图像处理技术和能锁定眼睛的特殊摄像机,通过分析人眼虹膜和瞳孔中红外线图象点的连续变化情况,得到视线变化的数据,从而达到视线追踪的目的。

从视线跟踪装置得到的原始数据需要经过进一步的处理才能用于人机交互。数据处理的目的是滤除噪声、识别定位及局部校准与补偿等,最重要的是提取出用于人机交互所必需的眼睛定位坐标。但是由于眼动存在固有的抖动,以及眼睛眨动、头部剧烈的移动所造成的数据中断,存在许多干扰信号,提取有意眼动数据非常困难。解决此问题的办法之一是利用眼动的某种先验模型加以弥补。

12/15/202225眼动跟踪的基本原理利用红外发光二极管发出红外线,采用图像米达斯接触问题与解决方法“米达斯接触(MidasTouch)”问题:如果鼠标器光标总是随着用户的视线移动,可能会引起用户的厌烦,因为用户可能希望能随便看着什么而不必非“意味着”什么,更不希望每次转移视线都可能启动一条计算机命令。

避免“米达斯接触”问题的方法:在理想情况下,应当在用户希望发出控制时,界面及时地处理其视输入,而在相反的情况下则忽略其视线的移动。

可采用其他通道(如键盘或语音)进行配合。12/15/202226米达斯接触问题与解决方法“米达斯接触(MidasTouch三维输入

许多应用(如虚拟现实系统)需要三维空间定位技术:三维空间控制器的共同特点是具有六个自由度,分别描述三维对象的宽度、深度、高度、俯仰角、转动角、偏转角。通过控制这六个参数,用户可以在屏幕上平移三维对象或光标,也可沿三个坐标轴转动三维对象。三维空间控制器、视线跟踪器、数据手套等输入设备产生的空间位置是相对的。在三维用户交互中必须便于用户在三维空间中观察、比较、操作、改变三维空间的状态。12/15/202227三维输入许多应用(如虚拟现实系统)需要三维空间定位技术:三三维空间的交互操作方式三维光标由六自由度三维输入装置控制的三维光标将使三维交互操作更自然和方便;三维光标必须有深度感,即必须考虑光标与观察者距离:离观察者近的时候较大,离观察者远的时候较小;确定光标在三维空间的方向,这种定向操作必须自然且方便操作;为保持三维用户界面的空间感,光标在遇到物体时不能进入到物体内部。三维光标的实现需要大量的计算,对硬件的要求较高,编程接口也比二维光标复杂得多。

12/15/202228三维空间的交互操作方式三维光标12/10/202228三维空间的交互操作方式三维widgets三维widgets即三维交互界面中的一些小工具。用户可以通过直接控制它们使界面或界面中的三维对象发生改变。

三维widget包括在三维空间中漂浮的菜单、用于拾取物体的手的三维图标、平移和旋转指示器等。许多三维用户界面的研究者正在设计和试验各种不同的三维widgets,希望将来能够建立一系列标准的三维widgets就像二维图形用户界面中的窗口、按钮、菜单等。12/15/202229三维空间的交互操作方式三维widgets12/10/2022图5-5三维widgets图例12/15/202230图5-5三维widgets图例12/10/202230采用三视图输入技术,实现三维的输入

如果输入一个三维点,只要在两个视图上把点的对应位置指定后便唯一确定了三维空间中的一个点;把直线段上两端点在三视图上输入后便可决定三维空间的一条直线;把一个面上的各顶点在三视图上输入后,也唯一确定了三维空间中的一个面;如果把一个多面体上的各面均用上述方法输入,也就在三维空间中输入了一个多面体12/15/202231采用三视图输入技术,实现三维的输入如果输入一个三维点,只要

图5-6三视图输入实例12/15/202232图5-6三视图输入实例12/10/202232多通道人机交互通道(Modality)用户可以使用手动、语言、眼神等多种效应通道与计算机系统进行交互12/15/202233多通道人机交互通道(Modality)12/10/20223多通道人机交互通道指传送或获得信息的通讯通道的类型,它包含了信息表达、感知以及动作执行的方式,定义了数据类型模式一种状态或上下文信息,决定对信息的解释一获取意义通道整合(ModalityIntegration)指用户在与计算机系统交互时,多个交互通道之间相互作用形成交互意图的过程12/15/202234多通道人机交互通道12/10/202234多通道用户界面的三维表示模型12/15/202235多通道用户界面的三维表示模型12/10/202235多通道用户界面的概念模型12/15/202236多通道用户界面的概念模型12/10/202236人机交互模型的发展12/15/202237人机交互模型的发展12/10/202237输入原语为了摆脱设备的特定物理特性和操作方式上的差异,便利多种输入设备在词法级的整合,有必要在物理设备和对话控制中再抽象出一层,即输入原语翻译层与应用无关的输入原语的抽象具有重要意义原语IP(InputPrimitive)代表了用户到计算机的词法输入,它是来自不同的通道的独立的、最小的、不可分割的操作,这些原子操作在一定的应用上下文中有着特定的交互意义12/15/202238输入原语为了摆脱设备的特定物理特性和操作方式上的差异,便利多输入原语界面需抽象出一个简单完备的原语集合每个IP可实例化为一个四元组〈用户动作,数据表示,使用通道,时间标签〉它体现了某一时刻来自某个输入通道的用户输入动作与一种内部数据表示联系在一起IP是通道无关的,不同的物理通道的输入可以映射到相同的IP二维鼠标的Click动作和眼动跟踪的眼睛凝视动作都可归为"指点类"IP─POINT;12/15/202239输入原语界面需抽象出一个简单完备的原语集合12/10/202输入原语IP是应用无关的,在软件环境的支持下,同一个IP在不同的应用上下文中可被解释为完全不同的操作根据用户的交互意图和交互方式,抽象出六类输入原语浏览(NAVIGATE),指点(POINT),拾取(TOUCH),文本(WORD),变换(TRANSFORM)手势(GESTURE)12/15/202240输入原语IP是应用无关的,在软件环境的支持下,同一个IP在不输入原语12/15/202241输入原语12/10/202241输入原语12/15/202242输入原语12/10/202242用户模型和描述方法在构建一个多通道界面的结构模型时,以下是问题关键不应该在应用程序中进行多通道整合允许用户完成不同通道与不同功能之间的映射多通道相互作用能在不中断相互作用过程的条件下随时相互启动和终止12/15/202243用户模型和描述方法在构建一个多通道界面的结构模型时,以下是问用户模型和描述方法

VisualMan多通道用户界面模型2DGUI应用/3DVR应用通道整合交互分析交互设备12/15/202244用户模型和描述方法 VisualMan多通道用户界面用户模型和描述方法交互设备处理直接来自不同通道的输入,系统对每一时刻的全部输入进行加工主要的交互通道包括语音、手和身体的运动以及视觉追综等交互分析根据各通道的特性分析来自不同通道的输入,形成交互的原语完成定位、说明属性和操作。交互分析使原语的说明变得与设备无关通道整合将相同操作维度的原语输入通过整合来完成某项任务的操作,从而做到任务的完成与通道无关不同的物理装置能整合成相同的操作,形成与装置独立的多通道界面12/15/202245用户模型和描述方法交互设备处理直接来自不同通道的输入,系统对用户模型和描述方法在这个多道通用户界面模型中,有二个重要的特征值得注意用户对一个特定的操作没有固定的输入顺序各输入的时相(timing)对说明操作维度是非常重要的12/15/202246用户模型和描述方法在这个多道通用户界面模型中,有二个重要的特用户模型和描述方法12/15/202247用户模型和描述方法12/10/202247用户模型和描述方法层次化的多通道界面描述方法HMISLOTOS(LanguageOfTemporalOrderingSpecification)LOTOS算符主要有以下几种:T1|||T2(交替Interleaving)T1[]T2(选择Choice)T1|[a1,...,an]|T2(同步Synchronization)T1[>T2 (禁止Deactivation)T1>>T2(允许Enabling)12/15/202248用户模型和描述方法层次化的多通道界面描述方法HMIS12/1象棋对弈实例中国象棋12/15/202249象棋对弈实例中国象棋12/10/202249用户模型和描述方法LOTOS12/15/202250用户模型和描述方法LOTOS12/10/202250用户模型和描述方法拾取棋子UAN12/15/202251用户模型和描述方法拾取棋子UAN12/10/202251用户模型和描述方法放置棋子12/15/202252用户模型和描述方法放置棋子12/10/202252用户模型和描述方法基于事件-目标的多通道用户结构模型12/15/202253用户模型和描述方法基于事件-目标的多通道用户结构模型12/1用户模型和描述方法分布式多通道用户界面的结构模型12/15/202254用户模型和描述方法分布式多通道用户界面的结构模型12/10/多通道整合和算法分布式多通道用户界面模型共享窗口客户通过网络完成对同一系统的操作,每一个用户都可以在他的私有窗口中通过多个通道和CSCW系统交互,操作的结果可以在共享窗口中显示出来共享窗口服务器共享窗口服务器同时为所有的用户提供系统输出DMMI协调服务器支持多用户之间的协作12/15/202255多通道整合和算法分布式多通道用户界面模型12/10/2022多通道整合和算法基本概念整合(Integration)在比较低的层次上,主要关注如何把各种各样的交互设备和交互方式容纳到系统中在较高的层次上,主要关注多个通道之间在意义的传达和提取上的协作融合(Fusion)在多个层次上(词素的、词法的、语义的、会话的)上对来自不同通道、具有不同表示的信息的合一化处理,其目的是正确地获取用户输入,特别是正确地解释用户输入分流(Fission)在多个层次上对需要向用户传达的特定信息向不同输出通道、不同信息表示和表现的转换12/15/202256多通道整合和算法基本概念12/10/202256多通道整合和算法多通道整合实例分析自然语言/语音和指点的整合语音与唇读的整合眼动和其他通道的整合12/15/202257多通道整合和算法多通道整合实例分析12/10/202257多通道整合原理_通道用法语音和手势/直接操纵互补其他形式的多通道整合也应该考虑,如语音和书写的整合语音通道并不需要支持大词汇量,并且当词汇量小时识别得到改善结合多个通道的输入有利于提高识别率在任何时候所有通道都应该可用,以保证通道的自由组合如果存在限制,则限制应该是来自交互任务本身,而非系统功能的局限12/15/202258多通道整合原理_通道用法语音和手势/直接操纵互补12/10/多通道整合原理_系统结构系统应该能够在硬件和软件上支持多种、多个通道时间是融合处理的基本准则系统需要能够精确记录通道输入事件的时间以自然语言处理为核心将强烈影响多通道系统的结构;采用语音/自然语言为输入方式的系统也可以采取更简单的系统结构和整合方法语义层次的整合会给界面带来更多的应用相关性,整合需要充分利用应用领域信息由于各个通道的技术是不完美的,任务特定的应用领域有利于实现多个通道的协作,这里存在着强的约束12/15/202259多通道整合原理_系统结构系统应该能够在硬件和软件上支持多种、多通道整合原理-整合策略语音和手势信息的融合是目前整合的主要问题融合中的一个重要问题是歧义消除上下文知识或者会话模型有助于消解歧义的输入并提高识别率设备之间在时间响应上的差异可能非常大多通道反馈是一个在信息融合过程中及时与适当地向用户分流重要信息的过程急性子融合只要多通道输入支持一定程度的整合,就开始处理,可以看作事件驱动的慢性子的融合则要到具有了全部输入之后才开始处理。融合处理可以是分散系统中,也可以集中进行12/15/202260多通道整合原理-整合策略语音和手势信息的融合是目前整合的主要面向任务的整合模型(ATOM)多通道界面的面向任务设计,需要解决如何将同一任务的相关信息让不同的通道来分担,并使它们能够相互协作的问题任务结构的设计解决如何定义任务的总的行为结构的问题,以及相应的交互任务参数的设计要解决如何构成一个完整的任务表示的各个参数的问题参数的输入可能是以多通道的方式进行的。与传统界面相比,任务参数的设计问题在多通道界面设计中尤其突出,多通道协作的指称就是这一设计所要考虑的问题之一12/15/202261面向任务的整合模型(ATOM)多通道界面的面向任务设计,需要多通道输入的格模型多通道整合的问题可以看作一个如何对多通道信息流加以合理地组块化并正确解释各个组块的意义的问题将整个多通道输入流分割成对应于任务的“段”和对应于任务参数的“节”;分块的依据主要是语法约束和时间接近性模型以格(lattice)这种代数结构为基础来自多个通道的输入在时间上的关系是一种偏序关系为了支持多通道整合,需要由各个通道输入处理程序给每个输入事件加上时间戳,这种时间戳应该尽可能接近用户相应动作发生的时间12/15/202262多通道输入的格模型多通道整合的问题可以看作一个如何对多通道信积木世界实例12/15/202263积木世界实例12/10/202263格模型整合算法12/15/202264格模型整合算法12/10/202264格模型整合算法多通道输入的格模型12/15/202265格模型整合算法多通道输入的格模型12/10/202265面向任务整合的主要因素任务时间任务结构和任务参数的多通道结构上下文应用领域信息12/15/202266面向任务整合的主要因素任务12/10/202266面向任务整合整合算法(1)1)通过自下而上的过程识别出任务,比如单纯地根据语音识别的结果2)根据任务知识更新任务上下文3)对任务结构中的每一任务参数重复执行下面的(1)(2)(1)根据任务结构信息并利用时间节进行进行输入分解;(2)在分解后,进行任务参数的多通道整合,根据不同情况处理自然语言中的指称 自然语言中的指称: A)通过应用相关的处理,结合交互上下文,根据指点输入求出候选对象集P. B)通过应用相关的处理,结合交互上下文,根据名词短语输入求出候选对象集N C)根据不同的指称方式: a)直指指称:以P作为所指集R; b)代词指代指称:结合上下文,求出P中满足会话上下文约束的候选对象,以P作为所指集R;12/15/202267面向任务整合整合算法(1)1)通过自下而上的过程识别出任务,面向任务整合整合算法(2) c)名词短语(可以是指代的)指称:求出P与N的交集,结合会话上下文,求出该交集中满足会话上下文约束的候选对象,作为所指集。 D)根据任务相关约束(如当前任务不能以某些对象为参数)进一步缩小R。 E)如果R为空,或者R中有超过允许个数的候选对象,则整合失败。 F)给出适当反馈,如突出显示所指对象。 其他情况1:相应处理 其他情况2:相应处理 。。。。。。4)将具有完整而确认任务参数信息的任务表示提交给应用执行。12/15/202268面向任务整合整合算法(2) c)名词短语(可以是指代的)多通道整合和算法12/15/202269多通道整合和算法12/10/202269多通道分层整合模型和算法通道信息的分层表示12/15/202270多通道分层整合模型和算法通道信息的分层表示12/10/202多通道分层整合模型和算法多通道的整合模型12/15/202271多通道分层整合模型和算法多通道的整合模型12/10/2022多通道分层整合模型和算法词法级整合设IP1=<ACTION1,PARA1,TEMP1>,IP2=<ACTION2,PARA2,TEMP2> IP1IP2=<ACTION3,PARA1PARA2,(TEMP1+TEMP2)/2 IFACTION=ACTION2and|TEMP1-TEMP2|<T, whereT是两个通道相关的最小时间间隔 且ACTION1=ACTION2=ACTION3 IP1IP=IP1orIP2 IFACTION1<>ACTION2or|TEMP1-TEMP2|>T语法级整合将原语分层三类:表示动作,对象和对象属性12/15/202272多通道分层整合模型和算法词法级整合12/10/202272多通道分层整合模型和算法语义级整合TASK:=<NAME,PARA1,PARA2,…,PARAi,…,PARAn>PARA:=<TYPE,DATA,TEMP>Mi=<TYPEi,DATAi,Tempi>(提交的任意参数)MiTASK=<BANE,PARA1,PARA2,…,PARAj*,…PARAn> ifTYPEi=TYPEjand|TEMPi-TEMPj|/2<T, wherePARAj*表示整合的结果,其中 PARAj*=<TYPEi,DATAi,TEMPi>Mi

TASK=<BANE,PARA1,PARA2,…,PARAj,…PARAn> IFTYEPi<>TYPE1,2,…,j,…,nor|TEMPi–TEMPj|>T12/15/202273多通道分层整合模型和算法语义级整合12/10/202273基于概率模型的指称整合模型三级整合的整体结构模型12/15/202274基于概率模型的指称整合模型三级整合的整体结构模型12/10/基于概率模型的指称整合模型多通道整合的体系结构12/15/202275基于概率模型的指称整合模型多通道整合的体系结构12/10/2基于概率模型的指称整合模型多通道整合的体系结构12/15/202276基于概率模型的指称整合模型多通道整合的体系结构12/10/2基于概率模型的指称整合模型概率整合的基本机制12/15/202277基于概率模型的指称整合模型概率整合的基本机制12/10/20基于概率模型的指称整合模型概率变换发生在整合过程的不同阶段交互元素提取器在某一时刻t输出整合概率Pi(t)(1im,m为通道数)命令整合器在某一段时间段[t0,tn]内接受来自各交互元素提取器产生的整合概率Pi(tj)(1im,1jn)对于每个交互元素i,在[t0,tn]经过整合,得到与时间无关的整合概率:12/15/202278基于概率模型的指称整合模型概率变换发生在整合过程的不同阶段1基于概率模型的指称整合模型不同阶段的概率变换12/15/202279基于概率模型的指称整合模型不同阶段的概率变换12/10/20基于概率模型的指称整合模型-几个重要问题交互周期从用户发动一个交互任务到提交系统完成该交互任务时间间隔,是交互任务的基本单位“超时“阀值为了支持回溯事件,工作事件队列WEQ保存给定时间内的所有事件可能会溢出不同参数对WEQ的遍历深度可能不同12/15/202280基于概率模型的指称整合模型-几个重要问题交互周期12/10/基于概率模型的指称整合模型-几个重要问题时序问题时序适应向用户界面自然性的重要特性多通道用户界面应当支持非时序性,允许用户以任何合理的顺序指定交互任务的各种交互元素如何根据非严格时序交互捕捉用户的交互意图首先确定动作在获得了任务的结构后,就获得了任务结构中各参数之间的时序关系可以按有序和无序的要求填写参数槽12/15/202281基于概率模型的指称整合模型-几个重要问题时序问题12/10/基于概率模型的指称整合模型-几个重要问题交互上下文事件的指向(是否有目标)、系统的状态、应用语义响应特性通道相关概率根据交互任务的匹配特性,不同通道和设备适合于不同的交互任务,通道和设备对于完成任务的自然形成都会有所不同同一事件可解释为不同参数,但具有不同的概率,不同事件可解释为同一参数,概率各不相同12/15/202282基于概率模型的指称整合模型-几个重要问题交互上下文12/10基于模糊识别模型的视线交互整合模型视线交互将视线交互抽象成不精确的指称,采用模糊识别模型进行视线的交互整合手势的指点范围 12/15/202283基于模糊识别模型的视线交互整合模型视线交互12/10/202基于模糊识别模型的视线交互整合模型人机交互中的指称技术自然语言处理技术指称处理描述式直指式指代式目标选择与指称按名引用(描述式)属性描述(描述式)空间引用(直指式)时间引用(指代式)指代(指代式)间接引用(描述式和直指式结合)12/15/202284基于模糊识别模型的视线交互整合模型人机交互中的指称技术12/基于模糊识别模型的视线交互整合模型人机交互中的指称技术参数指定与指称可以用语言描述35直指式间接方式人机交互中的模糊信息多通道用户界面需处理模糊信息,在多通道整合中集中处理12/15/202285基于模糊识别模型的视线交互整合模型人机交互中的指称技术12/基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法属性模糊集的确定将目标的可描述属性视为一个模糊集域,每个目标属性可以用适当的语言变量的原词来概括空间位置:上、下、左、右、中、前、后、左上、东形状大小:大、中、宽、圆的颜色特征:日常颜色名称特征:在上下文中并不能唯一确定的个体和忽略大小写、拼写错的名称等位序模糊特征:下一个、前面的、附近的、刚刚经过的12/15/202286基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法属性模糊集的确定直指模糊集12/15/202287基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法指称范围的确定特定单选非特定单选复选指定词汇集的确定模糊目标选择算法需要识别和处理四类描述词汇属性形容词:大的、红的修饰副词:很、稍微、一些、一点、最范围限定词:这个、一个、所有、每个连接词:而且、或是、不是、非12/15/202288基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法隶属函数的确定位置:采用以目标中心点为自变量的分段函数形状大小:先找出参考标准,在确定目标的实际指标与标准值之间的函数关系颜色:GRB模型计算距离位序:离散形式直指:兴趣区域12/15/202289基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法模糊目标识别特征抽取:从对象xi(i=0,2,…n)中提取与识别有关的特征,并监测xi在各个特征上的具体数据,将对象xi转换为模式p(xi)=(xi1,xi2,…,xin)建立隶属函数A:识别判决:找出最接近的模糊集A最大原则阀值原则混合原则12/15/202290基于模糊识别模型的视线交互整合模型模糊目标选择与参数指定算法基于模糊识别模型的视线交互整合模型目标识别算法根据用户描述的属性信息分析并选取有关特征,形成目标模式根据目标模式的隶属度函数,计算交互场景中每个目标在“描述属性”中所涉及的属性模糊子集上的隶属度根据描述属性中包含的逻辑关系和程度修饰词,计算目标的复合隶属度若复选操作,则使用“阀值原则”判决,选择出隶属度高于阀值的所有目标若为单选操作,则综合使用“阀值原则”和“最大原则”12/15/202291基于模糊识别模型的视线交互整合模型目标识别算法12/10/2基于模糊识别模型的视线交互整合模型模糊参数指定参数通常是连续的和无限的从用户描述信息中提取参数的本质是去除模糊性对于用户未提到的属性纬度,可以使用平均参数随机参数缺省参数对于用户提到的属性维度,可在模糊集中使用极大;极小;中间;随机策略12/15/202292基于模糊识别模型的视线交互整合模型模糊参数指定12/10/25.4实例介绍多通道人机交互与许多领域紧密相关,包括:多媒体、虚拟现实、模式识别(语音识别、手写识别、表情识别及相应的合成技术)、自然语言处理等。以基于多通道交互技术的虚拟座舱和象棋游戏为例说明多通道人机交互的特性12/15/2022935.4实例介绍多通道人机交互与许多领域紧密相关,包括:多媒基于多通道交互技术的虚拟座舱利用虚拟座舱系统来发展座舱设计新概念是一种有效的方法易于重构和低费用是利用虚拟座舱系统的有利因素在虚拟座舱系统中采用多通道用户界面设计是座舱发展的趋势飞机性能的日益提高使得飞行员与机器之间的信息交换更加频繁,如何拓宽信息传输通道是迫切需要解决的问题通过多通道来交换信息是解决问题的主要方法12/15/202294基于多通道交互技术的虚拟座舱利用虚拟座舱系统来发展座舱设计新虚拟座舱系统的构成虚拟座舱系统通过视觉、听觉、触觉向飞行员提供信息,飞行员通过言语、手来控制飞行。虚拟座舱系统由硬件和软件两部分组成12/15/202295虚拟座舱系统的构成虚拟座舱系统通过视觉、听觉、触觉向飞行员提硬件组成整个虚拟座舱系统的硬件组成包括座舱框架、油门杆、驾驶杆、座椅、话筒、触摸屏、三对影像以及两台显示器。这些硬件通过两台计算机整合在一个系统里座舱框架、座椅定义了座舱的轮廓;由手控制的油门杆、驾驶杆向飞机输入了油门、俯仰角和横滚角的变化情况;话筒输入了飞行员的言语指令;触摸屏输入了仪表板上开关和旋钮的状态;一台显示器负责显示视景信息;另一台负责仪表板的信息显示。声音是根据飞机中发声装置的位置、音量,通过头部关联函数整合计算后分配给布置在六个方向上的音响来实现的。12/15/202296硬件组成整个虚拟座舱系统的硬件组成包括座舱框架、油门杆、驾驶

图5-7虚拟座舱系统的硬件构成视景显示器仪表板显示器视景/音响发生系统监视器控制系统监视器操纵杆话筒触屏12/15/202297图5-7虚拟座舱系统的硬件构成视景仪表板视景/音响监视软件组成虚拟座舱系统的软件组成分为五个模块:座舱视景系统座舱仪表显示系统飞机动力学系统飞行控制系统座舱网络通讯系统虚拟座舱系统功过控制面板协调输入(油门杆、操纵杆、触摸屏和语音)和输出(仪表和视景)的关系飞机方程(GMSOCX)负责解算飞行姿态和油门杆、操纵杆的输入语音指令通过IBMViaVoice解释,开关和旋钮的信息通过触摸屏软件(MicroTouch)收集12/15/202298软件组成虚拟座舱系统的软件组成分为五个模块:12/10/20

图5-8虚拟座舱系统的软件构成飞机方程参数控制面板(Client)触摸屏软件语音识别软件视景显示仪表显示(Server)12/15/202299图5-8虚拟座舱系统的软件构成飞机方程参数控制面板触摸多通道控制板的主要功能多通道控制板采用了基于事件——目标的多通道用户界面软件平台(MMUI)。MMUI模型虽可支持多种通道,但目前的系统只实际配备和实现了手和口两种通道,涉及控制器、触摸屏和语音识别软件等交互设备语音识别采用了IBMViaVoice接口。IBMViaVoice是IBM开发的语音识别软件系统,支持非特定人连续语音识别。多通道控制板能够让飞行员在机上完成一定的飞行任务。飞行员可以使用语音、触摸屏及操纵杆驾驶飞机,具体的命令和方式见表5.1,5.2,5.312/15/2022100多通道控制板的主要功能多通道控制板采用了基于事件——目标的多用户命令效应动作“起飞”使飞机进入航行状态“停止”终止飞机的航行状态“语音驾驶”使飞机进入语音驾驶状态“手动驾驶”使飞机进入手动驾驶状态“保持航向”保持飞机当前的飞行速度和航向“加速”使飞机飞行速度增加一档“减速”使飞机飞行速度降低一档“左转”左转弯“右转”右转弯“向上”爬升“向下”俯冲“开火”发射武器表5.1语音操纵12/15/2022101用户命令效应动作“起飞”使飞机进入航行状态“停止”终止飞机的表5.2触屏操纵用户命令效应动作按下“起飞”按钮使飞机进入航行状态按下“停止”按钮终止飞机的航行状态按下“退出”按钮退出虚拟座舱系统12/15/2022102表5.2触屏操纵用户命令效应动作按下“起飞”按钮使飞机进入航表5.3操纵杆操纵用户命令效应动作左右移动操纵杆左转弯或右转弯前后移动操纵杆爬升或俯冲移动油门杆使飞机飞行速度增加或降低按动操纵杆按钮发射武器12/15/2022103表5.3操纵杆操纵用户命令效应动作左右移动操纵杆左转弯或右小结对多通道交互技术进行了概述,包括:多通道用户界面研究的目标,多通道用户界面的基本特点,以及多通道用户界面评价介绍了多通道人机交互的关键技术:眼动跟踪和三维输入介绍了多通道界面的描述方法和整合原理对多通道用户界面的实例——基于多通道交互技术的虚拟座舱和象棋游戏进行了介绍12/15/2022104小结对多通道交互技术进行了概述,包括:多通道用户界面研究的第7章多通道人机交互12/15/2022105第7章多通道人机交互12/10/20221本章内容多通道交互技术概述眼动跟踪三维输入实例介绍12/15/2022106本章内容多通道交互技术概述12/10/20222多通道交互技术概述为适应目前和未来的计算机系统要求,人机界面应能支持时变媒体(time-varingmedia),实现三维、非精确及隐含的人机交互,而多通道人机界面是达到这一目的的重要途径80年代后期以来,多通道用户界面(MultimodalUserInterface)成为人机交互技术研究的崭新领域,在国内外受到高度重视12/15/2022107多通道交互技术概述为适应目前和未来的计算机系统要求,人机界面多通道用户界面消除当前WIMP/GUI用户界面通信带宽不平衡的瓶颈综合采用视线、语音、手势眼神、表情等新的交互通道、设备和交互技术使用户利用多个通道以自然、串行/并行、协作的方式进行人机对话通过整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图,提高人机交互的自然性和高效性12/15/2022108多通道用户界面消除当前WIMP/GUI用户界面通信带宽不平衡图5-1多通道人机界面概念模型

12/15/2022109图5-1多通道人机界面概念模型12/10/20225多通道用户界面研究的目标多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的理解交互的自然性使用户尽可能多地利用已有的日常技能与计算机交互,降低认识负荷;交互的高效性使人机通讯信息交换吞吐量更大、形式更丰富,发挥人机彼此不同的认知潜力;与传统的用户界面特别是广泛流行的WIMP/GUI兼容12/15/2022110多通道用户界面研究的目标多通道用户界面主要关注人机界面中用户多通道用户界面的基本特点

使用多个感觉和效应通道

允许非精确的交互

三维和直接操纵

交互的双向性

交互的隐含性

12/15/2022111多通道用户界面的基本特点使用多个感觉和效应通道12/10使用多个感觉和效应通道感觉通道侧重于多媒体信息的接受,效应通道侧重于交互过程中控制与信息的输入,两者密不可分、相互配合一种通道(如语音)不能充分表达用户的意图时,需辅以其它通道(如手势指点)的信息;有时使用辅助通道以增强表达力交替而独立地使用不同的通道不是真正意义上的多通道技术,必须允许充分地并行、协作的通道配合关系12/15/2022112使用多个感觉和效应通道感觉通道侧重于多媒体信息的接受,效应通允许非精确的交互人类语言本身就具有高度模糊性,人类在日常生活中习惯于并大量使用非精确的信息交流允许使用模糊的表达手段可以避免不必要的认识负荷,有利于提高交互活动的自然性和高效性多通道人机交互技术主张以充分性代替精确性12/15/2022113允许非精确的交互人类语言本身就具有高度模糊性,人类在日常生活三维和直接操纵人类的大多数活动领域具有三维和直接操纵特点人生活在三维空间,习惯于看、听和操纵三维的客观对象,并希望及时看到这种控制的结果多通道人机交互的自然性反应了这种本质特点12/15/2022114三维和直接操纵人类的大多数活动领域具有三维和直接操纵特点12交互的双向性人的感觉和效应通道通常具有双向性的特点,如视觉可看可注视,手可控制、可触及等多通道用户界面使用户避免生硬的、不自然的、频繁的、耗时的通道切换,从而提高自然性和效率视线跟踪系统可促成视觉交互双向性,听觉通道利用三维听觉定位器实现交互双向性12/15/2022115交互的双向性人的感觉和效应通道通常具有双向性的特点,如视觉可交互的隐含性追求交互自然性的多通道用户界面并不需要用户显式地说明每个交互成分,反之是在自然的交互过程中隐含地说明用户的视线自然地落在所感兴趣的对象之上用户的手自然地握住被操纵的目标12/15/2022116交互的隐含性追求交互自然性的多通道用户界面并不需要用户显式地多通道用户界面评价基于多通道用户界面所追求的目标,人们提出相应的评价多通道用户界面的若干指标(Nigay等人提出的CARE指标):互补性(complementary);指派性(Assignment);等效性(Equivalence);冗余性(Redundancy);12/15/2022117多通道用户界面评价基于多通道用户界面所追求的目标,人们提出相互补性互补性是指若干通道必须以互补方式完成特定的交互任务,也就是说,当单个通道不能提供充分的任务信息时,需要其他通道补充,如手势指点补充语音命令互补性可能存在一个“优势通道(DominantModality)”,并需要其他通道予以辅助,例如,用语音直指(“Thiscity”),则需鼠标在屏幕对象上指点12/15/2022118互补性互补性是指若干通道必须以互补方式完成特定的交互任务,也指派性指派性是指某通道是完成特定交互任务唯一途径的情形,即某通道必须被用于实现特定交互任务而没有其他通道可以替代指派性可分为两种情形一种是不存在其他选择,称为严格的指派性(StrictAssignment)另一种是虽然存在选择,但用户或系统总是倾向于使用同一种通道,称为代理指派性(AgentAssignment)12/15/2022119指派性指派性是指某通道是完成特定交互任务唯一途径的情形,即某等效性等效性是指在完成特定交互任务时至少有两种以上通道可以互相替代,由于设备特性、用户习惯或临时因素(如手头正忙)而使某种通道不能使用时,可选择其他通道代替。12/15/2022120等效性等效性是指在完成特定交互任务时至少有两种以上通道可以互冗余性冗余性是指在特定交互中多个通道同时使用并具有相同的表达作用不同通道为相同参数提供所需信息,并且所表达信息可能是一致的,也可能是矛盾的12/15/2022121冗余性冗余性是指在特定交互中多个通道同时使用并具有相同的表达眼动跟踪(Eye-GazeTracking)

与视觉有关的人机交互自始至终都离不开视线的控制如果能通过用户的视线盯着感兴趣的目标,计算机便“自动”将光标置于其上,人机交互将更为直接,也省去了上述交互过程中的大部分步骤有关视觉输入的人机界面研究主要涉及两个方面一是视线跟踪原理和技术的研究二是在使用这种交互方式后,人机界面的设计技术和原理的研究12/15/2022122眼动跟踪(Eye-GazeTracking)与视觉有关的眼动跟踪早期的视线跟踪技术首先应用于心理学研究、助残等领域,后来被应用于图像压缩及人机交互技术视线跟踪技术有强迫式与非强迫式、穿戴式与非穿戴式、接触式与非接触式之分视线追踪主要用于军事领域(如飞行员观察记录),阅读及帮助残疾人通信等

12/15/2022123眼动跟踪早期的视线跟踪技术首先应用于心理学研究、助残等领域,

图5-2StanfordUniversity和ThePoynterInstitute合作研究人们对于Internet上新闻的注意程度12/15/2022124图5-2StanfordUniversity和The图5-3人们对于Internet上新闻的注意程度研究结果12/15/2022125图5-3人们对于Internet上新闻的注意程度研究结果人们对于Internet上新闻的注意程度研究结果

内容注视率文章文字(Articlestext)92%简讯(Briefs)82%照片(Photos)64%标题广告(BannerAds)45%图形(graphics)22%12/15/2022126人们对于Internet上新闻的注意程度研究结果内眼动的主要形式

眼动有三种主要形式跳动(Saccades)在正常的视觉观察过程中,眼动表现为在一系列被观察目标上的停留及在这些停留点之间的飞速跳跃在注视点之间的飞速跳跃称为眼跳动。注视(Fixations)停留时间至少持续100ms以上的称为注视。在注视中,眼也不是绝对静止不动,会有微小运动,但大小一般不会超过1°视角。绝大多数信息只有在注视时才能获得并进行加工。平滑尾随跟踪(SmoothPursuit)缓慢、联合追踪的眼动通常称为平滑尾随跟踪。12/15/2022127眼动的主要形式眼动有三种主要形式12/10/202223眼动跟踪的基本要求

在人机交互中眼动跟踪技术必须满足以下几点要求,才能满足实际需求:

不能妨碍视野不要与用户接触,对用户基本无干扰精度要高动态范围要从1弧分(六十分之一弧度)到45º反映速度要快,实时响应能与获取的身体和头部运动相配合

定位校正简单可作为计算机的标准外设

12/15/2022128眼动跟踪的基本要求在人机交互中眼动跟踪技术必须满足以下几眼动跟踪的基本原理

利用红外发光二极管发出红外线,采用图像处理技术和能锁定眼睛的特殊摄像机,通过分析人眼虹膜和瞳孔中红外线图象点的连续变化情况,得到视线变化的数据,从而达到视线追踪的目的。

从视线跟踪装置得到的原始数据需要经过进一步的处理才能用于人机交互。数据处理的目的是滤除噪声、识别定位及局部校准与补偿等,最重要的是提取出用于人机交互所必需的眼睛定位坐标。但是由于眼动存在固有的抖动,以及眼睛眨动、头部剧烈的移动所造成的数据中断,存在许多干扰信号,提取有意眼动数据非常困难。解决此问题的办法之一是利用眼动的某种先验模型加以弥补。

12/15/2022129眼动跟踪的基本原理利用红外发光二极管发出红外线,采用图像米达斯接触问题与解决方法“米达斯接触(MidasTouch)”问题:如果鼠标器光标总是随着用户的视线移动,可能会引起用户的厌烦,因为用户可能希望能随便看着什么而不必非“意味着”什么,更不希望每次转移视线都可能启动一条计算机命令。

避免“米达斯接触”问题的方法:在理想情况下,应当在用户希望发出控制时,界面及时地处理其视输入,而在相反的情况下则忽略其视线的移动。

可采用其他通道(如键盘或语音)进行配合。12/15/2022130米达斯接触问题与解决方法“米达斯接触(MidasTouch三维输入

许多应用(如虚拟现实系统)需要三维空间定位技术:三维空间控制器的共同特点是具有六个自由度,分别描述三维对象的宽度、深度、高度、俯仰角、转动角、偏转角。通过控制这六个参数,用户可以在屏幕上平移三维对象或光标,也可沿三个坐标轴转动三维对象。三维空间控制器、视线跟踪器、数据手套等输入设备产生的空间位置是相对的。在三维用户交互中必须便于用户在三维空间中观察、比较、操作、改变三维空间的状态。12/15/2022131三维输入许多应用(如虚拟现实系统)需要三维空间定位技术:三三维空间的交互操作方式三维光标由六自由度三维输入装置控制的三维光标将使三维交互操作更自然和方便;三维光标必须有深度感,即必须考虑光标与观察者距离:离观察者近的时候较大,离观察者远的时候较小;确定光标在三维空间的方向,这种定向操作必须自然且方便操作;为保持三维用户界面的空间感,光标在遇到物体时不能进入到物体内部。三维光标的实现需要大量的计算,对硬件的要求较高,编程接口也比二维光标复杂得多。

12/15/2022132三维空间的交互操作方式三维光标12/10/202228三维空间的交互操作方式三维widgets三维widgets即三维交互界面中的一些小工具。用户可以通过直接控制它们使界面或界面中的三维对象发生改变。

三维widget包括在三维空间中漂浮的菜单、用于拾取物体的手的三维图标、平移和旋转指示器等。许多三维用户界面的研究者正在设计和试验各种不同的三维widgets,希望将来能够建立一系列标准的三维widgets就像二维图形用户界面中的窗口、按钮、菜单等。12/15/2022133三维空间的交互操作方式三维widgets12/10/2022图5-5三维widgets图例12/15/2022134图5-5三维widgets图例12/10/202230采用三视图输入技术,实现三维的输入

如果输入一个三维点,只要在两个视图上把点的对应位置指定后便唯一确定了三维空间中的一个点;把直线段上两端点在三视图上输入后便可决定三维空间的一条直线;把一个面上的各顶点在三视图上输入后,也唯一确定了三维空间中的一个面;如果把一个多面体上的各面均用上述方法输入,也就在三维空间中输入了一个多面体12/15/2022135采用三视图输入技术,实现三维的输入如果输入一个三维点,只要

图5-6三视图输入实例12/15/2022136图5-6三视图输入实例12/10/202232多通道人机交互通道(Modality)用户可以使用手动、语言、眼神等多种效应通道与计算机系统进行交互12/15/2022137多通道人机交互通道(Modality)12/10/20223多通道人机交互通道指传送或获得信息的通讯通道的类型,它包含了信息表达、感知以及动作执行的方式,定义了数据类型模式一种状态或上下文信息,决定对信息的解释一获取意义通道整合(ModalityIntegration)指用户在与计算机系统交互时,多个交互通道之间相互作用形成交互意图的过程12/15/2022138多通道人机交互通道12/10/202234多通道用户界面的三维表示模型12/15/2022139多通道用户界面的三维表示模型12/10/202235多通道用户界面的概念模型12/15/2022140多通道用户界面的概念模型12/10/202236人机交互模型的发展12/15/2022141人机交互模型的发展12/10/202237输入原语为了摆脱设备的特定物理特性和操作方式上的差异,便利多种输入设备在词法级的整合,有必要在物理设备和对话控制中再抽象出一层,即输入原语翻译层与应用无关的输入原语的抽象具有重要意义原语IP(InputPrimitive)代表了用户到计算机的词法输入,它是来自不同的通道的独立的、最小的、不可分割的操作,这些原子操作在一定的应用上下文中有着特定的交互意义12/15/2022142输入原语为了摆脱设备的特定物理特性和操作方式上的差异,便利多输入原语界面需抽象出一个简单完备的原语集合每个IP可实例化为一个四元组〈用户动作,数据表示,使用通道,时间标签〉它体现了某一时刻来自某个输入通道的用户输入动作与一种内部数据表示联系在一起IP是通道无关的,不同的物理通道的输入可以映射到相同的IP二维鼠标的Click动作和眼动跟踪的眼睛凝视动作都可归为"指点类"IP─POINT;12/15/2022143输入原语界面需抽象出一个简单完备的原语集合12/10/202输入原语IP是应用无关的,在软件环境的支持下,同一个IP在不同的应用上下文中可被解释为完全不同的操作根据用户的交互意图和交互方式,抽象出六类输入原语浏览(NAVIGATE),指点(POINT),拾取(TOUCH),文本(WORD),变换(TRANSFORM)手势(GESTURE)12/15/2022144输入原语IP是应用无关的,在软件环境的支持下,同一个IP在不输入原语12/15/2022145输入原语12/10/202241输入原语12/15/2022146输入原语12/10/202242用户模型和描述方法在构建一个多通道界面的结构模型时,以下是问题关键不应该在应用程序中进行多通道整合允许用户完成不同通道与不同功能之间的映射多通道相互作用能在不中断相互作用过程的条件下随时相互启动和终止12/15/2022147用户模型和描述方法在构建一个多通道界面的结构模型时,以下是问用户模型和描述方法

VisualMan多通道用户界面模型2DGUI应用/3DVR应用通道整合交互分析交互设备12/15/2022148用户模型和描述方法 VisualMan多通道用户界面用户模型和描述方法交互设备处理直接来自不同通道的输入,系统对每一时刻的全部输入进行加工主要的交互通道包括语音、手和身体的运动以及视觉追综等交互分析根据各通道的特性分析来自不同通道的输入,形成交互的原语完成定位、说明属性和操作。交互分析使原语的说明变得与设备无关通道整合将相同操作维度的原语输入通过整合来完成某项任务的操作,从而做到任务的完成与通道无关不同的物理装置能整合成相同的操作,形成与装置独立的多通道界面12/15/2022149用户模型和描述方法交互设备处理直接来自不同通道的输入,系统对用户模型和描述方法在这个多道通用户界面模型中,有二个重要的特征值得注意用户对一个特定的操作没有固定的输入顺序各输入的时相(timing)对说明操作维度是非常重要的12/15/2022150用户模型和描述方法在这个多道通用户界面模型中,有二个重要的特用户模型和描述方法12/15/2022151用户模型和描述方法12/10/202247用户模型和描述方法层次化的多通道界面描述方法HMISLOTOS(LanguageOfTemporalOrderingSpecification)LOTOS算符主要有以下几种:T1|||T2(交替Interleaving)T1[]T2(选择Choice)T1|[a1,...,an]|T2(同步Synchronization)T1[>T2 (禁止Deactivation)T1>>T2(允许Enabling)12/15/2022152用户模型和描述方法层次化的多通道界面描述方法HMIS12/1象棋对弈实例中国象棋12/15/2022153象棋对弈实例中国象棋12/10/202249用户模型和描述方法LOTOS12/15/2022154用户模型和描述方法LOTOS12/10/202250用户模型和描述方法拾取棋子UAN12/15/2022155用户模型和描述方法拾取棋子UAN12/10/202251用户模型和描述方法放置棋子12/15/2022156用户模型和描述方法放置棋子12/10/202252用户模型和描述方法基于事件-目标的多通道用户结构模型12/15/2022157用户模型和描述方法基于事件-目标的多通道用户结构模型12/1用户模型和描述方法分布式多通道用户界面的结构模型12/15/2022158用户模型和描述方法分布式多通道用户界面的结构模型12/10/多通道整合和算法分布式多通道用户界面模型共享窗口客户通过网络完成对同一系统的操作,每一个用户都可以在他的私有窗口中通过多个通道和CSCW系统交互,操作的结果可以在共享窗口中显示出来共享窗口服务器共享窗口服务器同时为所有的用户提供系统输出DMMI协调服务器支持多用户之间的协作12/15/2022159多通道整合和算法分布式多通道用户界面模型12/10/2022多通道整合和算法基本概念整合(Integration)在比较低的层次上,主要关注如何把各种各样的交互设备和交互方式容纳到系统中在较高的层次上,主要关注多个通道之间在意义的传达和提取上的协作融合(Fusion)在多个层次上(词素的、词法的、语义的、会话的)上对来自不同通道、具有不同表示的信息的合一化处理,其目的是正确地获取用户输入,特别是正确地解释用户输入分流(Fission)在多个层次上对需要向用户传达的特定信息向不同输出通道、不同信息表示和表现的转换12/15/2022160多通道整合和算法基本概念12/10/202256多通道整合和算法多通道整合实例分析自然语言/语音和指点的整合语音与唇读的整合眼动和其他通道的整合12/15/2022161多通道整合和算法多通道整合实例分析12/10/202257多通道整合原理_通道用法语音和手势/直接操纵互补其他形式的多通道整合也应该考虑,如语音和书写的整合语音通道并不需要支持大词汇量,并且当词汇量小时识别得到改善结合多个通道的输入有利于提高识别率在任何时候所有通道都应该可用,以保证通道的自由组合如果存在限制,则限制应该是来自交互任务本身,而非系统功能的局限12/15/2022162多通道整合原理_通道用法语音和手势/直接操纵互补12/10/多通道整合原理_系统结构系统应该能够在硬件和软件上支持多种、多个通道时间是融合处理的基本准则系统需要能够精确记录通道输入事件的时间以自然语言处理为核心将强烈影响多通道系统的结构;采用语音/自然语言为输入方式的系统也可以采取更简单的系统结构和整合方法语义层次的整合会给界面带来更多的应用相关性,整合需要充分利用应用领域信息由于各个通道的技术是不完美的,任务特定的应用领域有利于实现多个通道的协作,这里存在着强的约束12/15/2022163多通道整合原理_系统结构系统应该能够在硬件和软件上支持多种、多通道整合原理-整合策略语音和手势信息的融合是目前整合的主要问题融合中的一个重要问题是歧义消除上下文知识或者会话模型有助于消解歧义的输入并提高识别率设备之间在时间响应上的差异可能非常大多通道反馈是一个在信息融合过程中及时与适当地向用户分流重要信息的过程急性子融合只要多通道输入支持一定程度的整合,就开始处理,可以看作事件驱动的慢性子的融合则要到具有了全部输入之后才开始处理。融合处理可以是分散系统中,也可以集中进行12/15/2022164多通道整合原理-整合策略语音和手势信息的融合是目前整合的主要面向任务的整合模型(ATOM)多通道界面的面向任务设计,需要解决如何将同一任务的相关信息让不同的通道来分担,并使它们能够相互协作的问题任务结构的设计解决如何定义任务的总的行为结构的问题,以及相应的交互任务参数的设计要解决如何构成一个完整的任务表示的各个参数的问题参数的输入可能是以多通道的方式进行的。与传统界面相比,任务参数的设计问题在多通道界面设计中尤其突出,多通道协作的指称就是这一设计所要考虑的问题之一12/15/2022165面向任务的整合模型(ATOM)多通道界面的面向任务设计,需要多通道输入的格模型多通道整合的问题可以看作一个如何对多通道信息流加以合理地组块化并正确解释各个组块的意义的问题将整个多通道输入流分割成对应于任务的“段”和对应于任务参数的“节”;分块的依据主要是语法约束和时间接近性模型以格(lattice)这种代数结构为基础来自多个通道的输入在时间上的关系是一种偏序关系为了支持多通道整合,需要由各个通道输入处理程序给每个输入事件加上时间戳,这种时间戳应该尽可能接近用户相应动作发生的时间12/15/2022166多通道输入的格模型多通道整合的问题可以看作一个如何对多通道信积木世界实例12/15/2022167积木世界实例12/10/202263格模型整合算法12/15/2022168格模型整合算法12/10/202264格模型整合算法多通道输入的格模型12/15/2022169格模型整合算法多通道输入的格模型12/10/202265面向任务整合的主要因素任务时间任务结构和任务参数的多通道结构上下文应用领域信息12/15/2022170面向任务整合的主要因素任务12/10/202266面向任务整合整合算法(1)1)通过自下而上的过程识别出任务,比如单纯地根据语音识别的结果2)根据任务知识更新任务上下文3)对任务结构中的每一任务参数重复执行下面的(1)(2)(1)根据任务结构信息并利用时间节进行进行输入分解;(2)在分解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论