数据格式说明手册-华南理工大学人机智能交互室HCII-SCUT_第1页
数据格式说明手册-华南理工大学人机智能交互室HCII-SCUT_第2页
数据格式说明手册-华南理工大学人机智能交互室HCII-SCUT_第3页
数据格式说明手册-华南理工大学人机智能交互室HCII-SCUT_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE华南理工大学电信学院人机通信智能接口实验室简要SCUT-COUCH数据格式说明手册HCIILaboratorySCUT华南理工大学人机通信智能接口实验室/PAGE3华南理工大学电信学院人机通信智能接口实验室1.SCUT-COUCH数据库详细说明1.1.SCUT-COUCH数据文件命名规则每套COUCH数据由两个文件名相同,扩展名不同的文件组成。扩展名分别idx和dat。其中,dat文件为实际的数据文件,idx文件是dat文件的索引文件。每个文件名(除去扩展名)的命名遵循如下格式“数据集名+下划线+编号”。其中数据集名为“Big5”,“Digit”,“GB1”,“GB2”,“Letter”,“Pinyin”,“Symbol”,“TradGB1”,“WORD17366”,“WORD44208”和“WORD8888”中的一个;编号代表该文件在相应数据集的套数编号,由三位阿拉伯数字组成。例如“WORD44208_001”代表SCUT-COUCH2009数据库中WORD44208数据集中的第1套数据,同时它包括两个文件:“WORD442081.2.COUCH数据文件格式每套样本数据均由一个索引文件(扩展名为idx,我们称为IDX文件)和一个数据文件(扩展名为dat,我们称为DAT文件)组成。1.2.1.IDX文件的格式IDX文件格式由表1所示,IDX文件由文件头和索引单元两种结构组成。每种结构均为固定大小。表1IDX文件存储结构文件头样本0索引单元样本1索引单元样本N索引单元IDX文件头格式如表2所示。文件头单元位于文件起始位置,只有一个long型字段,它的值等于本套数据文件存储的样本总数。表2IDX文件头格式数据名数据类型数据长度(Byte)描述SampleSumlong4本套数据文件的样本总数IDX文件索引单元格式如表3所示。每个样本的索引单元固定大小为13个字节,共4个数据字段。其中IDX文件中索引单元的个数与相应DAT文件中的样本数量是相同的。表3IDX文件样本索引单元格式数据名数据类型数据长度(Byte)描述SampleStateunsignedchar1Hcii-lab保留使用OswIndexint4Hcii-lab保留使用IdxIndexint4样本在本套数据中的编号,从0开始计数DatOffsetlong4样本数据单元在对应DAT文件中的偏移位置1.2.2.DA文件格式DAT文件存储结构由表4所示,由各个样本数据单元构成,每个数据单元大小不定长,具体结构如表5所示。表4DAT文件存储结构样本0数据单元样本1数据单元样本2数据单元样本N数据单元表5DAT文件数据单元格式数据名数据类型数据长度(Byte)描述WordLengthunsignedchar1样本内码长度,字节为单位WordCodeunsignedchar[]WordLength样本的内码PointNumunsignedshortint2样本的点的个数LineNumunsignedshortint2样本的笔画个数GetTimePointNumunsignedshortint2捕获到时间的点的个数GetTimePointIndexunsignedshortint[]GetTimePointNum捕获到时间的点的序号ElapsedTimeDWORD[]GetTimePointNum每点距离上一捕获时间的采样点的时间距离StrokeData样本笔画数据,结构如下所示StrokePointNumunsignedshortint2每笔的点数Point(x,y)unsignedshortint2+2一笔中每个点的x和y的坐标值1.2.3.IDX文件和DAT文件关系idx文件SampleSumSampleStateOswIndexIdxIndexDatOffsetSampleStateOswIndexIdxIndexDatOffsetdat文件样本0数据单元idx文件SampleSumSampleStateOswIndexIdxIndexDatOffsetSampleStateOswIndexIdxIndexDatOffsetdat文件样本0数据单元样本1数据单元样本2数据单元样本SampleSum-1数据单元样本0索引样本1索引图2idx文件与dat文件关系图1.2.4.正确读取COUCH数据读取IDX文件IDX文件为COUCH数据的索引文件,通过读取IDX文件中的索引单元,可以快速获取应样本的信息和该样本的数据单元在dat文件中的位置。读取IDX文件时,必须先读取IDX文件头(格式详见表2),以获取本套数据的样本总个数。IDX文件中每个样本索引单元结构大小固定为13个字节(格式详见表3),因此可以方便快速读取到目标索引结构。读取DAT文件DAT文件存储有序的样本数据单元(详见表5)。读取目标数据单元时,由于某些字段的大小并不固定(WordCode,GetTimePointIndex,ElapsedTime,StrokeData),因此必须根据表5所示字段的顺序,逐个读取或者跳过相应的字段。DAT文件中,每个数据单元的大小不定,因此获取目标数据单元时,必须先得知该单元在文件中的位置。可以顺序读取DAT文件的每个数据单元直至目标数据单元,但更为恰当的方法是通过读取IDX文件,获取目标样本索引单元。索引单元的DatOffset字段的值即为该样本数据单元在DAT文件的中偏移量(该偏移从文件开始位置,以字节为单位计数),成功获取偏移量后即可定位至DAT文件正确的位置读取目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论