WH-T100-2023汉文古籍版式描述规范_第1页
WH-T100-2023汉文古籍版式描述规范_第2页
WH-T100-2023汉文古籍版式描述规范_第3页
WH-T100-2023汉文古籍版式描述规范_第4页
WH-T100-2023汉文古籍版式描述规范_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

WH棷T 湅湂湂—湆湂湆湇

汉文古籍版式描述规范

1范围

本文件对汉文古籍版式描述进行了规范,给出了版式描述的规范性要求。

本文件适用于对汉文古籍文本化加工结果的描述。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T3792—2021信息与文献 资源描述

GB/T4894—2009信息与文献 术语

GB/T18793—2002信息技术 可扩展置标语言(XML)1.0

GB/T21712—2008古籍修复技术规范与质量要求

GB/T31219.2—2014图书馆馆藏资源数字化加工规范第2部分:文本资源

3术语和定义

下列术语和定义适用于本文件。

3.1

古籍ancientbooks

1911年以前(含1911年)在中国书写或印刷的书籍。

[来源:GB/T3792—2021,3.18]

3.2

书叶page

按文稿顺序排列的书写、印制的单张纸叶。

[来源:GB/T21712—2008,2.9]

3.3

版框arectangularframeintowhichpagesengraving

书叶(3.2)正面图文四边的围栏,一般指印刷的书。

[来源:GB/T21712—2008,2.10]

3.4

版心middleofpage

书叶(3.2)左右对折的正中、在折叶时取作中缝标准的条状行格。雕版印刷的书籍版心通常印有书

名、卷次、叶码,有的还印有一版文字总数、刊刻机构以及刻工姓氏等。

[来源:GB/T21712—2008,2.11]

3.5

版式format

汉文古籍的版面格式。

1

WH棷T 湅湂湂—湆湂湆湇

3.6

版式XML文件 formatXMLfile

符合GB/T18793—2002要求,对具有同一样式的书叶(3.2)共同拥有的版式(3.5)特点进行描

述的XML文件。

3.7

文本 text

以字符、符号、词、短语、段落、句子、表格或者其他字符排列形成的数据,用于表达意义,其解释基本

上取决于读者对于某种自然语言或者人工语言的知识。

[来源:GB/T4894—2009,4.1.1.2.4]

3.8

图像 image

用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼进而产生视

知觉的实体。

[来源:GB/T31219.2—2014,3.3]

4基本原则

4.1客观描述

对汉文古籍版式特点、文本内容和位置、插图大小和位置等内容的描述客观准确。

有无版框、四周单边、四周双边、左右双边、大小字等。

4.2描述唯一

每个书叶描述方式唯一,且每个描述数据解释方式唯一,没有歧义。拥有统一版式的多个书叶,版式

相关数据描述方式唯一,包括版框位置、版心位置、文本行数、每行文字数、文字大小等。

4.3易实现

版式描述形式简单,使XML文件容易加工和解释,利于汉文古籍文本后续更深层次加工使用。

4.4可扩展

可对XML进行扩展以适应更多的汉文古籍样式,例如新的字符修饰样式等。扩展部分是新增加的

内容,不使用已有的内容代替,不与已有内容发生逻辑冲突。

5汉文古籍版式描述

5.1概述

汉文古籍版式描述存放目录可分为3个层级:第一层级为书文件夹;第二层级为卷册文件夹;第

三层级为书叶XML文件夹、书叶图像文件夹及抠图文件夹。其中,书文件夹和卷册文件夹的命名可自

定义,书叶XML文件夹名称应为“XML”,书叶图像文件夹名称应为“Image”,抠图文件夹名称应为

“Cutout”。存放目录结构见图1:

2

WH棷T 湅湂湂—湆湂湆湇

图1汉文古籍版式描述数据存储目录结构示意图

汉文古籍版式描述存放目录中内容应符合以下要求:

a)  书文件夹存放一部书的所有数据。书文件夹下包括一个书XML文件和一个或者多个卷册文

件夹。

b) 卷册文件夹包括一个卷册 XML文件、一个版式XML文件、一个XML文件夹、一个Image文件

夹和一个Cutout文件夹。

c)  卷册XML文件描述卷册包含的书叶和书叶的顺序。

d) 版式 XML文件描述卷册的版式信息。

e)  XML文件夹存放卷册中的书叶XML文件。

f)  Image文件夹存放卷册中的书叶原始图像。

g)  Cutout文件夹存放卷册中的所有插图和集外字、模糊字的抠图。

h) 汉文古籍版式描述数据保存在版式 XML和书叶XML中。

5.2基于XML的版式描述

5.2.1版式XML文件

版式XML文件用来统一描述卷册中书叶的版式信息,有助于书叶样式严格统一,其命名规则为:

Format.xml,版式XML文件的标签及其属性见表1:

表1版式XML文件标签

属性

XML标签名注解说明样例

属性名称注解说明

文档类型定义文档version版本XML文件的版本<?xmlversion="1.0"

xml

定义版本编码encoding编码文字编码encoding="utf-8"?>

root根节点根节点version版本版式XML文件的版本<rootversion="1.0">

定义一组

formats版式列表无无无<formats>

版式

3

WH棷T 湅湂湂—湆湂湆湇

表1版式XML文件标签(续)

属性

XML标签名注解说明样例

属性名称注解说明

版式的

name用户对版式的命名

名称

根据版式的基准DPI,可将

版式的

dpi版式中的像素值转换为毫

基准DPI

formats的米、厘米等物理长度值<formatname="[光绪]順天府志

子节点,定版式的"dpi="72"page_width="861.59"

format版式page_width版式书叶宽度的像素值

义一种版书叶宽page_height="770.40"page_fra

式版式的me="50.40,96.23,812.63,733.91">

page_height版式书叶高度的像素值

书叶高

版式的版式书叶版框的像素位置,

page_frame书叶版以“,”分隔开的4个数值,

框位置依次代表左上右下的像素值

使用该版式的书叶id的范

书叶id围,连续的书叶id使用“-”

page_id_range

版式作用确定哪些范围连接起始和结束叶的id值,<using_pagepage_id_

using_page于哪些书书叶使用不连续时使用“,”连接range="2-23,25"odd_even="0"

叶该版式0:所有叶码 />

odd_even奇偶性1:奇数叶码 

2:偶数叶吗 

文本版式定义一组

text_formats无无无<text_formats>

列表文本版式

文本的矩形区域位置,属性

文本的区

region值为矩形的左上右下4边

域位置

的像素值以符号“,”连接

font_id字体ID字体列表中的一个字体ID

段落样式段落样式列表中的一个段

text_formatspara_style_id<text_formatregi

ID落样式ID

的子节点,on="421.07,114.00,442.20,218.44"

text_format文本版式

定义一个0:头部对齐(横排左对齐, font_id="3"para_style_id="1"

文本版式竖排上对齐)alignment="0"direction="1"/>

alignment对齐方式1:居中对齐 

2:尾部对齐(横排右对齐, 

竖排下对齐)

0:横排 

direction文字方向

1:竖排 

定义一组

images图像列表无无无<images>

图像

版式图像版式所需图像的文件名,图

images的name

的文件名像存放于Cutout文件夹中<imagename="上鱼尾.jpg"regi

子节点,定

image图像图像的矩形区域位置,属性on="419.63,238.13,443.40,266.94"

义一个图图像的区

region值为矩形的左上右下4边/>

像域位置

的像素值以符号“,”连接

定义一组

lines线段列表无无无<lines>

线段

start_point起始点起始点坐标的像素值<linestart_

lines的子

point="287.63,282.15"end_

line线段节点,定义end_point结束点结束点坐标的像素值

point="307.12,282.15"

一条线段

weight线宽像素数线宽weight="0.96"/>

4

WH棷T 湅湂湂—湆湂湆湇

表1版式XML文件标签(续)

属性

XML标签名注解说明样例

属性名称注解说明

矩形框定义一组

rectangles无无无<rectangles>

列表矩形框

rectangles属性值为矩形框的左上

矩形框的<rectangleregi

子节点,定region右下4边的像素值以符号

rectangle矩形框区域位置on="731.07,189.00,1231.20,689.44"

义一个矩“,”连接

weight="1.05"/>

形框weight线宽像素数线宽

middle_area_

版心宽度像素数

width

内外边框距离,用“,”分

内外边框隔的4个值依次表示左上

box_space距离的像右下4个方向上内外框线

素数之间的距离,如果为0则表

示没有内框线

left_column_版心左侧

版心左侧行数<box_and_linemiddle_

num行数area_width="25.93"box_

right_column_版心右侧space="4.80,4.80,4.80,4.80"left_

节点信息版心右侧行数

num行数column_num="10"right_column_

边框栏线为空时,表

box_and_line从右向左按顺序描述,用num="10"show_column_line="0

信息示无边框

“,”分隔,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,

栏线

show_column_是否显示0:不显示 0,0"column_line_weight="0.96"

line栏线1:显示 out_box_weight="5.27"inner_

允许值为空字符串,值为空box_weight="0.96"/>

时显示所有栏线

column_line_

栏线宽栏线像素宽度

weight

out_box_

外边框宽外边框像素宽度

weight

inner_box_

内边框宽内边框像素宽度

weight

定义一组

fonts字体列表无无无<fonts>

字体

id值从1开始且唯一,用于

id字体ID区分字体,在使用该字体的

地方引用此id值

字体的名

name用户对字体的命名

字体在字体文件中的名称,

face字体类型

加字符“@”表示竖排<fontid="1"name="大字

fonts的子字体大小,以像素为单词,"face="@宋体"size="19.29"

size字号

font字体节点,定义也是字体的高度值width_stretch_ratio="1.20"char_

一种字体width_stretch_字体宽度字体宽=size*width_stretch_space="0.00"location_type="0"

ratio缩放比例ratiostyle="7"/>

char_space字间距字与前一字之间的像素距离

0:字位于版框内 

1:字位于版框外 

location_type位置类型如果处于上文定义的版框

区域以外,则不用来进行高

起计算

5

WH棷T 湅湂湂—湆湂湆湇

表1版式XML文件标签(续)

属性

XML标签名注解说明样例

属性名称注解说明

0:正常 

1:加粗 

2:斜体 

fonts的子4:加下划线 

font字体节点,定义style字体风格8:阳文 

一种字体16:阴文 

风格可以叠加,如值为

1+2+4,表示文字加粗、斜

体,并且加下划线

段落样式定义一组

para_styles无无无<para_styles>

列表段落样式

id值从1开始且唯一,用于

段落样

id区分段落样式,在使用该段

式ID

落样式的地方引用此id值

段落样式

name用户对段落样式的命名

para_styles的名称<para_styleid="1"name="段

的子节点,落样式1"line_space="0.00"

para_style段落样式行与前一行之间的像素距

定义一种line_space行间距head_space="18.08"tail_

段落样式space="18.08"/>

首字距版像素数,计算高起边框时用

head_space

框位置到

尾字距版

tail_space像素数

框位置

5.2.2书叶XML文件

书叶XML文件用来描述汉文古籍每一个书叶的具体信息,具体XML标签和属性见表2:

表2书叶XML文件标签

XML标属性

注解说明样例

签名属性名称注解说明

version版本XML文件的版本

文档类型<?xmlversion="1.0"

xml定义文档版本编码

定义encoding="utf-8"?>

encoding编码文字编码

root根节点根节点version版本书叶XML文件的版本<rootversion="1.0">

书叶的书叶的id号,从1开始并且在全<pagepage_id="1"dpi="300"

page_id

id号书中具有唯一性page_width="3590.00"page_

height="3210.00"page_

page书叶描述书叶内容

frame="226.00,401.00,

根据书叶的基准DPI,可将书叶

书叶的基3374.00,3068.00"image_

dpi中的像素值转换为毫米、厘米等

准DPIname="001.jpg">

物理长度值

6

WH棷T 湅湂湂—湆湂湆湇

表2书叶XML文件标签(续)

XML标属性

注解说明样例

签名属性名称注解说明

page_width书叶宽书叶宽度的像素值

page_height书叶高书叶高度的像素值

page书叶描述书叶内容书叶版框的像素位置,以“,”分

书叶版框

page_frame隔开的4个数值,依次代表左上

位置

右下的像素值

image_书叶图像

书叶文件对应的原图的名称

name的名称

文本版式

format_定义一组文本版式

对应的文无无无<format_texts>

texts对应的文字

字列表

format_texts的子节

文本版式

format_点,该文字的坐标<format_text>[光绪]順天府

对应的无无无

text及字体效果等从版志</format_text>

文字

式文件中取得

图文区域

blocks定义一组图文区域无无无<blocks>

列表

插图的矩形区域位置,属性值为

插图区域<image_blockregion=

blocks的子节点,region矩形的左上右下4边的像素值以

image_插图图像位置"244.00,416.00,1748.00,

定义一个插图图像符号“,”连接

block区域3028.00"image_name="

区域image_插图的图

插图图像保存在Cutout文件夹中017-KT-001.jpg"/>

name像文件名

文本的矩形区域位置,属性值为<text_block

blocks的子节点,文本区域

text_block文本区域region矩形的左上右下4边的像素值以region="3228.00,526.00,

定义一个文本区域位置

符号“,”连接3331.00,3017.00">

文本行的矩形区域位置,属性值

文本行的

region为矩形的左上右下4边的像素值

区域位置

以符号“,”连接

column_栏的索引文本行所属栏的索引,从0开始,<text_line

index值属性信息为空时表示没有分栏region="3228.00,526.00,

text_block的子节

3331.00,3017.00"column_

text_line文本行点,定义一个文本0:横排 

direction文字方向index="0"direction="1"

行1:竖排 

para_style_id="1"bussiness_

para_style_段落样type="0">

段落样式定义见版式文件

id式ID

bussiness_0:大字 

大小字

type1:小字 

7

WH棷T 湅湂湂—湆湂湆湇

表2书叶XML文件标签(续)

XML标属性

注解说明样例

签名属性名称注解说明

文本字符文本字符的矩形区域位置,属性

region的区域值为矩形的左上右下4边的像素

位置值以符号“,”连接

<char

text_line的子节点,font_id字体ID字体定义见版式文件region="2478.00,2221.00,

char文本字符

定义一个文本字符rotation角度单个字符的旋转角度2581.00,2319.00"font_id="1"

rotation="0">通</char>

表意文字

ids描述表意文字描述字符串

字符串

模糊字的矩形区域位置,属性值

模糊字的<blur

text_line或format_region为矩形的左上右下4边的像素值

区域位置region="1469.00,2820.00,

blur模糊字text的子节点,定义以符号“,”连接

1572.00,2917.00"image_

一个模糊字

image_模糊字抠模糊字抠图的图像文件名,图像name="006-BL-001.jpg"/>

name图文件名保存在Cutout文件夹中

<bracketstyle="2"type="0">

0:加框 

<char

style括号风格1:加中括号 

region="1727.00,323.00,

text_line或format_2:加八边形 

1795.00,393.00"font_id="1"

text的子节点,

rotation="0">通</char>

bracket括号char、gaiji或blur0:完整的一对括号 

<char

的父节点,定义一1:头括号 

region="1727.00,394.00,

对括号type括号类型2:尾括号 

1795.00,464.00"font_id="1"

通过定义头括号和尾括号的类型,

rotation="0">州</char>

支持一对括号跨行、跨页的情况

</bracket>

lines线段列表定义一组线段无无无<lines>

start_point起始点起始点坐标的像素值<linestart_

lines的子节点,定point="287.00,282.00"end_

line线段end_point结束点结束点坐标的像素值

义一条线段point="307.00,282.00"

weight线宽像素数线宽weig

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论