中国医学语言体系整体进度_第1页
中国医学语言体系整体进度_第2页
中国医学语言体系整体进度_第3页
中国医学语言体系整体进度_第4页
中国医学语言体系整体进度_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中国医学语言体系整体进度目标和意义该研究第一阶段的目标是建立一个基于计算机管理的“统一的中国医学语言系统” , 该系统由中国医学用语数据库、中国医学用语语义网络系统、中国医学用语与标引检索语言对应转换系统3 个部分组成。该系统将为实现中文生物医学文献计算机标引和分类, 加快文献处理速度提升文献处理的准确性和一致性提供良好的支撑环境; 同时将最大限度地跨越语言表达的差异性和相关信息的分散性 , 为生物医学信息一体化检索提供有效的帮助。该系统的实现将使传统的中文医学文献处理和检索发生根本性的变革。国内外研究现状美国国立医学图书馆自 1986 年开始研制统一的医学语言系统(UnifiedMedica

2、lLanguageSystem,UMLS), 其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式, 有用的信息分散在不同的数据库系统中。该系统由超级叙词表、语义网络、信息资源及专用词典组成。其中超级叙词表囊括了“ MedicalSubjectHeadings ” ( 医学主题词表) 在内的词表、分类表70 余种 , 涵盖了生物医学概念73 万项, 相关名称 15万条。该系统在计算机辅助文献标引、研制开发相关文献的数据库及具有辅助检索功能的IGM和PubMed言息检索系统方面发挥了巨大作用 , 提升了计算机自动处理的水准 , 极大地方便了用户的查询。国内科技信息界自 20世纪 9

3、0年代后相继进行了分类主题词一体化词表的研制工作, 如国家图书馆编制的中图法汉语主题词对照表,中国医学科学院信息所与图书馆编制的中图法与 MeSH中医药学主题词对照表等。它们的最大特点是标引数据时, 可同时完成文献的主题标引和分类标引 , 并提升了标引的速度和一致性。系统的构成与功能中国医学用语数据库该数据库来源于 10 余种生物医学词表、词典及分类表 , 可分为以下几种类型。叙词表。如医学主题词表 , 中医药学主题词表 , 统一 的医学语言系统一超级叙词表(UMLSMetathesaurus等。分类表。如中国图书资料分类法 , 国际疾病分类法等。辞典。如中药大词典 , 汉英中医药分类辞典 ,

4、 英中医学辞海 , 英汉医学词汇、英汉医学缩略的词典等。该词库的特点是:收词量大, 覆盖范围广, 包括医学、药学、牙科学、中医药学及其他相关学科的词汇约 160 余万条 ; 收词类型丰富 , 包括主题词、关键词、化学物质登记号、酶代码、分类号、缩略的等 ; 兼容英文词汇,译名规范 ; 实时对词库进行添加、更新和维护的动态性。中国医学用的的义网络系统运用对比、分析和综合研究方法 , 对医 学用的数据库的 160 多万词条进行概念规范、表达方式规范和的义规范 , 并建立反映相对应关系的标准代码, 以便于自动化处理。概念规范。概念或涵义作为该数据库的基础和核心, 在两个方面进行规范:确认中文医学领域

5、内业已存有的确切概念和概念的规范化表达形式 ( 规范化用的 ) 。表达方式规范。对概念的不同表达方式进行同义规范。例如对某一疾病的缩略的、单复数、不同名称、疾病代码等表达方式的规范。的义规范。通过分析概念的内涵和外延, 建立概念间的上位下位(分属 )及相关关系 ,为智能化的信息检索和知识分析提供强大的基 础保证。中国医学用的数据库与标引检索的言数据库转换系统通过建立“中国医学用的医学主题词对应数据库”及“医学主题词分类号对应数据库” , 完成自然的言与规范化词表的言间的 转换 , 实现自然的言与主题、分类检索的言的一体化。中国医学用语医学主题词对应数据库。依据美国国立医学图书馆2000年医学主

6、题词表MeSH文版及中医药学主题词表( 第二版 ), 对医学用语进行概念、词汇与主题词间对应关系的标示 , 建立医学用语医学主题词对应数据库、关键词副主题词对应库、关键词特征词对应库、禁用词库等多个数据库。医学主题词分类号对应数据库。以“中国医学用语与医学主题词对应数据库”和中国图书馆分类法 (第 4版)为基础 , 对主题词进行与分类号间对应关系的处理。系统研究进展情况建立“中国医学用语医学主题词对应数据库”及“医学主题词分类号对应数据库”为适应数据库建设的需要 , 解决文献标引量大、成本高、人员少的矛盾,1994年在研制CBMdisc的同时开始尝试建立“中国生物医学文献计算机辅助标引系统”

7、, 而基础词表的建立是实现该系统的先决条件。首先利用人工方法从中国生物医学期刊的文献中抽取了近 20 万个关键词 , 借此建立了关键词主题词对照表( 现称中国医学用语医学主题词对应数据库), 并以中国图书馆分类法 (R 类) 、MeSH中医药学主题词表为蓝本,扩充了相对应的类目,建立了含4万余条记录的主题词分类号对照表( 现称医学主题词分类号对应数据库 ), 由此形成了一套关键词到主题词、主题词到分类号的自然语言与受控语言的对应转换系统。抽取关键词的原则。关键词应词义明确、专指 , 能反映文献中论述的某一事物、对象、问题的主要概念; 关键词应符合概念逻辑、通用、实用 , 可以用单字、单词或复合

8、词 , 一般采用名词 , 不用动词、形容词等词类 ; 关键词应考虑副主题词概念的组配。关键词主题词对应原则。第一 , 一个关键词至少对应一个主题词 , 应选用最专指的主题词 , 如关键词“肝内胆管”对应成主题词“胆管 , 肝内”。第二, 一个关键词如无相对应专指主题词对应 , 应选用概念最接近的主题词 , 或主题词 / 副主题词组配表达, 如关键词“肝囊肿”对应成主题词“肝疾病; 囊肿” , 关键词“肝损伤”对应成主题词 / 副主题词“肝 / 损伤”。第三, 一个关键词对应两个以上意义不同的主题词时,应在每个主题词前做出材料识“ $”,如关键词“ HP可以对应成主题词“螺旋菌 , 幽门” ,

9、也可对应成主题词“触珠蛋白类”。第四 , 遇到概念模糊不清的关键词 , 不予转换成主题词。主题词一分类号又t应原则。第一,一个主题词至少有一个 R类( 医药卫生 ) 相对应类号对应 , 如主题词“肝疾病”的对应分类号为“R575。第二,必要时,一个主题词可以对应几个类号,如药物主题词可根据不同的用途和药理作用对应几个相对应的类号。第三 , 社会科学、生物学等学科主题词与中国图书分类法R类的相对应类目进行扩充或仿分对应。第四, 采用直接、上位类、靠类、多号及组配等技术方法对主题语言与分类语言进行概念的对应处理。第五 , 副主题词与临床医学专用复分号对应, 地理主题词与地理复分号对应。中国生物医学

10、文献计算机辅助标引系统1996年在上述两个数据库初具规模的基础上,采用C+畸言和 VisualFoxPro 开发成功了“中国生物医学文献计算机辅助标引系统”,该系统已成为我国第一个进入实用阶段的计算机辅助标引系统。它使医学文献的标引深度由原来的每篇文献3 个主题词增至8-10 个 , 分类号由 1 个增至 3-5 个 , 文献的处理速度由每年处理4 万条数据增至20万条左右 , 数据的更新速度大大加快, 文献的加工处理费用大大降低。该系统包括主题标引系统和分类标引系统。主题标引规程。医学文献主题标引包括主题词、副主题词、主要概念主题词 (加权主题词 ) 及特征词的标识。确定标引源:以科技文献中

11、的标题、文摘、作者、关键词作为标引源。确定切分规则:采用最大字串匹配法对文献的标题、文摘、 作者、关键词逐字进行扫描。确定转换规则:对主题词、副主题词、特征词分别进行转换。确定主题词数目:根据主题词的出现频率和出现位置计算每个主题词、副主题词、特征词的得分, 选择得分高的主题词、副主题词和特征词作为标引词。确定主要概念主题词:根据主题词分值的高低, 划分主要概念主题词 ( 加星号主题词 ) 和非主要概念主题词。确定高频主题词转换规则:对主题词表中的高频词不予转换,如“研究”。标引人员的干预:标引人员对机标后的主题词进行审核。标引结果的合法性检查:计算机对标引结果进行检查,包括主题词、副主题词、

12、特征词的规范水准, 主题词 / 副主题词组配是否准确 ,等。分类标引规程。根据每篇文献标引的主题词 , 依据“主题词分类号对应数据库”及其一些特定规则进行分类号的转换。主题词分类号转换规则:依据“主题词分类号对应数据库”进行主题词到分类号转换。如:主题词“肝肿瘤” , 转为分类号 “ R735.7”。副主题词专用复分号转换规则:依据“副主题词复分号对应表”进行副主题词到复分号的转换, 并将复分号加到主类号后。如:副主题词“ /诊断”转为复分号“04” , 故主题词“肝肿瘤/诊断” , 转为分类号“R735.704”。儿科学类号转换规则:依据“主题词分类号对应数据库”及“特征词”进行主题词到分类

13、号的转换。如一篇“儿童高血压诊断标准探讨”的文献, 标引的主题词为“高血压/* 诊断 ; 参考值” , 特征词为“儿童 ; 人类” , 如仅依据主题词则分类号转换为“ R544.104;R - 05”, 而依据主题词和特征词则分类号转换为“ R725.441.04;R- 05”。外源性和内源性物质类号转换规则:一个主题词既为外源性物质又为内源性物质时, 依据标引的副主题词确定类号的转换。如主题词“C肽”既可转为外源性物质类号“ R977.6”又可转为内源性物质类 号”R341.43”,如同时有副主题词” /治疗应用”存有时,则主题词“C 肽”仅转为分类号“R977.6”。地理主题词地理复分号转换规则:依据“地理主题词复分号对应表”进行地理主题词到地理复分号的转换。为了适应计算机检索的需求, 不将地理复分号一一加到每个主类号后 , 而是将其设为单独的类号,并以“RZ作为地理复分类号的标识,如地理主题词“北京” 转为分类号“RZ21”。实验动物类号转换规则:原则与地理主题词地理复分号转换规

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论