




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
OLAC虚拟语言图书馆介绍xx语言坐标目录OLACMetadataSet简介与国际标准对应时空范围的控制词汇将xx语言套用于OLACMS语言识别结论OpenLanguageArchiveCommunityOLAC的目标
于2000年12月的一个语言资源工作营中,由来自北美、南美、欧洲、非洲、中东、亚洲、澳洲的语言学家与软件发展者所创,希望藉由下列步骤进行创造世界性语言资源的虚拟图书馆:针对语言资源数位典藏发展一致性的实践指引。发展一网络上具有互通性且提供存取相关语言资源的储存器和服务中心OLAC的组织Coordinators:
StevenBird&GarySimonsAdvisoryBoard:HelenAristarDry,SusanHockey,Chu-RenHuang,MarkLiberman,BrianMacWhinney,MichaelNelson,NicholasOstler,HenryThompson,HansUszkoreit,AntonioZampolliParticipatingArchives&Services:LDC,ELRA,DFKI,CBOLD,ANLC,LACITO,Perseus,SIL,APS,UtrechtProspectiveParticipants:ASEDA,AcademiaSinica,AISRI,INALF,LCAAJ,Linguist,MPI,NAA,OTA,Rosetta,TibetanDigitalLibrary(UVA)IndividualMembers:~120OLAC的缘起
许多协会需要语言资源,如:语言学家、工程师、教师、演说家﹔许多机构提供片段性的架构,如:档案管理员、软件发展者和出版者。前所未有的契机:延伸性标志语言(ExtensibleMarkupLanguage,XML)和Unicode提供以结构化方式弹性呈现以及长期储存资料。在线或非在线的数字化出版品有效且实际上达到分享语言资源涵义DublinCore后设资料集(资源分类标准模块)连同OpenArchivesInitiative所提供的交换方法,可建立一个跨越多个储存器与档案柜的架构。OLAC的愿景#1使用者透过单一OLAC的服务提供中心网站,搜寻与呈现OLAC的metadata栏位。OLAC的愿景#2理论上-使用者可取得任何需要的资源DATA任何描述语言的相关信息。问卷结果:25%数字化,但并未采用相同的后设资料栏位。TOOLS有助于创造、浏览、查询或使用语言资料的计算机资源。ADVICE什么资源是可靠的?什么工具适用于此情境?创造新资料时该如何作?OLAC的愿景#3实际上无法得到想要的资源在不同网站拥有不同名字(Name)造成召回率低(lowrecall)。在其他领域有相同意义,造成正确率低(precision).是否运用适当软件以及判断ADVICE的价值?许多语言资源并非以文字为基础。语言资源散布在不同的网站。OLAC的愿景#4CONVERTCREATECREATEEXPORTDELIVERFORMATOAICONTENTMETADATAOLACREPOSITORIESOLACSERVICESUSERSERVICESOLACPROCOLAC
MHPOAI
MSDCSoftwareRecommendationsInitiativesStandardsOLAC的愿景#5衔接缝隙的基础架构Gateway使用者可获得data,tool,advice的单一入口网站。Metadatadata,tool,advice的统一描述,包含所有项目的连结以及解释如何存取。Review浏览data,tool,advice的评价。Standards上述各项过程与协定的基础,例如:metadataschema,harvestingprotocol.OLAC的基础#1
DublinCore后设资料集连同OpenArchivesInitiative所提供的交换方法,可建立一个跨越多个储存器与档案柜的架构。DublinCoreOpenArchivesInitiativeOLAC的基础#2Recall:OAIdataproviders必须支援:DublinCore后设资料OAI后设资料撷取协定(Metadataharvestingprotocol)BUT:OAIdataproviders可支援:其他专门的后设资料格式其他专门的撷取协定OLAC的任务:制定有关语言资源的专业后设资料制定专门的撷取协定(额外验证)OLAC的标准standards=theprotocolsandinterfacesthatallowthecommunitytofunctionrecommendations="standards"forrepresentinglinguisticcontentOLAChasthreeprimarystandards:OLACMS:theOLACMetadataSet(QualifiedDC)OLACMHP:refinementstotheOAIprotocolOLACProcess:aprocedureforidentifyingBestCommonPracticeRecommendationsOLACMetadataSet#12001年10月推出0.4版本以DublinCore的15个元素为基础以OAI(OpenArchivesInitiative)为典藏架构的基础可经由XML的DTD或Schema编码加以验证OLACMetadataSet#2Thethreecategoriesofmetadata:Worklanguage:describesinformationentitiesandtheirintellectualattributese.g.namesofworksandtheircreatorsDocumentlanguage:describesandprovidesaccesstothephysicalmanifestationofinformatione.g.format,publisher,date,rightsSubjectlanguage:describeswhatadocumentisaboute.g.subject,descriptionOLACMetadataSet#3贡献者/单位(Contributor)涵盖范围(Coverage)创造者(Creator)日期(Date)资源描述(Description)资源格式(Format)资源cpu格式(Format.cpu)资源编码格式(Format.encoding)标志语言(Format.markup)作业系统需求(Format.os)程序语言(Format.sourcecode)资源识别码(Identifier)语言(Language)出版者(Publisher)关联性(Relation)权利管理(Rights)来源(Source)主题(Subject)主题使用语言(Subject.language)资源标题(Title)资源型态(Type)软件资源的功能(Type.functionality)语言学上的资源型态(Type.linguistic)OLACMS
Attribute&ControlledVocabularyElementrefinecodeschemelangControlVocabularyelementattributescontrolvocabulary<creatorrefine="editor">Smith</creator>olac:langsControlVocabularyControlVocabularyControlVocabularyOLACMS例子中央研究院近代汉语标记语料库(.tw/Early_Mandarin/)OLACMS–Language#1Name:AudienceLanguageDefinition:资源内容所使用的语言.Comments:创造者让观众了解作品所使用的语言.请与Subject.language比较.例如:文学作品或仅使用一种语言的文件,演讲者辅助的特殊语言,声音记录所使用的语言,句法描述所使用的语言,注解文字和双语字典的解释所使用的语言,但被注解的文字以及双语字典中被定义的文字都要以Subject.language标注.Attributes:code:控制词汇请参见[OLAC-Language].控制词汇不足或与控制词汇用语不同时,则以元素内容加以描述.OLACMS–Language多语资源#1DirectionalityiscrucialinmultilingualresourcesHowever,OLACmetadataisflatandunorderedInMTsystems:lostinformationbutsufficientforresourceharvestingBi-directionalMT <Languagecode=X/> <Languagecode=Y/> <Subject.languagecode=X/> <Subject.languagecode=Y/>
OLACMS–Language多语资源#2One-to-manyMT:<Subject.languagecode=S/><Languagecode=T1/><Languagecode=T2/><Languagecode=T3/>Many-to-oneMT:<Subject.languagecode=S1/><Subject.languagecode=S2/><Subject.languagecode=S3/><Languagecode=T/>OLACMS–Language#2ExamplesAresourceinEnglishabouttheSikaianalanguage: <languagecode="en"/> <subject.languagecode="x-sil-sky"/>AYemba-Frenchdictionary,wherethealternatenameDschangispreferred. <languagecode="fr"/> <subject.languagecode="x-sil-ban">Dschang</subject.language>TheAmericanHeritageDictionary,whichisbothinandaboutAmericanEnglish: <languagecode="en-us"/> <subject.languagecode="en-us"/>Aresourceaboutalanguageforwhichthecontrolledvocabularydoesnotyetprovideacode: <subject.language>AncientSumerian</subject.language>OLACMS中文版与国际标准对应IMDI(ISLEMetaDataInitiative)LinguisticDocumentationArchives时空范围的控制词汇将xx语言套用于OLACMS语言识别SILE有关语言识别与信息科技的白皮书,定义全球性规模的语言识别时产生的五大议题:变化(Change)、目录化(Categorization)、不适当的定义(Inadequatedefinition)、规模不足(Scale)以及缺乏完整的文件说明(Documentation)
成立Ethnologue(/)Bird等(2001)语言进行目录化最广泛的问题:过于分散零碎(over-splitting)、过于厚重(over-chunking)以及遗漏(omission)。Ethnologue南岛语分类过于粗略,未包含一般xx地区客家话、闵南语语音上的变化Simons提出由各使用者自行应用Ethnologue的语言识别码资料、提出修改建议和修改的标准程序,以及语言或同源语之间如何区分定义的根据结语对OLACMS提出初步修改建议以及中文版本雏型各子协会依照需求开发子元素未来针对xx语言定义努力考量语意、语法、语用订定内容标记请多指教.tw/project/LanguageArchive/DublinCore起于1995挖掘web资源的一个会议/DublinCore后设资料元素一个普普遍跨学科的核心元素,有效广泛支援资源挖掘,适用于任何以数字化或传统型态存在的资源描述.包含十五个可任选与重复的元素(elements):Title,Creator,Subject,Description,Publisher,Contributor,Date,Type,Format,Identifier,Source,Language,Relation,CoverageandRights.2002/01/07--以RDF/XML呈现:/documents/2001/11/28/dcmes-xml/OpenArchivesInitiative#1于1999/10成立,可跨各类电子印刷品的档案柜(Archives)之一般性架构,因此可扩大涵盖至各类学术性媒材的数位储存器(repositories)OAI基础建设必须有的两个标准:OAISharedMetadataSet(DublinCore):使内部跨储存器运作容易.OAIMetadataHarvestingProtocol:http协定下使用软件查询储存器.OpenArchivesInitiative#2OAI储存器(Repository)和档案馆(Archive)的关系图OpenArchivesInitiative#3OAI特色透过单一界面以metadata为基础搜寻各dataprovider.Web分散式与由下而上的特色集中式数据库结构化的本质
适合使用者获取成长迅速的资源和大量使用者导向的资源描述.支援以DublinCode延伸的后设资料(metadata).收集meta-archives在单一地方,使用者同时搜寻多个档案馆.IMDI
–ISLEMetaDataInitiativeISLEIMDI(ISLEMetaDataInitiative)和OLAC一样同属于ISLE(TheInternationalStandardsforLanguageEngineering)项目所赞助的计划
2001年6月提出IMDI集会描述(SessionDescriptions)后设资料元素2.5版本(IMDIMetadataElementsforSessionDescriptions)2001年6月发布IMDI编目描述后设资料2.1版(IMDIMetadataElementsforCatalogueDescriptions)2001年12月公布词汇的后设资料元素(MetadataElementsforLexiconDescriptions)IMDI–控制词汇语言资源的逻辑结构字母顺序、章节次序、对话声调…注解者(Annotator)OLAC-Role代表新版本产生、采用的标记讯息著录时的质量(Quality)例:录音压缩质量IMDI–元素由Project所执行或支援的语言资源Creator,Contributor结构复杂的组织,例如:ISLE,EAGLES,ESPRIT由各子协会依需求发展子元素IMDI–属性涵盖范围(Coverage)空间的子型态:洲(Continent)、国家(Country)、行政区域(AdministrativeDivision)、经纬度(LongitudeandLatitude)、地址(Address)…识别码(Identifier)典藏单位自行定义的索书号
scheme加上注录单位的简称其他未列出的国际识别码:ISSN,LCC…保留DC:Format的Medium,ExtentLinguisticDocumentationArchivesGrayHolton(2000)针对AlaskaNativeLanguageCenter,ANLC)典藏的语言文件,提出典藏语言文件资源描述的后设资料系统非数字化的资料格式以DC:Format:Medium概括手稿(Manuscript)、开盘式录音机(reel-to-reel)、卡带式(Cassette)、CD唱片(CDrecording)Creator,Contributor的refine演说者(Speaker)、面谈者(Interviewer)、所有者(Holder)、管理者(Guardian)TargetDialect尚无适当方式时空范围的控制词汇#1各地区纪年的方式不同scheme主型态(primarytype)公元(E_Calendar)、中国历法(C_Calendar)、阴历(Lunar)和阳历(SolarCalendar)…scheme子型态(subtype)中国历法下包括:时期(Era)、朝代(Dynastyname)、国号(Statename)、帝号(Emperor'sreign)、年号(Reign'sname)…例子:近代汉语标记语料库
<Coveragescheme=“C_calendar/phase”>EarlyMandarin</Coverage>或<涵盖范围scheme="中国历法/时期">近代</涵盖范围>时空范围的控制词汇#2随时间变更而有不同的地区名称refine(时间、空间)搭配scheme(时期或者朝代/空间著录单位/)例子:现代汉语平衡语料库
<Coveragerefine="spatial"scheme="ROC/Taiwan">或<涵盖范围refine="空间"scheme="民国/中国">朝代:中央研究院计算中心两千年中公历转换系统空间著录单位TGN(GettyThesaurusofGeographicalTerms)ADL(AlexandriaDigitalLibraryFeatureTypeThesaurus)将xx语言套用于OLACMS
–中研院现代汉语平衡语料库「中央研究院现代汉语语料库」.tw/SinicaCorpus/「中央研究院现代汉语语料库」(简称「研究院语料库」(SinicaCorpus))是专门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。资料来源报纸:中国时报、自由时报、儿童日报、中央研究院计算中心通讯。一般杂志:天下杂志、光华杂志、海天游踪、世界电影杂志。学术期刊:中央研究院民族所集刊、中央研究院生医简讯。教科书:国民小学国语教科书十二册。工具书:中研院信息所词库小组的技术报告。学术论著:论文。其他:无法归入其他媒体的档案。图书:洪建全基金会的大众心理丛书八本、时报出版的巴西狂欢节。视听媒体:xx学术网络里刊登的文章。会话访谈:民运人士的访谈纪录及大陆留美学生日常会话。将xx语言套用于OLACMS
–语式及文类语式Mode文类Genre书面语written报导Reportages评论Commentary广告或图文Advertisement信函Letters公告启事Announcement小说故事寓言Fiction散文Prose传记日记Biography&Diary诗歌Poem说明手册Manual演讲稿/剧本/脚本written-to-be-spoken剧本Script演讲Speech口语Spoken会话Conversation正式演说纪录spoken-to-be-written语录Analects演讲Speech会议记录MeetingMinuteType新增refine:
<资源型态refine=“正式演说纪录/演讲"lang="x-sil-CHN"/>将xx语言套用于OLACMS
–文体文体(Style)
记叙(Narration)、论说(Argumentation)、说明(Exposition)、描写(Describe)资源描述(Description)新增属性refine,其中有一控制词汇为文体(Style)例:日记
<资源描述refine=“文体“lang="x-sil-CHN">记叙</资源描述>将xx语言套用于OLACMS
–媒体媒体(Medium)报纸(Newspaper)、一般杂志(GeneralMagazine)、学术期刊(AcademicJournal)、教科书(Textbook)、工具书(ReferenceBook)、学术论著(Thesis)、一般图书(GeneralBook)、视听媒体(Audio/VisualMedium)、会话访谈(Conversation/Interview)、其他(Elsewhere)沿用DC:Format的Medium去概括
<formatrefine=“medium”>视听媒体</format>将xx语言套用于OLACMS
–主题#1SinicaCorpus.主题(Topic)=OLCA.主题(Subject)例:
<主题lang="x-sil-CHN">艺术/音乐</主题>主题子主题哲学(Philosophy)思想(Thoughts)、心理(Psychology)、宗教(Religion)科学(NaturalScience)数学(Mathematics)、天文(Astronomy)、物理(Physics)、化学(Chemical)、矿冶(Mineral)、生物(Creature)、农渔牧业(Agriculture)、考古(Archeology)、地理(Geography)、环保(EnvironmentalProtection)、大学科学(EarchScience)、工程(Engineering)将xx语言套用于OLACMS
–主题#2社会(SocialSciences)经济(Economy)、财政(Finance)、商管(Business&Management)、营销(Marketing)、政治学(Politics)、政党(PoliticalParty)、政治现象(PoliticalActivities)、国家政策(NationalPolicy)、国际关系(InternationalRelations)、内政(DomesticAffairs)、军事(Military)、司法(Judicature)、教育(Education)、交通运输(Transportation)、文化(Culture)、历史(History)、民族(Race)、语文(Language)、传播(MassMedia)、公益(PublicWelfare)、福利(Welfare)、人事(PersonnelMatters)、统计调查(StatisticalSurvey)、犯罪(Crime)、灾祸(Calamity)、社会现象(SociologicalFacts)艺术(Arts)音乐(Music)、舞蹈(Dance)、雕塑(Sculp)、美术(Painting)、摄影(Photography)、戏(Drama)、技艺(Artistry)、文物(HistoricalRelics)、建筑(Architecture)、艺术总论(GeneralArts)生活(General/Leisure)旅游(Travels)、体育(Sport)、食物(Foods)、医疗(MedicalTreatment)、卫生保健(Hygine)、衣饰(Clothes)、影艺(Movieandpopulararts)、人物(People)、讯息(Information)、消费(Consume)、家庭(Family)文学(Literature)文学理论(LiteraryTheory)、批评与鉴赏(Criticism)、其他文学创作(Otherliterarywork)、乡土文学(IndigenousLiterature)、儿童文学(Childern’sLiterature)、侠义文学(MartialArtsLiterature)、言情文学(Romance)将xx语言套用于OLACMS
–其他控制词汇OLAC-Role新增校对者(Proofreader)便于辨识Creator或OwnerMedium还包括中国古代:瓷器(Porcelain)、拓片(Rubbing)、简牍(Bambooengraving)、娟绣(Silk)、画轴(Scroll)...新兴媒材:DVD,MO,ZIP...变化巨大,需统一注册单位定义语言识别的五大议题变化(Change)不可能以静态目录获取完整且正确的语言知识目录化(Categorization)不同的目的必须以不同目录化方式,但彼此不认同,必须选择一个一致性的语言操作性定义(Operationaldefinition)不适当的定义(Inadequatedefinition)现存的语言识别码系统没用运用相同的操作性定义,而且许多并非针对语言本身的例子。规模不足(Scale)现存系统在规模上并没有完整包含世界6800语言缺乏完整的文件说明(Documentation)现存系统并没有适当文件描述语言识别所使用的目录其涵义,也没提供语言名称以外更进一步的讯息。语言进行目录化最广泛的问题遗漏(Omission)并未列出某一种语言绝种的语言雷朗(Luilang)并未被列在Ethnologue已经被列出,但Ethnologue无适当的代码,例如:Taroko(TRV),但中研院则视为赛德克(Seediq)过于分散零碎(Over-Splitting)一个语言变化被视为另一种语言Nataoran的语言代码是AIS,但中研院的学者齐莉莎小姐视为ALV(Amis阿美语)过于厚重(Over-Chunking)将两种有区别的语言视为某一语言的同源语自行应用Ethnologue语言识别码资料下载数据库汇入至个人应用软件或数据库允许把数据库的Table合并至个人数据库中Ethnologue的语言识别变更原则使用过的语言别码不再重复使用,即使多了延伸含意,语言识别码仍对。在使用者端所使用的语言识别码,同样可适用在其他成员的资料中。使用者端自动显示语言识别码变化的情况,可下载变更历史的资料表。对Ethnologue修改的标准程序提供使用者提供反馈意见的管道反馈者必须提供个人基本讯息解释变更的理由变更建议书上须注明贡献者网页上列出变更的语言识别码列表决定语音便而视为不同语言的理由应详尽列出提出证明若是反悔,则变更不算语言或同源语区分定义的根据标准因素:可理解性(intelligibility)、文学共享(sharedliterature)、社会因素(socialfactors)可理解的变化出现在一般文学作品中,则算相同语言相关变化出现在同作品,但不可理解,则算不同语言虽没文学作品,但共享同一理解性和人类语言学的定义,仍属同一语言。可理解但在文学上明显定义不同,则是为不同语言Now:UnderdevelopmentOAIThebuildingblocksdata,formats,tools,interfacesdiversity&incompatibilitythepiecesfittogetherpoorlyResourcediscovery"wordofmouth"(e.g.CORPORA)searchengineslowprecisionandrecallArchitecturesmall,unstable,unscalableexchangeandreuseof"primarymaterials"diversityisrestricted以下投影片资料来源/docs/talks/olac-elsnet.pptFuture:DevelopmentOAIThebuildingblocksdata,formats,tools,interfacesdiversitywithcompatibilitythepiecesfittogetherwellResourcediscoveryresourcesinfederatedarchivescommonfindingaidshighprecisionandrecallArchitecturelarge,stable,scalableaggregationandintegrationofcomplexstructuresandservicesdiversityisfacilitatedTheGapOAIThreeApproachestoBridgingtheGapMonolithicPIndependentPCoordinated9MonolithicApproachOAI"Oneday,asingle,massiveprojectwillsucceedinbridgingthegap"Analogy:acentralizeddatabaseasacompleteinformationsystemIndependentApproachOAI"Givenenoughtime,theaccretionofindependentinitiativeswillbridgethegap"Analogy:theworld-widewebasacompleteinformationsystemCoordinatedApproachOAIOLAC
"Asharedarchitecturalvision,havingmanycomponents,andimplementedinstagesbythecommunity,willbridgethegap"Analogies:federateddatabases;semanticwebTheFoundation:3initiativesDublinCoreMetadataInitiative(DC)foundedin1995(Dublin,Ohio)conventionsforresourcediscoveryonthewebOpenArchivesInitiative(OAI)foundedin1999(SantaFe)interoperabilityofe-printservicesOpenLanguageArchivesCommunity(OLAC)foundedin2000(Philadelphia)apartnershipofinstitutionsandindividualscreatingaworldwidevirtuallibraryoflanguageresourcesSummary:ThreeInitiativesProvidetheFoundationOAIOLACOLACDCOAIOLACMSWorkLanguagee.g.Creator:Def:AnentityprimarilyresponsibleformakingthecontentoftheresourceTexttonamethecreatore.g.BCP:"Surname,Firstname"RefinementtoDublinCore:OLAC-RoleOLAC-Roleisacontrolledvocabularyauthor,editor,translator,transcriber,sponsor,...OLACMSDocumentLanguagee.g.Format.markup:Def:TheOAIidentifierforthedefinitionofthemarkupformatreferencestheDTD,Schema,orsomeotherdefinitionofthemarkupformate.g.oai:nist:timit86Forsoftware:supportedmarkupformatsConsequences:EnsuresthatformatdefinitionsarearchivedQueriescandoajointofinddataofagiventypeforwhichsoftwareisavailableOLACMS:SubjectLanguageE.g.Type.lingdata(wastype.data)Def:Thenatureorgenreofthecontentoftheresource,fromalinguisticstandpoint.Encodingscheme:OLAC-LingData(OLAC-Data)Primaryclassification:transcription:atime-orderedsymbolicrepresentationofalinguisticeventannotation:anykindofstructuredlinguisticinformationthatisexplicitlyalignedtosomespatialand/ortemporalextentofalinguisticrecorddescription:anydescriptionoranalysisofalanguage(structureisindependentofthelinguisticevents)lexicon:anyrecord-structuredinventoryofformsOLACMS:SubjectLanguageE.g.Secondaryclassificationfortranscriptiontranscription/orthographictranscription/phonetictranscription/prosodictranscription/morphologicaltranscription/gesturaltranscription/part-of-speechtranscription/syntactictranscription/discoursetranscription/musicalOLACMS:SubjectLanguageE.g.Subject.languageDef:AlanguagewhichthecontentoftheresourcedescribesordiscussesStartingpoints:ISO639,LANGIDs,RFC-3066(1766),EthnologueUnicodeConsortium&IETFawareofshortcomingsofRFC-3066wanttoincorporateEthnologuecodesCurrentproposalbeingconsidered4-lettercodes(Ethnologue3-lettercodesplusprefix)whereanunambiguous2or3-lettercodeexists,useit,anddroptheEthnologueequivalentOtherdevelopments:LINGUISTAncientLanguages:x-ll-xakk=AkkadianUCSBworkshopdiscussedLanguageCodeConsortiumOLACMHP2:
RefinementstoOAIProtocol1.Identifyspecifytheformatofthearchiveself-descriptionfield2.ListMetadataFormatsspecifythaOLACisoneofthereturnedformatsandthattheURLpointstothecanonicalschema3.ListIdentifierswhenOLACisspecifiedastherequiredmetadataformat,ensurethattherepositoryreturnsatleastonerecordidentifierOLACProcessLaysoutthecorevaluesofOLAC:openness,consensus,empoweringtheplayers,peerreviewDescribestheorganizationofOLAC:coordinators,advisoryboard,participatingarchivesandservices,prospectiveparticipants,workinggroups,participatingindividualsDefinesprocessesfordocumentsandworkinggroups/OLAC/process.htmlSummary:ThreeStandardsDefinetheCommunityOAIOLACPROCOLAC
MHPOAI
MSDCInitiativesStandardsThirdLayer:OLACBCPsRecommendationsforappropriateuse1.OLACMetadataSet:e.g.don'tabbreviateassociationnames:<publisher>Associationfor
ComputationalLinguistics</publisher>2.OLACMHP:e.g.wherepossiblemapalanguagedesignationtoacodeinOLAC-Language,insteadoffreeformtext3.OLACProcess:e.g.usesuch-and-suchanXMLformatforarchivingwordnetsFORMATSummary:StandardsareSupplementedwithCommunityFavouredSyntaxandSemanticsOAICONTENTMETADATAOLACPROCOLAC
MHPOAI
MSDCRecommendationsInitiativesStandardsFourthLayer:SoftwareBeginningwithanykindoflanguageresource,therewillbesoftwareto:convertittoarchivalformat(ifpossible)e.g.replacelegacyfontswithUnicodecreateametadatarecorde.g.LDC'smetadatalivesinanOracledatabaseexportthisrecordtoXML"publish"therecordintheOLACformatharvesttherecordserviceprovidersoftwaretoretrievetherecordandpresentittoend-usersCONVERTCREATECREATEEXPORTDELIVERFORMATSummary:Withthesoftwareinplace,wehaveacompleteplatformOAICONTENTMETADATAOLACPROCOLAC
MHPOAI
MSDCSoftwareRecommendationsInitiativesStandardsCONVERTCREATECREATEEXPORTDELIVERFORMATSummary:Repositoriescompletelybridgethegap,lettingusconsistentlyorganizeandarchiveourresourcesOAICONTENTMETADATAOLACREPOSITORIESOLACPROCOLAC
MHPOAI
MSDCSoftwareRecommendationsInitiativesStandardsSixthLayer:OLACServices1.Metadata
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年公务员省考之公务员申论高分通关题型题库附解析答案
- 护理部培训体系建设计划
- 出国留学咨询合同样本
- 出口螺杆验货合同标准文本
- 伪造合同样本量刑标准
- 上海牌照租赁合同标准文本
- 上下铺床采购合同标准文本
- 2025年五星级酒店餐厅外包合同
- 中粗砂采购合同样本
- 2025标准车辆租赁合同如何制定
- 消防安全隐患排查投标方案(技术标)
- 提高患者口服药服用的准确率品管圈成果汇报ppt模板
- 22S803 圆形钢筋混凝土蓄水池
- 能源中国学习通章节答案期末考试题库2023年
- GB/T 28712.5-2023热交换器型式与基本参数第5部分:螺旋板式热交换器
- 无人机航拍技术理论考试题库(附答案)
- 部编版《语文》三年级下册全册教案及反思
- 《照明线路的安装与检修》课程标准
- 设备人员三级安全教育考试题与答案
- 自考07887平面设计(12-19)真题试卷
- 2023年长春医学高等专科学校单招笔试职业技能考试题库及答案解析
评论
0/150
提交评论