版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要PAGEI摘要随着互联网的高速发展,网上的信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。自动问答系统的出现很好的解决了这一问题,它既能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案。中国每年高考的考生数百万之巨,很多考生和家长对高考有这样或那样的问题。因此,开发一个招生咨询领域的自动问答系统是非常具有现实意义的。本文通过对自动问答系统中的答案抽取部分的研究,提出了一种将FAQ库(常问问题答案库)与蕴涵丰富招生咨询材料的文本库相结合的答案抽取方式,有效地提高了系统的性能。在FAQ库中,由于存储了大量而正确的问题答案对,使得答案的抽取更为准确和快捷;在基于FAQ库的答案抽取方法中,本文提出采用基于关键词信息和基于语义词典相结合的融合算法来计算用户问句与FAQ库中问句的相似度。该算法不仅考虑了词面的信息,更深入到语义层次的信息,使句子间的相似度计算更为精确,从而使答案的提取也更为准确。在文本库的答案抽取方法中,采用的是比较成熟和常见的基于向量空间模型的TF-IDF方法来计算问句与文本之间的相似度。并将从文本库中提取出的答案定期进行人工判断整理,备份至FAQ库中,从而使更多的问题能直接从FAQ库中获得答案,有利于提高系统的运行速度。最后本文设计实现了一个招生咨询问答系统。实验结果表明,系统可以快速、准确的满足用户的需求,从而有效地验证了上述方法的有效性和可行性。关键词:自动问答系统;答案抽取;常问问题答案库(FAQ库);文本库ABSTRACT
ABSTRACTWiththerapiddevelopmentofInternet,therearemoreandmoreinformationsonline,howtofindtheinformationstheyneedquicklyandaccuratelyaremoreandmoredifficult.TheAutomaticQuestionandAnsweringSystemisagoodmethodtoresolvethisproblem,itnotonlyletpeopleaskaquestionwithnaturallanguage,butalsoreturnaconciseandaccurateanswer.Chinahasmillionsofcandidatestaketheuniversityentranceexaminationeachyear,manystudentsandparentshavethisorthatproblemsonthecollegeentranceexamination.ThereforethedevelopmentofQuestionAnsweringSystembasedonAdmissionCounselinghasaverypracticalsignificance.Inthispaper,researchbyAnswerExtractionofAutomaticQuestionandAnsweringSystem,itadvancesanewmethodthatcombinestheFrequentlyAnswerQuestionLibrary(FAQ)withthedocumentlibrarywhichhastherichmaterialsaboutAdmissionCounseling,andeffectivelyimprovestheperformanceofthesystem.IntheFAQLibrary,itcangettheansweraccuratelyandquicklybecauseitstoresalotofcorrectquestion-answerpairs;InthemethodofAnswerExtractionbasedontheFAQLibrary,thepaperadvancestheamalgamationarithmeticthatcombinesthekeywordsinformationwiththesemanticdictionarytocalculatethesimilaritybetweentheuser’squestionandthequestionintheFAQlibrary.Thisarithmeticisnotonlyconsidertheinformationofthewordssurface,butalsoconsiderthemoredepthinformationsofthesemanticlevel,makesthesimilaritycalculationbetweenthesentencesmoreaccurate,andalsomakestheanwerextractionmoreaccuratetoo.InthemethodofAnswerExtractionbasedonthedocumentlibrary,itusestherelativelymatureandcommonTF-IDFmethodwhichbasedontheVertorSpaceModeltocalculatethesimilaritybetweenthequestionandthedocument.Italsomanualcorrectstheanswerregularlywhichextractfromthedocumentlibrary,andbackupstotheFAQlibrary.SothatmorequestionscanbedirectlyobtainedtheanswersfromtheFAQlibrarydirectly.Itcanimpovethesystemspeed.Attheendofthepaper,itdesignsaQuestionAnsweringSystembasedonAdmissionCounseling.Theresultoftheexperimentshowsthatthesystemcanrapidlyandaccuratelymeettherequirementoftheusers,anditalsovalidatesthevalidityandfeasibilityofallthemethodsabove.ChunlanYuan(ComputerApplicationTechnology)DirectedbyA.Prof.LinZhang KEYWORDS:AutomaticQuestionandAnsweringSystem;AnswerExtraction;FrequentlyAnswerQuestionLibrary;DocumentLibrary目录
目录第1章绪论 11.1课题的背景和意义 11.2自动问答系统概述 21.2.1国内外研究现状 21.2.2问答系统的一般结构 31.3答案抽取简介 41.3.1答案抽取的定义 41.3.2答案抽取技术的分类 41.4主要工作与本文的组织 7第2章FAQ库中的答案抽取技术 92.1引言 92.2FAQ库的建立 92.2.1FAQ库的收集 92.2.2FAQ库的组织与存储 112.3候选问题集的建立 122.4句子相似度计算的主要方法 132.4.1句子相似度的概念及分类 132.4.2TF-IDF方法 142.4.3基于语义依存的相似度计算方法 152.4.4基于知网的语义方法介绍 152.4.5各种句子相似度计算方法的优劣势比较 192.5FAQ库中相似度计算新方法 202.5.1改进的基于关键词信息的方法 202.5.2基于知网的语义相似度计算具体步骤 232.5.3改进的相似度方法-基于关键词信息与基于知网相结合的方法 252.6实验 252.6.1算法中特定值的确定 252.6.2实验步骤 262.6.3结果分析 372.7本章小结 37第3章文本库中的答案抽取技术 383.1引言 383.2文本库的建立 383.2.1网页抓取程序 383.2.2HTML格式过滤 403.3文本库预处理 403.4中文文本相似度计算的主要方法 423.4.1基于向量空间模型的TF-IDF方法 423.4.2基于汉明距离的文本相似度计算方法 433.4.3潜在语义分析技术 443.4.4基于语义理解的相似度计算方法 453.4.5各种方法的优劣势比较 453.5文本库中的答案抽取技术 463.5.1文本相似度计算方法的选择 463.5.2文本库中答案抽取的具体实现步骤 473.5.3实验结果及分析 483.6本章小结 51第4章系统设计与实现 524.1引言 524.2系统的总体设计 524.2.1系统的总体框架 524.2.2系统设计的基本思想 534.3系统各模块的实现 534.3.1自动问答系统界面设计 534.3.2问题分析模块 544.3.3信息检索模块 564.3.4答案抽取模块 564.3.5FAQ库更新模块 614.4本章小结 61第5章系统总体测试与评价 625.1引言 625.2TREC评测标准 625.3本系统的评测标准 635.4测试结果及分析 635.5本章小结 70第6章总结与展望 71致谢 73参考文献 74附录:攻读硕士学位期间发表的学术论文 76PAGE1第1章绪论PAGE76第1章绪论1.1课题的背景和意义20世纪90年代以来,Internet在世界范围内得到了迅猛的发展,互联网上的信息也越来越丰富。但人们也越来越烦恼这样一个问题:如何从堆积如山的电子文档中获取自己需要的答案?虽然现在的搜索引擎如Google,baidu等己经取得了很大的成功,但仍存在很多不足的地方,其中主要有三个方面:一是很难以几个关键词的逻辑组合来表达清楚用户的检索意图;二是相关性信息太多,用户将浪费很多时间在这些网页中查找自己所需要的信息;三是以关键词为基础的索引、匹配算法尽管简单易行,毕竟停留在语言的表层,而没有触及语义,因此检索效果很难进一步提高。而自动问答系统的出现弥补了这些不足。自动问答系统[1](AutomaticQuestionandAnsweringSystem),简称问答系统(QA),是指接受用户以自然语言形式描述的提问,并从大量的异构数据中查找出能回答该提问的准确、简洁答案的信息检索系统。它既能够让用户用自然语言句子提问,又能够为用户返回一个简洁、准确的答案。自动问答系统的研究主要分为开放域问答系统和受限域问答系统[2]。如果把问答系统限定在某一领域来研究,就是我们常说的受限域问答系统。在受限域问答系统方面,英语、日语和德语的问答系统已经获得了相当的应用。在国内,复旦大学[3]、中科院计算所[4]、清华大学也都开展了这方面的研究工作。受限域中文问答系统在国内已经成为一个研究的重点,具有重要的基础理论研究意义和重大的应用价值,其社会效益深远,经济效益巨大。本文所要研究的就是受限域问答系统,即高考招生咨询领域的自动问答系统。中国每年高考的考生数百万之巨,很多考生和家长对高考有这样或那样的问题。如果采用普通搜索引擎,不仅浪费时间和精力去筛选信息,而且往往还很难获得所需的确切答案;而如果采用人工回答的方式也不现实,不仅浪费人力物力,而且也不具有时效性。因此开发招生咨询领域的自动问答系统是非常具有现实意义的。1.2自动问答系统概述1.2.1国内外研究现状随着网络和信息技术的快速发展,有越来越多的公司和科研院所参与了自动问答技术的研究。在每年一度的文本信息检索(TREC)会议上,自动问答(QuestionAnsweringTrack)是最受关注的主题之一。同时,越来越多的大学和科研机构参与了TREC会议的QuestionAnsweringTrack[5]-[9]。目前,国外已经开发出一些相对成熟的问答系统,典型的有:麻省理工(MIT)开发的一个问答系统Start。它可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。但Start的回答能力非常有限,系统的准确性和稳定性都比较差。Kupiec等人开发的MURAX系统使用百科全书作为知识库用来回答一般性问题,它采用了基于统计与语言学知识相结合的技术,通过布尔搜索引擎和句法分析器从百科全书中抽取问题的答案。AnswerBus是一个比较成熟的问答系统,而且是个多语种的自动问答系统,它不仅可以回答英语的问题,还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题[10]-[12]。AskJeeves系统是通过手工收集大量的自然语言问句以及相应的URL链接,尽管它比较实用,但它的准确率比较低,并且返回给用户的还是网页而不是准确的答案。相对英文问答系统来说,中文问答系统起步较晚,不够成熟,这和中文的语法、语义复杂性等多种因素有关。国内也有不少大学和研究所正在进行问答系统的研究,但是参与中文自动问答技术研究的科研机构比较少,而且基本没有成型的中文自动问答系统。复旦大学和中科院都参加了QATrack的竞赛,哈工大也在这方面做了一些研究。中科院计算所正在进行的大规模知识处理科研项目NationalKnowledgeInfrastructure(简称NKI)中的一个具体应用就是NKI知识问答系统——HKI。HKI以NKI知识库为基础,向用户提供各个领域的知识服务,其特点是向用户提供准确的信息,支持自由的提问方式。1.2.2问答系统的一般结构问答系统通常包含三个主要部分:问题分析、信息检索和答案抽取[13]。如下图1-1所示:图1-1自动问答系统结构1.问题分析问题分析模块主要对自然语言表达的问句进行处理,将其中的信息提取出来,供后续处理环节使用。通常需要提取两种问句信息:答案类型和问句关键词。2.信息检索(IR:informationretrieval)IR的目的是缩小答案抽取需要处理的文档范围,它使用检索词组合从语料库中查找候选集,这些检索词组合在问题分析模块由问句转化而来。问答系统中的信息检索可以有多种选择,如果语料库存放在本地,则可以使用开放的检索系统如SMART[14]或者QUERY;如果语料库是互联网知识库,那么调用商业搜索引擎如Google则是比较好的选择。3.答案抽取IR模块返回的是候选句子集或文档集,而问答系统则返回答案本身。所以还需要对答案进行抽取。基于不同的语料库的问答系统,有着不同的答案抽取方法。如基于FAQ库的问答系统,该系统的FAQ库存储了用户可能提出的问答对。系统根据用户输入的自然语言句子,通过一定的答案抽取方法来提取出与用户问句最相关的问题答案对,将其中的答案返回给用户。而如基于全文检索的问答系统,它的特点是知识库不是现成的问题答案对,而是相关文本库。先提取出与用户问句相关度比较高的文档,再从这些候选文档集中进行答案抽取,提取出最相关的句子返回给用户。1.3答案抽取简介1.3.1答案抽取的定义答案抽取是一个复杂的研究领域,它涉及分类、统计、逻辑表示、模式识别等多个领域的内容,并对语言处理技术有相当高的要求。不同学者从不同的研究方面出发,可能会得到对此问题的不同理解,尽管如此,其根本目的都是获得质量较高的返回答案。对答案抽取的定义可能有多种,其中普遍认可的定义是:定义1-1答案抽取[15]是指根据用户提出的问题从搜索引擎返回的相关网页中抽取出能够体现答案的词、短语或是段落。在具体实现中,需要考虑用户提问的问题类型。1.3.2答案抽取技术的分类按照自动问答系统依托的技术来划分,答案抽取技术可以分为基于自然语言理解(NLP,NaturalLanguageProcessing)、基于问题模板(QP,Questionpatterns)和基于信息检索(IR,InformationRetrieval)三类。下面以这三类技术为线索,对答案抽取技术的研究现状和成果作简要的回顾。1.基于NLP的答案抽取技术传统计算机处理的数据是结构化的,而非结构化或半结构化的文本数据,如自然语言文本和网页,转化成特征向量后,特征数可能高达几万或几十万。所以,答案抽取面临的首要任务是如何在计算机中合理的表示文本。这种表示方法既要包含足够的信息以反映文本的特征,又不至于过于复杂而不利于答案抽取。这就涉及到了NLP技术。NLP是一种将自然语言映射为形式语言模型(Formalworldmodel)的技术。形式语言模型可以是一阶谓词逻辑、语义网络、概念依存图或某种框架表示形式[16]。在NLP应用初期,QA系统试图模拟人的思维,形式语言模型扮演着“前置语言”(frontendNaturallanguage)的角色,对数据库系统、对话系统或故事理解系统进行查询。前置分析器首先将用户输入自然语言形式的问句转化成中间逻辑查询,然后再转换成数据库支持的查询语言。而在另外一些应用中,形式语言模型普遍表示为本体论(Ontologies)[17],它对基于知识的概念做出了明确的规定。随着网络技术的发展,在线文本迅速增加,信息抽取技术(IE,InformationExtraction)[18]逐渐成为从大规模非结构化文本获取信息的关键技术。为适应这种需要,浅层句法分析技术开始引入NLP中。基于浅层句法分析的NLP技术没有进行文本语义分析,与传统的文本理解不同,它侧重文本组块分析,以匹配事先准备的问题模式库。比如在“whowontheNobelprizein1998?”这个问题中,疑问词who对应于“PersonNames”实体类型,通过查找与关键词“won”,“1998”,“Nobel”,“prize”有关联的人名信息,即可得到正确答案。在文献[19]的研究中,还引入机器学习方法进行模式抽取。基于浅层分析的NLP具有领域无关的性质,但要求文本中的答案和模式样式相符。采用这种技术的问答系统有文献[20]和[21]所描述的方法。2.基于句模(QP)的答案抽取技术基于模板的答案抽取技术是自然语言模式匹配技术的扩展,其智能性体现在人工创建的问题模板集上。START[22]系统是采用模板技术的典型系统之一,自1993年以来,START回答在线提问己达数百万条。该系统运行时根据问题查询预先处理过的“主、谓、宾”三元组数据库,形成模式“subject-relationship-object",在匹配用户问题的时候,通过词汇层和结构层两个层次进行。如果用户问题匹配标注实体,系统追踪并返回指针指向的信息片断,作为提交用户的答案。START的成功离不开Ommibase[23]的支持。Ommibase是建立在START知识标注基础上的虚拟数据库系统,内部存放了大量的联机半结构化数据,比如CIA事实手册、网络电影数据库等等。Ommibase的数据模型可以表示为“object-property-value",数据源包括对象,对象由属性描述。凭借着Ommibase,START可以按照属性描述把问题转化成结构式查询条件。Sniders[24]介绍了一种类似START的数据库查询系统,该系统通过操纵问题模板,建立与数据库概念模型相互映射关系。问题模板由关键词表达式构成,类似于正则表达式。每个问题模板都可以看成一个带变元和固定参数的谓词,形如:在匹配过程中,固定的参数(varl,...,varn)表示用户提问的词。如果数据库中有一组实例(datal,...,datan)恰好符合谓词的变参,那么Q的值为真,表示这组实例可以构成问题的答案。START和Ommibase的自然语言注释和问题模板一样,有一个共同的特点,它们都经过了标注处理,且非常贴近答案信息,这使得运用自然语言查询潜在的数据模型成为可能。答案形式可以是静态文本、数据库查询结果,甚至是多媒体材料。目前,基于QP的答案抽取技术并不是只停留在学术界的研究中,其方法已经在商业化产品中获得了成功应用。较为著名的商业问答系统有ASKJEEVS[25]、Kivilogic[26]和QUICKASK[27]。3.基于信息检索(IR)的答案抽取技术IR是处理信息的表示、存储、组织和访问。在问答系统中,IR对用户提交的问题进行查询,以获得问题的答案。IR系统通常又称为文本查询系统,因为它只返回嵌入答案的文本,而不是明确的答案。在目前大多数系统中,IR已成为标准答案抽取组件,为进一步的答案分析和抽取提供相关文本。例如,SMART[23]就是采用IR技术的比较著名的问答系统之一。在常问问题系统方面,IR是答案查找的主要方法,如FAQFinder[28]采用传统的基于词频的统计方法,同时结合了英语语义知识库Wordnet进行相关问题检索。近年来,在国际性评估会议(如ANLP-NAACL和TREC)的大力推动下,IR和NLP相结合逐渐成为答案抽取技术发展的主流。Voohees对参加TRECQATrack的问答系统的执行步骤做出了如下总结[29]:第一,根据用户提问确定期望问题类型,如对出现的疑问词“Who",判定期望的答案为人名类型“PersonNames";第二,在不影响答案内容的前提下,尽可能减少相关文本的词条数;第三,对含有答案的文本排序,从中抽取确切的答案。Mulder[30]是第一个基于网络的开放系统,它和其它参加TREC的系统一样,在答案抽取过程结合了IR和NLP技术。Mulder的答案抽取过程分为三个阶段,首先,用句法分析器处理用户提问,使提问词划归到临时目录;然后,系统把句法分析结果转换成一系列查询词,这些查询词最终提交到Google,作为检索项进行信息查询;最后,Mulder对Google返回的网页进行加工,包括解析、抽取相关文本片断(Snippets)、生成可能的候选答案队列。1.4主要工作与本文的组织在受限域中文问答系统的研究中,答案抽取是最关键的环节之一,答案抽取的实时性和准确性直接影响到问答系统的效率。因此,答案抽取是一个非常值得研究的话题。本文所要研究的是招生咨询领域的自动问答系统中答案抽取的部分。本文根据目前国内问答系统中存在的主要问题,即基于FAQ库的问答系统的答疑能力比较有限;而基于文本库的问答系统的速度比较慢的情况,提出了一种利用两者优势的更有效的方法:即把蕴涵丰富招生咨询方面材料的文本库与常问问题答案库(FAQ)相结合的方法。该方案使得系统对常问问题能快速给出解答,提高了系统的效率和准确率;同时系统还能自动回答FAQ库中没有存储的其他大部分问题,大大增强了系统的答疑能力和实用性。本文主要对以下几个方面开展研究:1.FAQ库及文本库的结构设计。FAQ库的设计是系统设计的重点之一,FAQ库结构设计的好坏直接关系到查询的速度和准确度。2.答案提取研究。答案提取是问答系统的主要模块,答案提取有许多方式和方法,本文主要采取以下两种方式相结合的答案抽取技术:一是通过FAQ库中的问题答案对进行匹配,直接寻找需要回答的问题;二是对文本库进行检索,通过一定的答案抽取技术,获取答案。3.FAQ库的更新。将从文本库中提取出来的答案,建立好与之匹配的问题答案对后,存入到FAQ库,进行更新。4.问答系统设计。本文设计了一个招生咨询领域的问答系统,完成了系统中答案抽取部分的架构和流程设计。本文的内容组织如下:第1章绪论。分析了本课题的背景和意义,介绍了目前问答系统的发展状况,并详细介绍了一些常用的答案抽取技术,最后给出本文的工作与结构安排。第2章FAQ库中的答案抽取技术。介绍了FAQ库的设计内容,并详细介绍了在FAQ库中进行答案抽取的关键技术,即候选问题集的建立及句子相似度的计算。提出了采用基于关键词信息和基于语义词典相结合的相似度计算方法,来提高相似度计算的准确性。最后给出一定的实验分析。第3章文本库中的答案抽取技术。介绍了文本库的建立及预处理的过程,重点研究了文本库的相似度计算方法,并选择基于向量空间模型的TF-IDF方法来计算问句与文本之间的相似度。最后也给出了一定的实验及分析。第4章系统设计与实现。给出了系统的总体设计框架和各模块的实现过程。重点描述了招生咨询领域问答系统中的答案抽取部分的设计与实现。第5章系统总体测试与评价。给出系统的评价机制,并进行了系统的测试,结果证明该系统能有效提高准确度,具有一定的实用价值。第6章总结与展望。给出本文的结论并对今后需要改进的地方做出分析和展望。第2章FAQ库中的答案抽取技术
第2章FAQ库中的答案抽取技术2.1引言自动问答系统通常包含三个主要部分:问题分析、信息检索和答案抽取。其中的关键部分是答案抽取。本章主要介绍在FAQ库中的答案抽取技术。FAQ(FrequentlyAnswerQuestion)库即常问问题答案库,FAQ库中保存了用户常问的问题和对应的答案。在进行答案抽取时,我们采取先到FAQ库中去查找答案的策略。如果在FAQ库中,我们能够找到最相似的问题,就直接将FAQ库中问题所对应的答案返回给用户,从而避免进行一系列复杂的检索和答案提取的过程。因此,常问问题库的引进,将大大提高自动问答系统的准确率和效率。2.2FAQ库的建立2.2.1FAQ库的收集FAQ数据库是问答系统的核心资源,FAQ库中的数据主要来源于三种途径:第一种是采用人工收集的方式。收集在FAQ库中不存在且询问频率较高的问题,把这类问句和对应的答案加入到FAQ库中;第二种是对于一些已经存在的格式化数据,如原有系统数据库中保存的问答对、或者是以文本格式保存但是具有一定规律的数据,对于这部分数据即可以通过编写专门的接口实现转换;第三种从网上自动获取。由于本系统是关于限定的高考咨询领域的问题,内容相对集中,数据收集主要采取人工收集的方式。以上海海事大学高考咨询领域为例,通过招生办的电话咨询及录音、招生网站留言、招生咨询现场对话记录等方式,收集大量的用户问句。将所有问句中出现频率超过5%的问句收集为常问问题集。同时将问题分类整理,分类的方法按照问题分析阶段的分类算法来实现。(问题分类模块的工作由另一位同学负责研究,不在我研究的范围之内)对收集、归类好的所有信息,给出对应的答案,将问题与答案对收集入库。以下给出部分问答对的例子:(Q代表问句,A代表问句所对应的答案)关于分数Q:上海海事大学2007年计算机科学与技术专业在上海的招生分数是多少?A:2007年我校计算机科学与技术专业在上海的招生分数是428分(理科)。Q:我考了500分,能不能进上海海事大学的计算机科学与技术专业,我是上海的考生。A:2008年我校计算机科学与技术专业在上海的招生分数是435分(理科)。Q:上海海事大学2007年理科类在上海的最低分数线是多少?A:2007年我校在上海的最低分数线是412分,专业是航海技术(理科)。关于人数Q:上海海事大学2007年计算机科学与技术专业在上海的招生人数是多少?A:2007年我校计算机科学与技术专业在上海的招生人数是77个(理科)。关于学校,学院,专业的介绍Q:请介绍一下上海海事大学?A:上海海事大学是一所以航运技术、经济与管理为特色的具有工学、管理学、经济学、法学和文学等学科门类的多科性大学。Q:请介绍一下信息工程学院?A:信息工程学院下设计算机科学系、电子工程系、两个实验中心和四个研究所。现有计算机科学与技术、网络工程、信息管理和信息系统、电子信息工程、通信工程5个本科专业;计算机应用技术、计算机软件与理论、通信与信息系统、信号与信息处理4个硕士点,并有计算机技术和电子与通信工程2个工程硕士学位授予权。Q:请介绍一下计算机科学与技术专业就业情况如何?A:就业方向:学生毕业后能在科研、教育、企业、事业、技术和行政管理等单位从事计算机科学工程技术和应用各领域有关教学、科研、开发和应用等工作。关于政策Q:上海海事大学贫困生的贷款政策是什么?A:学生可根据有关规定,申请国家助学贷款,包括学费贷款和生活费贷款,但是最多每年不超过5000元。关于其他Q:上海海事大学可以专升本吗?A:根据上海市教委的相关文件,我校高职部分专业可参加学校自行组织的“专升本”考试。近年来,我校每年都有近百个“专升本”计划。2.2.2FAQ库的组织与存储FAQ库的组织与存储也是FAQ库设计的关键之一。FAQ库主要存储的是问题答案对,我们将其存储在一张Q-A表中,表中主要有问题ID(Que_ID),问题内容(Quetion),相对应的答案内容(Answer),问题的类型(Que_Type)这几个字段。在另一张Q-K表中,主要存储的是每个问题相对应的关键字序列,主要有问题ID(Que_ID),关键字序列(Keywords)字段。为了进一步提高后续的答案抽取速度,缩小候选问题集的规模,在库中建立一个基于关键词倒排索引表。主要有关键词(Keyword),问题ID集(Que_IDs),关键词的权重(Key_Weight)字段。FAQ库中的表的设计如下列各表所示:表2-1Q-A表(问题-答案表)Que_IDQuestionAnswerQue_Type1Que1Ans1T12Que2Ans2T2nQuenAnsnTn表2-2Q-K表(问题-关键词表)Que_IDKeywords1W11,W12,…2W21,W22,…NWn1,Wn2,…表2-3Index表(索引表)KeywordQue_IDsKey_WeightW1S11,S12,…w(W1)W2S21,S22,…w(W2)WmSm1,Sm2,…w(Wn)FAQ库中的这种组织和存储的方式,有利于在FAQ库中答案抽取前的候选问题集的建立。2.3候选问题集的建立建立候选问题集的目的是缩小查找范围,使后续的相似度计算等较为复杂的过程都在候选问题集这个相对较小的范围内进行,提高系统的效率。由于在FAQ库中,问题答案对是按照类型分类存储,因此,在问题分析阶段,首先确定了用户问句的类型,然后在FAQ库中,将相应问句类型的问题答案对提取出来,作为问题集R1。为了进一步提高算法的效率,本系统采用了与倒排索引类似的方法,在R1中选出50%的问句作为候选问题集R2。设用户输入的问句共有n个词(),FAQ库中共有m个问句,第i(1≤i≤m)个问句含有ni个词()。第i个问句和目标问句之间重叠的词个数记为,=,则值最大的前50%的FAQ问句就组成候选问题集R2。计算时,如果将FAQ库中分类后的R1问题集一一读出来和目标问句进行比较,效率是比较低的。对于问句中的某个词,为了能够快速地统计R1集合中究竟有多少问句含有这个词,设计了如图2-1所示的数据结构。Word1Word1Word2Word3S11S21S31S12S22S32S13S23S33图2-1Index表图2-1表示的是查找候选问题集的数据结构,图中Word1、Word2、……是FAQ库中的问句包含的词经过排序后所形成的链表。而每个Wordi指向一个S链表,这个S链表中的每个节点记录R1问题集中含有Wordi的一个问句的句子ID。在实际的检索过程中,对于目标句子中的一个词,首先寻找它在Word链表中的位置。由于Word链表是有序的,可以很容易地利用折半查找等方法在的时间复杂度内找到目标。不妨设找到的节点为Wordk,沿着Wordk所指向的S链表,就可以统计出有哪些R1问题集中的问句包含Wordk。对目标问句中的每一个词都进行这样的处理之后,就可以进一步计算出上面提到的的值。接下来,找出值最大的50%个问句的句子号,通过FAQ库中Q-A表可以很容易地将R1问题集中的相应的问句读出。2.4句子相似度计算的主要方法2.4.1句子相似度的概念及分类相似度是一个很复杂的概念,在语义学、哲学和信息理论中被广泛的讨论。目前,关于相似度的定义还没有一个通用方法,因为其涉及到语言、语句结构和其他一些因素。在自动问答系统中,句子相似度更多地反映句子之间的语义上的匹配符合程度。本文把句子间的相似度定义为一个在[0,1]之间的数值,0代表两个句子不相似,1代表两个句子完全相似,两个句子之间的相似度的值越大表示它们就越相似。在此,给出本文句子相似度的定义[31]。定义2-1句子相似度指两个句子在语义上的匹配符合程度,值为[0,1]之间的实数,值越大表明两个句子越相似。当取值为1时,表明两个句子在语义上完全相同;值越小则表明两个句子相似度越低,当取值为0时,表明两个句子在语义上完全不同。问句相似度计算是FAQ库中相似问句查找的基础,同时也是答案提取的关键,其直接影响答案提取的准确程度,当前已有多种中文句子相似度计算方法,通常分为三个等级:语法相似度、语义相似度和语用相似度。语用相似度具有相当的难度,目前效果不理想。而在一般的应用中,计算句子的语法相似度或语义相似度就基本能够满足要求。当前,在汉语句子相似度计算方面已有很多研究,其中主要存在以下几类方法:(1)基于关键词信息的方法。该类型的一种传统方法是根据字符串匹配的原理,计算两个句子中相同关键词的个数与总关键词的个数的比例,即2c/m+n,其中m、n分别表示两个句子的关键词个数,而c是两个句子中相同关键词的个数。而该类型最常见的是基于向量空间模型(VectorSpaceModel,VSM)的TF-IDF方法。(2)基于句法结构信息的方法。一般的是基于语义依存的方法来进行句子的相似度计算,对语句进行完全的句法与语义分析。(3)基于语义词典的计算方法,即基于语义的方法。该方法需要一定的语义知识资源作为基础。人们常用WordNet、HowNet(知网)、同义词词林等作为系统的语义知识资源。(4)基于多重信息的方法。该方法是应用于当前中文自动问答领域的主流方法,它或基于关键词信息和语义信息相结合,或基于关键词信息和语义信息以及句法结构信息相结合。由于结合了多种特征信息,该类方法的准确率会得到显著的提高。2.4.2TF-IDF方法基于关键词向量空间模型(VSM:VectorSpaceModel)的TF-IDF(TermFrequencyInvertedDocumentFrequency)问句相似度计算方法是一种基于语料库中出现的关键词词频的统计方法,它综合考虑了不同的词在所有文本中的出现频率(TF值)和这个词对不同文本的分辨能力(IDF值)。TF-IDF方法的算法实现如下[32][33]:根据词频统计出问句语料库中出现的所有词;把每一个问句表示为一个n维向量:,其中,,n为词语Wi在该问句中出现的次数,m为问句语料库中包含词语Wi的问句数量,M为语料库中的问句总数量。任意两个问句间相似度可用两个问句向量的余弦夹角来计算。2.4.3基于语义依存的相似度计算方法依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中动词是支配其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。二十世纪七十年代,Robinson提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,中国学者提出了依存关系的第五条公理[34]:1.一个句子中只有一个成分是独立的;2.其它成分直接依存于某一成分;3.任何一个成分都不能依存于两个或两个以上的成分;4.如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存处于A和B之间的某一成分;5.中心成分左右两边的其它成分相互不发生关系。依存句法分析可以反映出句子中各成分之间的语义修饰关系,它可以获得长距离的搭配,并跟句子成分的物理位置无关[35]。利用依存结构计算句子间的相似度,关键的一步是如何获得句子各成分间的依存关系信息。2.4.4基于知网的语义方法介绍知网(HowNet)简介知网[36][37][38]是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,由多个数据文件构成,是一个网状的有机的知识系统。知网中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。知网的结构在知网中,“概念”是对词汇语义的一种描述,是由词表示的概念标识符。每一个词有多个语义,就对应有多个不同的概念。“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。“义原”用来描述词汇语义的“概念”,它是知网中最基本的、不易于再分割的意义的最小单位。与一般的语义词典(如同义词词林,或WordNet)不同,知网并不是简单的将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个“概念”进行描述,每个词可以具有多个概念(即一词多义)。知网作为一个知识系统,名副其实是一个网而不是树,它不仅仅是一部语义词典,它所着力要反映的是概念的共性和个性,概念之间和概念属性之间的各种关系,这是它与其它树状的词汇数据库的本质不同。知网通过对约六千个汉字进行考察和分析,抽取了1500个义原,这些义原可分为十类:Event|事件;entity|实体;attribute|属性;aValue|属性值;quantity|数量;qValue|数量值;SecondaryFeature|次要特征;syntax|语法;EventRole|动态角色;EventFeatures|动态属性。义原一方面作为描述概念的最基本的单位,另一方面,义原之间也反映了概念之间和概念属性之间的各种关系。知网总结描述了下列16种关系:上下位关系、同义关系、反义关系、对义关系、部件-整体关系、属性-宿主关系、材料-成品关系、施事/经验者/关系主体-事件关系、受事/内容/领属物等-事件关系、工具-事件关系、场所-事件关系、时间-事件关系、值-属性关系、实体-值关系、事件-角色关系、相关关系。这些关系在知网中用义原前附加一些符号来对概念的语义进行描述,如表2-4所示:表2-4知网中的符号及其含义符号语义描述例子,多个属性之间,表示“和”的关系qValue|数量值,amount|多少#表示“与其相关”#fund|资金%表示“是其部分”%GoInto|进入$表示可以被该‘V’处置,或是该‘V’的受事,对象,领有物,或者内容$copy|抄写*表示“会‘V’”或主要用于‘V’,即施事或工具*LaughAt|笑话+对V类,它表示它所标记的角色是一种隐性的,几乎在实际语言中不会出现+diagnose|诊察&表示指向&shiver|颤动~表示多半是,多半有,很可能的~清@表示可以做“V”的空间或时间@record|记录?表示可以是“N”的材料?material|材料{}对于V类,置于{}中的是该类V所有的“必备角色”表示动态角色,如介词的定义{comment|评论}()置于其中的应该是一个词表记(China|中国)^表示不存在,或没有,或不能^Vable|能力!表示某一属性为一种敏感的属性!odorl气味[]标识概念的共性属性[]我们把这些符号又分为三类:一类是用来表示语义描述式之间的逻辑关系,包括以下几个符号:,~^,另一类用来表示概念之间的关系,包括以下几个符号:#%$*+&@?!,第三类包括几个无法归入以上两类的特殊符号:{}()[]。从以上知网的结构可以看出,义原之间组成的是一个复杂的网状结构,而不是一个单纯的树状结构。不过,义原关系中最重要的还是的上下位关系。根据义原的上下位关系,所有的“基本义原”组成了一个义原层次体系。这个义原层次体系是一个树状结构,我们称之为义原分类树,义原分类树把各个义原及它们之间的联系以树的形式组织在一起,树中父节点和子节点的义原具有上下位的关系。可以利用义原分类树计算两个词之间的语义距离。知网中存在Entity、Event、Attribute等11棵义原树。但有些义原树,例如Converse、Antonym等,里面的义原没有父子关系,并不体现上述的词与词之间的上下位特征,因此无法使用。在11棵义原树中总共选取了以下6棵义原树用来计算词的语义距离:Entity、Event、Attribute、AttributeValue、Quantity、QuantityValue。这些是我们进行语义相似度计算的基础。知网的知识词典知网的全部的主要文件构成了一个有机结合的知识系统,例如,主要特征文件、次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成部分。被我们称为知识词典的常识性知识库是知网的最基本的数据库。在知识词典的描述语言(KnowledgeDictionaryMark-upLanguage,KDML)中每一个词语的概念及其描述用一个记录来表示,我们称这个记录为语义表达式。每个语义表达式都主要包含4项内容,其中每一项都由两部分组成,中间以“=”分隔,每一个“=”的左侧是数据的域名,右侧是数据的值。每一个记录都有唯一的一个记录号NO.与其对应,它们排列如下:NO.=词或短语编号W_X=词语E_X=词语例子G_X=词语词性DEF=概念定义其中的W_X,E_X,G_X构成每种语言的记录,X用以描述记录所代表语种,X为C则为汉语,为E则为英语。每个词语由DEF来描述其概念定义,DEF的值由若干个义原及它们与主干词之间的语义关系描述组成,它是知网的核心,必须填写,不得为空,DEF项中的第一位置所标注的必须是知网所规定的主要特征。下面是动词“打”作“打球”解的义项在词典中的定义:NO.=017144W_C=打G_C=VE_C=~网球,~牌,~秋千,~太极,球~得很棒W_E=playG_E=VE_E=DEF=exercise|锻炼,sport|体育上例中E_C项的“~”,代表W_C项的词。通过DEF的定义我们可以知道在“打球”中“打”与“体育”和“锻炼”有关。在知网中便是通过使用上述结构,并用自己的描述语言来定义知识词典中收入的词语。2.4.5各种句子相似度计算方法的优劣势比较句子相似度计算的各个方法都有不同的优势和劣势,概括如下:(1)基于关键词信息的传统方法的主要优点是计算简单,主要缺点是没有考虑任何语义信息和句法结构信息,不能区别在语义或句法结构上相似的句子。实际应用于中文自动问答系统,则需要考虑更多的其他有用信息,例如,关键词的顺序,关键词之间的距离以及句子的长度等信息。这些信息对于获取正确的答案同样有着非常重要的影响。基于关键词信息的常见方法即TF-IDF方法,它比基于关键词信息的传统方法正确率要高。该方法属于统计方法,它基于关键词在语料库中的出现频率,建立在大量真实文本语料基础之上。由于该方法是一种基于词频信息的统计方法,在非受限的大规模的文本库中会产生较好的效果,而对于一般面向特定应用领域的文本库检索,比如FAQ库检索,则不足以体现这种方法的效果。另外,该方法只考虑了词在上下文中的词形统计特性,仍然没有考虑词本身的词义信息以及句法结构信息。(2)基于依存树的方法利用句子之间句法依存关系进行相似度计算。将基于依存分析的相似度计算方法应用到自动问答系统中,可以使对句子的理解更加充分,算法的准确率也会得到一定程度的提高。但目前的中文自动问答系统较少采用这类方法,一方面是因为依存分析的工作量很大,会大大降低系统的及时交互性;另一方面由于对汉语句子进行依存分析时不能考虑相关的语义信息,会严重影响系统的准确率。(3)使用语义词典的方法,考虑了词本身的词义信息以及相应的权重,这种方法在处理两个句子中相同词很少但两句意思非常接近的情况下比TF-IDF方法优越。但是该方法单纯的使用语义词典,并没有考虑到句子内部的结构和词语之间的相互作用关系。(4)基于多重信息的方法,通过利用不同的特征信息,较好地保留了基于关键词信息的方法所具有的简单、高效、以及基于语义或句法结构信息的方法所具有的准确性较高的优点,同时,也在一定程度上避免了上述3类方法的缺点。将该方法应用到中文自动问答系统,需要根据汉语的特点和特定应用领域的要求,在关键词信息、语义信息以及句法结构信息之间寻找一个合理的、恰当的结合点,或者说寻找一个最佳的权重组合,这是关系到系统质量的关键,也是该领域目前研究的一个重点和热点。2.5FAQ库中相似度计算新方法由以上分析可知,基于多重信息的方法是目前比较实用和流行的方法。本文根据招生咨询领域的信息相对集中和单一的特点,将采用基于关键词信息和基于语义词典相结合的方法来计算用户问句和FAQ库中问句的相似度。而其中基于关键词信息的方法,将充分利用句子的各种信息,如关键词的顺序,关键词之间的距离以及句子的长度等信息,来改进单纯的依靠字符串匹配的计算方法。2.5.1改进的基于关键词信息的方法基于关键词类型的一种传统方法是根据字符串匹配的原理,计算两个句子中相同关键词的个数与总关键词的个数的比例,即2c/m+n,其中m、n分别表示两个句子的关键词个数,而c是两个句子中相同关键词的个数。实际应用于中文自动问答系统,则需要考虑更多的其他有用信息,例如,关键词的顺序,关键词之间的距离以及句子的长度等信息。这些信息对于获取正确的答案同样有着非常重要的影响。因此本文所用的改进的基于关键词信息的方法,就是不仅考虑了词形相似度,还考虑了句子长度,句子中关键词的顺序,关键词之间的距离等因素,通过加入权重的方式,综合考虑了各个因素。具体的定义与计算方法如下:定义1词形相似度从句子形态以及词形上来标注句子的相似性,反映句子形态上的相似性。表示句子与中相同关键词的个数。则词形相似度可以根据Jaccard系数来计算。其计算方法如下:(2-1)其中,表示与相同关键词的个数,如果同一关键词出现多次则只算一次,其中的关键词不包含句子中的疑问词及停用词表中的词,如:怎么样、如何、的、地、得等。其中和分别表示句子、中的关键词个数。在实践过程中发现名词和动词在句子中起着非常重要的作用,并且名词比动词承载着更多的信息量。一个句子的中心信息基本上都是围绕着动词和名词来展开的,所以在进行计算的时候也特意加大了名词和动词的重要程度,将句子的重心落在名词和动词上面。这样,在此处计算相同关键词的个数时,若两个词相同并且都是名词,相同个数以5计,若两个词相同并且都是动词,相同个数以3计,在计算句子A、B中的关键词个数时,名词的个数也按5计,动词个数以3计,即一个名词实际出现一次计算为5次,一个动词实际出现一次计算为3次。编程时,对每个句子分词后,然后要进行词性标记从而区分是否为名词和动词。定义2句长相似度从句子长度上来标注句子的相似性,在一定程度上也反映句子形态上的相似性。其计算方法如下:(2-2)其中和分别表示句子、中(关键)词的个数。定义3词序相似性从关键词的顺序上来标注句子的相似性,反映两个句子中所含相同词或同义词在位置关系上的相似程度,以两个句子中所含相同词或同义词的相邻顺序逆向的个数来衡量。其计算方法如下:(2-3)其中,:表示与相同关键词的个数的自然数序列的最大逆序数,例:若与相同关键词的个数为4,则自然数序列为{4,3,2,1},它的逆序数为6。:表示中关键词在中的位置构成的自然数序列的逆序数。反映两个句子中所含相同词或同义词在位置关系上的相似程度,以两个句子中所含相同词或同义词的相邻顺序逆向的个数来衡量。设、为两个句子,为、中所含相同词或同义词的集合,重复出现的词仅计一次,为中的词在中出现关键词的先后顺序所构成的向量(为一自然数顺序序列,重复出现的关键词计第一次出现),为中的分量按对应词在中的次序排序生成的向量,为序列的逆序数。定义4距离相似性从相同关键词的距离上来标注句子的相似性。其计算方法如下:(2-4)其中和分别表示,中的相同的关键词分别在,中的距离。若关键词重复出现多次,以产生最大距离为准。:表示中非重复关键词中最左及最右关键词之间的距离。若关键词出现多次,以产生最小距离值为准。的表示与之类似。定义5句子相似度反映两个句子之间的相似程度。通常为一个0~1之间的数值,0表示不相似,1表示完全相似,数值越大表示两句越相似。记两个要比较的句子为、,、的相似度记为,则:(2-5)其中:且。2.5.2基于知网的语义相似度计算具体步骤本文利用董振东和董强先生创建的知网(HowNet)作为系统的语义知识资源。使用知网进行问句语义相似度计算的主要步骤为:首先使用知网的义原树计算两个词语间的语义距离;其次,根据词语间的语义距离,计算两个词语间的语义相似度;最后,在对问句进行分析的基础上,计算用户问句与候选问题集中问句的语义相似度。(1)词语间的语义距离我们将词语间的语义距离定义为两个词语对应的义原在义原树中的最短距离。设有两个词语和,记其语义距离为,则(2-6)式中Tl、T2分别为和两个词语所在义原树从树根到该节点语义元素集合,表示义原树中从树根到、各自语义节点包括的所有义原的集合,是该集合元素的个数。表示、对应的义原树中相同语义节点的集合,表示公共节点的个数。由上式可知,,即两个相同词语的语义距离为0。如果两个词语中有一个词语的义原无法在6棵义原树中找到,或者两个词语的义原分别处于两棵不同的义原树,则认为这两个词语间的语义距离为∞。(2)词语间的语义相似度词语间的语义相似度与词语间的语义距离有着密切的关系:两个词语间的语义距离越大,则其语义相似度越低;反之,两个词语间的语义距离越小,则其语义相似度越大。在很多情况下,直接计算词语间的语义相似度比较困难,通常可以先计算词语间的语义距离,然后再转换成词语间的语义相似度。设有两个词语和,记其语义相似度为,采用如下转换关系计算词语间的语义相度:(2-7)式中k是一个可调节的参数。由于,由上式可知:。即两个词语间的语义距离为0时,其相似度为1;两个词语间的语义距离为无穷大时,其相似度为0;两个词语间的语义距离越大,其相似度越小(单调下降)。本文利用董振东和董强先生创建的知网(HowNet)作为系统的语义知识资源。在计算语义相似度时,直接利用沈阳格微软件有限公司开发的知网在线()来计算词语间的语义相似度。(3)问句间的语义相似度计算有了词语间的语义相似度,就可以用它来计算用户问句与候选问题集中的问句之间的语义相似度。设有用户问句A和候选问题集中的问句B,A包含的词语为A1、A2、…、Am,B包含的词语为B1、B2、…、Bn,词语(1≤i≤m)和(1≤j≤n)之间的语义相似度为,则两个问句中任意两个词语间的语义相似度矩阵:(2-8)由此可以计算出用户问句A和候选问题集中的问句B之间的语义相似度:(2-9)式中:、分别为词语和在系统中的权重。2.5.3改进的相似度方法-基于关键词信息与基于知网相结合的方法改进的基于关键词信息的方法,充分利用了句子的各种信息,具有一定的实用性。但是单纯运用这种方法,效果仍然不是很好,原因是基于关键字的方法只考虑了词语表面上的信息,而没有考虑词本身的词义信息。例如,“你们学校在哪里啊?”和“上海海事大学的地址是什么?”所表达的应该是完全相同的意思。如果单纯运用基于关键词信息的方法,将使语义上相似的两个句子的相似度变的很小,系统的准确率下降。因此,本文在上文中引入了基于知网的语义相似度计算方法,并将采用基于关键词信息和基于语义词典相结合的方法来计算问句之间的相似度。记两个要比较的句子为、,、的相似度记为,其公式如下:(2-10)其中:,且。和的计算公式分别由(2-5)和(2-9)给出。2.6实验2.6.1算法中特定值的确定在对FAQ库的答案抽取的研究中,涉及到了一些λ值的取值、关键词的权重设定、FAQ库及文本库切换的阈值的确定等问题。我们进行大量的实验,在有100个问题的问题集中进行测试。最终确定=0.6,=0.2,=0.1,=0.1,=0.35,=0.65。对于句子中关键词的权重设定,我们主要根据关键词的词性为每个要匹配的关键词分配权重,当关键词中有专有名词时,专有名词的权重会加倍。一般名词的权重排在第二位,其次是数词、动词、形容词和副词。分配的权重分别为:专有名词(0.9)、一般名词(0.75)、疑问词(0.65)、时间词(0.5)、数词(0.5)、动词(0.4)、形容词和副词(0.38)、其他词类(0.1)。但有些形容词或副词需要引起我们特殊的关注,如“第一”、“最高”、“最多”、“最好”等形容词或副词赋予加倍的权重。另外,我们在判断FAQ库中是否存在所需要的答案时,设定了一个阈值,将计算出来的相似度和该阈值来进行比较,来决定是否需要去文本库中进行答案抽取。在经过一定的实验分析,我们确定设置该阈值为0.65时能收到较好的准确度。2.6.2实验步骤FAQ库中存储了大量的问题答案对,它们按照问句的类型进行分类存储,问句类型主要有:分数、人数、学校,学院,专业的介绍、政策、其他;分别标记为1,2,3,4,5.例如:FAQ库中存储的某些类型的问题答案对:表2-5Q-A表Que_IDQuestionAnswerQue_Type1007上海海事大学2007年计算机科学与技术专业在上海的招生分数是多少?2007年我校计算机科学与技术专业在上海的招生分数是428分(理科)。1(分数)4721上海海事大学有哪些优惠政策?1、对在高中阶段获得上海市三好学生、上海市优秀学生干部、上海市优秀推荐生资格的考生在录取时,达到我校录取线的考生,同等分数条件下优先考虑。2、铜管乐方面有特长的,一志愿报考我校,经我校事先考核合格并签订协议,在录取时按协议约定优先考虑。3、其他方面有特长的考生,我校在录取时,在同等分数的条件下优先考虑。4(政策)4890上海海事大学可以专升本吗?根据上海市教委的相关文件,我校高职部分专业可参加学校自行组织的“专升本”考试。近年来,我校每年都有近百个“专升本”计划。5(其他)5030上海海事大学的地址是什么?老校区地址:上海市浦东大道1550号(200135);新校区地址:临港新城海港大道1550号(201303)。3(学校,学院,专业的介绍)5032上海海事大学的就业情况
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度特色商业街区个人商铺租赁合同范本2篇
- 2025年度地下车位租赁与智能停车诱导系统应用协议
- 2025年度高校与电子商务企业人才输送及平台建设协议3篇
- 2025年度变压器研发设备转让与技术培训合同
- 2025年度海鲜电商平台冻海鲜退换货处理协议
- 2025年度工业产品销售与物流配送服务合同3篇
- 2025年度广州护肤美业加盟店运营服务合同2篇
- 2025年度高速公路扩建土方外运与交通分流服务合同2篇
- 2025年度高校科研人员入学就读服务合同3篇
- 2025年度工地现场安全防护措施合同范本3篇
- 电动叉车控制系统详解带电路图
- JGJ-16--民用建筑电气设计规范
- 微生物原生质体融合育种课件
- 中学生心理健康咨询个案辅导记录表样表
- 人类的起源和进化PPT
- 防火门单位向总包单位移交防火门完成工作面交接单
- GB/T 12706.2-2020额定电压1 kV(Um=1.2 kV)到35 kV(Um=40.5 kV)挤包绝缘电力电缆及附件第2部分:额定电压6 kV(Um=7.2 kV)到30 kV(Um=36 kV)电缆
- 2023年山东省高中会考数学题学业水平考试(有答案)
- 国家开放大学电大专科【计算机组网技术】机考网考形考题库及答案
- 鄂尔多斯盆地测井地质分层和曲线特征课件
- 政策与法律法规课件(跟旅游教育出版社教材配套)
评论
0/150
提交评论