版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.自然语言处理技术在中高职课程衔接中的应用-职业技术教育论文自然语言处理技术在中高职课程衔接中的应用 申玫徐宁赵晓玲(青岛远洋船员职业学院山东青岛266071)摘要:在中高职课程衔接的实际中,存在着中高职专业设置不对口、专业课程内容重复等问题。为了选择对口专业及查找重复课程,采用人工手段对教育教学文件进行分析研究,效率低、精确性差。而使用计算机自然语言处理技术对中高职教学文件中的文本数据进行分析,可以快速获得中高职相关专业之间的相似度及专业课程内容之间的重复度,为课程设置提供科学依据。将自然语言处理技术用于青岛远洋船员职业学院“船舶工程技术”专业中高职课程衔接问题上,对相关文件进行分析,得到合
2、理的结论。关键词:中高职衔接;自然语言处理技术;课程设置中图分类号:G712 文献标识码:A 文章编号:1672-5727( 2015 )11-0060-04作者简介:申玫(1984-),女,青岛远洋船员职业学院船舶与海洋工程系讲师,研究方向为船舶与海洋工程教学 和研究。基金项目:2013年交通运输职业教育教学指导委员会科研项目“船舶工程技术专业群中高职教育课程衔接研究”(项目编号:2013840)中高职教育课程衔接主要存在两个方面的难题:其一,中高职教育没有实行专业归类对口招生报考制度,造成中高职专业设置的对应关系不明确,各院校自行选择对接专业,造成很多中职专业在升高职时不对口。其二,中高职
3、专业课程内容重复,使中职毕业生升入高职时重复学习相同的课程内容。在我国,中高职课程衔接仍然依赖于专家经验。对口专业的判断及重复课程的筛选是通过对“人才培养方案”和“课程标准”等文本文件的内容进行人工分析。面对多个专业,每个专业数十门课程,采用人工分析,工作效率低,专业的对口程度和课程重复程度难以精确的衡量。为了科学高效地进行中高职课程衔接,不能仅仅依赖经验和人工分析,而应该运用计算机技术,对各院校多年积累的课程数据文件进行深入分析研究,使中高职课程衔接方法具备精确性和实用性。如何让计算机对“人才培养方案”和“课程标准”等文本文件进行自动识别分析是科学高效进行中高职课程衔接的关键。自然语言处理(
4、Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学,是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理技术可以实现文本分类聚类、文本自动摘要、机器翻译、检索系统、问答系统、人机交互等诸多功能,其中重要的一项任务就是文本相似度分析。文本相似度分析最为著名的应用案例之一是搜索引擎,如谷歌、百度等,人们能通过输入文字来查找相关的新闻等网络资源,另外,在检测学术论文是否抄袭方面文本相似度也有其关键技术的应用。所谓文本相似度计算是指利用计算
5、机自动计算文本间的相似程度,文本相似度是表示两个或多个文本之间相似程度的一个度量参数,相似度大,说明文件相似程度高,反之文件相似程度就低。本文运用自然语言处理中的文本相似度算法对中高职课程相关的文本数据进行分析,能够快速地找出中高职对口专业,指导课程衔接方案的合理设置。一、自然语言处理中的文本相似度算法文本相似度度量任务就是衡量两个文本之间语义相似的程度,是自然语言处理中一个非常重要的任务。常规的文本相似度度量方法是将文本转化词汇的集合,分析每个词在单个文本中出现的次数以及在整个语料库中出现的次数,进而利用每个文本的词频信息构建为一个向量,并利用向量间的余弦相似度或Jaccard相似度等方法计
6、算文本之间的相似度。图1显示了文本相似度算法的主要流程。 (一)预处理计算机可以快速地计算出两列数组之间的相似度,也可以分析出两个矩阵之间的相似度,但对于两篇文本来说,相似度的计算要相对复杂。因为,文本是非结构化的数据,数据挖掘的算法要应用到文本对象之上,就必须对文本进行预处理,使其结构化,即将文本转化为数组或向量。对于中文文本的预处理技术主要包括中文分词和停用词过滤两个方面。1中文分词技术中文文本与英文文本不同,词与词之间没有空格,读者阅读时要根据经验和语言知识来自行分词。因而,计算机对于中文的处理相对于以英文为代表的西文处理存在更大的难度。现有的分词方法主要有:基于字符串匹配的分词方法、基
7、于理解的分词方法和基于统计的分词方法。对于分析者来说,自行开发中文分词算法难度较大,目前有很多开源的软件和在线工具都可以完成分词工作,如Jieba、SCWS、中科院张华平开发的ICTCLAS、武汉大学沈阳开发的ROST-CM等。2停用词过滤在文本处理中,有一些词出现频繁但意义不大,为了提高文本的分析速度和精度,须将这些词忽略。比如,“的”、“在”、“是”等几乎是中文文本中出现频率最高的词,这类词对文本相似度的计算会产生不良的干扰。对于这类问题的解决,可以利用现有的“中文停用词表”将这些词进行过滤删除。但是较为精确的方法是计算文本中每个词的TF-IDF值,将TF-IDF值为0的词删除。TF-ID
8、F是用来评估某一词汇对于一个文件集或一个语料库中的其中一份文件的重要程度的统计方法。词汇的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。比如,“船体的认识”被分词后变成“船体”、“的”、“认识”,其中“的”是停用词,而“船体”和“认识”这两个词在计算文本相似度中的重要程度是不同的。“船体”这个词较为专业,“认识”这个词较为普通,在中高职院校的教学文件中几乎每篇都会出现“认识”这个词。当某个词在所有文本中都会出现,那么,它对文本相似性也就没有贡献了。(二)基于余弦相似度的文本相似度算法经过预处理之后,两篇文本被转换为两份词汇表数据,分别用向量Dl(n)和
9、D2(m)来表示,其中n和m表示两表中词汇的数目。文本相似度工作就是计算分析Dl(n)和D2(m)的相似度。具体步骤如下:(1)将两份词汇表中重复多次的词合并,并将两份词汇表汇总成一个总词汇表,用向量A(p)表示,其中p表示词汇的数目,pm+n。 二、中高职课程衔接文本数据来源近年来,中高职教育衔接是我国教育领域的研究热点,各级教育部门颁发了一系列文件,如教育部关于推进中等和高等职业教育协调发展的指导意见、国家中长期教育改革和发展规划纲要(2010-2020年)、山东省中等职业学校教学指导方案等。在进行文本相似度分析时,要合理选择相关文本进行研究。本文所选的数据来源有以下两个方面:判断对口专业
10、的文本文件主要有:地方教育部门或行业指导委员会制定的各专业教育教学指导性文件,如山东省中等职业学校教学指导方案或各中高职院校制定的人才培养方案。中等职业学校专业教学指导方案是中等职业学校专业建设和专业教学的基本指导文件,内容包括教学计划和各门课程的课程标准。人才培养方案是人才培养的总体设计,反映着一个学院人才培养的指导思想和整体思路,关系着学院人才培养的内容、途径和质量。衡量专业课程内容重复情况的文本文件主要有:地方教育部门、行业指导委员会或院校制定的人才培养方案和课程标准。其中课程标准是指规定某一学科的课程性质、课程目标、内容目标、实施建议的教学指导性文件,是衡量课程内容重复度的主要依据。三
11、、实例分析青岛远洋船员职业学院是一所高职院校,其船舶工程技术专业,在面对机械制造技术、焊接技术应用、电气运行与控制等多个中职专业的毕业生时,如何能对口接收并进行合理的课程设置,是学院开展中高职教育衔接的关键。(一)选择对口专业根据教育部颁发的中等职业学校专业目录(2010年修订),将山东省教育厅开发的6个中职专业(船舶建造与维修、焊接技术应用、机械制造技术、机电技术应用、电气运行与控制、旅游服务与管理)的教学指导方案与青岛远洋船员职业学院“船舶工程技术专业”人才培养方案进行文本相似度分析,得到数据结果,如图2所示。 通过对人才培养方案进行文本相似度分析,可以看出,高职“船舶工程技术”专业的三个
12、方向“船体”、“轮机”和“电气”,与6个中职专业的相似程度各不相同:与“船体方向”对口的中职专业,按相似度依次为“船舶建造与维修”、“焊接技术应用”、“机械制造技术”:与“轮机方向”对口的中职专业,按相似度依次为“船舶建造与维修”、“机电技术应用”、“机械制造技术”;与“电气方向”对口的中职专业,按相似度依次为“船舶建造与维修”、“机电技术应用”、“机械制造技术”、“电气运行与控制”。本文选择“旅游服务与管理”作为与其他专业对比的参考专业,与船舶工程技术三个方向均不对口,相似度极低,与生活常识相符合。(二)判断重复课程中高职对口专业经常会出现课程内容重复的问题,专业对口程度越高,其课程重复的可
13、能性就越大。通过分析课程标准的文本相似度,可能得到课程内容的重复程度,从而指导课程安排和课时分配,避免中职学生升入高职后重复学习。图3以中职“船舶制造与修理”专业与高职“船舶工程技术”专业船体方向为例,将4门高职课程分别与9门中职课程进行了文本相似度分析。为了直观判断出中职课程与高职课程之间的相关度,将高职的任一课程与所有中职课程对比绘制成折线图,如图2所示。将高职机械设计、电工基础、结构制图、修造工艺这4门课与中职9门课程进行比较,可以得出以下结论。 第一,高职机械设计课程与中职各课程相似度均不高,说明课程内容没有重复;第二,高职电工基础课程与中职各课程相似度均不高,说明课程内容没有重复;第
14、三,高职结构制图课与中职船舶识图课的相似度非常高,说明课程内容重复;第四,高职修造工艺课与中职船舶建造与修理课的相似度非常高,说明课程内容重复。通过对每门课程的“课程标准”的文本相似度进行分析,可以准确快速地得出各门课程重复程度,对与中职课程重复程度高的高职课程,如“结构制图”和“修造工艺”等应考虑免修或适当减免学时。运用自然语言处理技术,分析文本文档、为课程设置提供可靠依据,在中高职教育课程衔接领域是全新的尝试。本文通过使用自然语言处理技术,对中高职衔接相关教育教学文件进行文本相似度分析。通过青岛远洋船员职业学院的实验验证,这种方法可以定量地对中高职教育衔接时对口专业进行筛选,以及对重复课程
15、进行判断,取得了良好的分析效果,具有较强的科学性和应用性。将自然语言处理引入中高职教育衔接领域,可以充分利用现有的教学文件数据,提高各项教育教学决策的速度和准确性,促进了职业教育水平的整体提高。随着自然语言处理技术的不断发展,通过计算机可以高速地对海量数据进行分析,这些数据不仅包括院校原有的教育教学文档,还包括行业发展趋势、社会人才需求等文本数据,并自动生成适应社会发展情况的“人才培养方案”、“课程标准”等教育教学文档,从而实现教育决策的“人工智能”。参考文献:1顾日国,自然语言语义、语义自动化处理与知识本体写在“知识本体”专号前面的话J,当代语言学,2013 (2):127-128.2金希茜基于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论