中医古籍文本本分析系统关键技术研究与实现_第1页
中医古籍文本本分析系统关键技术研究与实现_第2页
中医古籍文本本分析系统关键技术研究与实现_第3页
中医古籍文本本分析系统关键技术研究与实现_第4页
中医古籍文本本分析系统关键技术研究与实现_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

桂枝1002附子1003厚朴1004杏仁1005大靑龙汤1006姜汤1007猪苓汤1008门冬1009乌梅1010芍药1011竹叶1012葛根1013茯苓1014白朮1015瓜蒂1016莱萸1017牡蛎1018柴胡1019人参1020白虎汤1021青皮1022橘皮1023地黄1024黄连1025雄黄1026赤小豆1027瓜蒂1028柴胡1029栀子1030朴硝然后将每种方剂对应每种药品在Excel表格中用数字替换并对应起来,并转换为Matlab中读取的.csv格式,如图3-4:图3-4部分替换编号后的数据数据分析采用的平台及算法实现本论文数据分析采用的Matlab2018b,是mathworks官方开发的新版本的商业数学软件,适合对大型数据集运行分析,matlab代码可以与其他语言集成,拥有更多数据分析、机器学习和深度学习选项,并且速度比以往更快。适合用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等多个领域[11]。编写的主函数代码及数据.csv文件,首先使用uigetfile函数打开需要处理的数据文件,如箭头所指Serial_drug文件,main为主函数,apriori_data是通过length函数和for循环重构后的矩阵,apriori_drug为生产的频繁项集和置信度、支持度,如图3-6所示:图3-5主函数及csv文件部分代码文件如下,完整代码在附录%表格读取数据处理clear[filename1,pathname]=uigetfile('*.csv','打开文件');%选择文件ifpathname~=0filename=strcat(pathname,filename1);[dataheader]=xlsread(filename);endAB=data;ddno=1;while~isempty(AB)[usitemhb,lb]=find(AB(:,1)==AB(1,1));usitno=length(usitemhb);fori=1:usitnoii=usitemhb(i);B(ddno,1)=AB(1,1);B(ddno,i+1)=AB(ii,2);endAB(1:usitno,:)=[];ddno=ddno+1;endIT=unique(data(:,2));save('apriori_data.mat','IT','B');clearloadapriori_dataZZ=[NaN];ZZ=[ZZ;B(:,1)];userno=length(B(:,1));IT=IT';itemno=length(IT);ZZ(1,2:1+itemno)=IT;fora=1:usernoforb=2:length(B(1,:))ifB(a,b)[aa,bb]=find(ZZ(1,:)==B(a,b));ZZ(a,bb)=1;endendendsave('apriori_data2.mat','ZZ');频繁项集的挖掘结果当tth=1(最小支持度计数),置信度0.2时,最终运行结果:1009,1014,1043,1026,1027,1046如图3-6所示图3-6支持度为1结果当tth=2(最小支持度计数)时,置信度为0.2时,最终运行结果频繁集项为1026,1027,1046。如图3-7所示图3-7支持度为2结果Apriori算法在每次迭代经过后,大于支持度的项集被保留为频繁项集,最终生成的规则由最终的频繁项集组成,因此跟着提高最小支持度计数,最终得到的频繁集也会相应减少。本章小节本章首先介绍了Apriori算法的具体实现流程,然后设计了Aprioiri算法,详细介绍了使用Matlab2018b对预处理后的药方数据进行Apriori算法数据挖掘的过程,并简要分析了挖掘结果。

研究结果分析关联规则挖掘结果药对之间的关联规则挖掘药对之间的关联规则,研究药物与药物之间的配对关系。设定最小支持度计数为2,最小置信度闭值为0.2,得到药对之间的一维关联结果如图4-1图4-1一维关联结果经过对照药物表换算后,1009:乌梅,1012:葛根;1014:白术,1020:白虎汤,1023,地黄;1027:瓜蒂,1031,三黄;1035,麻黄;1037,小柴胡汤;1040,小承气汤,1046:秫米。表4-1关联规则列表1关联规则支持度置信度乌梅<=>白术0.0149250.33333乌梅<=>白术0.0149250.33333乌梅<=>地黄0.0298510.33333葛根<=>麻黄0.0149250.5小承气汤<=>白虎汤0.0149250.5瓜蒂<=>秫米0.0298510.66667秫米<=>瓜蒂0.0298510.66667三黄<=>麻黄0.0298510.33333秫米<=>麻黄0.0298510.33333保持最小支持度计数为2不变,最小置信度闭值为0.002时,如图4-2图4-2修改最小置信度的关联结果对比表3-1,因为减低了置信度闭值,增加了以下的关联规则:表4-2关联规则列表2关联规则支持度置信度白虎汤<=>乌梅0.0149250.16667麻黄<=>葛根0.0149250.11111地黄<=>乌梅0.0149250.16667白虎汤<=>牡蛎0.0149250.16667白虎汤<=>小承气汤0.0149250.16667地黄<=>麻黄0.0298510.16667保持置信度为0.2不变,修改最小支持度计数为3:图4-3修改最小支持度计数的关联结果关联规则由原来的13条减至8条,提高了最小支持度计数,相当于提高了判断是否为频繁项的阈值,造成关联项的减少。药物之间关联结果分析中医开方时药物经常成对或成组配伍出现,它们有某些功效相同或相似,或一药能增强另一药的治疗作用,可用于治疗同一个或同一类疾病。“人参、白虎汤”二药配伍应用,两药药性相互促进,清热益气生津效果倍增。药对“瓜蒂、赤小豆”合用可除湿消、肿清、热解毒、排脓,药对“赤小豆、秫米”均有消渴、止泄、利小便、吐逆的功效,药对“秫米、瓜蒂”配对可以治疗黄疸,面目爪甲皆黄,心膈躁闷,有清热凉血的功效。白虎汤、赤小豆、秫米之间均有较强的关联性。从上面强相关的药对结果可知,中医药方主要运用的是清热泻火解毒、凉血止血治疗方法,与中医治疗的思想不谋而合,表明挖掘的结果符合中医相关理论,具有较好的临床参考价值。对于挖掘得到的处方药物之间的频繁项集进行分析发现具有宝贵价值,可以体现治疗疫病的药对,如“人参、白虎汤”清热益气生津;药对“瓜蒂、赤小豆”湿消、肿清、热解毒、排脓;在药对的基础上可以扩展为相应的药组、方剂等,这对于新药的配置与开发均具有重要的意义。对于现阶段没有相关经验证实的相关规则,例如“秫米、人参”等,可进一步通过医学实验或医学观察等,研究其之间的相关关系,以辅助关联规则结果的解释[12]。本章小节本章具体分析了数据挖掘的结果,对其结合中医学进行了解释,通过分析得到的关联规则结果,表明通过关联规则能够得到有效的中医药数据挖掘结果,符合中医相关理论,具有较好的临床参考价值,同时叙述了对中医古籍数字化的思考与展望。总结与展望中医古籍数字的思考和展望1.国家战略规划确立与制度体系完善近年来古籍数字化成果卓著,但是在此过程中因无序开发导致选题重复、数据垃圾增多、资源浪费的现象日益突出。针对该问题,已有很多学者已经提出了很好的解决对策,即制定中长期战略规划,并且相关部门也提出了一系列制度。但是,目前缺乏一个独立、权威的执行和监管机构[13]。可是,当前缺乏一个独立、权威的执行和监管机构。由于古籍数字化事业的效果公益性、主体多元性、发展不均衡等特点决定了政府参与的必要性。2.推动古籍数字化资源统一发布平台建设应建立古籍数字化资源统一发布平台,既可以促进资源共享,又有利于推广古籍数字化产品,起到优化资源服务作用。具体而言,第一,对现有古籍数字资源有效整合与导航,可以提高用户搜索效率。第二,通过免费获取部分资源,或其他非经济途径抵偿获取(如善本、孤本的使用权转让,承担古籍数字化产品制作微任务,古籍数字化产品体验后改进意见反馈等),促进资源共享,培养潜在用户。第三,有助于最新古籍数字化产品的宣传和推广,保障古籍数字化企业的经济收益和可持续发展[14]。3.推动数字化技术的发展,全面实现知识挖掘古籍数字化的发展趋势是深度分析和知识挖掘,对内容专家和技术专家提出了更高的要求。以中文古籍为例,需要内容专家建立大型资料库系统地整理古籍字形、完善古籍相关背景内容的数据库、描述预期达到的智能分析目标;技术专家通过计算机技术实现内容专家所描述的智能分析目标。其中,字形库和语料库的完善,以及汉字处理技术的提高是高效精准地知识挖掘功能实现的前提,计算机技术的突破是古籍数据库知识挖掘和智能分析的难点[15]。所以,需要内容专家和技术专家加强合作,促进知识全面挖掘。本文重点是研究中医古籍文本分析,中医古籍是我国优秀的民族文化遗产,在长期的医疗实践中积累了大量数据信息,其中蕴含着丰富的医学知识,将现代信息技术与中医信息资源相结合,利用Matlab和Apriori算法对《伤寒九十论》进行数据挖掘,分析挖掘结果,符合中医相关理论,可以为中医治疗提供思路。由于时间所限,本文不可避免地存在一些不完善的地方,通过查阅资料了解当前中医古籍文本分析的大部分的研究工作都集中开发有效的关联规则算法和关联规则的应用上。关联规则的算法有很多种,未来研究可以使用FP-growth算法进行对比挖掘研究,同时可以设法在Apriori算法加以改进,提高了算法的运算效率,除此之外,将中医古籍文本挖掘数字系统化也是我们未来努力的目标。

HYPERLINK电脑文件整理懒招从来都是不会经常整理文件的,不过时间一长,众多的文档分布在硬盘的各个角落,用目录进行整理保存,工作量大、查看起来也不方便且还会浪费不少的磁盘空闻;用压缩工具打包,尽管可以节约空间但是却无法直接编辑修改或查看压缩包中的文件。这些招,懒人怎么会用,他们自有妙招!再多再乱的文件也能整理得井井有条,关键是不费力哦!

懒招1,自动提取乱中取胜

小张起初将照片、Office文档、电影、音乐等文件一股脑地存放在某一个磁盘分区,刚开始文件少使用起来倒也方便,但随着时间的推移,文件数量剧增,每次找所需的文件都要瞪大眼睛,不过有了MY文档管理器(下载地址:)就不用担心了。

第一步,下载MY文档管理器,解压到任意目录,直接双击其中的可执行性文件即可使用。依次单击“节点操作→添加节点”,分别添加多个节点,如“办公文档”、“电影”等分类,这样做的目的是方便归类。

第二步,在小张的F盘中的TEST目录下有众多的RM、MP3、JPG、DOC、TXT格式的文件,现在他要把JPG格式的文件提取到“照片”类别中。依次单击“系统配置→文件过滤”选项,打开Dialog对话框,输入“*.doc”,单击“添加”按钮,意思是过滤掉所有类型为“.DOC”的文件。然后按照同样的方法,将“*.txt”、“*.rm”、“*.MP3”一一添加进来。

第三步,双击左侧窗格中的“照片”节点,然后依次单击“记录操作→导入记录树”命令,在打开的对话框中单击浏览按钮,打开“F:\test”目录,单击“确定”按钮之后就可以将格式为JPG的文件提取出来并添加到“照片”节点中了。

懒招2,不同的电脑统一的管理

小张是电爱的Fans,工作之余常常为杂志写稿,他写完的和正在处理的稿件一般都存在一个稿件文件夹里。不过时间一长,家里的电脑(PC1)和单位的电脑(PC2)上都有这个文件夹。时常需要通过移动硬盘(U盘)在两台电脑之间传递,使用和管理都很不方便。不过他现在用优盘就可以统一管理了。

第一步,将上文提到的那个MY文档管理器解压后直接拷贝到优盘上。把优盘插到PC1上,并运行软件,依次单击“记录操作→导入记录树”命令,在随后弹出的对话框中设置好“稿件”文件夹的根目录,将“导入深度”设置为“5”,单击“确定”后,稍等片刻,软件就把PC1上的“稿件”导入到MY文档管理器中。

小提示:通过这种方式导入到程序中的仅仅是文件的路径、文件名等属性信息,并不是文件本身。

第二步,把优盘插到PC2上,按照同样的方法导入PC2上的“稿件”文件。以后要编辑“稿件”里的文件,你自己根本不用记住哪台电脑的哪个路径,只要把优盘插入到电脑,运行MY文档管理器,就可以直接编辑了。

第三步,为方便在异地使用,小张决定为当前正在处理的稿件增加一个副本。在需要异地处理的稿件上右键单击,选择“复制文件到(自动添加副本)”命令,在弹出的对话框中将保存目录设置为优盘上的某个目录即可。这样,就可以在优盘上编辑PC1或PC2的稿件了。

小提示:对于PC1、PC2上的同名文件,MY文档管理器以不同的磁盘号+文件路径来标识文件记录,因此,对于不同电脑上的同名文件,甚至是路径和文件名完全相同的文件,程序也可以准确识别哪个是哪个。

懒招3多种文件批量移动

要将文件管理得井然有序,就免不了要进行复制、删除、移动等等操作,如果一个个进行操作,工作量是非常巨大的。这时我们就需要借助于BelvedereAutomated(下载地址:.com/assets/resources/2008/03/Belvedere%200.3.exe)进行批量操作了。例如我们想把“F:\test”目录中的所有照片移动到F盘中的“北京游照片”目录中,可以按以下方法进行。

第一步,建立“F:\test”目录后在“rule”一栏中,单击“+”按钮,建立一个规则。在“Descriptior”文本框中为当前规则起一个名字如“批量整理移动”。单击第一个下拉列表,在这里可以选择Name(文件名)、Extension(扩展名)、Size(大小)等进行操作,这里选择扩展名“Extension”。单击第二个下拉列表,在这里设置的是操作条件,有is(是)、isnot(不是)、contains(包含)等操作可供选择,这里选择的是“is”。接下来,在最后的文本框中输入图片文件的扩展名,示例中是“JPG”。定义的规则合起来的意思就是“扩展名是JPG”。

第二步,在“Dothefollowing”区域设置操作动作,单击第一个下拉列表进行操作动作的选择,有“Movefile(移动)、Renamefile(重命名)、Deletefile(删除)”等动作可供选择,我们要批量移动,那就选择重命名“Movefile(移动文件)”。接下来,单击后面的按钮选择“F:\北京游照片”目录。

第三步,规则设置完毕,单击“Test”按钮应用规则,程序即可一次性地将所有扩展名为“JPG”的图片文件移动到“F:\北京游照片”目录中了。

懒招4提纲挈领一点即得

在前面几大懒招的帮助下,你电脑里的文件应该已经有点类别了吧。如果从此想告别懒人的生活,那就要养成管理文件的好习惯了。

第一步,在你保存资料的电脑分区中,要接类别建立多个文件夹,可以按用途分为:学习、娱乐、暂存、工作、下载,在娱乐下又可以建立二级目录:电影、歌曲、动画等。也可以按照常见的文件性质进行分类,例如分为:图片、电影、电子书、安装文件等,当然也可以按照你的需要再建立二级目录,以后每有文件需要保存就按这个类别保存到相应的目录。

第二步,虽然现在已经把文件分门别类存放了,但时间长了,目录太深,一层一层查找也很麻烦的,在EXCEL里建一个目录就可以统一管理了。运行EXCEL后,新建一个表格,然后按照我们的分类方式隔行输入:图片、电影、电子书,在图片分类下再建立二级目录名,例如明星、汽车、壁纸等。

第三步,右键单击“图片文字”,选择“超链接”,在弹出的对话框中选择电脑里图片目录文件夹,单击“确定”后EXCEL里的“图片”文字就变成彩色。用同样的方法为一级目录的“电影、电子书”和二级目录的“明星、汽车、壁纸”等添加超链接。然后将这个EXCEL文件命名为文件目录,保存到桌面上,以后打开这个文档,直接单击相应的文字,比如单击“壁纸”,就可以切换到壁纸文件夹了。

小提示:如果要更改某个超链接,直接右键单击该文字,选择“编辑超链接”就可以了。本人的电脑分类原则简述如下。

硬盘的第一层(请在自己的件夹中右键“按组排列”查看)

第一位字母表示A生活娱乐B教学C工作D安装程序

第二位字母表示只是流水号

AA影视

AB音乐

AC阅读

AD图片

AE相册

生活娱乐

BA计算机

BB英语

BC运动

BD游戏攻略

BE衣食住行

BF文艺

教学

CA管理制度

CB流程图

CC程序文件

工作

DA娱乐

DB其它

安装程序

硬盘的第二层(进入“AA影视”的文件夹举例)

第一位字母表示只是流水号

第二位字母表示只是流水号

AA电影

BA电视剧

CAMTV

硬盘的第三级(进入“AA电影”的文件夹举例)

第一位字母表示A动作片B剧情片C动画片

第二位字母表示A未看过B已看过

AA导火线

AB尖峰时刻

动作片

BA独自等待

剧情片

CB机器猫

CB狮子王

动画片

利用“字母排序”和“按组排列查看”可以使文件查看和存放简洁明了,结合自己资料的特点和实际需求,给自己定一个分类原则并严格执行。个人电脑资料的资源会得到高效而充分的利用。电脑文件管理八条小技巧

在电脑的内部,在电脑的桌面上,在“资源管理器”中,充斥着无序与混乱,这种虚拟的混乱极大地影响了电脑的性能和我们办公的效率,当大家面临这个问题时,通常认为硬盘空间又不够了,电脑性能又不跟不上了,需要再换一台新的电脑了。事实上,我们真正需要的是坐下来,好好花时间将电脑里的文件真正管理起来,会为自己日后省下更多的时间。

文件管理的真谛在于方便保存和迅速提取,所有的文件将通过文件夹分类被很好地组织起来,放在你最能方便找到的地方。解决这个问题目前最理想的方法就是分类管理,从硬盘分区开始到每一个文件夹的建立,我们都要按照自己的工作和生活需要,分为大大小小、多个层级的文件夹,建立合理的文件保存架构。此外所有的文件、文件夹,都要规范化地命名,并放入最合适的文件夹中。这样,当我们需要什么文件时,就知道到哪里去寻找。

这种方法,对于相当数量的人来说,并不是一件轻松的事,因为他们习惯了随手存放文件和辛苦、茫无头绪地查找文件。

下面,我们将帮你制订一套分类管理的原则,并敦促您养成好的文件管理习惯。以下是我们总结出的一些基本技巧,这些技巧并不是教条,可能并不适合你,但无论如何你必须要有自己的规则,并坚持下来,形成习惯。

一、发挥我的文档的作用

有很多理由让我们好好地利用“我的文档”,它能方便地在桌面上、开始菜单、资源管理器、保存/打开窗口中找到,有利于我们方便而快捷地打开、保存文件。我们可以利用“我的文档”中已有的目录,也可以创建自己的目录,将经常需要访问的文件存储在这里。至于“我的文档”存储在C盘,在重装系统时可能会误删除的问题,可以在非系统盘建立一个目录,然后右击桌面上的“我的文档”,选择“属性”。在弹出的“我的文档属性”窗口中,单击目标文件夹下的“移动”按钮,然后在新的窗口中指定我们刚创建的文件夹。重装系统后再次执行以上操作,再重新指向此文件夹即可,即安全又便捷。

小提示:如果你使用Windows2000/XP,则移动“我的文档”文件夹时,其下的所有文件会自动移过去,但如果你使用Windows9x,则需要手工将C:MyDocuments下的所有文件手工移到新指定的文件夹中,否则可能会丢失数据。

二、建立最适合自己的文件夹结构

文件夹是文件管理系统的骨架,对文件管理来说至关重要。建立适合自己的文件夹结构,需要首先对自己接触到的各种信息、工作和生活内容进行归纳分析。每个人的工作和生活有所不同,接受的信息也会有很大差异,因此分析自己的信息类别是建立结构的前提。比如,有相当多的IT自由撰稿人和编辑就是以软件、硬件的类别建立文件夹;而很多老师,就是以自己的工作内容比如教学工作、班主任工作建立文件夹。

同类的文件名字可用相同字母前缀的文件来命名,同类的文件最好存储在同一目录,如图片目录用image,多媒体目录用media,文档用doc等等,简洁易懂,一目了然,而且方便用一个软件打开。这样,当我们想要找到一个文件时,能立刻想到它可能保存的地方。

三、控制文件夹与文件的数目

文件夹里的数目不应当过多,一个文件夹里面有50个以内的文件数是比较容易浏览和检索的。如果超过100个文件,浏览和打开的速度就会变慢且不方便查看了。

这种情况下,就得考虑存档、删除一些文件,或将此文件夹分为几个文件或建立一些子文件夹。另一方面,如果有文件夹的文件数目长期只有少得可怜的几个文件,也建议将此文件夹合并到其他文件夹中。

四、注意结构的级数

分类的细化必然带来结构级别的增多,级数越多,检索和浏览的效率就会越低,建议整个结构最好控制在二、三级。另外,级别最好与自己经常处理的信息相结合。

越常用的类别,级别就越高,比如负责多媒体栏目的编辑,那多媒体这个文件夹就应当是一级文件夹,老师本学期所教授的课程、所管理班级的资料文件夹,也应当是一级文件夹。

文件夹的数目,文件夹里文件的数目以及文件夹的层级,往往不能两全,我们只能找一个最佳的结合点。

五、文件和文件夹的命名

为文件和文件夹取一个好名字至关重要,但什么是好名字,却没有固定的含义,以最短的词句描述此文件夹类别和作用,能让你自己不需要打开就能记起文件的大概内容,能就是好的名称。要为电脑中所有的文件和文件夹使用统一的命名规则,这些规则需要我们自己来制订。最开始使用这些规则时,肯定不会像往常一样随便输入几个字那样轻松,但一旦你体会到了规则命名

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论