我国近年来生物化学研究热点.doc_第1页
我国近年来生物化学研究热点.doc_第2页
我国近年来生物化学研究热点.doc_第3页
我国近年来生物化学研究热点.doc_第4页
我国近年来生物化学研究热点.doc_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息资源管理上机报告我国近年来生物化学研究热点:基于共词分析视角 班级:管信1002班学号:201003083姓名:王秀玉17目录目录11 实验内容2(1) 文献资源检索2(2) 文献挖掘2(3) 分析当前国内生物化学领域研究热点、推测研究趋势22 文献获取23 关键词确定34 其他基本信息5(1)发表单位信息5(2)作者信息5(3)热门文章65建立供词相关矩阵、相似矩阵、相异矩阵7(1)共词矩阵7(2)相似矩阵8(3)相异矩阵86 聚类分析97 因子分析108 结果分析14(1)牛血清蛋白研究14(2)热休克蛋白研究14(3)对多糖的研究14(4)PCR15(5)生物信息学15(6)蛋白质组15(7)代谢组学15(8) 基本特性159 总结1610 个人体会161 实验内容 本实验是研究国内生物化学领域的研究状况和特点,通过现阶段的热点的分析,进而推测该领域在将来一段时间内的研究趋势。研究过程主要分为以下三个步骤。(1) 文献资源检索 最初对各种数据库以及搜索引擎进行初步尝试和了解,选择资料翔实全面、检索查询较为方便和精细的数据库进行文献资源的检索。最终选择了中国学术期刊网(中国知网)。其数据资料全面、查询方法多样且得到的结果比较精确,符合本次实验的要求,能够得到所需要的数据和文献全文。(2) 文献挖掘 首先对各种文献挖掘方法进行学习和掌握,特别是书中介绍的 共词分析和共引分析,了解每种方法的特点与用途。之后确定自己所要研究的领域以及研究的方向和想要得到结果。接下来比较需要的结果和已掌握的方法,最终决定所需要使用的方法。确定的研究领域为生物化学,需要研究出近十年该领域的研究热点并进行适当的研究方向的预测。最终选择了共词分析的方法作为该实验文献挖掘的方法。(3) 分析当前国内生物化学领域研究热点、推测研究趋势2 文献获取为了探索国内生物化学领域的研究状况和特点,本实验选择中国学术期刊网(CNKI)全文数据库获取文献。文献收集过程具体如下:首先,为了保证数据的准确性和全面性,选取的文献数据来自中国知网文献分类-基础科学-生物化学子分类下的文献资料;其次,设定检索时间范围为2002年2012年,且在前7年的文献中选取引用次数较高的文章,而在后四年选择了下载次数较多的文章,以进一步提高研究的精准度;同时,为了排除不相关文献的干扰,确保文献的查准率,还作了如下处理:一是对符合检索条件的论文进行分析,若论文只与教学相关,则主动予以放弃;二是只选择学术论文,剔除会讯、消息、信息等非学术论文;三是只挑选有关键词的文献,以便作进一步的分析处理。最后经过去重处理后, 得到相关文献1148篇。 经过一系列格式处理后,最后在EXCEL中建立如下结构的二维表。(表1)表1 文献数据结构表TitleAuthorOrganCEPeriodicalYearKeywordSummary篇名作者发表单位发表期刊发表时间关键词摘要图1 文献数据结构图3 关键词确定通过excel统计功能进行词频统计处理,得到原始关键词共3043个。利用数据-分类汇总功能,得到词频不小于7的关键词74个。其中关键词“生物化学”出现15次,但鉴于该关键词与本研究内容完全重合,在共词分析中难以发挥作用,故舍弃。关键词“应用”出现频率最高,为52次,关键词“研究进展”30次、“评述”12次、“综述”10次、“应用前景”9次、“进展”九次。最终得到词频不小于7的有效关键次数为68个。图2 国内生物化学研究领域关键词表最终确定共有35个高频关键词作为共词分析的基础。这35个关键词及其词频见表2。表2 国内生物化学研究领域高频关键词表序号关键词词频序号关键词词频序号关键词词频序号关键词词频1蛋白质5110生物学功能1919生理功能1428多糖112抗菌肽4011相互作用1920生物活性1429分子伴侣113蛋白质组学3612质谱1921双向电泳1430基因表达114牛血清白蛋白3013蛋白质组1822荧光光谱1431荧光探针115DNA2514蛋白质相互作用1723高效液相色谱1332基因106结构2415超氧化物歧化酶1624基因工程1233胶原蛋白107功能2216纤维素酶1625金属硫蛋白1234热休克蛋白108分离纯化2017代谢组学1526溶菌酶1235PCR109生物信息学2018纯化1427制备124 其他基本信息(1)发表单位信息利用excel分列和分类汇总功能得到发表单位的发表文章频次,共有3017个发表单位,选取发表频次不小于10的单位及其发表频次列出:表3国内生物化学研究领域高频发表单位表序号发表单位频次1南开大学化学系282山东大学微生物技术国家重点实验室263华东师范大学生命科学学院244吉林大学分子酶学工程教育部重点实验室205军事医学科学院放射医学研究所196军事医学科学院生物工程研究所187中国海洋大学海洋生命学院178东北大学化学系179福建师范大学生物工程学院1610江南大学食品学院1511厦门大学生命科学学院1412西南科技大学材料科学与工程学院化学系1413山西农业大学动物科技学院1414南京工业大学制药与生命科学学院1415中国科学院大连化学物理研究所1316浙江大学生命科学学院1317中国科学院微生物研究所1218武汉大学生命科学学院1219河北大学生命科学学院1220江南大学工业生物技术教育部重点实验室1121中国药科大学生命科学与技术学院1022中国水产科学研究院黑龙江水产研究所1023中国农业大学农业生物技术国家重点实验室10(2)作者信息利用excel分列和分类汇总功能得到发表文章的作者3231人,用同样的方法选择出发表文章频次不小于4的作者及其出现频次。表4国内生物化学研究领域高频发表作者表编号作者频次1张玉奎92何锡文63贺福初54陈朗星45陈启凡46樊廷俊47盖青青48梁琼麟49刘秋叶410韦萍411杨冬芝412张士璀4(3)热门文章近十年来,被引次数最高的文章统计,选取被引次数不小于100的文章、被引次数、发表时间及关键词信息。表5 国内生物化学领域高被引次数文章表被引Title-题名时间关键词250实时荧光定量PCR技术及其应用2004实时荧光定量PCR;基因;荧光探针;SYBR Green229简单快速的DNA银染和胶保存方法2002银染;胶保存;PAG;SSCP1553,5-二硝基水杨酸比色法测定还原糖含量的研究20083;5-二硝基水杨酸(DNS);还原糖;比色法;测定条件146超氧化物歧化酶(SOD)研究进展2003活性氧;氧化损伤;超氧化物歧化酶146差异蛋白质组学及其应用2002蛋白质组学;差异蛋白质组学;特点;应用前景142影响多重PCR扩增效果的因素2003循环参数;PCR缓冲液;反应体积;多重PCR141纤维素酶的多型性2002纤维素酶;多型性135实时定量PCR技术的介绍2003实时定量PCR;荧光染料;探针;分子信标;杂交探针;Taq Man探针130生物过氧化氢酶研究进展2005过氧化氢酶;酶结构;生理功能125PCR技术及实用方法2003PCR技术;分子植物育种125有效分离1kDa小肽的Tricine-SDS方法2004聚丙烯酰胺凝胶电泳;小分子肽117实时定量PCR技术及其应用2004实时定量;PCR;应用116谷胱甘肽及其抗氧化作用今日谈2002谷胱甘肽;氧化应激;抗氧化作用;半胱氨酸;氧自由基;结合反应;脂质过氧化产物;亲核进攻;细胞死亡;白内障115改良CTAB法用于多年生植物组织基因组DNA的大量提取2004猕猴桃;DNA;提取;Southern杂交113实时荧光定量PCR技术的原理及其应用研究进展2007实时荧光定量PCR;荧光标记探针;DNA结合染料107蛋白水解液中多肽含量的测定方法2005双缩脲反应;三氯乙酸;多肽含量102Bcl-2家族蛋白与细胞凋亡2002Bcl2家族;细胞凋亡;抗凋亡蛋白;促凋亡蛋白100纤维素酶的研究进展2005纤维素酶;简单糖;动物纤维素酶;工业化;高比活力100-葡萄糖苷酶的研究进展(综述)2002-葡萄糖苷酶;研究进展5建立供词相关矩阵、相似矩阵、相异矩阵(1)共词矩阵由于表2中关键词是有关于生物化学论文中出现频次最高的词,它们从较大程度上能够代表当前国内生物化学研究的热点,为了进一步了解关键词之间的联系,在建立的数据库中,对上表的高频关键词进行两两供词检索,统计itam在1148篇文章中同时出现的频率,建立一个35*35的关键词矩阵,部分共词矩阵数据如图3图3 表征生物化学研究方向的关键词矩阵(部分)共词矩阵为对称矩阵,主对角线的数据定义为缺失,非主对角线定义为两个关键词共同出现的次数。如关键词“蛋白质”与“DNA”的共词频次为1,即表示有1篇论文同时使用了这两个关键词。由于下面运用的多元统计方法对矩阵的数据结构有不同的要求, 为了统计分析的方便, 因此用系数将共词矩阵转换成相关矩阵, 具体方法是将共词矩阵中的每个数字都除以与之相关的两个词的总出现频次的开方的积。在相关矩阵中由于值过多, 统计时误差过大, 有可能影响分析结果。为了方便进一步处理, 用1与全部相关矩阵上的数据相减, 得到表示两词间相异程度的相异矩阵。(2)相似矩阵 由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,本文将相关矩阵转化为相似矩阵和相异矩阵。具体方法是,用Ochiia系数将共词矩阵转换成相似矩阵,即:Ochiia ( a, b) = , 其中, Ochiia ( a, b) 表示a、b两词的Ochiia系数; Cab 表示a、b两词共同出现的次数;Ca表示关键词a出现的频次; Cb表示关键词b出现的频次。利用该公式进行计算,得到相似矩阵。在excel中自行编写公式,可以较为容易的得到相似矩阵。如共词矩阵在sheet1,将相似矩阵输出在sheet2,则sheet2中的公式为=Sheet1!A1/SQRT(MAX(Sheet1!$A1:$AI1)*MAX(Sheet1!A$1:A$35),当鼠标变为黑色十字后,拖动到指定范围便可得到相似矩阵。部分相似矩阵数据如图4。图4表征生物化学研究方向的关键词的相似矩阵(部分)相似矩阵中的数字表明其对应两个关键词之间的亲疏关系,数值越大则表明 关键词之间的距离越近,相似度越好;反之,数值越小则表明关键词之间的距离越 远,相似度越差。(3)相异矩阵 由于相似矩阵中的0值过多,统计时容易造成误差过大,为了方便进一步处理, 用1与全部相似矩阵中的数据相减,得到表示两词间相异程度的相异矩阵(如图5所示)图5表征企业信息化研究方向的关键词相异矩阵(部分)相异矩阵中的数据表示不相似数据,数值越大则表明关键词之间的距离越远, 相似度越差;反之,数值越小则表明关键词之间的距离越近,相似度越高。6 聚类分析 本实验采用层次聚类(Hierarchical Cluster) ,选择离差平方和法(Wards Method) 与离散数据类型(Count)中的斐方( Phi-square Measure) 方法。 聚类分析结果树状图如下,可以初步判断各关键词之间的关联程度。树状图* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * * Dendrogram using Ward Method Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num + 结构 6 -+ 功能 7 -+ | 生物活性 20 + + 多糖 28 + + | | 分离纯化 8 + | | | 荧光探针 31 + + | PCR 35 + | | | 分子伴侣 29 +-+ | 热休克蛋白 34 + | | 抗菌肽 2 + | | 基因工程 24 + | | | 生物学功能 10 + | | | 金属硫蛋白 25 + + + | 超氧化物歧化酶 15 + | | | 生理功能 19 + | | + 溶菌酶 26 +-+ + | | 基因 32 + +-+ | | | 纤维素酶 16 +-+ | | | | 基因表达 30 + + | | 代谢组学 17 + | | 高效液相色谱 23 + | | | 蛋白质 1 + | | | 纯化 18 + +-+ | | 制备 27 + | | 胶原蛋白 33 + | | 牛血清白蛋白 4 -+ | | 荧光光谱 22 -+ + | DNA 5 + | 相互作用 11 + | 蛋白质组 13 + | 双向电泳 21 + | | 蛋白质组学 3 + + 质谱 12 + + | 生物信息学 9 + + 蛋白质相互作用 14 +图6 聚类分析结果树状图7 因子分析在聚类分析基础上,再利用因子分析对研究前沿进行进一步的论证,以利于解释。 因子分析 ( factor analysis)是一种多变量分析方法,能将众多的具有错综 复杂关系的指标归结为少数几个综合指标(公共因子或因子变量) ,达到降维和简化数据的目的。 因子分析要达到的目标就是用尽可能少的因子去描述众多的指标或因素之间的联系,其基本思想是根据关键词间的相关性大小把研究对象的变量分组使得 同组内的变量之间相关性较高,而不同组的变量相关性较低。每组变量代表一个 基本结构,这个基本结构称为公共因子,这样较少的几个公共因子就可以反映原 资料的大部分信息。利用因子分析法,可根据因子得分值,在因子所构成的空间中 把研究对象的变量点画出来,从而客观地达到分类的目的,并以此来对聚类分析 结果进行完善。通过表5,可以看出35个关键词中共有16个公共因子被提取,其方差累积贡献率为73.865%,它们能够解释全部信息的73.865%,从而说明35个关键词可以分别从属于16个不同的类别。 因子相关系数矩阵可以反映出各关键字在不同公共因子中的相关度,主要通过因子中各关键词的相关系数的大小进行相关性的判断,为关键词的聚类提供更加细致的依据(由于负载临界值越高,所确定的分类结构越简单。根据本文的数据 情况,为能较好反映关键词的组成结构,这里将负载临界值定为0.5,即负载临界 值小于0.5的不予显示。(表6)表6 因子数与覆盖的信息量解释的总方差成份初始特征值旋转平方和载入合计方差的 %累积 %合计方差的 %累积 %13.0398.6838.6832.1896.2536.25322.7257.78416.4671.9925.69111.94532.2836.52422.9911.9885.68117.62641.9785.65228.6431.9685.62323.24951.9595.59834.2411.8865.39028.63961.5714.48838.7281.8815.37434.01371.5014.28843.0171.7314.94438.95781.4734.20847.2251.6234.63743.59491.3423.83551.0601.4434.12347.717101.2473.56254.6221.4064.01751.734111.2283.50858.1291.3773.93455.668121.1813.37461.5031.3693.91259.580131.1433.26664.7691.3273.79363.373141.0933.12467.8931.2723.63367.006151.0523.00570.8981.2073.44970.455161.0382.96773.8651.1933.41073.86517.9452.70076.56418.8542.44179.00519.8232.35381.35820.8032.29583.65321.7362.10485.75722.7142.03987.79523.5751.64289.43724.5591.59891.03525.5091.45692.49126.4121.17893.66927.4051.15894.82628.3991.14095.96629.339.96796.93430.317.90597.83931.221.63298.47032.199.56899.03933.197.56399.60134.140.399100.00035-3.591E-16-1.026E-15100.000表7 旋转成分矩阵(部分)旋转成份矩阵a成份1234567蛋白质-.013-.053-.062-.010-.064-.063.017抗菌肽-.054-.018-.059-.005-.065-.060.041蛋白质组学-.055.452-.083-.037-.079.608-.060牛血清白蛋白.923-.052-.059-.058.023-.063-.055DNA-.009-.052-.061-.074-.017-.059-.075结构-.071-.072-.050.071-.087-.090.898功能-.078-.067-.096-.083-.038-.086.904分离纯化-.081-.071-.129.624-.116-.140.107生物信息学-.080.116-.063-.105-.015.815-.025生物学功能-.075-.084.571-.104-.083-.056-.043相互作用.615-.068-.069-.075-.026-.070-.055质谱-.079.331-.088-.089-.093.328-.069因子个数碎石图直观地显示出因子分析的前16个因子类别是比较明晰的,根据因子载荷系数大于0.7对命名才有帮助的原则, 16个主成分命名如下表7。图7 因子个数碎石图表8 因子分析确定的国内生物化学研究结构1.牛血清蛋白研究2.热休克蛋白研究3.多糖研究4.PCR5.生物信息学6.蛋白质组7.基本特性8.代谢组学牛血清蛋白0.932荧光光谱0.9相互作用0.615热休克蛋白0.909分子伴侣0.798生物学功能0.571多糖0.886生物活性0.814分离纯化0.624PCR0.886荧光探针0.821基因0.509生物信息学0.815蛋白质相互作用0.815蛋白质组学0.608蛋白质组0.845双向电泳0.89功能0.904结构0.898代谢组学0.808质谱0.6189.金属硫蛋白10.制备11.胶原蛋白12.纯化13.纤维素酶14.超氧化岐化酶15.高效液相色谱16.基因工程8 结果分析 根据上述国内生物化学领域的研究结构结合文献对结构逐一解读和阐述。(1)牛血清蛋白研究近年来牛血清蛋白的研究在国内生物化学界比较热门。在研究时,一般主要是通过对相互作用的研究来进行具体的探究,同时,有极大的情况下会用到荧光光谱法。牛血清蛋白在牛血液中主要起维持渗透压作用、PH缓冲作用、载体作用和营养作用,通过荧光光谱仪测定牛血清蛋白的荧光光谱,可以从原子尺度上分析牛血清蛋白的结构,以及牛血清蛋白与血液中其他成分间的相互作用,还可通过荧光光谱,测定牛血清蛋白的变性过程,有利于研究牛血清蛋白在不同环境下活性的变化。(2)热休克蛋白研究近十年以来,国内对于热休克蛋白的研究也不在少数,且关注度比较高。在研究热休克蛋白的过程中,往往会涉及到分子伴侣的研究,同时涉及到了生物学功能的概念。热休克蛋白是昆虫组织或细胞由热或其他化学的或环境的刺激诱导产生的一类蛋白质,其基因在一般情况不会被表达,而当环境温度升高或者其他环境刺激时,其基因被显著表达,合成出的热休克蛋白作为分子伴侣,和机体内其他蛋白质结合,这有助于提高机体的耐热性和应激性,对热休克蛋白的深入研究有利于了解热休克蛋白的其他生物学功能,比如其具有的促进细胞内糖原异生和糖原生成的作用等。(3)对多糖的研究多糖的研究中,除了以“多糖”为关键词,同时还有“茶多糖”、“茯苓多糖”、“植物多糖”、“生物多糖”都是国内研究所涉及到多糖相关的研究热点;多糖结构、多糖活性等也在研究所涉及的范围之内。由因子分析所得结构图可以看出,多糖研究常常涉及到分离纯化的处理以及生物活性的研究。 多糖广泛存在于动物、植物和微生物细胞壁中,毒性小、安全性高、功能广泛,具有非常重要与特殊的生理活性,是由醛基和酮基通过苷键连接的高分子聚合物,也是构成生命的四大基本物质之一。对多糖的研究常采用分离纯化的方法,从细胞液中分布进行溶剂提取、除蛋白、脱色及除小分子杂质,可提纯出较纯的多糖链,再采用紫外光谱及荧光光谱对其结构做深入研究。(4)PCR在近十年来被引次数较多排序中,前几位的文章多有涉及到PCR技术,其与基因研究和荧光探针方法的使用是密切相关的。虽然“PCR”关键词出现次数并不高,但是含有PCR的关键词,如“定时定量PCR”、“荧光定量PCR”等。聚合酶链式反应(PCR),是一种分子生物学技术,用于放大特定的基因片段。可看作生物体外的特殊DNA复制,合成时以一条DNA链作为母链,用荧光探针测定每一位核苷酸序列,并使用相应原料进行子链的延长及架构。这种技术实现了人工合成基因片段,这对研究人体的DNA序列具有重大贡献。(5)生物信息学生物信息学的相关研究大多离不开蛋白质组学的研究,同时也多数情况下涉及蛋白质相互作用的研究。生物信息学是一门通过数据库及相应的运算软件,对生物体不同分子进行分类、排序及运算的交叉学科,其魅力在于用数学及计算机算法,定量的研究生物体的组分。研究一个蛋白质分子之前,可以通过查阅数据库,得到蛋白质的氨基酸序列、三维结构、以及不同蛋白质间的相互作用,在蛋白质组学的研究中,具有重要地位。如果你测定出的一条蛋白质序列,请把它放进蛋白质数据库中吧,这样方便了后人对此蛋白质的深入研究。(6)蛋白质组蛋白质组属于蛋白质组学的研究范围,在蛋白质组的研究过程中,往往会用到双向电泳的方法进行探究各方面性质。蛋白质组指一个基因组或一个细胞所表达出的全部蛋白质,蛋白质作为一种大分子结构,在生物体中以胶粒形式存在,一个蛋白质组中所包含的不同蛋白质,具有不同的电性和电荷数,通过双向电泳法,可以从两个相互垂直的方向,分离出带有不同电荷的蛋白质,再通过其他方法测定不同的蛋白质,从而达到对蛋白质组成分的详细研究。(7)代谢组学在关于代谢组学的研究过程中,通常伴随着质谱的研究。代谢组学是指对生物体中所有代谢物的定量分析,一般先对代谢物作质谱分析,测定代谢物的分子量及不同基团的原子量,再进行核磁共振和红外谱测定分子所含的官能团和共价键,氢谱测定分子中不同状态下氢的比例,从而可以推断出代谢物的详细结构。(8) 基本特性在生物化学的研究领域,往往结构的研究与功能的研究是离不开的,在其他研究领域也多有相似。除此之外,很多情况下性质的研究也会和结构、功能绑定。通过研究物质的结构特征、性质,推断其功能,或者根据现有功能的了解推测其结构的组成。这是一种比较常见的研究方法。9 总结本文以近十年国内生物化学领域的高频关键词为数据基础,通过共词分析法对研究热点进行了分析,以期望能够较为清晰地揭示出近十年国内生物化学领域研究热点的结构和内容,并最终得出了以下结论。 (1)通过聚类分析和因子分析的方法,将国内近十年来生物化学领域的研究热点主要分为两个大类八小类。其中,前七类为具体的研究领域,而第八类则属于适用于各领域的一种研究方法。(2)国内生物化学研究的维度。生物化学本身是一个比较大范围的概念,其划分的维度各不相同,国内主要是通过具体某一项研究成果的应用以及教学、实验相关两个维度来研究的。其中教学相关的部分不在本次实验范围内,对于某项具体成果的应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论