




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
当下传统学术评价体系的弊病显现,学术信息在线交流迅速发展,交流模式也更为多样化。基于此,互联网社交媒体成为学者在线交流的重要选择。Mendeley凭借其强大的社交功能和文献存储功能,得到学者们的广泛关注,成为Altmetrics的主要指标。纵观目前国内外对其研究现状发现,学者对于Mendeley的替代计量学(Altmetrics)指标的阅读数研究已经非常成熟,但很少有学者对Mendeley平台的学者相关信息及学者发表的文本内容进行分析。因此,本论文选取Mendeley社群信息,对Mendeley平台学者信息以及社群文本内容进行细致化研究,从学者信息、学者发表文本内容和文本内容情感倾向3个方面对其文本内容展开研究,希望可以通过对文本内容的深入分析,查看学者的学术迹象,探究学者的研究动机和行为,从而进一步地促进学术交流和科学评价,推动Altmetrics的深入研究。1研究综述内容分析法是针对内容开展系统、定量和客观的研究方法,在很多方面不同于传统的分析方法。它将非定量的内容转化为定量可测度的数据,根据数据对材料内容中有意义的词句进行定量化的事实推断。相比其他方法,内容分析法对组成内容的结构和因素会探究得更为规范化和细致化。2013年黄炎宁[1]选取了国内三家传统新闻媒体的官方微博,采用内容分析法和深度访谈法对其信息的娱乐化进行探究,以此来阐释社会对数据民主的困惑。2017年王鹏飞[2]等人借助文献研究的方法对国内外Altmetrics相关论文进行系统梳理,提出网络社交媒体评价论文内容的归类方式,以此作为开展Altmetrics内容分析的基础。2018年刘嘉琪[3]等人将微博作为研究对象,从用户和企业两个角度,使用泊松回归模型对用户卷入情感和EGC沟通内容等特征开展研究。研究发现用户维度里的点赞数、积极的评论等会推动用户进行有效转发;企业维度里描述服务、产品细节的内容、有说服力的内容也可以刺激用户进行转发关注。2018年甘春梅[4]等人对获取的54篇关于网络用户行为的论文,使用内容分析和两阶段综述方法,重点分析论文涉及的研究主题、理论、自变量等。李广欣[5]采用内容分析、统计分析和大样本调查等方法,探究科技类期刊所开设的微信公众号推送文章内容质量特色和推送服务发展现状。进行文献梳理,笔者发现从Altmetrics内容分析角度分析Mendeley平台的研究较少,而且文献也反映出在线学术信息交流已然成为一种学术模式,需要对其内容进行更为系统、透彻的分析。这为笔者开展Altmetrics内容研究提供了一定的契机。鉴于社交媒体学术交流的发展趋势[6],以及对Mendeley文本内容探究的不足,本文提出对Mendeley平台Altmetrics指标文本内容进行细致化研究,推进学术在线交流发展、改善现行学术影响力评价机制、促进Altmetrics研究和服务的长足发展。2数据处理Mendeley是一个在线学术社交网络平台,它可以获取网页上的文献信息,并将其添加到个人图书馆中。利用Python爬取网站中所有群组的外部信息和内部信息作为数据样本,进行论文后续研究的展开。整个数据爬取[7]的流程一共分为两大步骤:第一步是检索出所有能被搜索出来的group信息和地址并在数据库层去重,为了提高效率使用多线程的方式来获取数据;第二步是使用去重后的group地址,获取group详情和所有文本及评论信息。在爬取数据过程中遇到的难点有两个:一个是只有当加载更多显示在可视范围内才能真正加载数据;另一个是IP被屏蔽,需要利用切换代理的方法实现爬取目标。数据质量的好坏关乎研究的质量,本文为了探究Mendeley的Altmetrics指标的文本内容情感分析,通过python[8]直接爬取Mendeley的社群文本学术信息数据,这在一定程度上保障了本研究的科学性、专业性和严谨性。本文在数据处理阶段,选择多种工具相结合,以期可以使笔者的数据处理过程尽量合理化。3社群分析3.1学者信息分析对Mendeley中106174个群组进行清洗,清洗后得到2112个群组,每个群组都有自己讨论的专题,对人数前10的群组成员和组名进行可视化分析,得到表1,分析发现,人数排名靠前的对生物、医学等学科较为关注,同时论文撰写、定性研究方法等关于学术研究方法和投稿撰写论文的较学术的群组也备受成员关注。表1Top10群组人数及群组名称通过对Mendeley读者信息进行分类,所有学科群组的读者大多是硕士研究生、博士研究生和博士后,但也有其他学者参加。根据平台注册人员的学历进行分析,平台用户一般为学历较高的高素质学者。3.2学者文本内容分析我们爬取社群中每个用户在所在的group所发的每条文本信息,通过统计发现,清洗之后共得到11561条情感文本数据,笔者利用nltk分词方法对情感文本数据进行分词处理,然后进行数据清洗,去掉冠词、介词、代词等高频却没有意义的词之后共得到41696条分词,对分词进行词云分析、主题分析和内容分析。对所有文本内容进行词云可视化分析得到图1。图1群组文本内容词云图通过对Mendeley群组原文信息进行人工判读,发现Mendeley群组原文涉及的学术内容不仅是学术论文,它已经涉及学术产生的整个流程和轨迹,并对它的各个方面加以社会化宣传。本文将人工判读结果和现有文献结合,将其涉及的学术交流内容划分为三大类,主要包括学术前沿、会议报告及专业求助,具体内容如表2所示。表2Mendeley群组内容分类3.3文本内容情感分析情感分析是自然语言处理中常见的情况,比如电商平台[9]商品评价、社交平台[10]评论评价、社会舆情[11]分析等,本论文对Mendeley平台社群文本信息进行情感分析,可以帮助我们探究相关用户对学术信息的认同和喜爱程度,有助于分析社会大众对于多样化学术信息的认知是否存在社会风险。本文采用搭建门控循环单元(GRU)网络的深度学习方法对群组的讨论内容进行情感分析。3.3.1词向量从本质上讲,机器学习和深度学习都是数字的数字。用数学向量的方式表示单词的所有含义,用向量的数值和方向来共同表示,词嵌入是将高维度的词降维成多个低维度词的过程,以期构建语言模型,每个单词或短语都映射到实数字段中。在底层输入中,使用词嵌入来表示词组的方法极大提升了NLP中语法分析器和文本情感分析等的效果。WordEmbedding(词嵌入)就是将单词映射到向量空间里,并用向量来表示。本文的初始词向量由词语的索引组成,比如词组[apple,pink]在程序生成的词典中对应的索引为1、2,那么[apple,pink]可表示为数组[1,2],为了将词语进行更高维度的表示,需要在GRU网络的第一层加入WordEmbedding层。3.3.2搭建GRU网络GRU即GatedRecurrentUnit,时长短记忆网络的一个最好变体。LSTM解决了传统循环神经网络无法很好处理远距离依赖的问题,GRU和LSTM具有同样出色的结果,甚至比LSTM效果还要明显。GRU比LSTM适用范围更广,精确度更高,由于GRU的门数少于LSTM,且参数较少,因此训练起来也相对容易,并且可以防止过拟合(训练样本少的时候可以使用防止过拟合,训练样本多的时候则可以节省很多训练时间)。因此GRU是一个非常流行的LSTM变体,保持了LSTM的效果同时又使结构更加简单,本文使用python的keras模块搭建GRU网络。网络结构中最上层是嵌入层,达到将低维度的词向量转为高维度的词向量表示的效果,GRU层即GRU网络的主体部分,主要应用于自然语言和时间序列领域,第三层的Dropout层在缓解过拟合问题方面有突出贡献,Dense层即全连接层,最后网络的输出层输出该内容的情感分类评分,分数区间为[0,1],与0越远,内容更倾向消极;与1越近,内容更倾向积极,本文设置阈值0.3,即[0,0.3]区间内容被判断为消极,在[0.3,0.7]区间内容被判断为中性,在[0.7,1]区间中内容被判断为积极。3.3.3训练GRU网络本文使用的训练数据是50000条被标注的tweeter评论,评论被标注为积极和消极,没有中性评论,为了使用这些数据,同样需要进行分词、去停用词等数据清洗操作,如表3所示。将50000条数据分为训练集和测试集,本文随机抽取了5000条数据进行测试不参与训练,使用训练集对网络迭代40次后,得到的网络损失值折线图如图2,在经过40次训练后,网络的正确率已经达到90%以上,但由于只要有足够参数,神经网络理论上可以拟合任何函数,所以使用测试集即进行测试,最后得到网络的精确度为80.04%,证明了网络的有效性。图2网络训练损失3.4情感分类情感分类是情感分析的核心,情感分类方法包括二分法、三分法和多元情感分类法。其中,二分法包括积极和消极两种,三分法包括积极、消极和中性3种,多元情感分类法是根据文本内容和作者分类意图,可以对情感进行更加多层次细致的划分,更加清晰的分析文本或者评论的态度,使文本的主观性态度可以利用定量的方式表达出来,最终的结果可以对特定文本中观点信息进行提取,分析其是支持还是批评。本文笔者在对聊天数据进行数据清洗和词向量转换后,可以输入GRU网络中进行情感分类,最后得到的分类如图3所示。图3情感倾向分类从图3可见他们的绝大多数推文内容(中性内容占87%)都对文章所涉及的问题进行了一般性讨论,其中一部分人(6%)根据文章提供了与之相关的建议。这些因素表明了与非学术受众互动的真实案例。但是,将近7%的帖子对所讨论的问题提出了一些批评。而在学术文章中很少有明确的批评,因此表明Mendeley是表达感情更明确的重要科学活动的平台。4结束语和展望4.1研究结论本文在对学术影响力评价方式寻求改变的背景下,选择了Mendeley平台所有的社群数据,本文共得到有效个人组建社群信息106174组,有效机构社群信息209组。构成本研究的基础数据集。将Mendeley社群内容划分为3个维度,分别是社群群组维度、社群群组原文文本维度和社群群组原文文本情感维度。其中:(1)社群群组维度主要探究“谁在使用Mendeley增加学术成果社会影响力价值并积极参与公共事务谈论”;(2)社群群组原文文本维度主要分析“群组谈论什么内容”;(3)社群群组原文文本情感维度则探讨了“个人学术者,学术组织以及游离于学术组织之外的学术参与大众对于这些学术成果的情感倾向度是怎样的”。研究发现:Mendeley平台社群群组关注学术信息;学术信息发布者呈多元性和专业化;学术信息内容多样化和差异化;学术信息网络舆论导向良好。因此Mendeley平台传递学术信息有质量保障,具有可用性,促进了网络学术共同体的成立,有效提升学术成果的社会价值和学术价值,在一定程度上降低了知识鸿沟现象,有利于知识信息的民主化。4.2研究不足本文的不足主要有以下4点:(1)本文的研究虽然选取了较全面的Mendeley社群群组学术信息数据,但是因为网站数据爬取受限制,涉及的指标群组外部信息维度较少,只有群组名称,群组介绍、群组成员,如果技术突破,爬取到更多的外部信息的话,分析得会更加客观全面。(2)笔者在对Mendeley用户原文涉及的内容进行分类时采用了人工阅读的方法。人工判读的方式对内容进行分析,不可避免地会造成一定程度上的误差。虽然本论文采用了两人同时判读的方式来预防和遏制这些可能存在的误差,但还是会有小概率的歧义问题。未来的研究中,我们需要寻求更为客观科学的方法来应对可能产生的歧义问题。(3)社群文本内容采用计算机语言和软件对情感色彩进行判断,软件只能分析出研究主体情感的积极性、消极性、中性,文本内容对主体的作用和意义暂时都没有办法进行探究。对情感倾向更为细粒度的研究和分析,也是之后研究的方向,借助其他学科实现文本内容的细粒度划分。(4)Mendeley虽然是学者在线学术交流的良好平台,但是其自身的易控性,也可能带来影响力造假,还可以进行商业性的水军阅读和转发,这些都是人为操作而出现的社会关注度,这里面不涉及学术信息的交流和理性思考,这不是学术影响力而仅是相关信息的推广力度。本文的研究并未能深入到此,这也将是笔者之后研究的重点。4.3研究展望本文紧跟计量学发展新趋势和学术交流在线化步伐,以Mendeley平台的官方数据为研究出发点,利用Python、Selenium、分词模块等工具,采用文献分析法、内容分析法和情感倾向分析法等,对Mendeley的社群群组展开内容研究,探究其研究内涵和价值。本论文的研究水平和研究时间有限,内容会存在某些局限性,之后对Mendeley的Altmetrics指标的文本研究可以从以下3个方面开展:(1)Mendeley的Altmetrics指标传递出的学术信息评价标准。既然希望通过学术成果的社会影响力改善现有的学术评价机制,那我们就有必要对网络化的学术信息
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年培训机构合作协议书
- 内科护理病例分析
- 《无偿献血科普教育场所建设指南》编制说明
- 高考数学复习讲义:相互独立事件与正态分布
- 定语从句-2024年中考英语常考语法点+题型练习(江苏专用)
- 《差不多先生传》名著导读好书2
- 歌曲好儿童课件
- 肿瘤病人回访总结
- 科学管理原理核心解析
- 抑郁心理护理
- DB33T 2239-2020 经颅磁刺激戒毒康复应用管理规范
- 智能交通信号控制系统维护方案
- 大学生公共安全教育知到智慧树章节测试课后答案2024年秋郑州师范学院
- 【MOOC】影视鉴赏-扬州大学 中国大学慕课MOOC答案
- 专项04 工艺流程图题
- 2024年成人高考成考(高起专)数学(文科)试题及答案指导
- 《石油化工储运系统罐区设计规范》(SHT3007-2014)
- 2023版设备管理体系标准
- 2024年广西高考化学试卷真题(含答案解析)
- 技术部研发奖金分配方案1
- 电视台转播和直播工作注意事项及应急预案
评论
0/150
提交评论