




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要:伴随互联网技术普及与短视频行业发展,不断有用户涌入各类网络视频创作平台,既为网络信息爆炸式增长贡献力量又试图从中获取所需信息。本文通过网络爬虫技术获取某关键词下推送内容评论区内容相关数据,利用数据处理与可视化技术开展主要关注点、情感分析等工作,探究大众对有关内容的态度,实现大数据有关技术在体育行业应用新方向。关键词:中长跑;数据;分析;可视化;技术;引论研究背景中考体育作为一项贴合我国国情实际需要,由我国提出的深化体教融合的社会工程,对推动我国青少年学子文化学习与体育锻炼协调发展具有重要指导意义。新课程改革背景下的体育与健康课程以发展学生核心素养和增进学生身心健康为主要目的,要求学生学会相应必备的健康与安全的知识与技能,积极参与体育锻炼,掌握与应用体能和运动技能;与之对应的是在体育中考中要体现对学生运动能力、健康行为、体育品德等方面的考核,然而在实际政策推行过程中难免存在横向评价维度片面问题,单一考核标准难以界定学生参与体育活动深度;鉴于场地限制与偏重“身体素质”的考核评价,学校体育课程大部分精力耗费在枯燥的身体素质训练上而忽视运动技能及技巧的训练。伴随现代社会互联网普及,越来越多人选择通过互联网及衍生流媒体平台获取信息[1]。如此庞大的群体涌入互联网平台对应的产生供需市场,面对群众获取各类信息的需求,越来越多博主活跃于各大视频创作社区或流媒体平台自行创作分享内容。以哔哩哔哩这一PUGC社区为例,截至2023年第三季度数据显示,该网站日均活跃用户为1.03亿人。对于体育中考项目训练安排,学生及家长往往更倾向于选择练习时间较短、成效更为显著的方式。学者从科学角度论述各项目体现的运动能力需要及科学的训练安排通常是从提升学生长久身体素质与运动能力角度出发,需要长期坚持才可看见效果,也不似一般博主创作能够说明某次训练是为解决何种问题。此外得益于互联网与有关可视化、信息化等技术发展,受众还可及时与博主分享或接受线上指导。综上大众从互联网平台浏览博主分享视频获取有关信息的方式还有待开发,且极具应用前景。研究意义从前文可知,本次论文研究主要以某个具体视频为例展开相关程序试运行,寻求是否某种可广泛推广的模式。通过爬取某关键词下平台自动推送的热点视频评论区观众留言,利用Python进行分析,寻找视频受众主要关注点、情感态度等信息。观众关注的内容可以反映出在实践活动中观众普遍、迫切需要解决的“痛点”问题,帮助有类似需求的观望者快速获取解决办法;也可作为视频创作者的“风向标”,帮助创作者明确市场需求,生产符合大众实际需要的高质量内容。由于短视频博主创作水平良莠不齐,平台审核工作繁琐难以面面俱到等众多原因难以保证每条视频都能解决学生的实际需要。除此以外,各平台上有关视频数量众多,观众反馈褒贬不一等因素无疑也为有需求者挑选方案带来更多干扰选项。借助数据挖掘处理等技术筛选出评论区观众积极情感态度词占多数的视频将有利于为潜在受众个性化推荐接受度较高的训练方法。该项研究能为大数据有关技术跨界服务大众提供实践检验,相关模式也可进行跨界推广。相关技术理论基础本次论文主要在Python环境下完成,使用到的有关模块为pandas、request、snownlp、matplotlib、jiebe等[2],其优势在于(1)具“伪代码”特性,可使使用者仅关心完成什么样的工作任务,而不必纠结于语法;(2)其是开源的,与最受欢迎的开源大数据平台具有很好的兼容性,还拥有相当多的第三方拓展库,可广泛应用于数据分析、网络爬虫等多个领域。数据有关技术本文数据主要来源于网络爬虫,这是一种按照既定规则在网络上自动爬取信息的程序脚本。其工作流程大致可分为四步:=1\*GB3①确定初始URL作为入口;=2\*GB3②发送请求下载对应网页;=3\*GB3③分析网页内容,提取所需要的信息;=4\*GB3④提取页面中的链接作为新的URL,然后循环执行上述流程直到满足条件。本次论文数据爬取过程中主要调用Request库,它是一个较为实用的PythonHTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到。可用于发送HTTP请求和处理相应,提供简洁且简单易用的API,使得HTTP请求变得更加便捷。相比urllib库,它的语法模块会更加简单,而且它是有中文官方文档可作参考的。在数据处理阶段主要应用到Pandas库,其基于数组形式提供了极其丰富的数据操作,本文主要应用其读取数据采集文件并进行数据清洗和预处理,包括去除重复值、正则清洗和分词。作为Python的核心数据分析支持库,能够简单直观地处理关系型、标记型数据,主要数据结构为一维数据和二维数据,可处理金融、统计、工程等领域内的大多数典型用例,该库可参与数据分析的整理与清洗、分析与建模、可视化与制表等阶段。可视化技术数据可视化是为了数据更高效的反映情况,便于读者高效阅读。利用该项技术能够以图形图片的形式直观展现出关键特征与某种规律,还可根据需要从不同维度观察进行深入研究。本文主要使用Python中的一个2D绘图库——Matplotlib,以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,例如线性图、散点图等。文本分析技术本次论文对有关文本内容的分析主要借助LDA模型。其是一种用于主题建模的概率生成模型,是一种无监督学习算法,用于从文本集合中发现隐藏的主题结构。LDA假设每个文档是由多个主题组成的,而每个主题又由多个单词组成。通过对文档和单词的统计分析,LDA可以推断出每个文档中各个主题的概率分布以及每个主题中各个单词的概率分布。该项算法可用于=1\*GB3①主题识别:确定评论中讨论的主题或话题,从而了解用户关心的具体问题或感兴趣的内容。=2\*GB3②情感分析:识别不同主题下用户的情感倾向,包括正面评价、负面评价或中性态度,以便更好地理解用户对特定话题的看法。=3\*GB3③关键词分布:发现主题相关的关键词及其在不同主题中的分布情况,有助于理解用户对某一话题的关注点和重点内容。=4\*GB3④用户兴趣挖掘:根据不同主题下的评论内容,分析用户对产品、服务或话题的兴趣和偏好,可用于个性化推荐或定制营销。=5\*GB3⑤趋势分析:根据主题的变化和演化,了解用户关注的话题随时间的变化趋势,有助于制定相应的业务策略。文本处理技术Jieba分词作为Python中的分词库,在使用时通过importjieba导入。主要利用中文词库确定汉字之间的关联概率,将使用者提供的一段中文文本切分为独立词语;除分词外用户还可自定义添加词组。Jieba分词主要有三种模式:=1\*GB3①精确模式:可对文本内容进行精确划分,使得所得结果内不存在冗杂词汇;=2\*GB3②全模式:该模式下可将文本中所有可能构成的词语扫描出来,速度非常快,该模式下无法解决歧义;=3\*GB3③搜索引擎模式:是在精确模式的基础上对长词再次切分,能够提高召回率,主要适用于搜索引擎分词。TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。TF-IDF技术相较其他而言简单快速,有关技术原理容易理解。但在实际使用过程中用词频来衡量文章中的一个词是否重要稍显片面不够有理有据;某些时候重要的词出现的可能不够多。除此以外这种计算无法体现位置信息,无法体现某一词在文章结构中的重要性。Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。主要优势在于可高速处理大规模文本数据,它支持包括TF-IDF,LSA,LDA和word2vec在内的多种主题模型算法。语料库制作主要包含两个过程:=1\*GB3①获取词袋:本文主要来自于jieba分词结果;=2\*GB3②向量转换:对获取的词袋进行向量转换。前期调研为获得相对客观的体育中考实施情况,探求在体育中考这一政策中广泛采用的项目设置,笔者实地探访海南白沙金波实验学校,并委托在海南省各地实习的同学与当地体育教师交流,收集学生实际参考体育项目情况。结合论文研究需要,通过访问中国知网、各省市教育局官方网站、各地政务服务平台等途径检索了有关体育中考项目设置的有效政策、文件及相关论文等文献资料,对收集到的资料进行汇总归纳整理。利用Excel软件对收集到的数据进行简单预处理后对相关数据进行整理归类汇总,利用统计软件SPSSAU分析得出我国部分城市体育中考项目设置[4]。本次总共收集来自我国31个行政区(除澳门香港特别行政、台湾省外,部分省份仅采用省会城市体考方案或2023年体育考核方案)体育中考项目设置信息。本次统计筛选出入选频次较高的身体素质类项目与运动技能,具体如下图。图3-1各省体育中考项目设置据此发现中长跑(男子1000m,女子800m)在多地出台的考核标准中均作为必考项目,多地学生也反馈该项目在体育中考项目中分数占比较大,难度较大,在项目上的练习时间较长。以某视频为例的分析数据处理导出爬虫获取的数据后首要是进行数据清洗工作,主要包括去重和正则清洗两个步骤:首先,通过使用drop_duplicates函数对原始数据进行去重操作。在代码中,根据评论内容这一列进行去重,并将去重后的结果重新赋值给新的DataFrame。这样可以确保每条评论内容的唯一性,避免出现重复的数据。接下来,进行正则清洗的步骤。正则清洗主要是针对评论内容这一列的内容,去除除了中英文字符和数字以外的其他字符。具体实现通过使用正则表达式的方式,调用re.sub函数进行替换。在代码中,使用正则表达式[^\u4e00-\u9fa5^a-z^A-Z^0-9^,.,。!:]|,将评论内容中除了中英文字符、数字和部分标点符号(逗号、句号、感叹号、冒号)以外的字符都替换为空格,从而实现清洗效果。清洗后的结果保存为新的DataFrame,并将其写入Excel文件。通过这样的数据清洗过程,可以确保数据的准确性和一致性,使得后续的数据分析和处理更加可靠和有效。主要关注点分析在该环节需要使用到前文所诉TF-IDF技术。TF计算公式如下:tfTF其中是ni,j该词在文件dj中出现的次数,分母则是文件djIDF其中D表示文件总数,Di实现评论内容主要关注点的词频分析可以按照以下步骤进行:首先读取经过数据清洗的评论内容数据。使用jieba库对每条评论内容进行分词处理,得到分词后的结果。创建一个空的列表或字典用于存储词频统计结果(本次文章数据主要利用groupby函数进行统计)。遍历分词结果列表,对每个词语进行词频统计,将词语及其出现次数添加到词频统计结果中。对词频统计结果进行排序,可以按照词频降序排列。本次论文共爬取到有关数据六千加,为减少不必要工作量,设定阈值,过滤掉低频词语,只保留出现频率较高的词语;此外采取手动录入与实际应用无关的“停用词”保证分析范围的有效性。最后将词频统计结果进行可视化展示如下。图4-1主要关注点词云图从图中可以看出在该自动推送视频评论区下观众多在描述表达自己有关情感感受、关注该项目体育考试成绩及寻求某具体问题解决方案。LDA主题分析LDA主题分析的实现过程如下:首要准备好经过数据清洗和预处理的文本数据。使用gensim库构建语料库和词袋模型,将文本数据转换为可用于LDA模型的格式。设置LDA模型的参数,包括主题数量、迭代次数、词频阈值等。使用LDA模型训练语料库,并得到主题-词语分布和文档-主题分布。根据需求,选择合适的方法获取每个主题的关键词,可以是按照权重排序或者设定阈值筛选。可以使用pyLDAvis库对LDA模型进行可视化,生成交互式的主题模型可视化图表,并保存为HTML文件。分析LDA主题分析结果,根据关键词和文档-主题分布了解每个主题的含义和特点,理解文本数据中不同主题的分布情况。可以进一步对文本数据进行主题分析,根据文档-主题分布确定每个文档最可能的主题,并将主题信息添加到原始数据中。本次论文有关分析基于余弦相似度进行,主要是通过计算两个夹角的余弦值来评估它们之间的相似度,与欧氏距离相比,更加注重两个向量在方向上的差异。该算法将向量根据坐标值绘制到向量空间中,计算两向量的夹角θ,通过θ的大小去判断两向量的相似程度。夹角越小说明越相似,反之则不相似。假设存在两个n维向量A和B,A=[A1,A2...,An],B=[B1,B2...,Bn],则A与B的夹角的余弦由确定。余弦值总是在[1,1]之间,余弦值越趋近于1,代表两向量方向越接近;越趋近于1,代表两向量方向越相反;接近于0,代表两个向量近乎正交。一般情况下,需要将相似度归一化到[0,1]区间内,由确定。通过计算,筛选后数据最佳主题数为3图4-2评论LDA主题数寻优情感分析本文适用snownlp库进行情感分析,对所获取的六千加评论内容列进行情感分计算,将大于0.7分定为积极,介于0.3-0.7定为中性,小于0.3定为消极。本文采用的情感评分算法公式为:情感评分=(积极词个数×积极词的权重)-(消极词个数×消极词的权重)+(中性词个数×中性词的权重),完成计算后统计输出结果。图4-3评论情感分析占比评论区消极词汇多为观众在表达自己对该项体育项目测试的悲观态度,表明考生在日常参与训练时往往对该项目存在抵触甚至于厌恶心理,无法排解自身对该项目的恐慌情绪。从侧面说明除必要的身体素质训练外相关从业者需要关注受试者的心理素质状况,适当安排趣味化训练以激发学生学习热情,克服负面情绪情感。积极词汇多为观众感谢视频创作者的内容分享及互相鼓励,说明该视频实现了较为良好的双向交流平台建立。从侧面反映该条视频内容质优且适合寻求认同感或需要情绪价值提供的小伙伴。总结与展望总结与反思笔者作为非大数据专业学生对Python语言及各项大数据有关技术的认识和实际应用难免会有所缺失,在分析环节会由于缺乏完整的技术理论体系支撑而使所做研究略显片面单薄。在当前各种世界发展趋势下,大数据技术仍可跨界应用于多领域的数据分析,本文旨在通过一个实例研究探求有关技术与体育短视频创作行业的跨界融合的可能性,并完成一些力所能及的前期准备。展望由于本科阶段知识储备能力有所限制,笔者仅能对单一视频进行分析与探究,且途中所采用的各类算法还有待优化。目前单一短视频推荐容易存在推荐模式固化,无法结合学生个性化需求和偏好来提供符合个体差异的个性化方案。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理安全培训 2
- 2-7逻辑运算的基本规则
- 统编版语文五年级下册第23课《童年的发现》精美课件
- 新乡学院《傅里叶分析与小波分析》2023-2024学年第一学期期末试卷
- 聊城大学东昌学院《混凝土结构原理与设计》2023-2024学年第一学期期末试卷
- 乐山师范学院《信息检索与科技写作》2023-2024学年第二学期期末试卷
- 四川省江油市2024-2025学年第二学期初三第一次模拟考试化学试题含解析
- 天津市职业大学《隶书技法》2023-2024学年第二学期期末试卷
- 潍坊科技学院《建筑安装工程概预算》2023-2024学年第一学期期末试卷
- 上海市宝山区上海交大附中2025届高三下5月第一次质量检测试题物理试题试卷含解析
- 第9课 改变世界的工业革命(课件)
- 2024年中小学“书香校园”读书节活动方案
- 核安全基础课件
- 杜绝形式主义-从我做起
- 麻醉三基培训课件
- 学生牛奶、糕点配送服务承诺及售后服务
- 垃圾分类引领绿色生活新潮流
- 排水箱涵研究报告
- 地域的永恒魅力教案
- 体制内年度工作总结
- 卡通风幼儿园餐前播报
评论
0/150
提交评论