基于Python的音乐评论数据的分析研究

上传人：十*** IP属地：广东上传时间：2025-01-12 格式：DOCX 页数：27 大小：1.07MB 积分：50 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录1引言（绪论）31.1研究背景及意义31.2全文的框架结构32相关技术介绍33数据获取的实现43.1爬虫的设计思想43.11歌单数据53.12最优歌单53.13歌曲评论数据53.2爬虫的实现与结果展示63.21歌单数据爬虫代码实现63.22最优歌单代码实现83.23歌曲评论爬虫代码实现94数据预处理分析及可视化134.1数据预处理134.2数据分析154.21关于评论的分析154.22LDA主题分析174.23基于时间的情感趋势分析以及热评分析204.24情感趋势在时间维度上得分析214.3数据可视化平台235总结246引用文献25致谢摘要：音乐评论数据作为一种重要的用户生成内容，反映了听众对音乐作品的主观感受和评价。然而，由于音乐评论数据具有海量、非结构化等特点，传统的数据分析方法往往难以应对。因此，如何利用现代技术手段对这些数据进行高效、准确的分析，成为了音乐研究领域亟待解决的问题。……关键词:爬虫；机器学习；数据分析；网易云；情感分析1引言（绪论）1.1研究背景及意义音乐作为人类文化的重要组成部分，一直以来都承载着表达情感、传递信息和记录历史的重要使命。随着互联网技术的飞速发展，音乐产业也迎来了前所未有的变革。在线音乐平台如雨后春笋般涌现，为广大音乐爱好者提供了海量的音乐资源以及互动交流的场所。在这些平台上，用户不仅可以欣赏到各种风格的音乐作品，还可以发表自己的评论和观点，形成了一个庞大的音乐评论数据集合。音乐评论数据作为一种重要的用户生成内容，反映了听众对音乐作品的主观感受和评价。然而，由于音乐评论数据具有海量、非结构化等特点，传统的数据分析方法往往难以应对。因此，如何利用现代技术手段对这些数据进行高效、准确的分析，成为了音乐研究领域亟待解决的问题。近年来，随着Python等编程语言的普及以及爬虫、机器学习等技术的发展，为音乐评论数据的分析提供了强有力的支持。Python作为一种易学易用、功能强大的编程语言，在音乐数据处理、分析以及可视化等方面具有得天独厚的优势。同时，爬虫技术可以帮助我们自动化地收集音乐评论数据，极大地提高了数据获取的效率和准确性。而机器学习技术则可以通过对大量数据的训练和学习，发现数据中的隐藏规律和模式，为音乐评论数据的深度分析提供了可能。[5]基于上述背景，本文旨在利用Python编程语言是应用爬虫技术抓取最近时间内的音乐相关数据引入paddlehub进行情感分析对音乐评论数据进行深入的分析和研究，探究听众对音乐作品的态度和情感倾向；同时，结合机器学习算法，对评论数据进行逻辑回归分析，挖掘其中的潜在信息和价值。本文的研究主旨是针对于用户的评论情感进行着重分析，探索用户在不同的维度下情感的变化。1.2全文的框架结构2相关技术介绍数据爬虫：我主要采用了Selenium和Requests这两个强大的工具。Selenium是一个用于自动化Web浏览器操作的工具，它模拟真实用户的行为，能够执行如点击、输入、滚动等浏览器操作，从而获取网页上的动态内容。Selenium支持多种浏览器和编程语言，具有高度的灵活性和可扩展性。通过使用Selenium，我能够轻松地爬取那些需要用户交互或JavaScript渲染的网页数据，有效地克服了传统爬虫在处理这类网页时遇到的困难。而Requests则是一个用于发送HTTP请求的Python库，它简洁易用，功能强大。通过Requests，我可以方便地发送GET、POST等请求，获取网页的HTML内容，进而进行解析和提取所需的数据。Requests还支持自定义请求头、cookies等参数，以及处理网络异常和重试机制，使得我的爬虫程序更加稳定和可靠。数据处理：我主要采用了pandas这一强大的数据分析工具。pandas是一个开源的Python数据分析库，它提供了丰富的数据结构和数据分析工具，使得数据清洗、转换、聚合和可视化等操作变得简单而高效。通过使用pandas，我能够方便地处理各种类型的数据，包括结构化数据、时间序列数据等。pandas的DataFrame和Series数据结构为我提供了灵活且强大的数据容器，使我能够轻松地存储和操作数据。同时，pandas还支持多种数据格式的导入和导出，如CSV、Excel、SQL等，这使得我能够轻松地与其他数据源进行交互。数据分析：我主要借助了sklearn和PaddleHub这两个强大的工具进行情感得分的计算和分析。首先，sklearn是一个功能强大的Python机器学习库，它包含了多种经典的机器学习算法和工具，非常适合用于数据分析和挖掘。在情感得分计算中，我主要利用了sklearn提供的分类算法，如逻辑回归等。其次，PaddleHub是飞桨生态下的预训练模型应用工具，它提供了丰富的中文预训练模型，以及便捷的模型迁移学习功能。在情感得分计算中，我借助了PaddleHub提供的预训练模型，如情感分析模型等，直接对文本进行情感倾向的判断，并输出情感得分。这种方式无需从零开始训练模型，大大节省了时间和计算资源。数据可视化：我主要运用了pyecharts、matplotlib和seaborn这三个强大的工具来呈现和分析数据。首先，pyecharts是一个用于生成Echarts图表的类库，它支持生成折线图、柱状图、散点图、饼图等多种类型的图表，且图表样式丰富，交互性强。我利用pyecharts生成了直观易懂的图表，展示了数据的分布、趋势和关联关系，使得分析结果更加清晰明了。3数据获取的实现3.1爬虫的设计思想3.11歌单数据在本文的研究中，我们采用了Selenium技术来对网易云音乐的全部歌单进行爬虫操作。我们需要爬取的主要内容有：歌单标题、听众收藏数、听众分享数、歌单评论数、听歌数量、歌单标签。网易云音乐作为一个深受用户喜爱的音乐平台，其页面结构复杂，数据内容通过iframe框架嵌套展示。传统的爬虫库在处理这类页面时，往往只能获取到表面的非数据内容，无法触及到iframe内部的关键信息。为了解决这个问题，我们利用了Selenium的强大功能来模拟浏览器行为。通过调用driver.switch_to.frame()方法，我们能够准确地定位并切换到包含歌单数据的iframe框架。一旦进入正确的框架，我们就可以像操作普通页面一样，使用Selenium提供的各种选择器来定位歌单元素，并提取出所需的数据。通过这种方法，我们成功地爬取了网易云音乐的全部歌单信息，并存储在mongodb中，以便于后续的处理与分析。3.12最优歌单获得歌单数据后，考虑到时间与设备问题，不可能爬取全部歌单的全部歌曲，于是就有了最优歌单的处理这步，但是鉴于仅依赖单一数据（如收藏量或分享次数）来判定最优歌单的方法可能显得不够全面和严谨，所以决定采用更为科学的权重分配方式来综合评估各项数据。[4]3.13歌曲评论数据在网易云音乐的数据抓取过程中，我面临着由两套框架嵌套展示所带来的挑战。最初，我们尝试使用selenium库进行爬虫操作，然而由于数据量过于庞大，获取数据的速度显得缓慢且效率不高。为了克服这一难题，我转而利用抓包工具对网页的XHR进行深入分析，成功定位到了存储评论信息的链接，其格式为get?csrf_token=。在对链接的headers信息进行细致研究后，我发现服务器接收的请求中包含了名为params和encSecKey的两个乱码参数。这些乱码实际上是对真实数值进行加密后的结果，这表明网易云音乐采取了加密措施来保护数据的安全性和完整性。为了获取所需的数据，我首先需要找到这些参数在加密前的原始数值。这是一个复杂的过程，需要我深入分析网易云音乐的加密机制，并尝试还原其加密过程。一旦我成功找到了加密前的原始数值，并理解了其加密原理，我就可以模拟网易云音乐的加密过程，生成正确的乱码参数。在后续的数据抓取过程中，我将模拟生成这些加密参数，并传递给服务器。通过这种方式，我们能够绕过复杂的框架嵌套，直接获取到我需要的评论数据。这种方法不仅提高了数据抓取的效率，还为我提供了一种更为灵活和可靠的数据获取方式。综上所述，通过对网易云音乐XHR的深入分析，我成功地找到了评论信息的存储链接，并揭示了其加密机制。通过模拟加密过程，我能够高效地获取所需数据，为后续的研究和分析提供了有力的支持。在处理完问题后，我通过使用requests库获取到了所需数据，并将其导出为csv文件。3.2爬虫的实现与结果展示3.21歌单数据爬虫代码实现通过import调用所需工具库selenium及其webdriver、mon.by方法，调用time的time.sleep方法，它主要作用是引入延迟，即让爬虫程序在连续请求之间暂停一段时间。这种延迟对于爬虫的效率和合法性都是非常重要的，pymongo方法用来连接mongodb数据库用来存储爬虫数据。图1歌单爬虫关键代码一首先创建了一个ChromeOptions对象，然后添加了一个参数--headless，使得浏览器在运行时不会显示界面，这样可以节省资源并使得爬取过程更快速。这里使用XPath定位到包含歌曲链接的元素，然后遍历这些元素，获取每个元素的href属性值（即歌曲的URL），并添加到urls_list列表中。图2歌单爬虫关键代码二通过循环urls_list中的歌单链接，爬取每个歌单的数据并以字典的方式通过pymongo的insertone方法将数据存储到数据库中，最终获得的数据结构如图3所示。图3歌单信息的数据结构3.22最优歌单代码实现我们首先对整体数据集应用sklearn库中的StandardScaler方法进行了标准化处理，这一步骤有效消除了不同数据项之间量纲的差异，并有助于预防过拟合现象的发生。随后，我们创建了线性回归模型对象，并经过人为判断选择了合适的x特征（自变量）和y目标变量（因变量）。通过sklearn库的相关功能，我们进一步划分了训练集xtrain和ytrain，确保模型训练的有效性。在模型训练完成后，我们利用model.coef_方法提取了各项特征的权重系数。这些权重系数反映了不同数据项在判定最优歌单时的重要性程度，为我们提供了一个更为全面和科学的评估依据。最终，结合这些权重系数，我们成功获得了最优歌单的判定结果。最优歌单如图5所示。图4最优歌单关键代码图5最优歌单3.23歌曲评论爬虫代码实现根据设计思路我通过XHR断点调试来寻找加密的位置，标头中可以看到，请求URL为/weapi/comment/resource/comments/get?通过这个URL来提取断点，设置好断点以后，可以重新开始抓包，观察如图6中范围的data是否为常规数据，如果不是，就通过调用堆栈来查找加密位置，因为堆栈越往下就是越先执行的代码。在找的u60.be6y的时候，我发现了疑似加密的代码，在此我选择重新打上断点并重新抓包，最终获得了加密方法：“window.asrsea(JSON.stringify(i0x),bsg8Y(["流泪","强"]),bsg8Y(TH5M.md),bsg8Y(["爱心","女孩","惊恐","大笑"]))”。这个方法大概的意思就是将“i0x”的值转为字符串格式后与“bsg8Y(["流泪","强"])”的值、“bsg8Y(TH5M.md)”的值、“bsg8Y(["爱心","女孩","惊恐","大笑"]))”的值放到方法“window.asrsea(）”里面运行，并返回了需要的加密参数。图6范围分析第一个参数i0x。cursor是每页评论的固定光标，在后续分页爬取内容的时候必须将当页光标赋值给data数据，否则爬取的评论内容将与评论时间等数据不对齐，pageNo代表了每一页，爬取每一页内容时用for循环赋值给pageNo即可，pageSize代表着一页有20行评论，而rid与threadId则代表着歌曲id。图7加密前的数据分析第二个参数“bsg8Y(["流泪","强"])”。在控制台中输入“bsg8Y(["流泪","强"])”，输出的结果是“010001”。这个值是固定的，我通过多次运行发现的。结果始终是“010001”，这样子可以发现，这个值是固定的。分析第三个参数“bsg8Y(TH5M.md)”。在控制台中输入“bsg8Y(TH5M.md)”，输出的结果是一大串字符串，多次尝试后结果也和第二个参数一样是固定不变的。分析第四个参数“bsg8Y(["爱心","女孩","惊恐","大笑"]))”。答案也和前面的一样是固定的。加密的方式是window.asrsea(），继续在抓包工具中观察，通过右键可以跳转到加密方式的所在位置，点进去之后定位到了方法d，如图8所示其中，我们可以看到window.asrsea=d，并且方法d与方法a，c，d都有关系，所以我们需要对这四个函数进行分析。从头开始分析，首先分析d函数，如图8中可以大概了解到函数d的执行过程，首先从函数a中得到一个值，这个值是16位的随机数将其赋值给i，然后再用d和g传入函数b中进行加密，如图8所示，再把得到的值与“i”再进行一次加密，然后就能得到“h.encText”也就是“params”的值了。而“h.encSecKey”的值是通过函数c，传入“i”，“bsg8Y(["流泪","强"])”和“bsg8Y(TH5M.md)”进行加密所得。图8函数bb函数是一个加密函数，首先传入参数a和b，然后分别将a和b进行utf-8编码赋值，然后再把编码后的参数用AES进行加密，其中函数内定义了一个iv，也就是偏移量，是AES加密方式中必须的一个参数，mode也就是模式，CBC是加密模式。最后是c函数，c函数是生成encSecKey的关键函数。其中，c里面的参数中“i”是一个随机值，而参数“e”和参数“f”都是固定值，所以我们只要能确定“i”的值就能确定encSecKey的值了。图9window.asrsea加密方式分析完以后，接下来就是根据分析内容编写代码，首先获取全部歌曲的id，如图10所示，使用selenium库的find_elements方法获取全部的歌曲id并存在id1列表中，方便后续的爬虫。图10歌曲id爬虫接下来就是对评论数据的爬虫，通过for循环将id赋值给图7的data之后就可以进行下一步的爬虫，如图11所示，e,f,g,i这些是字符串形式的密钥或参数，get_encSecKey是一个函数，返回一个预定义的加密密钥字符串。通过get_params(data)这个函数接受一个数据字符串data作为参数，然后使用enc_param函数两次来加密数据。第一次使用g作为密钥，第二次使用i作为密钥。最终返回第二次加密后的结果。通过to_16(data)这个函数确保输入的数据data的长度是16的倍数。如果不是，它会在数据的末尾添加填充字符，填充字符的数量是使数据长度达到16的倍数所需的最少字符数。填充字符的ASCII码值等于填充字符的数量。这是AES加密中常见的PKCS7填充方法。最后enc_param(data,key)这个函数负责加密数据。它首先使用to_16函数确保数据长度是16的倍数。然后，它使用AES加密算法（CBC模式）和给定的密钥key以及初始化向量iv来加密数据。加密后的结果是一个字节串，最后通过base64编码转换为字符串形式并返回。通过requests的post方式将获取到最终想要的数据，后续可以通过withopen的方式存储数据导出为csv格式，最终导出的数据结构如图12所示。图11歌曲评论爬虫图12歌曲评论数据结构4数据预处理分析及可视化4.1数据预处理在数据预处理过程中，我们遇到了一种非传统的时间字段格式，该格式并非常见的年月日表示方法，而是由十个字符组成的特定数据形式。为了将这些数据转化为更易于理解和分析的标准时间格式，我们利用了pandas库中的dt.strftime()方法。首先，我们对原始数据进行了详细观察，识别了非标准时间字段的结构特点。随后，通过适当的转换和解析，将这些非标准时间数据转换成了pandas能够识别的日期时间对象（datetimeobjects）。这一步骤是数据预处理的关键一环，它确保了后续分析能够基于准确且一致的时间信息。一旦数据被成功转换为日期时间对象，我们就可以利用dt.strftime()方法，按照指定的格式（如'%Y-%m-%d%H:%M:%S'）将这些对象转化为字符串形式的标准时间字段。这种格式不仅易于阅读和理解，而且符合大多数数据预处理和分析工具的要求，为后续的数据分析和可视化提供了便利。紧接着我采用了jieba分词库和pandas工具对剩余的评论数据进行了预处理操作。首先，通过jieba分词库，我实现了对评论内容的分词处理，这一步骤能够将连续的文本信息转化为结构化、离散的词汇单元，为后续的数据分析和处理提供了便利。接着，利用pandas库，我进一步对数据进行了去重处理，有效去除了重复或无意义的词汇，保证了数据的纯净性和分析的准确性。完成预处理后，我运用了PaddleHub这一强大的深度学习工具对预处理后的评论数据进行情感预测。PaddleHub为我提供了丰富的预训练模型和便捷的操作接口，使得情感分析任务得以高效完成。通过模型的预测，每个评论数据都被赋予了一个介于0到1之间的情感评分，这一评分直观地反映了评论所表达的情感倾向和强度。为了更加清晰地界定情感倾向的类别，我设定了以下情感分类标准：评分大于0.7的评论被认定为积极评论，表示评论中充满了正向、积极的情感表达；评分小于0.4的评论则被归为消极评论，表明评论中流露出的情感是负面的、消极的；而评分介于0.4到0.7之间的评论则被视作中性评论，其情感表达既不过于积极也不显消极，呈现出一种相对中立的态度。图13paddlehub情感得分判断4.2数据分析4.21关于评论的分析评论次数最多的是郭顶的《水星记》，共有3035771条评论。点赞数最多的则是《水星记》的评论“我再也拿不出像当初那么热烈的爱了我突然不懂什么是爱了”，点赞数为808751。这首歌的歌词悲情忧郁，其中的悲怆的评论更能引起别人的共鸣。鉴于数据量庞大，为了更有效地进行可视化分析，我决定采用数据聚合的策略。通过按照点赞数的不同区间对数据进行分组，并计算每个区间的数据点数量，我成功地将海量的数据点转化为了少数几个具有代表性的区间。这种处理方式不仅简化了数据的复杂性，更有助于我清晰地洞察数据的分布规律，从而更加精准地把握歌曲评论的特点和趋势。图14点赞数分布情况我发现整体的点赞数分布呈现出明显的右偏特征。这意味着大部分评论的点赞数相对较低，而能够获得高点赞数或成为热评（即点赞数超过1000）的评论则相对较少。这种分布特点在一定程度上反映了评论数据的普遍规律，即大多数评论虽然表达了个体观点和情感，但能够引发广泛共鸣和获得大量点赞的评论则较为稀缺。由于评论数据规模庞大，我进一步聚焦于那些点赞数较高的评论，特别是热评。这些评论不仅数量有限，而且往往具有更强的代表性和影响力。它们可能触及了歌曲的核心情感，或者引发了听众的深刻共鸣，从而在众多评论中脱颖而出。通过歌曲评论数热力图可以发现，哪怕都在同一个热门歌单里面，歌曲的人气还是有所差异，排行前二的歌《水星记》、《哪里都是你》占据了整体的大部分，通过对这两首歌歌词的观察可以判断出，讲述情感与思念的歌曲，会更加引起听众的共鸣。图15歌曲评论数热力图4.22LDA主题分析在论文中，我采用了WordCloud库对经过分词预处理的数据进行词云可视化，从而揭示了大部分听众的评论喜好、关注的权重以及大致的情感趋势。通过这种方法，我们能够以一种直观、生动的方式呈现听众对歌曲的反馈，并深入挖掘其中的信息。具体来说，词云可视化技术能够根据词语在评论中出现的频率和重要性，以不同大小和颜色的字体进行展示。频率高、重要性大的词语将以更大的字体和更醒目的颜色出现在词云中，从而凸显出听众关注的焦点和喜好。在可视化结果中，我们观察到了一些有趣的现象。首先，某些关键词如“爱”、“喜欢”、“真的”等频繁出现，表明听众对歌曲的整体评价较为积极。其次，一些与歌曲主题和情感相关的词语也占据了显著的位置，反映了听众对歌曲内容的深度理解和共鸣。此外，词云中的不同颜色和字体大小也揭示了不同词汇在评论中的重要性和权重，为我们进一步分析听众的情感趋势提供了线索。[14]图16歌曲评论词云图在论文中，为了深入探究歌曲评论的潜在主题和关键词汇，我采用了文本特征提取和主题模型分析的方法。首先，我利用CountVectorizer方法对预处理后的文本列表processed_text_list进行特征提取。通过设置strip_accents=’unicode’来去除文本中的重音符号，max_features=n_feature来限制特征数量，stop_words=’english’来排除常用停用词，以及max_df和min_df来过滤掉出现频率过高或过低的词汇，我们得到了一个词频矩阵tf，其中每个元素代表相应词汇在评论中出现的次数。接下来，为了从词频矩阵中挖掘出潜在的主题信息，我采用了潜在狄利克雷分配（LatentDirichletAllocation，LDA）模型。LDA是一种非监督式的主题模型，它能够从大量文本数据中自动发现隐藏的主题结构。通过设置n_components=n_topics来确定要发现的主题数量，以及其他参数如max_iter、learning_method和random_state，我们训练了LDA模型并使其拟合到词频矩阵tf上。最后，为了直观地展示每个主题下的关键词汇，我定义了一个函数print_top_words来打印每个主题中权重最高的前n_top_words个词汇。通过调用这个函数并传入LDA模型、特征名称列表和要打印的词汇数量，我得到了一个包含每个主题关键词汇的列表topic_word。表17LDA主题词从LDA主题词来看，大部分主题都呈现出一种比较积极的情感倾向。这可能是因为听众在分享歌曲评论时更倾向于表达积极、正面的情感，或者是由于歌曲本身的内容就具有积极向上的特质，从而引发了听众的积极情绪。具体来说，像“温馨与分享”、“时光与感慨”和“积极生活”等主题，都包含了大量积极、正面的词汇，如“喜欢”、“幸福”、“加油”、“开心”等，这些词汇体现了听众对生活的热爱、对未来的期待以及对歌曲的喜爱和认同。同时，“亲情与承诺”、“友情与回忆”等主题也传递出一种温暖、亲切的情感，这些主题中的词汇如“妈妈”、“我会”、“朋友”、“回忆”等，都让人联想到亲情、友情的温馨和美好，进一步增强了整体积极情感的表达。当然，也有部分主题如“孤独与失落”和“情感记忆”涉及了一些消极的情感，但整体来看，这些主题在数量上相对较少，且其中的消极情感也可能被其他主题的积极情感所中和或平衡。综上所述，从LDA主题词的分析来看，大部分主题确实呈现出一种比较积极的情感倾向，这反映了听众在歌曲评论中普遍表达出的积极态度和情感状态。图18LDA词频分布图我对评论中在七种主题的分布情况作柱状图进行分析，见图7。“温馨与分享”这类主题的评论在所有评论中占比最高，除此之外，评论区还是可以看到很多积极美好的事物出现。从分析结果可以看到，大部分中既有单纯的对歌曲的喜爱赞美，也有对美好生活的追求和事业学业的奋斗，这些积极向上的内容是网易云音乐评论区构成的重要部分。4.23基于时间的情感趋势分析以及热评分析在前面的研究里，我们探究了获得点赞数最多得评论的一个情感情况，这一节我想了解什么样的情感倾向才可以成为热评，现假设情感得分越低，更有可能成为热评，我通过利用情感得分这一特征，尝试构建逻辑回归模型来预测评论是否会成为热评。首先，我根据每条评论的点赞数（likedCount）创建了一个热评标签（is_hot），其中点赞数超过1000的评论被标记为热评。接着，我选择了情感得分（sentiment_score），假设它是一个负向指标，即得分越低表示情感越消极）作为唯一的特征输入到模型中。[2]在模型训练阶段，我使用了逻辑回归算法，并通过划分训练集和测试集来评估模型的性能。然而，从分类报告的结果来看，模型在预测热评时的表现并不理想，尤其是对于热评类别的识别能力非常有限。这可能是由于我们仅使用了单一的情感得分作为特征，而忽略了其他可能影响热评形成的重要因素。此外，我还查看了情感得分在模型中的系数。系数值为负表明情感得分与热评标签之间存在正相关关系。这意味着情感得分越高，评论成为热评的可能性越大。这与我的假设不一致。带着这个疑问，我通过箱线图，做了一份关于全部歌曲的情感分布可视化。图19各歌曲情感分布箱线图通过绘制箱线图，我可以清晰地观察到大部分歌曲的情感倾向分布情况。箱线图展示了数据的上四分位数、中位数、下四分位数以及可能的异常值，为我提供了一个直观的数据概览。在本研究中，我注意到歌曲情感倾向的中位数多数处于0.5以上，这意味着多数歌曲的情感倾向是偏积极的。同时，箱体的位置以及须线的长度也进一步表明了数据的集中程度和离散程度。通过研究可以发现，即使是歌曲本身情感较为消极，可是听众的想法不会因此消极，反而会更加积极。由此我了解到了，听众会更愿意在评论中表现得更积极，根据对网易云早年得政策进行调查，我发现了突破口，为扭转网易云在用户心目中的负面形象，网易云音乐采取了相应举措。2020年8月，网易云相继推出了“云村评论治愈计划”、“云村治愈行动”。由此也就可以理解为什么大家更乐意表现得积极得原因了。4.24情感趋势在时间维度上得分析在针对一天中各个小时聚合的听歌评论情感分布进行分析时，我发现情感变化与人们的日常生活节奏有着密切的联系。与公众认知中的“网抑云”印象相去甚远，研究结果表明，一天中的情感波动呈现出独特的模式。首先，从早上到下午，这段时间通常是人们的工作与学习的高峰期。在这段时间内，听众更倾向于需要积极的情感来面对繁重的工作和学习内容。这种积极的情感与乐观的态度以文字的形式出现在了评论里面，提高了听众们的活跃的情感，帮助人们在忙碌的日常中保持积极的心态。然而，在下午六点到八点这一时间段，情感分布呈现出持续走低的趋势。这一时段正好是下班高峰期，忙碌了一天的听众在经历了工作或学习的压力后，情感可能会变得较为低落。此时，在音乐评论中可能更多地扮演了情感宣泄的角色，听众通过听歌评论来表达和释放内心的疲惫和压力。值得注意的是，在九点以后，情感分布开始有所提升。这可能与当代年轻人的生活方式和心理特点有关。当代年轻人普遍擅长通过各种方式来进行“自我安慰”，音乐便是其中之一。在夜晚时分，人们可能更愿意通过音乐来放松自己，寻找内心的平静和安慰，从而缓解一天中的压力和疲惫。图20情感分布情况（小时）针对一年中各月份聚合的听歌评论情感分布进行分析，我发现了情感变化与季节性事件及学生群体的生活节奏有着密切的联系。首先，七月份的情感分布达到了最低点，这与毕业季的到来相吻合。毕业不仅仅意味着学生时代的结束，更伴随着对未来不确定性的担忧和与同窗好友分别的伤感。尽管毕业季通常伴随着假期的到来，但大家并没有表现出过多的积极情感，反而因为即将到来的分别和人生阶段的转变而心情低落。随后，在经历了暑假的八月份，情感分布有了明显的回温。这可能是因为学生们在假期中得到了充分的休息和放松，通过旅行、聚会或简单的休闲活动，他们的情感得到了有效的调节和恢复。然而，当九月份开学季到来时，情感得分再次被拉到了底层。这一变化清晰地反映出学生群体在开学之际所面临的种种压力和挑战。新的学期意味着新的学习任务、社交环境和适应过程，这些都可能对学生的情感产生负面影响。[3]图21情感分布情况（月份）4.3数据可视化平台为了更直观地呈现研究结果，本研究采用了pyecharts库，构建了一个可视化平台。该平台能够生成关键图形，有效地展示了相关数据的特征和趋势，使我们能够更便捷地观察和分析多个图案之间的相关性。通过这一平台，我们不仅能够直观了解各项指标的变动情况，还能够深入探究不同指标之间的潜在联系，从而为后续研究提供了有力的数据支持。pyecharts库的运用，不仅提升了研究结果的可视化水平，也大大增强了研究的分析深度和广度。通过frompyecharts.chats调用所需要的图形例如Bar条形图，Line折线图。再通过例如line=(Line())的方式使用所需的图形，通过add_xaxis()以及add_yasix()的方式将处理好的数据加入到图形里面，通过render方法就可以展示图形了，这里我直接使用了page方法将所有的图形合并到一个html内并可以自由拖动布局，这样子做可以大大减少代码量以及工作周期。图22每日情感变化分析折线图关键代码图23pyecharts可视化（局部）5总结通过对网易云歌单、歌曲评论数据的可视化分析，我们得以窥见人们在音乐中所展现出的情感倾向。显然，人们更倾向于在音乐中代入积极、向上的情感，这既是音乐本身所具备的治愈和鼓舞人心功能的体现，也反映出人们在面对生活压力与挑战时，内心深处对于积极、阳光生活的渴望和追求。音乐作为一种特殊的艺术形式，有着跨越语言和文化的力量，能够直触人心，引发共鸣。在网易云这个音乐平台上，无论是歌曲的含义还是评论的喜怒哀乐，都映射出人们内心的情感世界。积极的情感代入不仅展示了人们乐观向上的生活态度，也促进了网络空间的积极氛围

人人文库> 全部分类> 毕业设计 > 任务书类

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于Python的音乐评论数据的分析研究

文档简介

温馨提示

最新文档

评论

相关文档