能源大数据分析理论与实践 课件 9.能源经济与管理大数据处理与分析案例_第1页
能源大数据分析理论与实践 课件 9.能源经济与管理大数据处理与分析案例_第2页
能源大数据分析理论与实践 课件 9.能源经济与管理大数据处理与分析案例_第3页
能源大数据分析理论与实践 课件 9.能源经济与管理大数据处理与分析案例_第4页
能源大数据分析理论与实践 课件 9.能源经济与管理大数据处理与分析案例_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

能源经济与管理大数据处理与分析案例09能源政策文本分析EnergyPolicyText

Analysis9.1.1案例描述能源政策对于政府、企业等均具有重要影响,对于政策的把握有助于进行科学决策,文本大数据处理与分析技术为能源政策的研究提供了一种新的工具。本案例通过爬虫程序爬取能源网站能源要闻页面的文本,绘制词云图,根据词云图中关键词的出现频率分析能源政策的关注重点。本案例主要介绍能源政策文本数据采集和分析技术的实现方法,包括新闻文本的爬取、文本处理和存储、词云图生成与结果分析等。9.1.2能源政策文本数据采集案例文本数据可从国家能源局网站的能源要闻页面采集,该页面包含大量关于能源政策和发展动态的信息,能够反映我国能源政策的导向与实践效果。本节仅采集2023年的文本数据进行案例展示,其他时间的数据可采用相同方法获取并分析。在编写Python爬虫前,需明确目标页面的URL,然后利用urllib+正则表达式爬取能源要闻的内容,并解析网页获取标题和正文。最终,将爬取的文本数据保存至TXT文件,以便后续分析和处理。9.1.2能源政策文本数据采集Python爬虫程序包含三个部分的内容。发送请求能源政策文本数据采集使用urllib库,主要使用的是urllib.request,使用前需要提前导入这个库。使用response对象接收打开的页面,之后用定义过的空字符串读取response中的HTML页面代码,注意使用“UTF-8”形式。为了避免异常情况发生,在访问页面时,可以增加try、except方法进行异常处理。发送请求的代码如下。9.1.2能源政策文本数据采集爬取能源要闻标题和正文爬取能源要闻标题和正文需要调用Python中的re库,可以使用import提前导入这个库。使用pile()结合findall()函数解析response,爬取能源要闻标题和正文并输出,其中正文爬取了两次,分别用于缩小范围和爬取正文内容。编写代码之前需要提前找好网址中标题和正文内容所在的位置。首先在能源要闻页面使用F12键,打开页面调试窗口。在页面调试窗口上的导航栏中找到元素,单击框选的位置,然后分别单击标题和正文,可以发现标题在“<divclass=”titles“></div>”元素之间,正文在“<p></p>”元素之间,如下图所示。9.1.2能源政策文本数据采集爬取能源要闻标题和正文的代码如下。9.1.2能源政策文本数据采集主函数主函数部分需要调用Python的BeautifulSoup库,可以使用import提前导入这个库。程序中通过指定能源要闻页面的URL地址,进行遍历爬取。此处仅爬取2023年的能源要闻,共需要爬取6个页面,因此需要将所有页面网址存入urls_news列表。利用同样的方法可以获取标题链接(在特征为“class=box01”的div标签中的li标签中),其中urls即链接所在列表。最后使用for循环遍历列表中的所有链接,调用上文中的get_page()和get_parser()两个函数爬取标题和正文。9.1.3能源政策词云图将上文爬取的能源要闻标题和正文的文本内容进行分词,并绘制词云图。Python程序代码编写共分为以下三个阶段。准备阶段需要提前安装matplotlib库、jieba库和WordCloud库。因为WordCloud库默认不支持中文,所以这里需要下载好中文字库,本文使用的是“思源屏显臻宋.ttf”。同时,由于语气词、虚词、标点符号等在文本中出现频率较高,但并没有实际意义,而且影响词频分析结果,因此需要添加停用词,以排除掉这些词语,可以使用停用词词库文件或手动添加停用词(本书使用的是“cn_stopwords.txt”词库文件,文件中可以继续添加停用词)的方法。最后需要准备词云图呈现形状的图片,一般为白底黑色填充的图片样式。读取文本并分词将上文中爬取的能源要闻标题和正文文本保存进“word_cloud_text.txt”文件中,通过read()函数读取文件内容。利用jieba库进行分词形成列表(使用导入的jieba库),将列表里面的词用空格分开,并拼接成长字符串,最后导入停用词。读取文本并分分词的代码如下。9.1.3能源政策词云图9.1.3能源政策词云图生成词云图并保存先导入下载好的中文字库和形状图片,再使用np.array()函数处理图片(此处需要导入numpy库),使用WordCloud()函数设定好词云图的字体、背景色、背景宽和高、最大最小字号等(需要提前导入WordCloud库),生成词云图并保存,最终以图片形式显示。生成词云图并保存的代码如下。9.1.3能源政策词云图词云图如下图所示。由上面的词云图能够看出,“项目”“发展”“企业”“技术”“创新”“新能源”“绿色”“低碳”“电力”“储能”是出现较多的词,说明我国能源政策仍以项目驱动发展,技术创新与绿色低碳是重要导向,能源系统中新能源发展、储能等是当前的重点领域。本节仅根据2023年的能源要闻数据制作了一个词云图,读者可以根据不同年份的能源要闻数据制作不同的词云图,观察政策和能源行业的演化特征,也可以进一步使用主题识别技术,研究能源政策的主题演化。国际LNG贸易网络分析AnalysisOfinternationalLNGTradeNetwork9.2.1案例描述本案例基于图神经网络技术对全球各国LNG贸易网络的特点进行研究,使用节点中心性方法研究各国在LNG贸易网络中的地位和影响力,通过分析历年的节点中心性探究LNG贸易格局的演变趋势,并且使用图嵌入技术实现节点的向量化,将LNG贸易网络中的各国进行向量化表示,这种向量化表示可以为后续的研究提供帮助。本案例的理论基础参考6.6节相关内容,案例数据来源于《BP世界能源统计年鉴》。9.2.2数据预处理与图的生成数据预处理从《BP世界能源统计年鉴》“Gas-TrademovtsLNG”表单中提取数据,单独创建“relation”表单来保存案例中的“节点”和“边”,“relation”表单部分内容如下图所示。9.2.2数据预处理与图的生成图的生成首先使用openpyxl库导入数据,使用networkx库来生成图,将“relation”表单中的贸易关系信息作为“边”导入,无数据的则认为不存在贸易关系,表单中对应的国家或地区设置为“节点”,然后生成图。图生成的代码如下。9.2.2数据预处理与图的生成2013年各国的LNG贸易网络可以绘制为一个图,如下所示。9.2.3LNG贸易网络节点中心性使用networkx库可以直接生成LNG贸易网络中各节点的点度中心性、中介中心性、接近中心性、特征向量中心性,并将中心性结果保存为Excel文件,代码如下。9.2.3LNG贸易网络节点中心性利用同样的方法可以输出2022年各国的LNG贸易网络中各节点的中心性,从而可以从时间维度对比分析中心性指标的变化。下图展示了2013年和2022年LNG贸易网络中各国的点度中心性对比结果。观察点度中心性对比结果可以得出如下结论:2013年全球LNG贸易的重心主要在卡塔尔、日本、韩国等地,2022年LNG贸易的重心发生了变化,美国的中心性明显提升,主要源于美国LNG出口的快速增长。9.2.4LNG贸易网络的图嵌入图嵌入是指将图节点进行向量化表示,获取更多的特征嵌入编码,这可以帮助以后的任务获得更好的结果。运用图嵌入方法可以将上述的LNG贸易网络节点进行向量化表示。本节以DeepWalk方法为例,对图嵌入方法的使用进行介绍。首先需要实现deep_walk()函数,输入参数为图的节点集合和最大游走步数。先通过G.nodes()函数获取图中节点集合,通过G.neighbors(node)函数获取当前节点的邻居节点,再通过random方法随机选取邻居节点,持续到规定的最大游走步数,即完成一个节点的采样。deep_walk()函数代码如下。9.2.4LNG贸易网络的图嵌入调用Gensim库的Word2Vec方法,对上述随机游走获得的训练语料进行训练,获取词嵌入结果,此处为了便于图形化展示,将vector_size设置为2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论