基于大数据的中文文本数据分析研究获奖科研报告_第1页
基于大数据的中文文本数据分析研究获奖科研报告_第2页
基于大数据的中文文本数据分析研究获奖科研报告_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于大数据的中文文本数据分析研究获奖科研报告关键词:大数据;中文文本;数据分析

1引言

近年来,随着全球数字化信息数据量呈爆发式增长,大数据已经渗透到各行各业,相应诞生的大数据技术也迅猛发展,也被人们用来解决各种实际问题。Python这门编程语言异军突起,目前已经成为大数据处理和分析的首选编程语言。原因有以下几个:第一、Python是一种开源的解释型脚本语言、简单易学。第二,和C++、Java一样,Python也是一种面向对象编程语言,具备封装、继承、多态三大特性。第三,Python的跨平台性良好、可扩展性强、代码重用性高。第四、Python为我们提供了丰富的第三方库、应用广泛。Python不仅仅可以用来做系统编程、图形处理、GUI编程,而且目前一些非常火爆的概念比如网络爬虫、人工智能、大数据、云计算等都将Python视为首选语言。另外,Python在中文文本的识别、分析、处理方面相比较于其它编程语言具备绝对优势。所以,目前政府机构使用的网络舆情监控系统、金融领域的量化投资分析都使用到Python。

本文以深圳国海创新资本数据匹配项目为实际案例,演示如何利用大数据技术解决目前金融领域中相关中文文本数据分析问题。

2问题描述

2.1项目需求

深圳国海创新资本有限公司给我们提供了大量的excel文件,每个文件里有数千条数据。每条数据由4列信息(代码、名称、发行对象、股东信息)组成。每条数据中发行对象中有若干成员(>=1)、股东信息中有若干成员(>=1)。发行对象中若干成员(>=1)只要出现在股东信息中,该公司认为该条数据发行对象与股东信息之间存在关联性。否则,则不存在关联性。该公司要求我们准确标记出每条数据发行对象和股东信息之间是否存在关联性。存在,则关联性标注为1。不存在,则关联性标注为0。

所提供的excel表格数据内容如图1所示。其中第3条数据发行对象中的成员北京盈谷信晔投资有限公司出现在了该条数据对应的股东名称当中,则认为该条数据发行对象和股东名称之间存在关联性,需要将关联性标记结果为1。其中第5条数据发行对象中每一个成员都没有出现在第对应的股东名称当中,则该条数据的关联性匹配结果需要标记为0。

2.2问题分析

显然,这是一个中文字符串数据处理问题。其中涉及到中文字符串的预处理、匹配、输出结果等操作。我们无法通过Excel自带的公式来计算出每条数据的关联性匹配结果。如果采用人工的方法进行手动标注,不仅仅费时费力,而且准确性得不到保证。所以需要我们借助大数据技术通过编写算法来解决。我们如果选择C++、Java等编程语言,它们处理中文字符串困难,相关API接口函数都得自己写,代码量大、处理效果不佳。而Python在处理中文字符串方面拥有绝对优势,是解决该问题的首选。

3数据处理和分析

整个数据处理和分析过程包含三个步骤,分别是数据预处理、列表数据元素匹配、输出匹配结果。我们选择使用Python中常见的数据结构——列表来存储数据。整个数据处理和分析流程图如图2所示。

3.1数据预处理

首先,将Excel表格数据中的发行对象信息和股东名称信息这两列复制出来,存放到txt文本文件内。去除文本数据中的顿号,并将顿号替换为字母a和b。这样做是为了方便我们后面编写程序对每条数据进行分割切片。然后编写程序将每条数据中的发行对象成员和股东名称成员依次添加到对应的列表中。具体程序实现如图3所示。

3.2列表数据元素匹配

该步骤为解决该项目的核心算法。简单来说,就是将发行对象列表中的每个元素和股东名称列表中的每个元素逐一匹配。一旦有一个元素匹配成功,则该条数据关联性匹配结果置为1,否则为0。具体程序实现如图4所示。

3.3输出匹配结果

全部数据关联性匹配结束后,我们将关联性匹配结果列表里的数据输出到Exce表格关联性列中,如图5所示,就完成了整个项目所有内容。

图5输出匹配结果

4结论

我们选择Python作为开发语言,利用大数据处理和分析技术解决了深圳国海创新资本有限公司中文文本数据匹配难题,最终得到的关联性匹配结果准确率达到100%。将大数据技术应用到金融领域,不仅仅可以为从业者或公司解决数据分析

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论