大数据环境下微信公众平台非结构化数据融合研究_第1页
大数据环境下微信公众平台非结构化数据融合研究_第2页
大数据环境下微信公众平台非结构化数据融合研究_第3页
大数据环境下微信公众平台非结构化数据融合研究_第4页
大数据环境下微信公众平台非结构化数据融合研究_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 大数据环境下微信公众平台非结构 化数据融合研究 摘要微信公众平台具有开源、 发布及时的特点,目前它已经成为各机 构发布信息的重要渠道。但这类数据又 具有非结构化、无语义描述的特点,如 何将微信公众平台从非结构化数据转化 为可分析、判断的结构化数据,成为一 个亟须解决的问题。针对该问题,本文 提出一个对微信公众平台结构化数据监 测的层次体系。这一方法将通过数据融 合方式,从平台资源中抽取数据,构建 结构化数据库,进行权重比较,判断情 报价值,进而实现对研究领域的态势监 测。 中国论文网 /4/view-12710139.htm -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 关键词微信公众平台;非结 构化数据;同型异源数据;异型异源数 据;同型同源数据;数据融合;态势监 测 DOI:10.3969/j.issn.1008- 0821.2015.08.027 中图分类号G25073文献标 识码A文章编号1008- 0821(2015)08-0141-03 由于手机终端设备越来越智能化, 3G 手机、4G 手机以及 WiFi 的普及为 网民提供了更为优质的上网环境,微信 成为人们交流和传播信息最广泛的平台。 2015 年 2 月 3 日 CNNIC(中国互联网 络信息中心)发布的第 35 次中国互 联网络发展状况统计报告显示,截至 2014 年 12 月,我国手机网民规模达 649 亿人,手机网民为 557 亿人,手机 即时通信使用率为 912%。2011 年 1 月 21 日,腾讯公司推出微信,支持发送语 音输入、小视频、实时对讲机、图片和 文字等功能,适合大部分智能手机,截 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 至 2014 年 7 月,已有超过 3 亿人使用。 手机微信成为一个生活方式。 2012 年 8 月,腾讯公司推出致力 于为机构或个人提供服务拓展、品牌推 广渠道的微信公众平台,其核心理念为 “再小的个体,也有自己的品牌”3。公 众平台从推出至今,通过不断丰富、完 善自身的功能,用户遍布社会知名人士、 商业团体、企事业单位、政府机构等众 多领域。每个公众平台都有所属组织机 构发布的重要信息,在这里人们可以更 快、更便捷地了解相关机构的动态和活 动。如图书情报工作期刊截至 2015 年 3 月 23 日,在 CNKI 中仅列出 2015 年第 3 期的全文,没有第 4 期的任何信 息,但却能从其微信公众平台上看到 2015 年第 4 期的期刊目录。 微信公众平台已经成为移动设备 中开源情报重要的获取源之一。这些信 息大部分是一种非结构化、无语义描述 的信息。他们的结构不同、内容不同、 布局不同,这使得从微信公众平台获取 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 数据带来难度。如何实现将微信公众平 台非结构化的、自由的信息转化为可计 算的、结构化的数据,成为开源情报获 取的一个重要问题。 针对上述问题,笔者提出了一个 针对微信公众平台结构化监测的层次体 系,并基于这一思路设计了一个技术框 架。 1 微信公众平台的非结构化数据 类型分析 随着移动互联网、物联网和云计 算技术的迅速发展,大数据时代已经来 临4。非结构化数据成为科研的重点对 象。微信公众平台是一个多种信息资源 交互的平台,数据呈现多重格式,如视 频、音频、图像、文档等,这些数据格 式呈现明显的异构性,有结构化数据、 半结构化数据,还有非结构化的数据5。 笔者将微信公众平台的非结构化数据源 划分为 3 种类型,即同型异源数据、异 型异源数据、同型同源数据(见图 1) 。 11 同型异源数据 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 不同微信公众平台相同类型的数 据,为同型异源数据。不同的站点有着 不同的信息收集渠道、加工体系和标准, 不同站点的信息发布模式均不相同。不 同的微信平台,发布同一条信息,即使 发布数据类型相同,其发布的具体内容、 阐述重点也不尽相同,如果利用惟一数 据源进行信息分析,获得结论可能会缺 乏全面性,故应将多种数据整合在一起, 进行融合分析。 2 异型异源数据 在不同的微信公众平台上,由于 数据不同,就会导致不同的数据呈现形 式。同一信息,可以以视频、HTML 页 面、PDF、Word 等形式呈现,但表达 的内容大致相同,如果对数据进行监测 研究,仅对其单一类型进行分析,显然 会导致数据分析结果不全面。我们将这 些呈现同一信息的数据源进行采集,对 其进行各种分析、融合,这样更能得出 某信息研究的整体情况。 13 同型同源数据 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 同一微信公众平台,数据类型虽 然有不同的呈现形式,但总有些内容不 同、文献类型相同的信息资源,这些信 息资源构成了每个公众平台的主体,是 整个信息平台存在的基础。信息源发布 方,可根据访问者的检索历史、浏览历 史、近期关注的各种数据进行统计整合, 判断用户的需求和兴趣点,从而为机构 的项目发展或者战略计划的调整提供参 考依据。 2 微信公众平台非结构化数据监 测 通过对微信公众平台的非结构化 数据源数据类型划分可以看出,如果想 将这些不同类型、不同内容的数据进行 整合、判断、研究,需要对这些数据进 行监测。 21 微信公众平台数据监测思路 机构在微信公众平台发布同类信 息时,经常会体现出不同的侧重点。这 些侧重点便是公众平台所阐述的主体内 容,而侧重点之间的关联揭示出这一平 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7 台中其他要点的骨干结构,从而体现出 这个平台对于该领域研究人员的意义所 在。本文将这些反应平台信息的侧重点 称为内容监测对象,将侧重点之间的各 种关系称为对象关系。 将非结构化的数据转化为结构化 的监测数据,主要思路就是资源的整合 和共享。具体操作起来就是从特定平台 采集到的信息资源中,提取对该平台有 价值的内容作为监测对象:如调研数据、 企业规划、项目成果、科研指标等,并 通过语法分析、共现分析、语义计算等 方法,构建监测层次体系,实现对某研 究领域热点的监测与分析。 简而言之,对于每一条从微信公 众平台上采集到的数据,利用监测系统, 通过关键词抓取技术,从中抓取嵌在其 中的数据对象以及数据对象之间的相互 关系。如“2014 年度复印报刊资料 转载学术论文指数排行榜及重要转载来 源期刊发布” 这一题名,通过内容监测 对象抽取,系统将识别出“2014 年”“复 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 8 印报刊资料”“学术论文指数”,形成了 “时间对象 对象”的结构。通过 对数据监测对象关键词的抓取,可以实 现数据从非结构化向可计算的结构化转 换。结合实际需要,研究人员可以利用 转换后的结构化数据,实现对监测目标 对象进行跟踪和识别、热点内容关注、 特定情报价值的判断和提取等功能,从 而帮助图书情报人员实现相关领域的态 势捕捉、跟踪、分析和可视化表述。 22 微信平台结构化监测层次体系 通过上述分析,可细化为一个结 构化监测的层次体系(如图 2 所示) 。 这一平台重点完成结构化监测的 4 项任 务,即确定监测源、多源信息采集、多 源数据融合以及价值体现。 221 确定监测源 确定监测源是指确定需要监测的 领域、站点以及站点之下的目录。对于 微信公众平台来讲,把需监测相关机构 的数据纳入目标监测范围,对其进行监 测跟踪。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 9 222 多源数据采集 多源数据采集是指利用多种分布 式网络定向采集器定期向目标站点进行 采集和收割。将不同呈现形式的数据 (如视频、音频、图片、文档等)采集 到语义库。 223 多源数据融合 多源数据融合是指把通过不同收 集渠道、加工体系和采集模式获取的具 有不同数据结构的信息进行整合,形成 格式统一、应用广泛的数据集合。这一 过程称为多源数据融合6。把这些数据 融合汇聚在一起进行相关性分析,可以 更全面、更透彻地揭示事物联系,寻找 新的模式和关系,从而为市场研发、商 业模式创新、竞争机会选择提供有力的 数据支撑与决策参考。 224 价值体现 经过对数据进行整合分析,可提 供热点跟踪、态势分析、重要情报揭示 等服务。 3 微信平台结构监测技术 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 10 微信公众平台的监测,一般需要 回答 3 个方面的问题:确定开源情报需 关注的领域(包括这一领域的重要机构、 人物、项目、计划、战略等) ,通过监 测,所获取的信息资源中是否有需关注 内容?如何从众多信息资源中整合出重 点情报,进行结构化数据转换?对获得 的情报内容如何梳理,判断是否有今后 的关注点。 围绕这 3 个问题,笔者基于将非 结构化数据转化为结构化数据的融合思 路,按照字段映射、字段拆分、数据记 录虑重、异构数据加权的要求7,设计 出上述 3 个问题的解决方案。构建监测 本体指导目标内容监测;基于内容之间 的相互关系,利用字段拆分、映射、虑 重,实现数据从非结构化到结构化的转 化;对整合之后的结构化数据进行加权 分析、价值判断,对于有价值的数据进 行分析。 31 构建监测本体,指导目标源监 测 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 11 监测目标是监测研究团队希望通 过对目标的监测,获得与本领域重大活 动相关的内容。由于研究领域各不相同, 每个领域可根据自己领域的重要机构来 确定自己的监测目标,构建一个自建数 据库,将重要的监测平台链接切换到数 据库中。利用编程程序,在一定的时间 内,自动提醒监测团队对目标内容的跟 踪,使监测目标能够以结构化表达。 32 针对个体微信公众平台,实现 网页内容结构化表示确定监测目标之后, 明确了监测团队的监测内容,抽取嵌入 其中的监测对象,通过字段映射、拆分、 数据虑重的方式,对监测对象进行标注、 规范,将自由文本转换为结构化的、可 以计算的数据,实现对微信公众平台研 究领域的监测。 对于每一条从微信平台上采集到 的数据源(如 HTML 页面、声像文件 等) ,微信公众监测平台首先通过信息 资源抽取技术,抽取嵌入监测对象中的 目标数据,然后将知识对象进行字段映 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 12 射、拆分。将拆分之后的字段,利用数 据虑重功能,将重复数据进行清洗,清 洗之后,将最终监测的内容进行标注、 规范,形成一个结构化化数据库。基于 这些结构化数据,分析数据对象之间的 相互关系,利用可视化分析软件,实现 对目标的对象的识别、跟踪、热点监测、 价值判断等功能。微信平台网页内容结 构化转化流程,见图 3。 33 结构化数据进行加权分析、价 值判断 不同的数据类型、不同来源的数 据,其权重不同,如科研发布的视频与 对该视频的评价的文档权重不同,中国 科技部发布的数据与地方情报所发布的 数据。权重的测算可以通过 2 种方法。 一种是专家法,请几位该领域的专家, 凭借其知识结构与经验进行判断,对数 据进行打分。不同的专家有不同的认知, 致分值不同,故采用平均值,进行排比。 另一种我们可以采用实证统计的方法, 微信公众平台不同于网页,每条数据都 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 13 可以统计关注量,可以分享到其他朋友 圈,研究人员可根据关注量与分享量进 行实证统计排名。通过权重分析,判断 数据的价值,提供态势分析、重要情报 揭示、热点跟踪的服务。 4 结语 微信公众平台已经成为战略情报 监测的重要资源之一。笔者提出的微信 公众平台

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论