版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据环境下的危机信息整合模型研宄摘要)大数据环境下,突发事件的危机数据 来源复杂多样,通过使用词语相似度计算和 folksonomy自由标记语言,把多模态的危机信息转化 成基于内容特征项集合的单一情报信息源,建立危机 信息采集萃取的整合组织模型。整合模型包括3个部 分:危机信息内容特征项集的提取、rdf资源的统一 描述存储和文本内容特征域的聚类划分。通过整合聚 类危机信息源,从而实现不同危机信息源载体的规范 化整合与组织,为危机的应急管理提供统一化的情报 信息数据源。积极发挥情报效用,为突发事件的应急 管理提供案例分析和情报预警。关键词)多模态信息;相似度计算;folksonomy; rdf
2、;文本聚类中图分类号)g250.73 (文献标识码)a 文 章编号1008-0821 (2016) 12-0036-04abstract) in a big data environment, the source of the crisis is complex,by using word similarity computation and network users free marking technology, the paper transfed the multimodal crisis information into a single information source,a
3、nd an integrated model for the extraction of crisis information was established.the integrative course included three processes: collect information and extract features; describe and storage metadata; divide the feature domain.realizing the integration of different sources of information sources,th
4、e paper provided a uniform information platform for emergency response of the crisis,to provide case analysis and intelligence warning.keywords) multimodal data; similarity computation; folksonomy; rdf; text clustering随着2015年“8.12”天津港的爆炸事件,应对突 发事件的公共危机安全问题愈发受到了全社会的强烈 关注。回顾近几年的公共安全突发事件1,既有诸如 “汶川”大地震的
5、地质自然灾害,也有诸如“h7n9” 禽流感的公共卫生事件。在网络化和信息化飞速发展 的大数据环境下,面对诸如此类的公共安全突发事件, 危机信息的呈现方式和载体形态逐渐多样化,采集的 信息样本除了传统的结构化数据外,还有半结构化的 文本数据和非结构化的图像数据。海量的多模态危机 信息使管理决策部门迷失在信息的洪流中,给危机管 理应对过程的预警机制和应急处理带来了巨大障碍,如何把形态各异的不同载体形式的海量危机信息进行 统一标准和规范的整合与组织,为危机应对提供情报 支持,是应对公共危机预警机制的重要环节,并受到 了国内情报学领域专家的高度关注和积极探索。毕玉青通过分析发现信息化社会中公共危机载体
6、 形态呈现出规模海量、影响广泛、未知性强、分散与 集中相结合的大数据特质,提出应对危机管理的政府 管理建议,从而提高危机应对的有效性2。熊枫从传统政府危机信息管理中存在的问题出发, 结合当前大数据时代的到来给政府危机信息管理带来 的契机,进而深入探讨大数据时代政府有效管理危机 信息,以弥补传统危机信息管理之不足的策略3。武汉大学的李阳等通过分析大数据环境下的突发 事件应急决策情报需求,提升应急决策情报支持能力, 探索一种新的应急决策情报支持架构_以情报工程 化为主导、情报平行化为支撑的“两融合”应急决策 情报服务模式4。吴春玉从政府决策过程入手,在分析不同决策过 程信息需求的基础上,选定政府决
7、策信息源,借鉴信 息资源库的建设方法,构建政府决策信息采集模型5。通过笔者对当前危机信息的相关文献整理研究后 发现,危机情报的应急处理基本上都是围绕大数据环境下的情报需求,从研宄作用机理入手,构建危机应 对管理模型。本文通过理论研宄和实例分析,使用词 语相似度计算和folksonomy自由标记语言,通过定量 和定性相结合的分析手段,整合海量数据下不同载体 形态的危机信息数据,按照统一的元数据标准规范进 行存储,把多模态的危机信息转化成单一的情报信息 源,聚类划分文本内容特征域集,从而为危机管理中 的决策部门提供精准的危机情报。1tf.idf、folksonomy、rdf 的概念及其模型1.1t
8、f.idf的概念及定义著名的信息检索系统smart中提出过一套词语权 重的计算方法,这种度量词语在文档中反复出现程度 的形式化指标称为tf.idfo tf.idf是信息检索领域常用 的方法6,计算词语的tf.idf权重值,权重得分高的 词语就是文本文档的主题词和关键特征词。tf.idf的定义如下:定义1:假定文档集中有n篇文档,词项i在ni 篇文档中出现,并且fij为词项i在文档j中出现的次 数,词项i在文档j中的tf.idf得分计算公式如下:tfij.ldfi: (fij/maxkfkj) iog2 (n/ni)tf是词项频率,是指词项在文档中出现次数和文 档中所有词项出现的最大次数的比值,
9、那么文档中出 现次数最多的词项的tf值是1,文档中其余词项的频率都小于1; idf是逆文档频率。1.2 folksonomy的概念及模型随着web2.0的兴起,淡化了信息提供者和信息 使用者之间的界限7,网络用户越来越多的参与到资 源的组织和共享中去。用户通过自己的主观认知和对 资源的理解程度,对网络共享资源进行标记和整理, 使得资源更加具体化并便于检索。从而形成了一种崭新的文献分类方法自由分类法,即folksonomy标记语言。folksonomy包含资源、标签和用户3个属性,基 于folksonomy的自由分类法是通过鼓励网络用户的 兴趣爱好,针对网络资源标记标签的过程。譬如网络 用户a和
10、网络用户b,针对共享资源s1和s2,都标记了自己的标签 labell、labe2、labe3、labe4ofolksonomy 模型如图1所示。1.3 rdf的概念与定义资源描述框架(rdf)是面向语义web的标准框 架,是语义关联数据模型的重要组成部分,语义网的 基本特征是面向文本所表示的数据,实现计算机自主 阅读和理解的网络化搜索模式。语义网通过使用rdf 资源描述框架直接进行深度的资源描述,rdf以标准的xml形式表达,提供一种表述、交换和利用元数据 的框架8。rdf的定义如下:定义2: rdf通常采用三元组(r,d,f)的资源 描述框架来描述信息资源或数据对象,其中r是表示 资源信息或
11、者数据对象的本身。died=dl, d2,dmd是表示资源的m个属性,或者是事物的某些特性。fief=fl,f2,fm (im), f 表示资源的每个属性相对应的键值等具体内容。2多模态危机信息的组织整合模型研究 网络泛在环境下,突发事件的危机数据来源复杂多样,因此采集获得的信息具有多元性和不确定性。 危机信息的来源包括诸如危机管理平台以及遥感监控 平台等途径,危机管理平台记录和收集了大量的文本 类型数据集,而遥感监控平台则记录了大量的图像类 型数据集。危机数据的组织整理是获得危机情报的基 础工作,危机信息的组织整合过程包括数据集合内容 特征项集的提取、信息的rdf资源描述存储和文本内 容特征
12、域的聚类划分3个阶段。危机信息的组织整合模型如图2所示。2.1内容特征项的提取针对收集整理过程中生成的文本和图像数据载体信息,需要通过使用文本表示语言和网络用户自由标 记的途径,把不同模态的危机信息源转化成计算机可 以理解和阅读的单一的自然语言信息源,即通过文本 数据和图像数据的语义降维模式,把多模态的信息源 转化成基于内容特征项的词语集合表示。2.2元数据的统一存储危机信息经过特征项的提取后,通过使用基于语 义分析的rdf本体语言来描述危机信息的属性和概念, 生成危机信息的资源描述框架,从而进行更深层次的 资源信息组织。根据语义网技术rdf三元组的定义, 重新进行深度的描述和整理,使非结构化
13、的数据有序 化、结构化和整体化,从而为危机信息数据的采集和 萃取整合提供数据级的保障基础。2.3文本内容特征域的聚类划分经过信息的整理和特征项集的采集提取之后,形 成了以内容特征项集作为标识的词语集合。为了聚类 发现己经存储的信息特征项集,通过采用计算词语集 合的文本相似度距离来进行聚类计算,把规范化的信 息集进行自组织分类,从而为危机信息的预警分析提 供相同类型的案例。3多模态危机信息的内容特征项提取公共危机信息采集的数据主要来源有两种:一种来源途径是危机管理平台通过采集网络社交网站的舆 论信息而形成的文本数据;另外一种来源途径就是通 过城市摄像头等传感设备采集到的图像数据格式。由 于文本文
14、档和图像文档都是不属于结构化的数据形态, 为了使计算机能够识别和存储采集的危机信息,需要 通过使用词语相似度计算和folksonomy自由标记语 言,转换成基于内容特征项的词语集合。3.1文本数据的内容特征项提取文本载体类型的数据信息组织和存储,需要对文 本文档的内容进行字词切分处理后,从文字中抽取能 代表文档内容特征和彰显文档主题特征的关键词。把 获得的关键词作为文档的项特征集合表示,使用文本 内容的项特征集来描述相应的文本文档。描述主题的 特征词的提取可以通过计算词语在文档中的重要程度 来形式化表示,tf.idf是信息检索中常见的形式化表 示模型。tf.idf模型是测度词语在文本中重要程度
15、的量化 表示。其中tf是通过统计学的知识来衡量词语的重要 性,是词语项在本文档中的出现频率,与词语在文档 中出现次数成正比。idf是逆文档频率,是样本集合 中文档总数与出现词语项文档数的比值的对数,与词 语项在样本集合中出现的次数成反比,tf.idf模型通过测度tf和idf的乘积,通过抑制单纯的词语频率度 量方法,调整tf权值,可以有效的区分不同文档。通过计算词语的tf.idf权重值,选择tf.idf计算 得分最高的m个词语作为文本文档的特征词项,从而 把文本载体型数据描述成m个词语项的集合进行信息 存储。文本载体型数据的内容特征项提取算法如下:输入:n篇文档输出:n个集合,每个集合包含m个词
16、语beginstepl.使用2-shingling算法进行字词的切分处理step2.调用停用词表删除文档中的停用词step3.计算词语文档中的tf.idf权重,选择权重最 大的m个词语作为文本的特征词项repeat stepl, step2,step3until所有文档处理完毕;文本数据的内容特征项提取,即是通过使用词语 相似度计算的表示算法,使用特征词语集合来表示文 本内容,从而把获取的危机信息文本载体型数据进行 结构化的统一表示和存储。3.2图像数据的内容特征项提取图像数据的计算机存储是以图像的像素数组来构成,我们可以计算图像像素的平均数目等简单属性, 但是无法给出任何图像特征的内容项。但
17、是自由标记 语言使得我们对图像内容的辨认和识别有了可能性, folksonomy的自由标记语言允许和鼓励用户对网络上 导航发布的图像信息数据库进行标记,因此针对图像 数据的存储可以通过采用用户自由标记的关键词tag 项作为其内容特征的识别方法,使非结构化的图像载 体类文件可以通过结构化的数据表示。大数据环境下,folksonomy中海量的用户参与资 源信息的标记为我们确定图像的特征词项提供了数据 基础,偶尔的错误标记也不会对该图像内容属性造成 大的影响。自由标记语言统计图像的用户标签频次, 通过可视化技术使资源的标签按照频次多少进行上浮 和下沉,然后选择标引频次最高的关键词作为该图像 的特征词
18、项,从而完成图像载体形态数据的结构化表 示过程。图像数据的内容特征项提取算法如下:输入:n个图像输出:n个集合,每个集合包含m个词语beginstepl.计算图像的所有标记词语的频率次数step2.选择频率次数最高的m个词语作为文本文档的特征词项repeat stepl, step2until所有图像处理完毕;根据图像数据表示的处理算法,把获取的危机信 息图像格式数据进行文本表示,把图像数据的用户标 记进行频次统计,提取对应的关键词项集合。3.3特征项集的rdf描述存储文本文档格式和图像格式的危机信息数据经过提 取代表内容特征的词语集合进行表示,萃取后的词语 集合不但能够代表相应的数据源特征,
19、而且能够把不 同的数据来源进行归一化处理,转换成能够被计算机 识别存储的结构化数据。基于语义网关联数据挖掘算法的出现让突发事件 应对相关的危机全数据采集成为可能。语义网是新一 代的互联网核心,语义关联数据模型是指基于语义关 联的数据表达和结构组织模型,该模型不但包含资源 信息,同时也包含信息之间异构的语义结构。从而进 行更深层次的资源信息组织,为危机数据的聚类计算 提供基础条件。危机信息中的资源描述框架中,r是危机信息来 源,d是危机信息的内容特征属性,f是能够表75该 危机内容特征的属性值,即特征项的集合。使用rdf三元组来表示和描述归一化处理后的危机数据,可以 更深层次的揭示危机信息的内容特征属性,同时是非 结构化的危机数据有序化。危机信息的元数据的rdf/xml表述如下:? xml version: 1.0 ?rdf: rdfxmlns: rdf=http: / /1999/02/22-rdf-syntax-ns#xmlns: dc= wb000002"rdf:description)dc:featurerdf:bagrdf:li关键词1</rdf:lirdf:li关键词2/rdf:li>rdf:li关键词3</rdf:li</rdf:bag/dc
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 暨南大学《环境专业英语》2021-2022学年第一学期期末试卷
- 城市轨道交通自动售检票系统实务 第2版 课件 单元一单元二及单元三课题一
- 科学计算语言Julia及MWORKS实践 课件 11-数学运算与初等函数
- 文旅新媒体运营 课件 第7章 文旅新媒体的数据运营
- 2024年度技术咨询合同:企业信息化建设咨询与实施2篇
- 肛瘘手术过程
- 2024年项目个人总结1000字范文
- 酒店培训结业汇报
- 语言教育活动教案中班
- 山东省数据中心建设项目2024年度施工合同2篇
- 2025届高考议论文开头写作指导
- 主题英语智慧树知到答案2024年中南大学
- 2024年山东省济宁市中考英语真题(原卷版)
- 2024年交通安全考试题
- 2024年广东广州市建筑集团有限公司招聘笔试冲刺题(带答案解析)
- 2023-2024年度内蒙古自治区安全员之C2证(土建安全员)基础试题库和答案要点
- 六下第10课《 开关量与控制》教案 浙教版(2023)信息科技
- Flink实时大数据处理技术 课件 01章.Apache Flink概述
- 化学老师教育理念(3篇模板)
- 智慧养老综合服务协议
- 工艺真空系统培训介绍PV系统工艺流程及设备
评论
0/150
提交评论