




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据时代与网络舆情基于数据挖掘技术网络舆情研究第1页一、大数据时代数据挖掘技术基于数据挖掘技术网络舆情研究第2页大数据了解和生成背景
所谓“大数据”:直观了解就是信息和数据量规模十分巨大,无法用常规信息技术伎俩和软硬件工具进行感知、获取、管理和处理数据集合。数据时代生成背景:数据获取技术革命性进步、传感器等自动采集数据、Web2.0等用户生成数据以及移动设备生成数据(位置、移动和行为信息等)。第3页大数据数据挖掘技术大数据分析主要技术伎俩是采取数据挖掘。数据挖掘:又称数据库中知识发觉,即指从数据库大量数据中揭示出隐含前所未有并含有潜在价值信息价值聚合、提炼过程。数据挖掘研究拥有强大技术支柱:数据库、人工智能和数理统计技术。所以它作出判断含有更强合理性、准确性、针对性。第4页数据挖掘功效
客户细分、客户价值分析以及流失预测
异常发觉、预警
科学发觉
改进工作效率第5页1、客户细分、客户价值分析以及流失预测经过聚类分析方法,将客户进行划分,取得客户群不一样特征,从而对客户群进行针对性营销,或者面向特定细分群开发特定产品,从而到达提升产品质量,提升客户忠诚度目标。经过对客户行为模式挖掘,能够预测出那些可能会流失客户,对这些客户进行有针对性挽留,能够降低营销成本,提升产品收入。同时能够发觉哪些客户是企业最好客户,哪些是潜在客户。电信、银行、保险、零售等多行业都经过数据挖掘收益颇丰。第6页2、异常发觉、预警经过对数据分析,找出其中异常点。比如,银行在采取了数据挖掘技术后能够很好地降低利用信用卡犯罪。经过对申请资料数据挖掘,对每一份资料进行评分,发觉信用欺诈申请者。利用于税务数据分析,则能够发觉偷税漏税行为。经过对数据中趋势分析,对将要可能发生事件提出预警。比如在电信行业中,经过对以往报警数据分析,发觉有哪些常规报警可能是重大问题前兆,并提出预警,阻止事故发生;对工厂生产数据分析,识别重大质量问题前兆,及时采取必要办法,防止事故发生。第7页3、科学发觉经过对大量科学试验数据分析,发觉其中隐藏模式,方便新科学发觉产生。比如经过对生物信息数据分析,发觉新基因;经过对天文数据分析,发觉新星体;经过对医疗数据分析,发觉药品与疾病之间关系;美国NASA也是使用数据挖掘工具分析出了哥伦比亚号航天飞机失事真正原因。第8页4、改进工作效率经过数据挖掘工具使用,对日常工作或业务数据进行分析,找到优化模式,从而改进工作效率或业务流程。比如在美国NBA中,教练使用了一套数据挖掘工具,分析篮球运动员运动,以帮助教练找到最有效组织进攻和防守方法。也产生了替补球员在关键时刻上场,并取得好成绩佳话。第9页二、数据挖掘技术对网络舆情分析研究应用基于数据挖掘技术网络舆情研究第10页数据挖掘技术利用于网络舆情优势及应用数据挖掘拥有以下六种不一样功效:关联分析、时序模式、分类、聚类、预测和偏差分析等。这些强大功效利用于网络舆情研究十分有价值,它们能够对舆情信息进行针对性挖掘与分析,准确研判当前网络舆情动态,对网络热点、焦点与敏感话题及时做出反应,把握处理危机事件最正确时机。从而提升网络监管能力及突发事件处置能力。第11页1、关联分析数据挖掘中最成熟主要技术之一就是发觉一个事物中一些属性同时出现规律和模式。经过事物内在隐含特征,建立相互关联,大多数关联规则挖掘算法都能够无遗漏发觉隐藏在所挖掘数据中关联关系。以下事例就清楚证实了该功效在舆情研究中价值第12页关联分析事例1“禽流感该怎样更加好地监控?”,“今天你写Blog了吗?”这两个问题连在一起问是否很可笑?实际上,美国一家企业让这两个事件之间关系产生了关联。这家企业正是经过从全球Blog网页中作挖掘出和禽流感相关信息。这一项目考虑到Blog已经成为新闻传输主要路径,先从网上抓取相关禽流感网页,存入到企业数据仓库,再指定“国家”为关键目标词,然后利用关联分析技术,即可得到和禽流感关联最大国家,由此能够判定该国禽流感传染比较严重,从而建立起对应预警机制。第13页关联分析事例220世纪60年代初,我国大庆油田位置、规模还是保密。日本相关人员却经过我国报纸上公开发表几幅照片和简短标题分析得到了我国大庆油田相关信息。1964年,日本人从《人民日报》上看到“大庆精神大庆人”字句,断定我国大庆油田存在。1966年《中国画报》上,日本人看到了一张大庆油田工人照片,依据工人头戴大皮帽,分析出大庆油田可能在冬季气温为零下30度中国东北部。日本人又来到中国观察油罐车,从来往油罐车上一层厚土,从土颜色和厚度证实了大庆油田在中国东北部。1966年10月,日本人从《人民中国》杂志上发觉介绍油田工人先进事迹文章,得出了油田规模和位置。并深入分析得出结论:中国在近几年中将急需进口炼油设备,向中国出售一定规模和数量日本轻油裂解设备是完全可能。第14页2、聚类分析聚类分析功能,不但可以将不一样数据按照某一标准或条件整理分成不一样类,还可以建立宏观概念,从而发现数据分布模式和可能数据属性之间相互关系。这个功能可以很好引用于网络舆情研究方面,可以对互联网中海量信息进行大致聚类,也可以对信息使用者进行聚类,根据信息使用情况、信息内容特征等多个方面对信息使用者进行聚类,概括出每一个聚类特征,可方便于今后更深一步分析研究。第15页3、分类分类是数据挖掘应用比较成熟技术,尤其是在商业应用。分类是找出一个类别概念描述,即该类内涵描述,它代表了这一类数据整体信息,使该类与其它数据独立区分。在网络舆情研究中,我们能够依据本身需求对大量网络信息进行初步选,对各类舆情信息进行分类、分组,如设置“民生问题”、“突发事件”、“公共全”、“经济危机”等等,为下一步工作做好初步准备。再有针对地进行数据选择进行数据集合,缩小挖掘范围,防止盲目搜索,提升数据挖掘效率和质量从而得到愈加准确、有意义有价值信息。第16页
4、预测预测是利用历史数据中找出改变规律,建立专用模型,经过此模型对未来数据种类及特征等其它方面进行预测,得出未来可能出现结果。预测即是趋势分析,比如美国兰德企业曾经就科学突破、人口增加、自动化技术、航天技术、战争可能与预防新武器系统6个问题共49个事件进行了长达50年预测。参加德尔菲方法,经过4轮调查发觉,有31个事件很好地收敛了,即这些事件等到了科学检验,以准确计算方法,预测了事件发展改变规律和趋势。第17页4、预测—方式首先对预测工作进行组织和指导;明确预测目标;选择参加预测教授;编制调查表进行反馈调查;对各轮回收教授意见进行汇总整理、统计分析与预测;经典德尔菲法普通包含以下四轮咨询调查和反馈。第一轮调查:发给教授调查表不带任何限制条件,只提出要预测问题。第二轮调查:请教授对第一轮提出各种事件发生时间、空间、规模大小等做出详细预测,并说明理由。第三轮调查:将第二轮调查统计结果连同据此修订了调查表再发给教授,请教授再次作出详细预测,并充分陈说理由。第四轮调查:将第三轮统计结果连同据此修订了调查表再发给教授,请教授再次作出详细预测,并在必要时作出详细、充分论证。最终就是依据以上四轮反馈得到最终结果编写和提交预测汇报。第18页5、时序模式时序模式是指经过对数据库中数据发生时间序列,进行升序或降序排列整理分析出重复发生概率较高模式。预测和时序功效都能够很好地应用于网络舆情监控和预警。在舆情信息聚集和分析基础上,对社会运行靠近负向质变临界值程度所做出初步确定早期预报。第19页6、预测和时序模式功效预测和时序功效能够很好地应用于网络舆情监控和预警。在舆情信息聚集和分析基础上,对社会运行靠近负向质变临界值程度所做出初步确定早期预报。事实证实,在一些危害社会稳定不良事件发生之前、发生过程中,甚至是结束后,都能经过对大量网络信息搜集,整理分类,有针对地选取数据并对该数据进行规律预测或优先等级排序,从而有步骤有计划处理网络舆情,就能对舆情搜集到达实现对不良事件预防和控制目标,
第20页预测和时序功效应用还能够及时掌握网络舆情动态,防止很多事件向消极方向发展,使对不良网络舆情处理从即时处置型向事前预警型转变。经过网络监控管理,了解预测网民群体倾向和意愿,提前发觉网上不良事件苗头,及时封堵各类有害信息。同时,还能够在大规模舆情危机暴发之前,依据预测和时序功效,尽早针对热点话题,梳理情况,快速应对。尤其是主流话语及时介入,发挥政府网站“先发优势”,经过诸如教授访谈、网上调查、网上座谈、论坛讨论等形式,权威披露,解疑释惑,以正视听。第21页7、偏差分析偏差分析是指发觉数据库中异常数据,偏差检验基本方法就是寻找观察结果与参考之间差异,因为在偏差中包含很多有用信息,能够发觉数据库中数据存在异常情况。比如“3.14事件”中,西方媒体不约而同地登载一张照片,《柏林晨报》网站将这张西藏公安武警解救被袭民众照片硬说成是在抓捕藏人;而BBC给出图片说明写道“在拉萨有很多军队……”,完全无视照片中救护车上大大“抢救”二字。德国NTV电视台也张冠李戴,在报道中将标识显著尼泊尔警察抓捕藏独抗议者照片歪曲成“发生在西藏新事件”。这种显著偏差,恶意炒作和蓄意煽动,彻底暴露了一些西方媒体反华立场。偏差分析功效能够对虚假信息和不良信息进行及时批驳,在纠正偏差中,让造假和诽谤不攻自破。第22页三、数据挖掘在网络舆情分析管理系统功效设计基于数据挖掘技术网络舆情研究第23页网络舆情分析管理系统优异互联网舆情分析管理系统利用广泛互联网信息采集技术和数据挖掘技术,经过自动采集、自动分类、智能过滤、自动聚类、主题检测和统计分析,实现社会热点话题、突发事件、重大案情快速识别和定向追踪,能够有效地帮助各级政府或相关单位快速发觉舆情,及时搜集到所需社会网络舆情信息,从而帮助政府或相关单位及时掌握舆情动向,对有较大影响主要事件快速发觉、快速处理,从正面引导舆论和宣传,构建主动向上主流舆论,并为政府决议提供信息依据。第24页网络舆情分析管理系统功效自动信息搜集功效数据清理功效舆情分析系统(关键)统计汇报第25页1、自动信息搜集功效处理人工无法应付海量网络信息搜集困难,自动信息搜集技术主要是经过网络页面之间链接关系,从网上自动获取页面信息,而且伴随链接不停向整个网络扩展,实现网络信息自动搜集。高效、全方位网络舆情采集,最大程度地确保信息时效性、可用性和全方面性,从而为决议分析提供事实依据和数据参考。第26页2、数据清理功效对信息进行筛选:
初步去除无价值信息,依据不一样舆情调查主题,筛选保留下有价值信息对信息有序化处理:
对于经筛选后保留下来大量原始信息,按照其主题、外部形式或内容特征进行有序化处理,从不一样角度对网络舆情信息进行分类。对信息进行量化处理:
将分散或本身不具备量化特征网络舆情信息进行量化处理,比如进行综合比较打分、编码标引等,还能够按照分析指标主要程度做一些加权处理,使搜集到分散信息能够统一处理。第27页3、舆情分析系统自动分类与自动聚类相同搜素与去重主体检测与追踪关联分析与趋势分析第28页(1)自动分类与自动聚类经过聚类和分类功效能够对网络中敏感话题、热点话题、给定时间段内热门话题,进行识别,详细能够依据讲话时间密集程度、跟帖数量、转贴数量和程度、新闻出处权威度、评论数量等不一样参数,进行分类识别,从而实现网络信息自动分类和聚类。第29页(2)相同搜索与去重相同搜索:就是在对象集合或相关数据库中,找到与指定查询对象相同数据、对象实例或对象子集。去重:就是消除掉重复信息,保留原始出处信息,消去大量转引重复信息。舆情信息检索结果可按不一样维度展现,包含按内容分类、舆情分类、相关人物、相关机构、相关地域、正负面分类等。每个维度下把搜索结果自动分类统计展示信息,使用户用最短时间搜索到最准确信息第30页(3)主题检测与追踪主题追踪:是指在大量各种不一样信息起源中追踪发觉那些与指定目标主题相关或相同信息片段。主题检测:不但能够自动检测信息片断集合中各个未知主题,还能够在线检测发觉新主题。即实现网络舆情分析系统中主题跟踪功效,经过分析新发表文章、贴子话题是否与已经有主题相同。实现热点专题总体分布、重点预警事件总分布、各类重点预警事件分布搜集。跟踪详细内容包含:信息起源、转载量、转载地址、地域分布、信息公布者等相关信息元素。第31页(4)关联分析与趋势分析关联分析是从海量数据中挖掘出内在关联规则。同时,利用趋势分析技术,分析关于网络中不一样主题舆论,随时间发展趋势情况,方便实现对舆论环境监测与不良倾向预警。即能够实现网络舆情分析系统中倾向性分析,对于每个话题,对每个关键人发表文章观点、倾向性进行分析与统计。第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合同欺诈后的补充协议
- 硬件合同终止协议
- 股东投资协议合同范本
- 酒店协议合同折扣
- 卖猫合同协议
- 购房合同违约协议书范本
- 冰箱买卖合同协议书
- 商品采购协议合同
- 入股合同生效前退股协议
- 诚信协议合同
- 小学生三减三健课件
- DB31-T 1564-2025 企业实验室危险化学品安全管理规范
- GB/T 15180-2025重交通道路石油沥青
- 2024-2025学年下学期高一语文期中必刷常考题之作文
- 安徽省示范高中皖北协作区2025届高三3月联考试卷语文试题(含答案)
- 语文-华大新高考联盟2025届高三3月教学质量测评试题+答案
- 2025年江苏省文科大学生自然科学知识竞赛题库及答案(1-1077题)
- 中国农业银行笔试真题含解析
- 2025新人教版七年级英语下册期中测试卷(含答案)
- 茶台买卖合同5篇
- 预防传染病与食品安全
评论
0/150
提交评论