版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
&&&&&&&大数据子平台建设意义形成多源数据统一管理大数据平台大数据平台主要是利用多源多态的数据会聚技术建设大数据资源中心,主要包括数据的导入、采集、接入。中国&&&&&&&报刊社将全面整合旗下报、刊、网及新媒体等传媒资源,平安导入大数据平台,同时使用数据迁移工具、API导入工具等方式导入传统网络媒体、社会化媒体、视频、播送等媒体数据,最终进入大数据平台,形成多源数据统一管理的大数据平台。针对多种业务领域建设大数据应用平台大数据应用平台在大数据平台的根底上进行大数据挖掘、生成内容、管理内容,实现大数据面向中国&&&&&&&报刊社各类业务所提供的资源与智能决策组件、传播效果的自我量化、用户行为分析等。打通中国&&&&&&&报刊社资源融合共享壁垒本次工程建设成功后,将打通中国&&&&&&&报刊社旗下不同媒体与传统媒体不同矩阵的壁垒,实现资源的融合,将内容资源、行业资源、新闻资源、历史资源、阵地资源、网络资源进行聚集,实现多渠道信息共享,同时对报刊社的优势资源进行整理、加工和利用,为报纸、网站、APP、微博、微信及第三方平台提供多种形态的数据支撑,满足线上线下用户多形态的需求。提高中国&&&&&&&报刊社数据加工应用水平本次平台不仅将完成中国&&&&&&&报刊社资源整合,同时将引入大数据存储和分析技术,实现中国&&&&&&&报刊社各类资源的深度加工,协助中国&&&&&&&报刊社将各类资源进行整合利用,基于内部资源、公共资源、&&&&&&&专业资源等应用资源库,并通过用户行为分析、流量分析、内容分析等技术手段实现数据资源的精准投放与反应,提升中国&&&&&&&报刊社影响力。加强中国&&&&&&&报刊社资源监控调度平安为打造平安的信息管理平台,本次规划将通过大数据平台与业务平台的应用功能支撑来完成,将建立包括新闻产品维权版块,可将稿件进行实时追踪,并能时刻了解稿件的采集、加工、发布、转载、市场反应等状态,保障新闻产品资源的合法所有权。同时,报刊社未来可以建立统一新闻调度中心,通过加密通道的方式,保障新闻采访任务、协调指挥等活动的保密性。通过本次平台的建立,中国&&&&&&&报刊社的新闻资源平安性可以得到非常大的提升。提升中国&&&&&&&报刊社信息效劳运营能力本次平台除了根底管理、资源整合、指挥调度、平安监控等内容外,还将实现基于市场的效劳应用,包括针对&&&&&&&行业的&&&&&&&效劳、针对&&&&&&&领域与市场公益的舆情效劳等,建立了基于大数据整合、加工、监控、应用的资源全生命周期的运营与管理,实现了中国&&&&&&&报刊社资源价值最大化,是全国&&&&&&&媒体首创的资源应用与效劳模式。形成可持续开展的媒体业态大数据平台将利用大数据、云计算等新技术,在现有根底设施层上投入建设大数据系统平台以及应用平台,在平台上挖掘和培育各类效劳,最终形成可持续开展的媒体业态。建设内容工程建设是硬件、软件、数据和平台效劳的组合,具体包括大数据资源中心、大数据智能分析中心、大数据组件效劳、平安管理体系等四个方面进行建设。大数据资源中心建设1〕大数据采集大数据采集系统,通过接口导入、多源数据会聚工具、网络爬虫工具、新闻转载工具等将各类数据采集至中国&&&&&&&报刊社的大数据资源中心,实现应用整体数据的分析支撑。2〕大数据管理大数据资源中心建设包括:综合采集、梳理、交换、整合、建立中国&&&&&&&报刊社根底核心大数据库、&&&&&&&行业资源大数据库、新媒体综合大数据库、用户行为大数据库。根底核心大数据库——以中国&&&&&&&报刊社的传统媒体资源根底库为核心,形成“紧耦合与强关联〞的传统媒体资源大数据集合,支持对海量内容资源的一体化管理和维护,包括新闻、报刊、档案等;&&&&&&&行业资源大数据库——以中国&&&&&&&报刊社&&&&&&&资源为根底,并结合其他&&&&&&&行业领域海量数据〔包括各种&&&&&&&文档以及&&&&&&&研究与实践方面的论文摘要等〕形成“松耦合与松关联〞的&&&&&&&行业专业资源大数据集合。新媒体综合大数据库——以社会公众的海量门户网站日志、新闻媒体、微博微信、社交图文、音频视频、UGC等非结构化数据为采集源头,形成“松耦合与松关联〞的动态采集加载新媒体综合大数据集合。用户行为大数据库——建立基于登录用户和非登录用户的两套阅读行为点击收集效劳,提供应中国&&&&&&&报刊社的线上媒体使用,主要包含网站、APP、微信公号、数字报刊、微网站等形态,进而采集相应的点击行为数据,形成用户行为大数据库。大数据智能分析中心建设大数据智能分析中心以文本挖掘、机器数据挖掘、个性化推荐引擎等作为核心技术,实现数据的存储与检索,敏感信息监测、用户行为分析、报表分析、个性化推荐等深度挖掘。大数据组件效劳基于内容资源、用户行为资源以及大数据智能分析中心提供个性化的大数据组件效劳;平安管理体系&&&&&&&大数据平台从数据、应用和虚拟化三个层面对传输平安、存储平安、恢复平安和审计平安进行控制,通过对流量的清洗和监控以及基于计算、存储和网络的虚拟化技术,实现多用户之间的资源隔离,明晰了平安边界,降低系统的平安风险,确保用户的隐私保护。构造多层防御的平安保障体系,确保信息和网络平安、高效、可靠运行。功能描述大数据资源中心大数据采集内部资源整合用于整合中国&&&&&&&报刊社各种系统中的数据,整合后的数据可以满足中国&&&&&&&报刊社用于进一步挖掘数据、发现知识的需求。主要包括从中国&&&&&&&报刊社各个业务系统数据源中抽取数据、加工数据、存储数据,从而完成数据的再造。同时提供了对常见数据源的支持,以及多种数据处理方式,能够有效帮助用户完成数据加工。还具有方便灵活简单易开发的扩展方式,支持用户自定义数据处理方式和扩展对新数据源的支持。外部资源采集实现对全网数据的本地化采集,如网站内容采集、博客采集、论坛采集、数字报采集、&&&&&&&领域专业数据采集、微博采集、微信公众号采集、新闻客户端采集和人工定向智能采集。除了通过自动化工具与技术进行全网自动化指定内容的新闻线索会聚外,同时提供面向新闻业务人员的轻量型的指定内容自动获取工具。比方,当中国&&&&&&&报刊社新闻记者或者编辑在互联网上浏览到任何可能与报社的业务相关的新闻线索或信息内容时,可以通过多元化的会聚集成工具,直接将互联网上所指定的页面内容进行内容智能过滤,并将过滤后的内容自动进行结构化清洗,最终实现将新闻线索或信息一键化的方式推入到报社大数据资源中心;以此完成人工+智能化的便捷新闻线索定向精确获取,并直接融入到中国&&&&&&&报刊社的融媒体智能生产与传播的业务流程中。历史资源数据化将中国&&&&&&&报刊社现在存量的未进行数字化的历史资源〔包括报纸、杂志等〕通过数据加工公司对内容进行数据化,形成电子数据存储至本地大数据资源中心,成为中国&&&&&&&报刊社大数据资源中心的组成局部,进而为大数据分析提供内容支撑。大数据管理大数据管理系统具有高可靠的架构设计,完全分布式的、多副本机制的、对等的、不共享的系统,没有单点故障或瓶颈。这使得系统能线性增长,每新增加一个节点能同时增加系统的性能和存储容量。采用大数据管理支撑平台支撑本平台的存储与检索,大数据管理支撑平台不仅支撑融媒体智能生产与传播平台的存储与检索效劳,同时也是中国&&&&&&&报刊社其他业务系统的存储与检索支撑平台。作为PaaS平台级的支撑效劳,大数据检索将以打包集成效劳的模式为用户进行效劳交付,其特点应具备鉴权、审批、效劳基于SOA模式管理、快速交付、资源计量以及审计踪迹和资源回收等要求,同时具备效劳资源动态扩展和平滑升级的能力。在支撑平台层,应用和数据库系统被打包为效劳模式为授权用户提供检索效劳,并基于SOA模式进行快速效劳访问和提交,检索效劳在完成交付效劳后进行销户和资源回收,并在大数据管理平台形成用户活动日志以确保审计踪迹保存。大数据管理支撑平台将是中国&&&&&&&报刊社所有业务应用的存储与检索效劳平台,提供所有业务应用的大数据存储与检索效劳。功能如下:资源分类管理对于整合的资源建立符合实际、层次清晰的多级树形分类导航,实现查阅浏览功能。元数据管理与标准用户需要可以根据资源的特性灵活地定义其各种描述属性,描述的内容包括各种常见的根本规格属性、图文混排的描述信息、一对多的相关信息等等。资源流程与权限管理流程管理员可通过可视化的界面、鼠标拖拽的方式定义多个知识审批流程,并可根据各类资源的审批需要,为不同类型的资源配置不同的审批流程。资源生命周期监听管理通过本地或网络操作方式,实现对资源的全周期管理。资源的发布与展现具备多维度分类导航的方式。建立符合实际、层次清晰的多级树形分类导航,实现查阅浏览功能。资源的智能检索用户能方便地根据信息栏目、信息类别、关键词、更新日期、标题、作者、信息来源等对站内信息进行跨栏目、支持多种文档类型〔包括Word、PDF、TXT、HTML等〕的筛选、搜索。档案一体化管理与维护具备档案著录、档案检索、档案统计、原件的批量扫描与批量挂接、档案借阅、鉴定销毁、查档收费,系统管理等功能,可管理各类形式档案。大数据智能分析中心采用大数据的智能分析中心支撑中国&&&&&&&报刊社的所有信息挖掘分析效劳,所有基于语义面向内容的智能化和面向行为分析的智能化技术都融合在大数据智能分析中心。大数据智能分析中心还从中国&&&&&&&报刊社业务应用的多个维度入手,将智能效劳通过组件化封装,提供应中国&&&&&&&报刊社媒体业务平台的产前、产中和产后等各环节,实现中国&&&&&&&报刊社融合媒体转型流程数据+效劳的全方位的智能支撑效劳体系效劳。大数据智能分析中心以大数据智能分析为根底,结合自然语言处理技术与数据挖掘技术、融合中文信息处理、人工智能、信息检索的最新研究成果,提供对文本内容的自动关键词和摘要的提取、自动分类、自动聚类,并可对事件或专题进行趋势分析、演化分析、情感观点分析,从而为内容选题筹划、&&&&&&&舆论场分析与引导、资源集中管控、编辑创作辅助、内容传播评估、用户行为画像、精准新闻效劳、社交碎片化数据等各类应用提供技术支撑,还包括新闻热点的数据深度解读、以事件为中心的智能挖掘关联、和机器人辅助写作等传媒行业的主流技术方向。大数据智能分析中心可以帮助中国&&&&&&&报刊社将各类信息资源打通融合,通过对内容碎片化和标签化技术的整理,结合&&&&&&&知识图谱技术,形成中国&&&&&&&报刊社资源的潜在知识关联网络,实现资源价值的最大化。大数据智能分析中心还提供基于大数据智能的根底效劳,并将这些智能技术与GIS地图系统、数据可视化制作等相结合,构造中国&&&&&&&报刊社的一系列特色效劳生产和传播手段。大数据智能分析中心各核心底层技术模块具体说明如下:文本分类:文本分类是指计算机根据文献内容进行类别划分的功能,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。文本相似性检索:相似性检索是指对于给定样本文献,在文献数据集合中查找出与之内容相似的文献的技术。文本自动摘要:文本自动摘要的主要功能是实现文本内容的精简提炼,从长篇文章中自动提取关键词和关键段落,构成摘要内容,方便用户快速预览文本内容,提高工作效率。主题词标引:主题词标引的主要功能是对文本内容进行主题分析,在准确提炼和选定反映文本主题的关键词根底上,生成文本的一组主题词标识,从而方便用户快速了解文章主题,提高工作效率。文本信息抽取:文本信息抽取采用的是基于规那么与统计相结合的技术,从非结构的文本信息中抽取有意义的事实信息,被抽取的事实信息以结构化的形式进行描述,并可以存入结构化数据库中,供人们分析和利用。拼音检索:拼音检索采用基于统计的汉字注音技术和多音排歧技术,是在长期积累的大量拼音语料根底上,统计了汉字串的分布规律、拼音串的分布规律等大量有用信息,在此根底上开发了基于上下文的注音算法技术,根据汉字串的上下文进行准确地注音,保证了注音的准确性。相关短语检索:相关短语检索采用基于人工整理和数据挖掘方法结合的相关短语技术,采用处理时序对象的关联规那么挖掘技术,从搜索引擎的查询日志挖掘相关查询,构造了一部高质量的相关短语词典。(政治)常识校对:(政治)常识校对主要是针对文本中存在的政治常识错误进行自动检查和校对,帮助用户快速有效地发现和订正政治常识错误。文本聚类:文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成主题词,为用户确定类目名称提供方便。中文分词:中文分词采用基于规那么与统计相结合的分词技术,将中文的汉字序列切分成有意义的词,可应用于文献检索、搜索引擎等诸多领域,提高检索的相关性排序的准确度等。大数据组件效劳资源效劳提供基于智能分析的信息检索效劳,保证对于结构化数据和非结构化数据〔包括网页、电子邮件、Word文档、PDF文件以及没有以行列格式保存的任何内容等〕都可以进行良好的处理和检索。搜索方式包含传统搜索、微博搜索、聚网搜索、未知探索和实时微博检索等功能。监控效劳&&&&&&&新闻线索效劳会聚基于内部&&&&&&&新闻线索、全网&&&&&&&微博、&&&&&&&行业UGC内容〔分区域〕、&&&&&&&微信公号文章等的数据形成的&&&&&&&新闻线索效劳,包含突发线索和热点线索两个层面,热点线索见热点分析效劳中的说明,提供应相关业务系统使用;支持微信、微博微信的突发报料线索会聚整合。&&&&&&&领域地图脉动效劳可用地图的方式动态展现内容数据、传播效应、民意反映、各方声音、趋势力度、预警体系等,可根据全国热点事件、舆情热点事件进行综合排名概览、针对各事件或单一事件做数据比照,并可自定义查询时间段。舆论跟踪效劳综合应用多种技术手段实现事件完整而全面的跟踪分析,包括传播热度曲线、传播主题热点变化、媒体报道、特定网络话题的首发网站、网络话题的转载网站、参与网络话题的重点账号、网络话题的传播数量、针对某网络话题的主要及典型网民观点等。分析效劳&&&&&&&热点分析效劳依据内容资源库的数据,结合各媒体部门监控的范围特点,分多维度进行相应的热度计算,形成热点、榜单和趋势研判。阅读群体分析效劳1〕媒体用户群画像依据用户阅读行为数据库中的用户阅读兴趣画像,提供各媒体产品的短期和长期的用户群画像和趋势,增长最快的兴趣关键词;2〕媒体同领域稿件单一文章〔或文章主题关键词〕对应各媒体历史同领域主题稿件阅读量榜单和合理发布时间榜单。系统可针对长期积累的数据进行多维度、灵活的数据挖掘及分析,亦可针对特定时间段的关键词或文章进行排行、特定话题的深度分析,可灵活定制多种统计指标,并基于关键词组合及语义分析技术进行挖掘、分析。系统可以灵活定义统计数据结果排序方式,包括按影响力、发布时间、按相关度等多种排序方式。获得的统计结果可以导出本钱地数据。3〕官方立场核心媒体单一文章〔或输入主题关键词〕对应内容仓库官方立场核心媒体历史同领域主题稿件的报道主题角度匹配。包括文章的首发媒体、稿件作者、稿件主题、稿件新闻的转载量、新闻的转载网站、新闻的跟帖评论量、微博的转发量及评论量、论坛帖文的回复量及点击量等。系统可以灵活定义统计数据结果排序方式,包括按影响力、发布时间、按相关度等多种排序方式。获得的统计结果可以导出本钱地数据。&&&&&&&事件分析效劳具备全网数据热点&&&&&&&事件分析的效劳能力,用户在第三方平台中输入事件发生周期和相关关键词,系统量化事件中的各种数据〔影响力、传播节点、传播趋势、网民声音等〕,形成图表。选题趋势分析效劳选题趋势智能判断主要采用基于人机交互的方式,即用户首先提出选题需求、计算机根据用户需求进行初步热点生成、用户根据热点调整选题范围、计算机根据用户需求继续调整细化热点,如此不断调整优化,形成最终的选题结果数据探索效劳和可视化市场基于多个维度数据之间的关联性分析模型,结合数据可视化工具,形成探索发现;主要包含时间-主题分析、地域-主题分析、时间-地域-主题分析等模型。推荐效劳支持社交热点匹配效劳定时计算采编人员正在写的稿件内容中可以匹配的近期社交热点并展现相关具体信息;根据用户输入的关键词组信息匹配近期社交热点并展现相关具体信息。支持稿件背景匹配效劳根据输入的关键词词组后,计算出稿件背景资料并展现出相关推荐信息。支持稿件辅助分发效劳利用媒体影响力模型,同时计算采编准备签发的稿件内容所属领域,匹配集团内相关领域中相对有影响力的假设干发布目标。支持团队组成推荐效劳通过积累媒体稿件的各领域和主题中传播效应较好的稿件和相应的内容生产环节中的组成成员,提供适配稿件创作主题的最适合的团队组成成员方案。支持智能推荐引擎效劳智能推荐引擎效劳利用用户阅读行为数据库和内容资源库,结合热门、兴趣、地域、探索四个维度来为未来线上媒体进行内容智能推荐效劳。热词生成针对&&&&&&&领域的海量内容资源,可自动提取出&&&&&&&热点相关的人物热词、地域热词、机构热词、话题热词等。通过热词的自动生成功能,可以按照时间段,如当日热词、月度热词、季度热词、年度热词等自动生成热词列表,便于发现热点信息。应用支撑&&&&&&&大数据平台作为中国&&&&&&&报刊社的根底支撑平台,既可以实现跨业务平台数据的关联与整合,还可以为融媒体智能生产与传播平台提供全业务流程的大数据应用支撑:基于语义的稿件关联分析=1\*GB2⑴对稿件内容进行分析,提取其中的关键词、摘要等精炼的有用信息。=2\*GB2⑵稿件比对效劳:对稿件进行语义分析,标记掉重复和相似稿件。可以提前设定相似阈值直接进行过滤,也可以通过管理员对稿件进行审核。=3\*GB2⑶语义检索效劳:用户可以通过一个句子、一段话或者一篇文章进行检索,后台经过语义分析以后,找到相关稿件并进行相似度排序后展现,供用户使用。基于聚类的主题分析=1\*GB2⑴定时主题分析效劳:定时将最近一段时间〔一周、一个月等〕的数据进行主题分析,用户进入系统后就能直观地看到最近的热点主题。=2\*GB2⑵实时主题分析效劳:用户检索相关稿件时,系统对其检索结果进行实时的主题分析,方便用户找到所需稿件。=3\*GB2⑶子主题分析:将关于某个主题的数据进行分析,发现其子主题,让用户清楚了解到主题下各个子主题的分布情况。=4\*GB2⑷对主题以及子主题的关系进行可视化展示,以信息岛图、细胞图等图形的方式提供应用户,方便用户了解主题与主题之间、主题与子主题之间的关系。基于实体要素的智能内容关联与扩展对用户关注的一组特定实体〔人物、组织机构、地点等〕进行持续的跟踪分析,分析实体的相关新闻信息,以文字、图表等多种方式对实体的分析结果进行全方位的展示,使用户能立体地了解该实体的根本信息以及其相关信息。建设以事件为中心的新型新闻组织形态对用户关注的事件进行持续的跟踪分析,分析事件的各种要素如时间、地点、相关人物、何事、原因、进展等,以文字、图表等多种方式对事件的分析结果进行全方位的展示。基于语义标签库的标注和组织语义标签库的标注语义标签体系是一套多维度多模态融合的标签,不仅涵盖时间、地点、人物、组织机构、事件、新闻内容分类等多维度的文本标签信息,还可以按照互联网来源、领域、媒体特征等形成辅助标签信息,也可以对文本、图片、视频等多媒体的稿件统一进行语义标签标引。语义标签库的组织和应用在融媒体智能生产与传播平台中稿件入库的阶段,进行语义标签的抽取工作,包括百科知识标签抽取、自动分类〔分类标签生成〕、关键词抽取和摘要、实体识别和信息抽取,形成完整的语义标签,供后续的语义标签应用使用。基于语义标签库的跨媒体检索通过语义标签库,可以将不同格式的多媒体数据同化为统一的标签体系,通过各种媒体类型的标签内在的关联,把多种媒体类型的稿件进行统一检索和导航推荐,实现新媒体资源类型的整合,统一对外提供多类型产品的效劳。构建&&&&&&&知识图谱依靠中国&&&&&&&报刊社强大的平台优势和软硬件条件,可以预见数据将迅速开展,数据量也会急剧增加。利用各种数据资源,构建具有中国&&&&&&&报刊社特色的&&&&&&&知识图谱,不仅可以从大数据资源中心挖掘发现新的知识,也可以为相关应用提供智能化效劳。&&&&&&&知识图谱注重知识产品的关联性,充分利用标签系统,使知识产品得到最广泛的关联。从系统整体来讲,利用大数据资源中心提供的数据作为资源来挖掘知识、构建&&&&&&&知识图谱。一方面,&&&&&&&知识图谱的构建将原本无序的数据整合。另一方面,&&&&&&&知识图谱建成后将提供大量高效效劳,既可以将各种资源有机整合进行知识的展示,还可以挖掘出大量的隐含语义信息。综上所述,中国&&&&&&&报刊社&&&&&&&知识图谱分为以下几个模块:基于深度数据挖掘的知识发现利用标签提取、命名实体分析、聚类等数据挖掘技术,挖掘报社海量资源中蕴藏的知识。主要包括知识词条的识别和提取,知识词条相关信息挖掘,词条间各种关联关系挖掘,词条与稿件间关联关系挖掘等。基于&&&&&&&知识图谱的效劳平台的构建基于&&&&&&&知识图谱,结合实际应用需求,提供各种高效效劳,综合构建形成依托&&&&&&&知识图谱的效劳平台。&&&&&&&知识图谱与系统其他功能的集成一是利用系统已有功能支持辅助&&&&&&&知识图谱的构建和维护;二是将系统资源整合后得到的知识反哺给各系统模块,通过提供综合效劳的方式使系统共享知识成果。智能&&&&&&&专题库设计通过基于语义的文本挖掘技术,对中国&&&&&&&报刊社的稿件进行挖掘分析,包括时间、地点的抽取与转换,人名、机构名的提取,言论提取,内容分类、聚类等,进而利用大数据平台自动建立&&&&&&&领域专题库。专题要素对专题的时间、地点、人物、事件起因、开展等核心要素进行提炼与展示。帮助用户锁定专题的核心要素。专题聚类对一定集合的数据〔例如某个检索结果,或者某个时间内的数据〕通过聚类技术自动发现专题及其子专题,并将各个专题类别的新闻稿件按层次有序排列。大事件时间轴针对无数的新闻报道,通过时间的主线将他们串联起来,便于用户快速了解事件的开展与动态。各方观点针对新闻报道,挖掘与人物相关的报道与评论,使用户了解某一特定专题的关注范围。通过语义挖掘技术对大量新闻报道中的人物关键字的提炼、归类、分析、排序,形成多个分类下的人物言论集合。地域热点针对新闻报道,挖掘与地域相关的报道与评论,使用户了解某一特定专题的发生地域。通过语义挖掘技术对大量新闻报道中的地域关键字的提炼、归类、分析、排序,形成地域事件集合,并通过地图进行展示。正负面焦点针对无数的新闻报道,挖掘与人物相关的报道与评论,并进行正负面评论归类,帮助用户关注特定分类报道。通过语义挖掘技术对大量新闻报道中的人物关键字的提炼、归类、分析、排序,并进行正负面归类,形成&&&&&&&领域下的正负面焦点的评论集合。硬件环境支撑&&&&&&&大数据子平台通过高性能效劳器、存储设备、网络设备、备份设备等根底软硬件环境支撑,并通过虚拟化技术对物理资源进行池化,以满足平台的可靠性、平安性、可扩展性和有效性。平台采用集群的方式进行数据平安保障,配备120台左右效劳器,包括采集效劳器、大数据存储效劳器、智能分析效劳器、数据库效劳器、缓存效劳器、应用效劳器等,并为效劳器配置相应的根底软件,如操作系统、数据库、中间件、大数据软件等;同时增加以太网交换机、FC交换机等网络设备;另外针对海量数据的存储和管理需要,配置NAS存储以及SAN存储设备,在保证数据平安性的同时尽可能提高系统的整体数据存储能力和吞吐性能。可行性分析随着信息技术特别是信息通讯技术的开展,互联网、社交网络、物联网、移动互联网、云计算等技术被广泛使用,全球数据信息量呈指数式爆炸增长之势。伴随着前所未有海量数据信息的聚集,“大数据〞呈现出两大开展趋势:一是由从商业行为上升到国家开展战略;二是从大数据技术向大数据科学开展。在传统媒体受新媒体严重冲击的影响之下,借助大数据技术实现媒体的融合转型将成为必然选择。中国&&&&&&&报刊社IT信息系统的建设及迅猛开展,报刊社内部已拥有海量的内容资源,资源分散且无序,无法提炼内容的价值,因此中国&&&&&&&报刊社已经具备了使用大数据技术的根底条件。另外,中国&&&&&&&报刊社内部的数据类型已不是单一的以文本为主的结构化数据,还充满着广泛存在于网络、各个业务系统之中的网络日志、音频、视频、图片、地理位置信息等多类型的非结构化数据。中国&&&&&&&报刊社现有的数据处理方法仅适用于结构化数据,无法将大量的非结构化数据与结构化数据进行统一、整合,就无法开掘数据中的价值。同时,由于不同业务模块的数据分布在不同的系统平台,这些被割裂的数据在单一业务平台无法得到有效利用;不同业务模块的数据无法实现共享、关联;仅对关键业务的数据进行收集、整合和利用,非关键业务的数据被无视等现状。报刊社的数据由于业务模块的划分而被割裂开来,单一业务模块的数据价值远远小于所有业务模块数据关联起来进行分析运用所产生的价值,中国&&&&&&&报刊社将如何实现跨业务平台数据的关联与整合将面临巨大的挑战。随着经济的飞速开展,中国&&&&&&&报刊社所面临的市场行情也在瞬息万变,同时&&&&&&&行业的过载信息与行业开展也发生了极大变革,结合媒体领域与&&&&&&&领域的前沿技术与业务模式,要求实时洞察业务运营状态,以便迅速应对不断变化的市场形势。随着大数据的爆炸式增长,与报刊社相关的&&&&&&&数据可能在无限量的不断增长,这些不断变化的数据,需要中国&&&&&&&报刊社进行全面、实时的分析,进而实现基于数据和分析而做出智能决策。大数据技术已经越来越广泛地应用在各行各业,无论在技术角度还是在平安角度都越来越成熟,可以为媒体行业创造最大的价值,助传统媒体重新夺得意识形态的主阵地。融媒体智能生产与传播子平台建设意义利用&&&&&&&大数据平台提供的大数据相关效劳,建设一个具备构建综合类和垂直类的面向&&&&&&&行业用户的网站以及APP系统的完整采编发和相关业务的互联网融合智能传播效劳平台,实现生产制作一体化、编辑加工一体化、数据共享一体化、渠道监控一体化、渠道发布一体化。通过建设融媒体智能生产与传播子平台,打破原有的各渠道独立采编模式,建立综合的一体化创作平台,实现综合创作和独立创作多种形式,为编辑提供用户体验良好的一体化新闻生产模式。依托全面会聚的多渠道资源数据,利用大数据智能分析工具作为技术支撑,将编采流程和内容彻底别离,将报刊社多家子媒资源融合共享使用,以“中央厨房〞式的方式来完成“一次采集、多元加工、屡次发布〞的重构生产模式,提高编辑效率和新闻及时性。建设内容融媒体智能生产与传播子平台主要建设六个子系统,各应用系统之间架构如下列图所示:1、建设新闻线索智能决策系统,为&&&&&&&报刊社的内容选题、新闻出版和事件分析等提供支撑;2、建设全媒体创作制作系统,实现同一稿件不同形式的编辑,提高各渠道编辑效率,同时可很好的实现资源共享;3、建设多终端的融媒体智能发布系统,实现新闻内容的一次加工和多渠道多终端统一发布;4、建设传播效果分析系统,构建基于“融媒体〞的智能传播效果分析系统平台,最终形成综合性的量化影响力报告;5、建设中央厨房报道指挥系统,实现重对大事件、突发事件的深度和快速报道提供支持,从而实现新闻报道的数据化、流程化、协作化和可视化;6、建设内容创作社区,将PGC与UGC的内容生产相结合。面向&&&&&&&领域的自媒体人和认证用户,实现对报刊社全形态媒体的投稿功能以及相关辅助性社交功能。7、为适应融媒体转型新形势的开展,对已有系统进行升级改造,包括中国&&&&&&&新闻网等。功能描述新闻线索智能决策系统新闻线索智能决策系统将利用&&&&&&&大数据平台所提供的数据采集与挖掘分析能力,对全网新闻信息和热点专题进行智能分析处理,为&&&&&&&报刊社的内容选题、新闻出版和事件分析等提供支撑。与传统模式下线索选题发现相比,本系统具有如下特点,更加适应融媒体转型新形势下新闻选题需求:集团历史数据、各类官方信息、民间信息比照展现;方便快捷的微信、微博、新闻APP的内容管理、跟踪关注账号、了解各领域排行榜;集团热线类数据接入、线下通讯员社区的UGC内容与资源的双向交流;提供大数据热点研判,结合时间、地域、领域进行多维度图表参考,直观反映热点趋势和事件复原;线索日历提供多元支撑、结合编辑发稿分析,相关线索自动提醒。具体功能描述如下:1、新闻趋势分析利用大数据技术对新闻素材进行聚合与量化分析后,在一定时间段内可对某一主题新闻进行追踪,按照新闻热度变化做出可视化趋势曲线,中选定新闻的报道量、转载量等信息发生变化时,新闻趋势曲线随之动态变化。2、选题趋势分析选题趋势智能判断的主要功能是通过对新闻线索中近期稿件的智能挖掘与分析,发现当前的新闻热点,辅助选题人员完成新闻的选题,并可将选题的趋势分析与采编业务流程相结合,应用到编前会和新闻报道的决策。3、选题个性化智能推荐新闻选题个性化智能推荐,是应用大数据分析技术,通过对用户信息的读取,智能分析用户的选题偏好,并与大数据平台中存储的新闻源以及新闻平台内容加以匹配,综合出选题推荐列表供用户查询、筛选、使用。4、稿件热点匹配稿件热点匹配的需求是对创作中的稿件进行定时匹配近期社交网络热点新闻,其核心功能是在创作中的稿件里提取各种语义标签,在此根底上,智能从后台智能线索数据仓库中匹配相关的社交网络热点信息,包括热点事件、人物、地点、机构等。5、线索资源背景匹配背景资料匹配的需求是对新闻创作中的稿件进行背景资料匹配,其核心功能是从用户正在创作中的稿件里输入基于关键词的逻辑检索表达式,在此根底上,智能从后台数据仓库中匹配相关的背景信息,包括人物、地点、机构、相关稿件等。6、新闻热点分析建立新闻、博客、微博、视频、全局等多维舆论场热点发现模型,提供面向垂直领域的数据采集与热点发现,实现网民互动的热点模型。7、线索多维展示通过大屏、移动终端、PC端和微网页等方式,对线索进行可视化显示和交互操作。融媒体智能创作系统融媒体智能创作系统将实现同一稿件不同形式的编辑,包括网站格式编辑、终端格式编辑〔、平板〕、微博格式编辑〔140以内,文字+链接〕、微信格式编辑、户外大屏格式编辑等等。统一稿件可被编辑为多种格式进行保存,提高各渠道编辑效率,同时可很好的实现资源共享。与传统模式下内容编辑功能相比,本系统具有如下特点,更加适应融媒体转型新形势下内容编辑需求:一体化融合创作,一套系统解决多渠道内容编辑发布;编辑过程中可预览发布效果;资源中心提供对原创稿、集团稿、新华社稿、互联网稿件、新媒体稿件等多维度管理,数采一键取稿;采用融合编辑器提升内容编辑功能、不同渠道发稿优化,多样的便捷工具支持;提供文、图、视频关联内容展现、多渠道延展阅读,相关词条的专业解释,多元智能化编辑功能辅助;具有以个人为中心、全定制的个人平台,涵盖资源管理、创作流程、任务管理、大数据分析等。具体功能包括:1、一体化编辑器智能化创作作为融媒体智能生产与传播子平台建设的重点内容之一,将实现同一稿件不同形式的编辑,包括网站格式编辑、终端格式编辑〔、平板〕、微博格式编辑〔140以内,文字+链接〕、微信格式编辑、户外大屏格式编辑等等。统一稿件可被编辑为多种格式进行保存,提高各渠道编辑效率,同时可很好的实现资源共享。同时,一体化编辑进行灵活定制,即支持全能型编辑一次编辑多个渠道稿件,同时也支持专业型编辑定制某个渠道稿件编辑平台。不同渠道的信息发布需要不同的编辑页面,例如微信的内容发布就明显与网站不同,但多个编辑器使用起来又非常不方便。为了方便编辑日常使用,系统设计通过标签页切换编辑界面的方式,报刊社授权编辑用户登录融媒体智能生产与传播子平台,只要其对各渠道编辑都具有权限,就可以显现如下的编辑器,可以在不同页面之间进行切换,从而实现网站、微博、微信、APP等不同渠道的统一编辑。2、多渠道推送网站发布支持同一篇稿件多渠道推送,例如一篇稿件同时推送到门户网站、视频网站、报刊、APP、微博、微信、数字报刊、户外大屏等,在哪些渠道发布可以灵活和可视化地进行选择和编辑,面向不同渠道推送的信息要适合该渠道发布。在推送过程中采用一个内容多个副本的方式,从而解决不同渠道的个性化要求和稿件关联。3、社交化移动创作为了更好的表达新闻媒体的时效性,本系统将建立移动创作工作版及共享版客户端面向不同的人群,前者面向的是&&&&&&&报刊社的记者编辑,他们可以通过移动创作功能迅速采集现场文字、图片、音视频等资源进行上传,保障新闻报道速度,后者面向的是&&&&&&&报刊社的广阔的“通讯员〞群体,他们通过移动创作功能进行时政评论、身边事等内容的采编和上传。4、碎片化管理系统支持碎片化发布方式,每个新闻栏目、广告、图片、视频等信息都是按照模块标记的方式进行配置,不同栏目、广告、图片、视频的管理员可根据自身不同的需求进行代码修改、栏目位置配置,将整个发布进行精细化拆分,从而实现更加灵活的资源配置。5、数据新闻制作套件随着大数据时代的到来,信息的内涵已不仅仅是简单的新闻信息,而是各种各样的数据。这就要求报社必须适应新的信息生产和传播时,以多元化媒介新生态来承当信息传播的职能,生产、分析、解读数据,探索为用户和用户提供分众化效劳和体验的媒体开展之路。数据新闻就是近期随之产生的新型新闻传播模式。新闻数据将新闻背后的数据进行分析与过滤,从数据中总结规律、通过数据图表从信息流中构建新闻事件的轮廓,最终把数据和新闻内容本身作为相辅的整体进行传播。数据新闻从量化的角度准确地报道新闻事实,反映新闻事件的开展状况,并通过可视化的手段进行展现,从而将重要和相关信息传达给用户。不仅拓展了传媒作为社会记录和信息传播的职责,更强化了传媒承当起社会解用户与分析预测者的舆论重任。数据新闻作为新闻内容报道的新型传播形态,不仅能够以直观的数据图表等展现形式在纸媒、视频等平面或传统媒体投放,同样的数据新闻能够投放于互联网的媒体网站、移动端等,采用html5技术的可视化灵活展现在这些媒介形态上与用户用户进行互动,实现内容的交互性传播。新闻可视化工具,就是充分利用H5的良好交互性能与&&&&&&&大数据平台的数据及分析效劳,让普通的报刊社编辑或美编人员能够根据新闻数据和相关的线索快速制作出符合投放纸媒或投放、网站等不同渠道的可视化数据新闻,减少了需要技术人员才能完成的互动效果开发。能够帮助中国&&&&&&&报刊社从本钱上减少了技术人员的日常运营投入,从流程上实现了编辑对可视化新闻的独立实现,从新闻传播效果上与国内外主流的新型传播展现型式相符合。5、基于融媒体的稿件流转监控系统提供所见即所得的可视化操作、简单地鼠标拖拽就能够完成流程的定义。系统管理员不仅可指定工作流过程中文档状态的变化、通知方式,还可结合短消息、邮件、短信等手段实现工作流信息提醒。融媒体智能发布系统融媒体智能发布系统通过接口调用、消息传递和共享数据等技术方式,完成与融媒体智能创作系统之间的无缝对接,并在此根底之上实现新闻内容的一次加工、多渠道多终端统一发布。1、多模板适配发布引擎融媒体智能发布系统的核心为多模板适配发布引擎,引擎通过发布Html5、Json、XML、图片、流媒体等方式,为成品稿件提供多渠道、全方位的发布能力,包括网页发布、直播应用、移动发布、移动阅读、电子杂志发布、户外大屏发布等。2、网站新闻发布网站新闻发布以静态化发布为主,实现向前端多个站点进行多元化的内容推送,系统支持多站点、多栏目的维护管理;支持多媒体格式稿件〔文字、图片、音频、视频〕的发布。3、微博发布支持一站式多微博帐号统一管理,各平台的微博消息〔评论、转发、@〕可以实现自动送抵,不用再登录各个微博系统就可以发布和回复;可对微博的运营状况进行分析;支持微博互动效果、粉丝质量、粉丝分布及关联关系等分析。4、微信发布实现多个微信公众号的统一管理和分类管理,可以对粉丝数量变化情况进行统计并挖掘粉丝行为,可以通过开放IPA接口实现各类业务应用的接入整合。5、移动终端发布实现内容一键发布到各种平台的移动应用,支持发布到iOS和Android平台的移动终端应用。同时系统还支持快速搭建移动应用功能,终端展现可以在系统后台灵活定义,支持离线阅读和推送功能。传播效果分析系统传播效果分析系统可收集、存储和计算互联网内容及相关数据〔含历史数据〕、内部媒体产品内容及相关数据,系统将会全方位考察纸媒发行量、阅读量,网站点击量,微博、微信转发量关注度,APP装机量、活泼用户数,新闻事件报道关注度,引发话题量等等,以及相关新闻来源、首发率等,最终综合成品牌影响力。对这些影响力进行量化的分析并持续跟踪,构建基于“融媒体〞的智能传播效果分析系统平台,最终形成综合性的量化影响力报告。1、报纸传播效果分析传统意义上报纸的传播效果分析以发行量和阅读率为主要判断标准,随着新媒体的日渐开展,媒体融合促进了信息的一体化传播,报纸作为一个信息始发地的重要性也有所凸显。本系统针对报纸的传播效果分析从发行量、阅读率以及行业反应来进行综合评定。2、网站传播效果分析网站的传播效果主要表达在用户、所发内容的公信力水平以及其他媒体渠道转载等方面。传播效果的评判指标就依据这三个维度进行。用户的政治倾向性、用户的个人属性信息〔包括性别、年龄、地域、职业、收入水平等〕、用户偏好信息接受渠道以及用户的流失情况来综合反映网站的用户影响力。其他媒体渠道转载主要表达在转载和被转载行为上,转载网站点击数、网站综合排名、信息首发率、被转载数、被评论数等可量化指标也是评估媒体传播力的主要影响因子。3、微博传播效果分析微博的传播能力通过微博的覆盖度、活泼度、互动度和传播度来反映账号的信息传播能力和传播效果。主要评判主标包括:听众数:微博主的全部听众〔关注者〕数量,是决定微博覆盖度的根本指标;新增听众数:微博主在T时间段内新增加的听众数量,其中负数〔听众减少〕做零值处理,即标准化值ln〔新增听众数〕=0;新增写操作数:T时间段内微博主发布、转发的微博总数。;原创数:T时间段内微博主发布原创博文的数量;转播数:T时间段内微博主转发其他账号博文的数量;私信数:T时间段内微博主接收听众私信的数量;回复评论数:T时间段内微博主对听众〔关注者〕评论的回复,或者T时间段内微博主对非听众〔关注者〕的评论回复;原创被转评量:T时间段内,微博主发布原创微博被转播、评论的总数;二次转播被转评量:T时间段内,微博主转播微博被再次转播、评论的总数;依据以上指标判断中国&&&&&&&报刊社及其子报子刊的官方微博的传播效果分布4、微信传播效果分析微信的传播能力主要通过阅读指数来量化评价,传播效力通过点赞指数来综合衡量。5、APP传播效果分析本系统将根据采集的360助手、91助手、QQ应用宝、百度助手、豌豆荚、iOS的APPStore等平台中媒体类APP〔由客户指定〕的下载量和网民评价内容来综合判断中国&&&&&&&报刊社APP在行业年内的传播情况。6、新闻话题事件传播效果分析传播影响力指数的评判指标以媒体等级涉及到的网站数量以及发布的信息量来进行加权计算所得。媒体等级划分体系以中国&&&&&&&报刊社现有的媒体等级划分体系为准,依托层次分析法和德尔菲法进行媒体等级的划分。中央厨房报道指挥系统中央厨房报道指挥系统是作为重要事件、活动资源整合与发布衔接的重要桥梁,是一次事件和活动报道的“大脑〞,中央厨房报道指挥系统将建立智能的选题筹划和团队建设平台、高效的任务管理与任务汇报机制、灵活的新闻采访指挥与现场协调以及全面的新闻生产过程监控与分析机制。1、基于大数据的智能选题筹划与智能团队推荐功能建设包括智能选题筹划和团队成员推荐两大功能,其中智能选题筹划是通过新闻线索智能决策系统的功能实现选题筹划分析,主要包括选题筹划管理、选题筹划分析、互联网热点信息预警、选题统计等功能。智能团队推荐模块将以人为核心建立权威的记者库、编辑库、行业库等,通过多位度综合性的分析来评估每个人的擅长领域、负责区域、特点等。2、基于地理信息的新闻采访任务协调指挥功能一局部是硬件建设,包括液晶拼接单元、视频拼接处理器、电视墙安装支架等硬件、一局部是软件建设,包括GIS地理信息平台〔实时定位、资源分配等〕、任务管理平台〔新建任务、任务分类、流程管理等〕、新闻线索监控平台〔热点发现、热点预警、报道分布等〕。3、基于流程审计的新闻报道生产过程监控功能该功能包含流程设计引擎模块、用户管理模块、任务统计模块、报道统计、采访日志等功能,保障整个新闻报道生产过程中的内容实施监控和记录。监控的范围包括邮件监控、出版进度监控、报道流程监控、报道进度监控、平台软硬件运行监控等,所有监控内容和日志可实现导入导出,便于决策者查阅。内容创作社区内容创作社区是面向内容创作爱好者的效劳类社区平台,平台实现对报刊社全形态媒体的投稿功能以及相关辅助性社交功能,包含网站和移动端。用户管理实现平台内的用户注册管理、权限管理、各类认证管理、个人提醒信箱管理、会员积分管理等。社群交流实现平台内临时性和长期性的社群交流功能。平台支持临时添加建立虚拟组织,如在两会期间,建立效劳两会的社群,并可设置自动解散时间。创作交流模块主要实现报刊社内采编人员发起的定向约稿、活动、赛事、调查、投票、交流等功能。数据效劳展现依托&&&&&&&大数据平台提供的智能推荐效劳进行相关的信息展现,并且依据用户的权限进行个性化展现和推送。推送给用户感兴趣的内容、精准化推送、自定义样式和风格数据分级分析。个人稿库管理实现对外部投稿人对稿件的查询、管理、下载、稿件状态的跟踪、统计等功能,是投稿人日常投稿、写稿的工作平台,里面是投稿人所写稿件列表,在此平台上投稿人除了对稿件写作,还能够和有权限的人员或工作组、部门完成稿件的传递操作。并能够对内容创作社区中的稿件进行建稿和采用状态进行跟踪与管理。投稿配置实现管理员配置投稿管道以及个人用户配置投稿管道的功能,为创作中心的成品稿件提供多渠道、全方位的发布能力,包括网页发布、直播应用、移动发布、移动阅读、电子杂志发布、户外大屏发布等。硬件环境支撑融媒体智能生产与传播子平台需要高性能效劳器、存储、网络、备份系统等根底软硬件环境支撑,以满足平台的可靠性、平安性、可扩展性和有效性。平台采用集群方式进行性能保障,配备40台左右效劳器,包括web效劳器、应用效劳器、数据库效劳器等,并为效劳器配置相应的根底软件,如操作系统、数据库、中间件和全文检索软件等;增配接入交换机、负载均衡等网络设备;针对数据的存储和管理需要,搭建SAN存储区域,采用光纤交换机、磁盘阵列设备,在保证数据平安性的同时尽可能提高系统的整体数据存储能力和吞吐性能。可行性分析中国&&&&&&&报刊社在新媒体融合开展的探索上,已搭建了较为丰富的新闻发布渠道,具备了一定的融媒体转型经验,但是,各个渠道的新闻生产流程仍是线性流程,采编业务互相平行,新闻选题业务与新闻反应业务的结合并不十分紧密,新闻反应业务没有持续有效地对新闻选题进行影响,新闻选题与用户的结合也并没有到达天衣无缝,新闻业务流程之间的信息壁垒还没有完全消除。同时,新闻热点和选题筹划主要依靠报刊社各级领导和从业者的经验来决定,对于选题和报道方向主要依赖于经验为主的主观思维。在互联网思维不断冲击报业媒体以及习总书记关于媒体融合思路建设的大方向下,采用量化的数据内容,辅助智能分析决策进行可视化的内容选题及智能会聚效劳是中国&&&&&&&报刊社抢占舆论阵地、扩大传播范围亟需建设的重点。报刊社现有采编系统任然是各渠道独立采编、封闭性采编以及个人经验采编的模式,已不能适用融媒体转型形势下智能的采编发需求,通过搭建融媒体智能创作系统,为编辑提供体验性更强的一体化、开放的、支持协同采编以及数据、工具辅助采编的平台,提高编辑创作效率。用报刊社的品牌价值,结合“融媒体〞时代的多元化发布渠道,提升信息的有效传播效果,是报刊社信息化进程中的一个迫切需求。基于融媒体转型的思路,面向媒体未来创作和营销渠道的融合路线来架构,并兼顾现有的传统媒体的生产加工流程,从信息会聚、资源管理、创作生产、出版发布、运营支撑和传播反应等环节入手,将大数据智能应用到媒体业务的每个环节。整合传统报刊、网站、APP、微博、微信、微网站、数字报刊等形态的媒体采编发布流程,配合通用和自定义的发布模板或是对接第三方发布系统,形成统一采集、分类加工、集中分发的适应互联网的融媒体智能生产与传播平台。&&&&&&&用户资产管理子平台建设意义通过搭建&&&&&&&用户资产管理子平台,解决传统媒体开始之初就存在的软肋:用户是谁,在哪里,有何需求,是否变化,怎样变化,变化的过程、趋势等此类问题,为用户和内容生产之间架起桥梁,通过用户的信息反应和行为分析,有助于内容选题和舆论场引导,提高传统媒体面向用户个性化需求的传播效果。通过&&&&&&&用户资产管理子平台,能够帮助中国&&&&&&&报刊社从顶层设计,将跨媒渠道的用户进行整理分析和集中效劳,实现报刊社的各类传统媒体和新媒体渠道作为一体化的发布矩阵。所有用户可以在不同媒介中使用报刊社的跨平台效劳,扩大报刊社的整体影响力。通过&&&&&&&用户资产管理子平台,研究效劳对象的不同需求,有针对性地生产特色信息产品,做到量身订做、精准传播,提高新闻宣传的实效性。实现中宣部提出的在媒体融合开展的过程中,既要提供共性新闻产品,也要加强个性化新闻生产。同时可以加强读者效劳,加强读者关心,创造出了读者参与度和满意度都较好的良好气氛建设内容&&&&&&&用户资产管理子平台系统架构图如下图:1、建立&&&&&&&报的用户资产数据仓库,实现对旗下各媒体不同渠道用户信息的统一存储、统一管理。2、对各渠道汇总的用户数据进行分析,形成效劳对象用户的信息整合,分析对象的环境、联网、偏好信息,进行舆论的跟进和引导。3、对采集数据进行分析,通过不同模型及算法实现对用户肖像的刻画、行为轨迹的分析等多维度的分析,为产品优化、精准营销、以及面向用户的智能化效劳提供效劳。4、基于用户资产数据,提供问卷、会议活动等与用户线上与线下相结合,实现O2O的效劳管理。功能描述用户数据采集及处理&&&&&&&用户资产管理子平台可采集来自各个渠道的用户数据,包括发行用户、广告客户、网站群、移动端APP、官方微博和官方微信等的用户信息。针对每类用户所采集数据包括:1、用户显性信息,包括:环境、终端、联网、时间、地域、偏好、年龄、地域、职业等。针对用户显性信息的采集,主要将通过人工录入、自动同步、批量导入、数据迁移等方式将不同的来源的用户显性数据进行聚集,并通过检查清洗、智能查重等功能实现数据清洗和加工。2、用户隐性信息,主要是指用户的点击和阅读行为,包括:点击、浏览、评论、点赞、订阅、转发和关注等。相对于显性的收集方式,隐性方式不需要用户的人工参与,而是由系统在不打搅用户正常活动的情况下自动完成。针对用户隐形数据的采集将分为两种情况。对WEB产品的用户隐形数据采集,将通过页面嵌码并结合浏览器异步加载的模式进行同步采集,该方式不会WEB产品的正常访问;对微博、微信和APP的用户隐形数据采集,将通过网络雷达和效劳接口等方式进行采集。用户数据存储与管理采集数据通过处理后直接存入数据仓库以及分布式文件系统,其中结构化数据将主要存储于关系型数据库,非结构化数据主要存储于全文数据库。从应用角度划分,用户信息数据主要存储在用户数据库,用户行为数据主要存储在用户行为数据库。1、用户属性数据管理各应用系统用户的公共信息统一存储在用户资产管理系统中,私有信息存储在各系统内部。系统可对用户数据进行管理,分级维护所有的组织单位用户信息和个人用户信息,包括:用户注册、用户管理、用户审核等功能。如果有新用户增加,系统将会根据预设的策略,触发用户向各个系统的同步。系统还可以对组织机构进行管理。提供灵活的字段定义,可以方便的定义用户数据,并为后台用户提供查询功能。2、用户行为数据管理用户行为数据具有单条容量小,但是维度多和增长快等特点,传统的关系数据库无法很好的实现对行为数据的存储与管理。因此,本平台将采用关系数据库和分布式文件系统〔HDFS〕相结合的数据存储与管理方式,并按照数据的处理周期划分为原始库、计算库和结果库,从而能够提供更好的灵活性和可扩展性,以满足行为数据的存储与管理。跨媒用户统一管理跨媒用户统一管理实现对用户的身份管理、平安身份认证和单点登录。1、用户身份管理对用户在不同系统的账号进行统一的管理,通过对账号的识别,实现对账号的排重及统一管理,用户在不同平台的账号可以关联,使用某唯一账号,如:号、邮箱等即可实现不同渠道的统一登录。2、平安身份认证将所有用户的平安验证,集中到用户资产管理平台当中,符合校验规那么后,完成用户登录流程。用户平安身份认证支持用户名+口令,号、身份证号、邮件地址+口令,以及USBKey等认证方式。3、单点登录使用统一单点登录,用户仅需在某一类媒体上平安登录,那么自动向其他媒体传递过去机构人员信息、信息分类与数据字典信息和权限分配策略信息,完成各类媒体应用的快速登录。4、字段级别权限控制由于用户资产管理平台存储了用户的所有信息,必须要对用户数据进行隐私保护。平台将具体到字段级别对用户数据的隐私进行保护,并建立审批机制,由管理员对用户信息的获取申请进行审批。对于没有字段权限的系统或者人员,将无法获取到相应字段的信息。5、动态扩展用户模型平台提供初始的用户模型结构,并支持在运行时由管理员根据需要自行动态扩展用户模型。用户行为分析以系统所采集的用户行为数据为主,并结合用户的显性属性,建立多维度分析模型,对中国&&&&&&&报刊社的各类电子报、电子杂志、微博、微信、网站和APP产品的用户行为进行深入分析,主要包括:1、流量分析对中国&&&&&&&报刊社各类产品的PV、UV、跳出率、停留时间等流量数据进行分析,并采用图形化的方式进行展现,支持按照时间区段、产品类型等维度进行比照分析。2、来源分析访问来源分析可帮助中国&&&&&&&报刊社了解到用户是如何到达网站、APP和电子报等产品的,并可对用户来源的变化趋势和占比进行可视化分析。3、受访分析通过热力图、折线图和统计表等工具,对各个产品的受访页面、受访栏目和受访内容的数据和趋势进行分析。4、访客分析对访问中国报刊社各类产品的用户技术数据进行分析,包括用户的地域信息、时间信息、终端信息、操作系统和浏览器等。并提供访客的趋势走向、回访访客、跳出访客和新老访客占比等数据的可视化比对展现。5、兴趣分析对访客所点击的板块、栏目和内容进行分析,并结合内容的分类和标签体系,对访客的访问兴趣进行分析和可视化展现。用户肖像刻画利用用户行为分析收集的数据和内容生产数据,建立多维度画像体系,形成不同的用户画像模型。其他个业务应用系统可依据分析结果和用户画像进行报刊社的产品与效劳优化,实现面向用户的精准传播。1、用户肖像刻画从性别、年龄段、地域分布、终端设备、在线时长、浏览阅读行为、搜索操作行为等角度定位用户,识别用户群体特征,针对用户做定向推荐。主要包括:〔1〕性别和年龄画像可以根据采集获取的用户信息,获得用户的性别和年龄信息。也可以根据用户输入的检索词、浏览的新闻类型或订阅的报刊杂志,发现用户的兴趣和关注点,进而根据男女用户和不同年龄段用户的兴趣和关注点的差异,分析用户的性别和年龄段。〔2〕地域画像根据用户访问的IP地址信息,可以通过查询IP-地址对应库的方式,确定用户所在地域,有时甚至可以确定用户所在的大学、政府机关、企事业单位等地点。〔3〕终端设备画像识别用户访问网站所使用的终端设备,包括PC机、平板电脑、等,对于移动终端,需要分析其网络接入方式,如wifi、4G、3G、2G。根据设别的不同品牌及型号、网络接入方式,结合用户的上网时间,初步分析出用户的上网习惯及经济水平,发现具有消费潜力的客户。〔4〕在线时长画像根据用户访问网站、微博、移动APP的在线时长、访问时间,识别用户对网站的访问习惯,看用户是喜欢在哪个时段进行访问。〔5〕基于搜索、浏览行为的兴趣画像根据用户的搜索、浏览行为,结合&&&&&&&分类如学校&&&&&&&、社会&&&&&&&、家庭&&&&&&&、职业&&&&&&&、早期&&&&&&&等,可以有效的识别出用户的兴趣爱好。2、行为轨迹画像基于用户行为数据生成用户的兴趣档案,将浏览、检索、转发、点赞和关注等多种用户的操作行为进行记录,建立用户偏好模型,将用户的行为转换为用户的偏好。基于用户的行为轨迹,能够不断向用户肖像输送数据,使得用户肖像的刻画越来越精准,提升精准效劳的质量。3、查询轨迹画像查询意图分析的主要功能是根据用户输入的搜索引擎查询,确定一个或者多个类别,在一定程度上去理解用户的意图,从而更好的为用户返回搜索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度宠物医院宠物医院宠物健康数据管理合同4篇
- 二零二五年版铝合金散热器研发与生产合同样本2篇
- 引进创新创业团队2025年度协议3篇
- 2025年度个人商铺租赁合同装修工程监督合同4篇
- 二零二五年度地质灾害风险评估与防治合同3篇
- 2025年度个人闲置土地承包权置换合同范本4篇
- 2025年度大型活动策划与执行服务合同模板4篇
- 二零二五年度建筑废弃物处理项目担保合同范本3篇
- 二婚家庭专用2024离婚协议范本样本版B版
- 2025年度赶工环保设备赶工销售合作协议书
- 高考语文复习【知识精研】《千里江山图》高考真题说题课件
- 河北省承德市2023-2024学年高一上学期期末物理试卷(含答案)
- 高中物理斜面模型大全(80个)
- 012主要研究者(PI)职责药物临床试验机构GCP SOP
- 农耕研学活动方案种小麦
- 2024年佛山市劳动合同条例
- 污水管网规划建设方案
- 城镇智慧排水系统技术标准
- 采购管理制度及流程采购管理制度及流程
- 五年级美术下册第9课《写意蔬果》-优秀课件4人教版
- 节能降耗课件
评论
0/150
提交评论