项目于课题可行性修改送_第1页
项目于课题可行性修改送_第2页
项目于课题可行性修改送_第3页
项目于课题可行性修改送_第4页
项目于课题可行性修改送_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、密级:公开级国家科技支撑计划课题可行性研究(论证)(试行)基于移动互联网的大学生创新创业就业网络研发及应用示范项目名称:2015BAH16F00项目:基于社会网络的信息融合和非结构化大数据研究课题名称:2015BAH16F02课题:厦门市科技局项目组织:厦门大学(学院)课题申报:课题:2015 年 1 月至 2017 年 12 月起止年限:中民科学技术部填 写 说 明一、由课题申报编写。二、编写要求:2.1 课题目标完整、集中、明确、可考核,要充分考虑经济、技术等方面的可行性;2.2 研究任务和内容重点突出,任务设置合理;2.3 技术路线清晰、技术关键点与创新点明确;2.4 配套条件,管理措施

2、具体,组织实施条件完备就绪,课题申报与其他参与分工明确;2.5 经费根据充分,经费筹措有保障,经费使用符合有关规定;2.6 风险分析全面,对策措施完备;2.7 相关证明文件等附件齐全。三、中涉及到外文缩写要注明全称。四、文本采用 A4 幅面纸,4 号仿宋体字。标题加黑。五、可行性按项目组织要求的份数打印装订,盖章后报项目组织,同送本。六、通过课题可行性论证后,根据论证意见和建议,以及项目组织意见修订完善,形成课题可行性论证。课题信息表项目名称基于移动互联网的大学生创新创业就业网络研发及应用示范项目2015BAH16F00课题名称基于社会网络的信息融合和非结构化大数据研究课题2015BAH16F

3、02课题申报名称厦门大学所在地福建省厦门市通讯地址厦门市思明区 思明南路 422 号类别大专院校组织机构代码B3695219-3邮编361005主管部门教育部其他主要参加单 位序号名称组织机构代码课题负责人 1姓名性别男出生日期1980 年学位博士工作厦门大学学院职称高级办公移动证件类型证件号码课题负责人 2姓名性别出生日期学位工作职称办公移动证件类型证件号码课题组人数人高级人中级人初级人其他人起始时间年 1 月终止时间2017 年 12 月经费350 万元,其中国拨经费 200 万元。可行性研究(论证)编写提纲一、 课题概述现有的大学生创业就业服务或存在信息分割、数据不立建设,无法共享等规范

4、,无性和标准等问题;且系问题突出,严重阻碍了大学生的创新创业就业以及就业的发展。一个能够整合大学生创新创业就业等相关信息并进行有效融合的子系统,将是大学生创新创业就业网络的关键模块。本课题-“- 基于社会网络的信息融合和非结构化数据关键技,并对术研究”将整合的高校大学生创新创业就业这些“大数据”进行融合和管理,使得项目构建的大学生创新创业就业能够大规模的向大学生用户提供信息门户、/团队,评价,实物交易,培训等功能,为大学生创新创业就业提供强有力的支撑。课题将基于传统互联网和移动互联网,聚合来自多个数据源的与大学生就业创业相关的信息,研发构建实时信息库和数据的;将研发基于大数据的非结构化分布式技

5、术,包括非结构化数据的元数据管理和表示模型,基于异构的非结构化数据索引和管理模型,从而增强大规模数据存储的可扩展性,提高上层大数据挖掘和分析等应用的系统性能。课题承担厦门大学学院前拥有良好的科研能力和条件。课题组由青年骨干教师和团队,承担了一序列国家和省部级课题,在信息集成和融合,大数据等方面具有扎实的基础。课题总经费 350 万元,其中申请国拨经费 200 万元,自筹 150万元。二、课题需求分析1项目确定的课题目标与任务的需求分析1.1 需求背景随着高等教育的迅速发展,大学毕业生数量剧增,大学毕业生的就业基本趋向市场化。各高校及相关也都为大学生的就业和创业出谋划策,也建设了一序列的大学生创

6、业就业服务和。然而,大多数系统只具备信息发布功能,页面和功能都较为简单,无法适应移动互联网时代的大学生就业创业的需求,严重阻碍了大学生的创新创业就业以及就业的发展。主要表现在以下两个方面:(1)信息分割,缺乏即时协作。现有系统的交互功能通常采用非实时异步模式,异步的信息传递不能满足学生用户和用人用户即时协作的需要,也远以支持就业中心的业务管理和协同工作,致使相关管理部门反应能力和工作效率比较低。有些大学生就业只具备信息发布功能,页面和功能都非常简单,用人单位通过传真、信件、电子邮件的方式把招聘给学校就业部门,学校就业部门在就业上发布,学生浏览到招聘信息。用人和毕业生之间无法通过就业实现基于网络

7、的双向互选,就业功能单一,缺乏交互性。(2)数据不规范,缺乏性和标准。现有系统的数据设计缺乏的数据标准,由于数据标准的缺失,造成了数据确、难以共享和度诸多问题。数据不规范的就业不能适应目前多样化业务形式的增长和发展的需要,造成就业管理工作上的不便,影响了工作质量和效率。同时系统的可性、性和扩展性较差,对原有系统的要花费巨大的人力和物力,也浪费了企业的招聘成本。(3)独立建设,缺乏整体规划。目前系统大多采用单独构建的模式建设,与相关部门的应用系统没有的数据标准和数据接口,与共享存在很大,数据准确性差,严重影响了就业中心及其他相关部门的工作效率,更难以支持决策分析,造成资源分散。由于就业竞争的加剧

8、,一些著名高校就业开始锁住自己的独家资源,只有该校大学生才能浏览该校就业发布的校园招聘会信息,其在一定程度上限制与外界就业信息的共享与交换。因此,一个能够整合大学生创新创业就业等相关信息并进行有效融合的子系统,将是大学生创新创业就业网络的关键模块。特别是随着当前移动互联网技术的发展,与创新创业就业相关的数据体量大,数据来自多种数据源,种类和格式日渐多样,囊括了半结构化和非结构化数据。特别是随着社交网络数据、企业内容、交易与应用数据等新数据源的兴起,如何真正整合的高校大学生创新创业就业,并对这些“大数据”进行融合和管理,使得项目构建的大学生创新创业就业能够大规模的向大学生用户提供信息门户、/团队

9、,评价,实物交易,培训等功能,为大学生创新创业就业提供有效支撑,将是一个重要的研究课题。1.2 课题的目标和任务本课题将研发大学生就业创业服务提供数据输入、数据融合、数据等关键支撑技术。本课题的主要目标是:(1)基于传统互联网和移动互联网,聚合来自多个数据源的与大学生就业创业相关的信息,研发构建实时信息库和的;(2)研发基于大数据的非结构化分布式数据技术,包括非结构化数据的元数据管理和表示模型,基于异构的非结构化数据索引和管理模型,从而增强大规模数据的可扩展性,提高上层大数据挖掘和分析等应用的系统性能。2课题解决的主要技术难点和问题分析课题主要的技术难点包括以下几个方面:(1)用户将基于社会网

10、络技术,从多多数据源构建大学生就业创业的实时信息库和。如何聚合来自多个数据源的与大学生就业创业相关的信息,同时从移动终端获取实时的个人信息并进行最终的数据融合,是本课题的技术难点;(2存在着大规模、非结构化、以及实时性高等特点。如何和索引海量的非结构化数据,管理非结构化数据的元数据并建立表示模型,如何增强大规模数据的可扩展性是本课题的技术难点;(3)的最终目的是为了上层应用的计算和分析,因此提供快速通用的接口将直接影响上层应用的执行效率。如何设计存储的接口从而提高上层大数据挖掘和分析等应用的系统性能是本课题的技术难点。三、现有工作基础与优势1国内外现有技术、知识和技术标准现状及预期分析信息抽取

11、能对企业或互联网上大量繁杂和冗余的数据进行有效的抽取和提炼。它是以一个未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或到数据库、电子表格中,以便于以后的进一步分析。目前普遍的 Web 数据抽取方式是编写特定的抽取程序,主要具备两个功能:搜寻、发现并抽取特定的数据,以适当的格式保存数据供进一步处理,比如 XML 和关系模式。目前的DEEP Web 数据抽取工具按使用的技术大致可以分为几类:1、页面抽取语言:是指开发一种特定设计的语言帮助使用者实现抽取过程,比如 Minerva 是 Araneus 系统的一个重要组成部分,它结合

12、了基于语法的方式和典型的过程化语言;2、基于 DOM 树的工具:依赖于 Html 页面的内在的结构特征,在抽取之前将页面转化成DOM 树,可以反映页面的层次结构,然后自动或半自动的抽取规则在此树上应用。比如 RoadRunner 发掘 Html 文档内在的特征来自动产生抽取规则,且过程完全自动化;3、抽取规则推导工具:从给定的训练样本中产生基于分隔符的抽取规则,更适合 HTML 文档,但需要大量的样本页面。主要的工作有 WIEN 和 STALKER 系统;4、基于模式的工具:为感的对象给定一个目标结构,尽量使页面上的数据部分符合这个结构,通过图形界面与用户交互,由用户页面上感的区域。典型系统有

13、 NoDoSE 和 DEByE。其是一种交互工具,把简单页面的样本对象集合作为输入,产生能够从其它类似页面抽取新对象的抽取模式。传统的信息抽取系统多采用基于模板和模式匹配,或者是采用基于统计的学习方法。这些方法都需要期进行大量工标注训练文本,然后对训练文本进行学习。但是训练文本不可能覆盖整个领域内出现的所有语言。另外,传统的信息抽取虽然 能抽取出实体,但是缺乏领域知识来识别抽取实体之间的关系。因此在信息抽取任务中引入相应的领域知识领域本体来指导抽取过程,将能有效地提高信息抽取的性能。信息集成是系统中各子系统和用户的信息采用的标准,规编码,实现全系统信息共享,进而可实现相关用户间的交互和有序工作

14、。根据某一特定将相关信息从不同的信息源(无论其地理位置、数据结构和通信要求)有机地成一个整体,借助于网络技术和应用的支持提供用户。在数据库领域,比较流行的信息集成系统的方法是 Wrapper/Mediator,这种方法通过Wrapper/Mediator 结构满足上层集成应用的需求。对于半结构化数据,AT&T开发的 XML-QL 是一种可以对 XML 数据进行查询的语言,并且利用 XML-QL 的查询方式可 以实现 XML 数据的抽取、转换和集成。社会感知计算通过大规模多种类传感设备,包括普适传感器(RFID、运动传感器、音传感器等)、智能(GPS、收发),结合电子邮件、 Web(DBLP、)

15、等,能够获取关于人类社会行为和交互的大规模、客观、实时、连续、动态的现场数据,为人类行为理解和交互规律认识的研究提供坚实基础。M I T人类动力学(Human Dynamics Lab) 开展了 RealityMining 项目,通过搜集 94 位智能用户连续 9 个月的位置和通话,分析用户的日常行为模式、人际关系等。东学也以移动为感知,研究社交网络特征。欧盟 AMI 项目14进行了“增强多方交互”方面的研究,如在智能会议系统中,通过感知并可视化成员的发言和注视行为,发现主导者,平衡参与度,实时获取和解释科学合作行为,提高交叉学科团队协作过程的创造性。东京大学的 DeaiEx-plorer 系

16、统,从网数据库中动态抽取特定部分,生成社交网络,显示在大型触摸屏上,让会议参加者发现他们之间的联系,利用 RFID 技术,知晓彼此在会场的大致位置,促进学术交流。2课题申请及主要参与研究基础(近 5 年来开展的与本课题相关的研究开发经历、已取得的科技成果及技术性能水平、已具备的知识、已具备的与本课题研究相关的科研条件与研究开发队伍现状等。)承担:厦门大学学院课题承担厦门大学,是教育部直属、省部共建的普通高等学校,是首批进入国家“211 工程”和“985 工程”建设的若干所重点大学之一。厦门大学学院成立于 2002 年 2 月,是教育部和原国家计委批准的首批 35 所示范性学院之一,设有工程系和

17、数字工程系。计算机与理论为福建省重点学科,工程专业为“国家级培养模式创新实验区”、“福建省培养模式创新实验区”和“福建省第二类特色专业建设点”,工程点为 “福建省教育创新”,工程教学实验中心为“福建省教学实验示范中心”,与厦门园共同建设“国家与集成电路国际培训(厦门)”。在数字方面,学院建有“福建省数字创意与设计行业技术开发”和“厦门市数字与创意产业工程技术”。学院拥有一支高学历、高、教学经验丰富的师资队伍。现有各类教师 68 人,其中专职教师 38 人,校内兼职教师 14 人,校外(企业界)教师 8 人,国外教师 13 人。在编教师中,教授 9 人(其中外聘教授 2 人)、17 人,博士学位

18、31 人、学位 7 人。学院还拥有良好的工程技术试验条件、基础设施以及先进的教学和科研仪器设备;学院目前拥有的教学和科研实验用房建筑面积7500 平方米,学院的教学科研仪器设备总数 2231 台、总值 1742.39万元。近 3 年,学院共承担各类研究开发项目 86 项,合同经费 1678 万元,并取得了较好的社会与经济效益;共完成了 46研项目,其中纵向科研项目 16 项、横向科研项目 30 项,通过鉴定的科研项目 1 项,通过验收的科研项目 45 项;共获得发明专利和实用新型专利 3 项,登记著作权 26 项。厦门大学近年来,整合学校相关院系的资源,与相关部门和国内外企业与高校,在数字与创

19、意产业领域建立了若干了研究开发和培养:福建省数字创意与设计行业技术开发(福建省经贸委等批准设立);福建省文化创意(福建省文化厅批准设立);福建省文化创意产业(福建省文化厅批准设立);厦门市数字与创意产业工程技术(厦门市科技局批准设立);厦门大学新动漫(与中国移动动漫、日本早稻田大学共同建立);厦门大学曼陀林动画创意(与曼陀林文化有限公司共同建立);厦门大学文化创意中心;厦门大学数字与创意产业研发中心。近三年,学院共承担各类研究开发项目 86 项,合同经费1678 万元,并取得了较好的社会与经济效益;共完成了 46研项目,其中纵向科研项目 16 项、横向科研项目 30 项,通过鉴定的科研项目 1

20、 项,通过验收的科研项目 45 项;共获得发明专利和实用新型专利 3 项,登记著作权 26 项。项目组是一支勤奋踏实、勇于创新的学术队伍。目前有教师 5 人,博士生 4 名,生 9 名。近三年,项目组共与本项目相关30 篇以上,在国际期刊上共14 篇,在国际会议上21 篇。近年来,学院从国内外著名高校引进了一批优秀青年学术骨干,进一步加强了项目组的科研力量。四、实施计划及年度目标1课题研究内容、技术路线和创新点1.1 研究内容和技术路线(一)基于社会网络的信息融合技术目前的创业就业一般隶属于不同的高校或部门,缺乏有效的整合,存在着信息割裂、来源单一等。随着社会网络技术的发展,大学生越来越倾向于

21、通过智能移动终端并从多个渠道获取就业和创业相关的信息,建立个人生活就业圈,并与企业、风险投资机构等实时互动。因此,研究基于社会网络技术的实时信息集成技术,构建大学生就业创业的实时信息库和,是一项重要的研究内容。具体研究内容和方法包括以下几个方面:(1)Deep Web 的信息抽取已有的就业信息、招聘信息、创业信息,大都隶属于不同的单位,且大部分在不能被传统的搜索引擎索引到Web 数据库里。在 Deep Web 中,用户需要通过填写表单或,查询数据库才能得到相关的页面。因此,如何获取并聚合来自多个数据源的与大学生就业创业相关的信息,是构建实时信息库和的重要内容。系统将采用以下两个步骤进行信息的抽

22、取:(a)首先利用网络爬虫技术进行浅层的数据抓取。比如,从相关抓取企业招聘,就业创业相关的页面;或者通过现有的搜索引擎和分类门户,获取相应的页面;(b)对初始页面和页面的 url 信息进行聚类,并利用最大相似值的方法提取关键页面。针对关键页面,采用基于层次 DOM 树模型的方法,分析 Deep Web 数据库的查询语义和信息,并采用查询范式,提取相应的数据;(c)数据抽取将周期性的进行以获取的数据。为了避免重复数据,抽取系统将采用基于时间戳和文本关键字最大匹配相结合的方式,过滤重复网页。(2)移动社会感知数据的收集移动终端作为大学生用户随身携带的设备,其所携带和产生的数据,能够反应用户很多属性

23、特征。因此,在用户的情况下,从日常维度收集与用户相关的基于移动终端的感知数据,将有助于理解和挖掘大学生关于学习、团队协作等方面的特性及能力。的移动终端的数据收集方法,包含以下两种:(a)将与大学生的日常管理的 APP 端(如、易班网)集成,采用基于文本挖掘的方式抽取用户所内容的关键字,让用户显式的把相关数据上传到的服务器。(b)APP 的程序将在用户的后,并隐式提取与用户相关的数据。移动端将首先在本地端进行数据处理,去除重复并转换为关键语义,然后以文本关键字的方式上传。比如,系统会把用户的具体位置转换为可解释的地点信息,结合逗留的时长和频度,结合与地点的字典,推测用户的和等特征。(3)综合信息

24、库的构建技术系统将源源不断的获取与大学生创新就业相关的数据,然而这些数据存在非结构化和模式异构等特点,传统的数据库系统无法很好的进行有效的管理和检索。系统将采用基于网状的数据模式,来构建就业和相关的综合信息库,主要包含以下几方面的内容:(a)从网页抽取的数据,将分为行业动态和信息入库,作为信息聚合及发布的数据源。系统将基于 Lucene 以支持全文检索的方式进行文本,提供友好的用户查询和交互;(b)用户的输入数据、移动终端感知的数据,将建模为语义相关的实体节点,到相应的网状数据库中。系统将把用户(大学生、企业、创投机构等)、创意、岗位等定义为实体节点,并构建实体的模式信息。实体模式定义了节点的

25、各种特息,以及实体和实体之间的关联信息,实体的实例将以网状的结构进行。系统将采用采用基于用户语义信息的自动的实体识别和去重技术,并动态更新实体之间的关联信息;(c)Neo4j 作为一个兼容 ACID 的图形数据库,能够建模常见的复杂领域数据集,并简化模式变更和延迟数据迁移。然而,其针对创新创业就业等特定领域的查询和结构支持不够,需要做二次开发和改进。将把 Neo4j 作为内嵌数据库使用,并结合基于大数据的系统,提供友好的信息匹配、检索和等服务。(二)基于大数据的非结构化数据技术在大学毕业生招聘工作中,如何从成千上万份简历中挑选出合适的应聘者,是企业人力资源工作的最大之一。基于大数据的数据挖掘和

26、分析而产生的人力资源管理系统面向的是招聘的业务支撑和决策系统,并结合大数据社交网络数据挖掘和分析,提出一套同时面向求职者和招聘官的双向扩展匹配算法,既能让人力资源在茫茫人海中发现与职位需求高度匹配的专业,又能为求职者提供个性化的,找到能够展现个华的最佳舞台。该系统的独特优势还体现在对各种社交网络如一品威客网、Linkedin、人人网等网络大数据的深度分析上,通过建立求职者的性格图谱、图谱和关系图谱,深入了解求职者的性格特点、方向和社交圈子。这些在企业招聘最终决策和求职者人生职业规划中都占有重要地位。同时,该系统在企业员工上的优势更为明显,通过对员工社交关系的延展和判断,系统不仅能精准发现与职位

27、需求匹配的求职者,还能计算求职者与者的信任关系及参与应聘的意愿度。据分析,传统的商业智能系统中用以分析人力资源的数据,大都是企业自身信息系统所产生的标准化和结构化的运营数据,低于企业可利用数据的 30%,另外 70%的非结构化和半结构化数据则广泛存在于以社交网络为代表的媒介之中。这也就意味着,企业一旦掌握了基于社交网络等媒介所产生的定向数据,就能够掌握获取优秀的先机。非结构化数据管理系统的体系结构如图 4-1 所示。图 4-1 非结构化数据管理系统体系结构图系统底层实现非结构化数据的高效存贮和快速检索。在此基础上是非结构化数据的逻辑管理,它实现对当前主流的非结构化数据的操作,对应地有几个不同非

28、结构化数据的操作引擎。最上面的是系统提供给用户的操作语言。(1) 数据模型为了表示非结构化数据,必需要有一个的数据模型,拟提出一种可扩展的非结构化数据模型。图 4-2 给出了该模型的示意图。该模型首先对非结构数据,比如音频、图像、图形和文本等,建立 XML 元数据,这些元数据包括文件名,文件类型、存放路径、索引路径、创建时间等等信息。XML 元数据存放在文件系统或数据库中,可以实现对非结构化数据的元搜索;为了实现对内容的检索,对非结构化必需建立混合索引,比如文本建立文本索引,图形建立图形索引库等。通过这样的模型抽象后,任何的非结构化数据都可以在系统中和表示,并且能够实现基于元数据和内容的添加、

29、删除、查询和修改等操作。图 4-2 数据模型示意图主要研究非结构化数据的建模、检索及管理与系统实现;研究内容包括非结构化数据的XML 表示、基于内容的图像、音频、图形、文本的索引模型;研究基于 XML 的非结构化数据管理以及非结构化数据的检索方法。(2) 用户接口语言非结构化音频数据管理系统的用户接口肯定不能用一个表格来描述,对于音频的公共性质和每一种音频的特殊性质,都要在用户的接口上、在查询的过程中加以体现。例如对音频内容的描述、对空间的描述以及对时间的描述。可以拟开发浏览、查找和表现音频内容的新方法,使得用户很方便地描述自己的查询需求,并得到相应的数据。在很多情况下,面对音频数据,用户有时

30、甚至不知道自己要查找什么,不知道如何描述自己的查询。所以,非结构化音频数据管理系统对用户的接口要求不仅仅是接收用户的描述,协助用户描述出他的想法,找到他所要的内容,并在接口上来。非结构化音频数据管理系统的查询结果将不仅仅是传统的表格,而将是丰富的音频信息的表现,甚至是由计算机组合出来的结果。许多应用对非结构化音频数据的传输、表现和的质量要求是不一样的。系统能够提供的资源也要根据系统运行的情况进行控制。系统用户接口需要提供这种支持。(3) 数据逻辑管理层非结构化数据逻辑管理层负责管理系统中全部数据的逻辑结构和特征描述,提供通用和专业的非结构化数据管理引擎,并维持较高的数据独立性。它在结构上可进一

31、步分解为两个子层,如图 3-3所示。上层为应用支持层,主要包括非结构化数据查询语言的功能、针对应用层的统计及性能优化功能,和系统缓存策略控制功能等。应用支持层根据不同的应用请求,确立局部数据的逻辑结构和特征描述,并生成与某一应用相关的数据的逻辑视图。这种从全局逻辑管理模式到局部应用模式的数据视图能够保证数据与程序的逻辑独立性。下层为非结构化数据逻辑管理引擎接入层,可插式引擎设计能够大大提高系统数据管理的优化潜力和可扩展性。对于主流非结构化数据,如文本、音频、图形/图像将提供专业管理引擎。不同的逻辑管理引擎可能针对特定非结构化数据类型进行模式和策略优化,以提高数据和效率。逻辑管理引擎的接入过程同

32、时也是确立数据由全局逻辑管理模式到模式方式的过程。各类专业管理引擎遵循的接口标准,从上层后的数据查询语言中分解出子任务,并在执行完成后分别向接入点返回数据;数据最终由接入层管理模块整合并返回给应用支持层。模式多样化是非结构化数据管理系统有别于传统结构化数据库的重要特征。图 4-3 所示为分布式索引的分发管理机制,用户提交待归档文档给索引管理服务器,索引管理服务器的主要功能包括对待归档文档进行分词处理,索引分布式管理。索引管理服务器将分词后的单词提交给相应的索引服务器构建索引。图 4-3 分布式索引分发结构图(4) 非结构化数据基于对象(OBS)使用对象作为接口,综合块接口和文件接口二者的优势,

33、对象由数据、用户属性和设备管理的元数据组成,OBS 最直接的效用是空间管理从应用中分离出来,在将管理的元数据放在元数据服务器上,而数据的存储下移到设备后,对象消除了元数据和应用间的依赖关系,使得不同应用间的数据共享切实可行。在传统的系统中,数据的基本单元是文件或者是块,而在对象系统中,数据的基本单元就是对象。对象是数据以及定义在该数据上的各种属性的集合,对象有三个基本要素:数据、对象属性和对象操作,对象属性是对象数据的元数据,对象操作定义了对该对象所允许的所有操作。在传统的块中,系统必需追踪系统中的每一个块的属性,而在对象系统中,每一个对象都只需要它自身的属性,并告诉系统如何管理这一片特定的数

34、据。这种通过把数据管理与数据本离的模式增加了灵活性,简化了系统的任务。在设备中,所有对象都由一个 128-bit 的对象 ID 所标识。对对象的都采用一个基于对象 ID 的简单接口(partition ID,object ID,permis,offset,length),其中,partition ID 和 object ID 用来定位具体的对象,permis用来定义对对象的权限,offset 用于定位要操作对象的开始字节地址,length 是要的数据字节长度。本项目将利用对象系统中数据对象本身的关联关系和对象的灵活性,建立非结构数据各部分的关系,如图 4-4 所示。非结构数据分成若干段,包含元

35、数据和摘要信息,然后摘要和非结构数据段存放在不同的对象数据中,元数据直接作为对象元数据存放,这种方式减少了非结构数据与底层数据单元的关系,降低了逻辑管理层对非结构数据的处理负载。图 4-4 非结构数据方式示意图本课题将在现有研究的基础上,研究非结构化数据的分段特征,研制面向非结构化数据的对象数据接口,以支持非结构化数据的逻辑管理。1.2 创新点(1)针对传统信息割裂、数据来源单一等特点,本课题将利用移动感知技术获取大学生的个性化数据,并从深度网络中抽取创业就业相关的信息,构建大规模的综合信息库。信息库不仅能满足基本的信息发布、查询等功能,还通过基础信息、抽取信息、行为信息等全方位的定义实体及实

36、体之间的关系,从而支撑推荐、和信用等综合应用;(2)提出了基于大数据的非结构化分布式数据技术,包括非结构化数据的元数据管理和表示模型,从而增强了大规模数据的可扩展性和可管理性;(3)针对多样化的数据提出了基于异构的非结构化数据索引和管理模型,并采用了基于对象(OBS)使用对象作为接口,极大地提高了上层大数据挖掘和分析等应用的系统性能。2 课题进度安排及各年度目标本课题计划用 3 年时间完成,各年度的安排及年度目标如下:阶段起止时间年度安排和年度目标第 1 阶段(1 年)2015-01-01至2015-12-31对课题建设目标进行详细需求分析和系统整体设计;调研国内外大数据建设的方法,并进行案例

37、分析;研究基于社会网络的信息融合技术;研究基于大数据的非结构化分布式数据技术;第 2 阶段(1 年)2016-01-01至2016-12-31继续信息融合和非结构化分布式数据技术(非结构化数据的元数据管理和表示模型;研究基于对象使用对象作为接口等)撰写学术,拟申请发明专利和著作权;5 研发大学生创新创业就业综合信息库。第 3 阶段2017-01-01至与各高校到的基础数据集成,对系统进行功能和性能测试,并对系统进行应用前的调试;系统投入试运行和正式运行,服务于项目。按照规范撰写课题研究的总结,做好课题验收的五、课题考核指标(考核指标包括约束性指标和预期性指标,约束性指标指对完成课题任务具有关键

38、性作用,必须保证实现的指标;预期性指标指在完成约束性指标的基础上,对完成课题任务具有重要意义,确有必要的其他导向性的相关任务指标,请明确分类。其中,约束性指标要有量化的检测指标,并委托具备相关资质的第检测检测;有标准的按标准检测,没有标准的要事先约定检测方法。)1.主要技术(性能、性状、工艺参数,技术的稳定性、可靠性,形成生产能力或达到实际应用的程度等)、经济(投入产出比、性能价、成本、规模等)、环境、生态等指标,及其与国内外同类技术、产品的先进程度或竞争力比较。约束指标:构建自动的针对大学生创新创业就业的信息抽取系统,服务于大学生创新创业综合信息库,信息时延小于 1 天;研究适合应用需要的非

39、结构化数据方法,能够容纳 100 万大学生相关信息。(1 年)2017-12-31准备工作。预期指标:构建大学生创新创业就业综合信息库,可以容纳 100 万大学生相关信息;2形成的知识、技术标准的种类和数量。预期指标:课题将申请著作权 1 项,申请专利 1 项。3应用示范、中试线、生产线或规模。无4队伍培养。预期指标:将培养中青年教师 2 名,培养6 名。5课题执行过程中的与课题研究相关的的学术、和专著等其他考核的预期指标。约束指标:将与课题相关的学术4-6 篇,其中半数将被期刊或 EI 索引。六、经费6-1 课题表:万元序号科目名称合计专项经费自筹经费一、经费支出(一)直接费用305.616

40、9.2136.431、设备费8315684(1)购置设备费8315685(2)试制设备费0006(3)设备改造与租赁费00072、材料费295.823.283、测试化验加工费23.423.4094、动力费7.32.35105、差旅费27.127.10116、会议费6.46.40127、国际合作与交流费880138、/文献/信息/知识事务费24.49.415149、劳务费87.161.925.21510、费9.99.901611、其他支出00017(二)间接费用44.430.813.618其中:绩效支出11.17.73.419二、经费来源350.00200.00150.00201申请从专项经费获

41、得的资助200.00200.00/212自筹经费来源150.00/150.0022(1)其他财政拨款0.00/0.0023(2)自有货币150.00/150.0024(3)其他0.00/0.006-2设备费购置/试制设备明细表金额:万元填表说明:1、设备分类代码:A购置、B试制;2、试制设备不需填列本表(6)列、(7)列;3、单价10万元(具体金额待定)的设备需填写明细;4、来源分类代码:A为专项经费、B为自筹经费。序号设备名称设备分类单价(元/台件)数量(台件)金额购置设备型号购置设备生产国别与地区主要技术性能指标用途(与课题研究任务的关系)来源(1)(2)(3)(4)(5)(6)(7)(8

42、)(9)(10)单价10万元以上购置设备合计00单价10万元以上试制设备合计006-3测试化验加工费明细表金额:万元填表说明:量大及价高测试化验,是指课题研究过程中需测试化验加工的数量过多或价格较高、总费用在5万元及以上的测试化验加工,需填写明细。序号测试化验加工的内容测试化验加工计量单价(元/数量)数量金额(1)(2)(3)(4)(5)(6)1评测(两项技术和综合信息库)福建省中心厦门分部次3262综合信息库商业(稳定性和安全性测试各1轮次)厦门次428单价10万元以下购置设备4740单价10万元以下试制设备00累计47406-4承担与参加研究经费支出明细表金额:万元填表说明:承担类型分为,

43、A、第一承担B、其他承担。序号名称组织机构代码承担单位类型任务分工研究任务合计专项经费自筹经费小计其中:间接费用(1)(2)(3)(4)(5)(6)(7)(8)(9)量大及价高测试化验费合计/14其他测试化验费/9.4累计/23.41厦门大学(学院)B3695219-3A调研、技术研发、系统研制、参与试运行与运行。35020030.8累计.81506-5课题说明书一、对承担和相关部门承诺提供的支撑条件进行详细说明,并针对课题实施可能形成的科技条件资源和成果,提出社会共享的方案。本课题承担厦门大学(学院),是教育部直属、省部共建的普通高等学校,是首批进入国家“211 工程”和“985 工程”建设

44、的若干所重点大学之一。厦门大学学院成立于 2002 年 2 月,是教育部和原国家计委批准的首批 35 所示范性学院之一,设有工程系和数字技术系。厦门大学(学院)为本课题的实施提供以下几方面的条件:1提供实施:包括 2 名教师和 9 名。教师均具有博士学位,1 人为、1 人为助理教授(博士后,留美)。2提供配套经费150 万元,主要包括设备和运行阶段的开销。3提供基本的研发环境,包括所有成员的办公环境(包括电脑),临时聘用的办公环境等。4提供科研设备支持:包括本课题使用的 NAS 引擎(价值约 60 万元)、硬盘柜等,节省了费用。本课题为研究性课题,研究是难点,同时结合研究成果开发出综合信息库并

45、用于项目的应用示范。课题的研究成果将以学术的形式,共全社会共享。课题研究成果的应用以互联网服务的形式供所有大学生使用。二、结合课题任务分工、任务的主要内容,对承担位经费安排进行详细说明。本课题的任务划分为以下子任务:及参加单子任务 1:大学生创新创业就业数据融合技术研究;子任务 2:大学生创新创业就业非结构化数据技术研究;子任务 3:大学生创新创业就业综合信息库研制;子任务 4:综合信息库试运行与运行(配合项目应用示范)。课题唯一承担为厦门大学,由老师牵头承担全部的四个子任务。本课题总概算为 350 万元,其中申请科研经费 200 万元,自筹经费 150 万元。二、 对各科目支出的主要用途、具

46、体内容及明细支出情况进行详细分析说明。(一)设备费共 83 万元,其中专项 15 万元,自筹 68 万元。专项经费购置设备主要用于子任务 2 的研发(也包括子任务 3 综合信息库研制的数据部分、后期经扩展空间变为项目的数据备份系统)中。自筹经费购置设备主要用于子任务 1 研发(也包括子任务 3 综合信息库研制的数据抽取与融合部分)中。专项:15 万元本课题专项经费 15 万元,将用于购置两台RH2485 机架式服务器。设备具体用途有三,具体为:1子任务 2 中进行非结构化数据研究时需要数据前置机,方案是:两台服务器采备份技术,通过交换网络连接到 NAS 引擎(交换机和 NAS 引擎作为现有条件

47、,厦大已经具备)和阵列(本课题所需空间需扩展)配合;2作为子任务 3 综合信息库研制过程中数据小组开发、测试环境;3技术和系统研发工作结束后,在系统试运行和示范化应用(运行)阶段,该设备扩展后(与其它设备配合)用于运行数据的备份。考虑到子任务 2功能对带宽吞吐量的要求,还考虑到设备在研发结束后可以在示范应用中充当灾备系统的前置服务器。因此,选择能力比较平衡的机架式服务器RH2485 系列服务器。参考华为给厦大的报价,每台 7.5 万元。两台共 15 万元。在转作和备份用途时,两台 RH2485 以热备的形式通过以太网连接到 NAS 引擎(该设备利用厦大现有条件,无需另外购置。型号:N8500,

48、自带硬盘阵列)。自筹:68 万元专项经费着重解决问题,两台RH2485 可以作为从网序号内容品牌数量单价合计1PC 服务器RH248527.515络转存数据的前置机器满足子任务 2 的需要,但子任务 1 数据抽取与融合对计算能力的要求需要服务器资源的支撑,同时,融合前后的数据也需要能力的支撑。系统按照每天数据增量在 0.05-0.1TB设计,这些数据都需要进行抽取和融合。在课题指标部分提出:数据融合延迟应该小于 1 天,数据下行要求集中在非用户期,单台E6000(性价比较高的国产服务器)容量约为 24TB,8颗el 至强 5500/5600CPU,据此可以估算出还需要 8 台E6000 才可以

49、基本满足数据和处理的要求。作为科研系统,不需要太大的能力预留,因此只采购 8 台服务器。根据给厦大的报价。这部分服务器的价格约 68 万元。全部从自筹支出。(二)材料费共计 29 万元,其中专项 5.8 万元,自筹 23.2 万元。专项:5.8 万元,用于子任务 2、3、4 研发、研制测试盒试运行阶段购置两组硬盘扩展单元。项目确定了整个应用示范系统的数据空间为 200TB(如非特别提及,涉及数据空间均为可用空间而非盘空间),备份系统的数据序号内容品牌数量单价合计1PC 服务器E600088.568容量应与此匹配,也设置为 200TB,从安全和充分利用现有设备节约经费的角度考虑,备份系统采用本地

50、备份方式。本课题子任务 2、3、4 均需要一定数量的空间为基础。课题确定按照系统1/10的规模建立研发(测试)环境,并在后续扩展空间,成为系统数据备份系统。因此本课题建立的研发(测试)系统容量为 20TB,系统采用 RAID5 方案,相对应的盘空间约为 30TB。因此,课题确定为N8500 配备两个硬盘扩展柜,每个扩展柜采用8 备1 的方案,每个硬盘 2TB(当前性价比最高的方案),企业级 SATA 硬盘。依照这个方案,需扩展两个硬盘柜,盘空间共 32TB,可用空间约 20TB或稍多一点。现有的 NAS 引擎和模块(单元控制框、单元扩展框、单元硬盘组件)是一体的,没有剩余空间供本课题使用,但N

51、8500 可以线性扩展空间。参面的计算,要扩展约20TB 空间(32TB盘空间)。参照的报价每组单元(含2000GB 7.2K RPM SAS-SATA 硬盘单元 3.5 ,8+1,硬盘框及相应材料)的报价(给厦大的报价)为 2.9 万元,如前所述,本课题需要增加两组单元,5.8 万元。共计专线 5.8 万元。自筹部分:自筹部分经费用于运行阶段的设备扩容,其测试方法和依据于试运行阶段完全相同。因为扩展工作在 2017 年进行,相关费用会有所下降,假设扩展的 9 组单元相当于现在 8 组单元的价格,则空间从 20TB 扩展到 200TB 的费用,为(每 10TB 费用)2.9 万元*(9-1)=

52、23.2 万元。共计自筹 23.2 万元。(三)测试化验加工费共 23.4 万元,全部使用专线经费。课题两大技术(子任务 1、3)和综合信息库(子任务 3)在研发完成后,为保证质量,也为交付项目承担或接受国家验收时威的质量证明,本课题需要聘请第进试和测评。具体如下:测试部分:17.4 万元子任务 1任务 2 涉及的两大技术的测试工作由课题组进行,不聘请第。子任务 3 综合信息库作为关键性系统为整个业务系统提供包括原始数据快照、数据集成、数据查询、搜索等约 30 个功能点,为保证商业应用质量,在课题组自行组织测试的基础上聘请第三方进行的功能验证和集成测试,其价格分别为每个功能点 800 元和50

53、0 元,总计 30*(800+500)=4.9 万元。要求服务 100 万名大学生,支持 4 万人同时,作为业务最重要的子系统之一,为验证该系统的并发能力,综合信息库在上线和试运行之前需聘请第进行压力测试,30 个功能点系统进行压力测试的价格按照每个功能 1500 元测算,约需 4.5 万元。同时,为保证综合信息库商业运行的稳定性和安全性,需聘请专业公司进行安全性和可靠性测试,这两项测试专业性较强,专业公司的起步价都在 3 万元以上,为此分别4 万元,共需 8 万元。合计 17.4 万元。部分:6 万元。工作由科技部指定的机构进行(福建省中心厦门分部),包含信息融合技术、数据技术和综合信息库三

54、部分。福建省中心厦门分部的标准(在属于比较低的)是:功能:0.5 万元起价,按照功能点多少计价。压力:1.5 万元起价,按照项目多少计价。性能:1 万元起价,按照项目多少计价。本课题中数据融合和非结构化数据两项技术做功能和性能即可,按起步价即可,各1.5 万元,合计 3 万元。综合信息库需要同时做三项,按起步价测算(部分自筹)预计 3 万元。费用合计 6 万元。测试与费用合计 23.4 万元。(四)动力费共 7.3 万元,其中专项 2.3 万元,自筹 5 万元。专项部分用于数据设备在研发、测试与试运行阶段电力费用。自筹部分用于数据抽取及融合设备在研发、测试与试运行阶段电力费用,以及所有设备在运

55、行(应用示范)阶段的电力费用。专项:2.3 万元本系统的硬件包括RH2485 机架式服务2 台,铭牌功率 2kw,N8500 节点引擎 1 台,(节点引擎 1530W(四节点)单元 控制框: 850W 扩展框: 670W),带两组硬盘扩展柜的情况下功率约为 3.5kw。按照课题进度安排,设备从 15 年下半年-16 年底进行科研性使用(三分之一的时间使用);17 年全年处于试运行和运行阶段(17年上半年试运行,17 年下半年正式运行),设备不间断使用。机器实际运行功率按照铭牌功率的 50%测算。厦门市工业用电约 0.96 元/kwh,则RH2485 服务器和N8500 节点引擎,在研究和研发阶

56、段共使用电力费用为:0.96 元/千瓦时*(2 千瓦+3.5 千瓦)*50%*24 小时*182 天=1.15 万元;在试运行阶段共使用电费费用为:0.96 元/千瓦时*(2 千瓦+3.5 千瓦)*24 小时*182 天=1.15 万元两项共计 2.3 万元。自筹:5 万元。如前所述,在运行阶段,空间将从 20TB 扩展到 200TB,参考与专项部分相同的测算标准,实际功率按照铭牌功率 50%测算,设备耗电量为 0.96 元/千瓦时(* 2 千瓦+10 千瓦)*50%*24 小时*182天=2.5 万元。自费增加的 8 台E6000,铭牌功率 3kw(实际功率按照铭牌功率 50%测算),在研究

57、、开发、测试、试运行的两年中按照 1/8的使用率测算,则所需电费为:0.96 元/千瓦时*(3kw*8)*50%*6小时*730 天*0.125=2.5 万元。两项共计 5 万元。(五)差旅费本课题差旅费 27.1 万元,全部为专项经费。专项经费差旅费主要用于课题相关学术与技术活动,以及参加项目评审和评估会的差旅费。分别介绍如下技术活动差旅费:14.4 万元。调研与设计阶段:因市各校在大学生创新创业就业方面的政策和措施不尽相同,数据也没有的格式和标准,要抽取和融合各来源数据,首先需要对各类数据源进行调研。课题拟在东部、中部、西部各选取 3 各城市(每个城市选取 2 个学校)进行大学生创业创新就

58、业相关数据源和融合需求情况的调研。初定东部选取厦门(本地)、北京、哈尔滨;中部选取郑州、和广州;西部选取、西安和乌。兼顾城市规模、城市位置和学校档次。每次派出 2 人小组,其中,一人侧重需求、一人侧重技术分析。共计 16(厦门不需要出差,所以按 8 个而非 9 个城市计算)人次。选择郑州作为基准进行测算,每人次差旅费用包括(测算标准参照和国家机关差旅费管理办法(财行2013531 号):机票:(6 折票)750 元+160(机场建设/燃油附加费)=900 元(约),双程 1800 元/人住宿费:300 元*3=900 元补贴:80*3=240 元单人合计:2940 元。该项合计:2940 元/

59、人次*16 人次=4.7 万元系统试运行和运行阶段:配合项目进行相应的任务(与课题 1 不同,课题 1 派出负责具体的事务,本课题派出技术解决过程中的技术问题,主要是市数据接口不,本课题技术人员并不参加项目的所有差旅,而只在每个省市的第一次任务时参加),出差以增加一名随队的方式进行,考虑到每个省市的数据往往有所不同,因此预计每个省(市)需要出差一人次。预计出差 33 人次(共 34 个省市,厦门代表福建,不列入差旅计划,则剩下 33 个省市)。仍然选择郑州作为基准进算,会期按照 3 天测算。共计 13 人次。则所需费用非:2940 元/人次*33人次=9.7 万元。学术活动差旅费:7.1 万元

60、研究内容的水平直接影响本课题的水平,课题组将积极参加国内学术活动,以参加学术会议为主要方式。在课题的不同阶段,参与频率和方式略有不同。技术调研和研发阶段:持续 1.5 年,教师每人参加 2 次学术会议,参与课题的每人参加 1 次学术会议。仍然选择郑州作为基准进算,会期按照 3 天测算。共计 13 人次。则所需费用为:2940 元/人次*13 人次=3.8 万元。系统开发阶段:持续 0.5 年,教师每人参加 1 次学术会议,参与课题的每人参加半次学术会议。共计约 7 人次。仍然选择郑州作为基准进算,会期按照 3 天测算。共计 13 人次。则所需费用非:2940 元/人次*7 人次=2.1 万元。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论