项目于课题可行性清样网络2015bah16f_第1页
项目于课题可行性清样网络2015bah16f_第2页
项目于课题可行性清样网络2015bah16f_第3页
项目于课题可行性清样网络2015bah16f_第4页
项目于课题可行性清样网络2015bah16f_第5页
免费预览已结束,剩余54页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、可行性一、 课题概述现有的大学生创业就业服务或存在信息分割、数据不规范,无性和标准等问题;且系立建设,无法共享等问题突出,严重阻碍了大学生的创新创业就业以及就业的发展。一个能够整合大学生创新创业就业等相关信息并进行有效融合的子系统,将是大学生创新创业就业网络的关键模块。本课题-“- 基于社会网络的信息融合和非结构化数据关键技术研究”将整合的高校大学生创新创业就业,并对这些“大数据”进行融合和管理,使得项目构建的大学生创新创业/团队就业能够大规模的向大学生用户提供信息门户、,评价,实物交易,培训等功能,为大学生创新创业就业提供强有力的支撑。课题将基于传统互联网和移动互联网,聚合来自多个数据源的与

2、大学生就业创业相关的信息,研发构建实时信息库和的;将研发基于大数据的非结构化分布式数据技术,包括非结构化数据的元数据管理和表示模型,基于异构的非结构化数据索引和管理模型,从而增强大规模数据存储的可扩展性,提高上层大数据挖掘和分析等应用的系统性能。课题承担厦门大学学院前拥有良好的科研能力和条件。课题组由青年骨干教师和团队,承担了一序列国家和课题,在信息集成和融合,大数据等方面具有扎实的基础。课题总经费 350 万元,其中申请专项经费 200 万元,自筹 150万元。二、课题需求分析1项目确定的课题目标与任务的需求分析1.1 需求背景随着高等教育的迅速发展,大学毕业生数量剧增,大学毕业生的就业基本

3、趋向市场化。各高校及相关也都为大学生的就业和创业出谋划策,也建设了一序列的大学生创业就业服务和。然而,大多数系统只具备信息发布功能,页面和功能都较为简单,无法适应移动互联网时代的大学生就业创业的需求,严重阻碍了大学生的创新创业就业以及就业的发展。主要表现在以下两个方面:(1)信息分割,缺乏即时协作。现有系统的交互功能通常采用非实时异步模式,异步的信息传递不能满足学生用户和用人用户即时协作的需要,也远以支持就业中心的业务管理和协同工作,致使相关管理部门反应能力和工作效率比较低。有些大学生就业只具备信息发布功能,页面和功能都非常简单,用人单位通过传真、信件、电子邮件的方式把招聘给学校就业部门,学校

4、就业部门在就业上发布,学生浏览到招聘信息。用人和毕业生之间无法通过就业实现基于网络的双向互选,就业功能单一,缺乏交互性。(2)数据不规范,缺乏性和标准。现有系统的数据设计缺乏的数据标准,由于数据标准的缺失,造成了数据确、难以共享和度诸多问题。数据不规范的就业不能适应目前多样化业务形式的增长和发展的需要,造成就业管理工作上的不便,影响了工作质量和效率。同时系统的可性、性和扩展性较差,对原有系统的要花费巨大的人力和物力,也浪费了企业的招聘成本。(3)独立建设,缺乏整体规划。目前系统大多采用单独构建的模式建设,与相关部门的应用系统没有的数据标准和数据接口,与共享存在很大,数据准确性差,严重影响了就业

5、中心及其他相关部门的工作效率,更难以支持决策分析,造成资源分散。由于就业竞争的加剧,一些著名高校就业开始锁住自己的独家资源,只有该校大学生才能浏览该校就业发布的校园招聘会信息,其在一定程度上限制与外界就业信息的共享与交换。因此,一个能够整合大学生创新创业就业等相关信息并进行有效融合的子系统,将是大学生创新创业就业网络的关键模块。特别是随着当前移动互联网技术的发展,与创新创业就业相关的数据体量大,数据来自多种数据源,种类和格式日渐多样,囊括了半结构化和非结构化数据。特别是随着社交网络数据、企业内容、交易与应用数据等新数据源的兴起,如何真正整合的高校大学生创新创业就业,并对这些“大数据”进行融合和

6、管理,使得项目构建的大学生创新创业就业能够大规模的向大学生用户提供信息门户、/团队,评价,实物交易,培训等功能,为大学生创新创业就业提供有效支撑,将是一个重要的研究课题。1.2 课题的目标和任务本课题将研发大学生就业创业服务提供数据输入、数据融合、数据等关键支撑技术。本课题的主要目标是:(1)基于传统互联网和移动互联网,聚合来自多个数据源的与大学生就业创业相关;(2)研发基于的信息,研发构建实时信息库和的大数据的非结构化分布式数据技术,包括非结构化数据的元数据管理和表示模型,基于异构的非结构化数据索引和管理模型,从而增强大规模数据的可扩展性,提高上层大数据挖掘和分析等应用的系统性能。2课题解决

7、的主要技术难点和问题分析课题主要的技术难点包括以下几个方面:(1)用户将基于社会网络技术,从多多数据源构建大学生就业创业的实时信息库和。如何聚合来自多个数据源的与大学生就业创业相关的信息,同时从移动终端获取实时的个人信息并进行最终的数据融合,是本课题的技术难点;(2)存在着大规模、非结构化、以及实时性高等特点。如何和索引海量的非结构化数据,管理非结构化数据的元数据并建立表示模型,如何增强大规模数据的可扩展性是本课题的技术难点;(3)的最终目的是为了上层应用的计算和分析,因此提供快速通用的接口将直接影响上层应用的执行效率。如何设计存储的接口从而提高上层大数据挖掘和分析等应用的系统性能是本课题的技

8、术难点。三、现有工作基础与优势1国内外现有技术、知识和技术标准现状及预期分析信息抽取能对企业或互联网上大量繁杂和冗余的数据进行有效的抽取和提炼。它是以一个未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或到数据库、电子表格中,以便于以后的进一步分析。目前普遍的 Web 数据抽取方式是编写特定的抽取程序,主要具备两个功能:搜寻、发现并抽取特定的数据,以适当的格式保存数据供进一步处理,比如 XML 和关系模式。目前的DEEP Web 数据抽取工具按使用的技术大致可以分为几类:1、页面抽取语言:是指开发一种特定设计的语言帮助使用者实

9、现抽取过程,比如 Minerva 是 Araneus 系统的一个重要组成部分,它结合了基于语法的方式和典型的过程化语言;2、基于 DOM 树的工具:依赖于Html 页面的内在的结构特征,在抽取之前将页面转化成 DOM 树,可以反映页面的层次结构,然后自动或半自动的抽取规则在此树上应用。比如 RoadRunner 发掘 Html 文档内在的特征来自动产生抽取规则,且过程完全自动化;3、抽取规则推导工具:从给定的训练样本中产生基于分隔符的抽取规则,更适合 HTML 文档,但需要大量的样本页面。主要的工作有 WIEN 和 STALKER 系统;4、基于模式的工具:为感的对象给定一个目标结构,尽量使页

10、面上的数据部分符合这个结构,通过图形界面与用户交互,由用户页面上感兴趣的区域。典型系统有 NoDoSE 和 DEByE。其是一种交互工具,把简单页面的样本对象集合作为输入,产生能够从其它类似页面抽取新对象的抽取模式。传统的信息抽取系统多采用基于模板和模式匹配,或者是采用基于统计的学习方法。这些方法都需要期进行大量工标注训练文本,然后对训练文本进行学习。但是训练文本不可能覆盖整个领域内出现的所有语言。另外,传统的信息抽取虽然 能抽取出实体,但是缺乏领域知识来识别抽取实体之间的关系。因此在信息抽取任务中引入相应的领域知识领域本体来指导抽取过程,将能有效地提高信息抽取的性能。信息集成是系统中各子系统

11、和用户的信息采用的标准,规编码,实现全系统信息共享,进而可实现相关用户间的交互和有序工作。根据某一特定将相关信息从不同的信息源(无论其地理位置、数据结构和通信要求)有机地成一个整体,借助于网络技术和应用的支持提供用户。在数据库领域,比较流行的信息集成系统的方法是 Wrapper/Mediator ,这种方法通过Wrapper/Mediator 结构满足上层集成应用的需求。对于半结构化数据,AT&T开发的 XML-QL 是一种可以对 XML 数据进行查询的语言,并且利用 XML-QL 的查询方式可 以实现 XML 数据的抽取、转换和集成。社会感知计算通过大规模多种类传感设备,包括普适传感器(RF

12、ID、运动传感器、音传感器等)、智能(GPS、收发),结合电子邮件、 Web(DBLP、)等,能够获取关于人类社会行为和交互的大规模、客观、实时、连续、动态的现场数据,为人类行为理解和交互规律认识的研究提供坚实基础。M I T 人类动力学(Human Dynamics Lab)开展了 Reality Mining 项目,通过搜集 94 位智能用户连续 9 个月的位置和,分析用户的日常行为模式、人际关系等。东学也以移动为感知,研究社交网络特征。欧盟 AMI 项目进行了“增强多方交互”方面的研究,如在智能会议系统中,通过感知并可视化成员的发言和注视行为,发现主导者,平衡参与度,实时获取和解释科学合

13、作行为, 提高交叉学科团队协作过程的创造性。东京大学的DeaiEx-plorer 系统,从网数据库中动态抽取特定部分,生成社交网络,显示在大型触摸屏上,让会议参加者发现他们之间的联系,利用 RFID 技术,知晓彼此在会场的大致位置,促进学术交流。2课题申请及主要参与研究基础(近 5 年来开展的与本课题相关的研究开发经历、已取得的科技成果及技术性能水平、已具备的知识、已具备的与本课题研究相关的科研条件与研究开发队伍现状等。)承担:厦门大学学院课题承担厦门大学,是教育部直属、省部共建的普通高等学校,是首批进入国家“211 工程”和“985 工程”建设的若干所重点大学之一。厦门大学学院成立于 200

14、2 年 2 月,是教育部和原国家计委批准的首批 35 所示范性学院之一,设有工程系和数字工程系。计算机与理论为福建省重点学科,工程专业为“国家级培养模式创新实验区”、“福建省培养模式创新实验区”和“福建省第二类特色专业建设点”,工程点为“福建省教育创新”,工程教学实验中心为“福建省教学实验示范中心”,与厦门园共同建设“国家与集成电路人才国际培训(厦门)”。在数字方面,学院建有“福建省数字”和“厦门市数字创意与设计行业技术开发与创意产业”。学院拥有一支高学历、高工程技术、教学经验丰富的师资队伍。现有各类教师 68 人,其中专职教师 38 人,校内教师 14 人,校外(企业界)教师 8 人,国外教

15、师 13 人。 在编教师中,教授 9 人(其中外聘教授 2 人)、17 人,博士学位31 人、学位 7 人。学院还拥有良好的工程技术试验条件、基础设施以及先进的教学和科研仪器设备;学院目前拥有的教学和科研实验用房建筑面积7500 平方米,学院的教学科研仪器设备总数 2231 台、总值 1742.39万元。近 3 年,学院共承担各类研究开发项目 86 项,合同经费1678 万元,并取得了较好的社会与经济效益;共完成了 46 项科研项目,其中纵向科研项目 16 项、横向科研项目 30 项,通过鉴定的科研项目 1 项,通过验收的科研项目 45 项;共获得发明专利和实用新型专利 3 项,登记著作权 2

16、6 项。厦门大学近年来,整合学校相关院系的资源,与相关部门和国内外企业与高校,在数字与创意产业领域建立了若干了研究开发和培养:福建省数字创意与设计行业技术开发(福建省经贸委等批准设立);福建省文化创意(福建省文化厅批准设立);福建省文化创意产业(福建省文化厅批准设立);厦门市数字与创意产业工程技术(厦门市科技局批准设立);厦门大学新动漫(与中国移动动漫、日本早稻田大学共同建立);厦门大学曼陀林动画创意(与曼陀林文化有限公司共同建立);厦门大学文化创意中心;厦门大学数字与创意产业研发中心。近三年,学院共承担各类研究开发项目 86 项,合同经费1678 万元,并取得了较好的社会与经济效益;共完成了

17、 46 项科研项目,其中纵向科研项目 16 项、横向科研项目 30 项,通过鉴定的科研项目 1 项,通过验收的科研项目 45 项;共获得发明专利和实用新型专利 3 项,登记著作权 26 项。项目组是一支勤奋踏实、勇于创新的学术队伍。目前有教师 5 人,博士生 4 名,生 9 名。近三年,项目组共与本项目相关30 篇以上,在国际期刊上共14 篇,在国际会议上21 篇。近年来,学院从国内外著名高校引进了一批优秀青年学术骨干,进一步加强了项目组的科研力量。四、实施计划及年度目标1课题研究内容、技术路线和创新点1.1 研究内容和技术路线(一)基于社会网络的信息融合技术目前的创业就业一般隶属于不同的高校

18、或部门,缺乏有效的整合,存在着信息割裂、来源单一等。随着社会网络技术的发展,大学生越来越倾向于通过智能移动终端并从多个渠道获取就业和创业相关的信息,建立个人生活就业圈,并与企业、风险投资机构等实时互动。因此,研究基于社会网络技术的实时信息集成技术,构建大学生就业创业的实时信息库和,是一项重要的研究内容。具体研究内容和方法包括以下几个方面:(1)Deep Web 的信息抽取已有的就业信息、招聘信息、创业信息,大都隶属于不同的单位,且大部分在不能被传统的搜索引擎索引到 Web 数据库里。在 Deep Web 中,用户需要通过填写表单或,查询数据库才能得到相关的页面。因此,如何获取并聚合来自多个数据

19、源的与大学生就业创业相关的信息,是构建实时信息库和的重要内容。系统将采用以下两个步骤进行信息的抽取:(a)首先利用网络爬虫技术进行浅层的数据抓取。比如,从相关抓取企业招聘,就业创业相关的页面;或者通过现有的搜索引擎和分类门户,获取相应的页面;(b)对初始页面和页面的 url 信息进行聚类,并利用最大相似值的方法提取关键页面。针对关键页面,采用基于层次 DOM 树模型的方法,分析 Deep Web 数据库的查询语义和信息,并采用查询范式,提取相应的数据;(c)数据抽取将周期性的进行以获取的数据。为了避免重复数据,抽取系统将采用基于时间戳和文本关键字最大匹配相结合的方式,过滤重复网页。(2)移动社

20、会感知数据的收集移动终端作为大学生用户随身携带的设备,其所携带和产生的数据,能够反应用户很多属性特征。因此,在用户的情况下,从日常维度收集与用户相关的基于移动终端的感知数据,将有助于理解和挖掘大学生关于学习、团队协作等方面的特性及能力。的移动终端的数据收集方法,包含以下两种:(a)将与大学生的日常管理的 APP 端(如、易班网)集成,采用基于文本挖掘的方式抽取用户所内容的关键字,让用户显式的把相关数据上传到的服务器。(b)APP 的程序将在用户的后,并隐式提取与用户相关的数据。移动端将首先在本地端进行数据处理,去除重复并转换为关键语义,然后以文本关键字的方式上传。比如,系统会把用户的具体位置转

21、换为可解释的地点信息,结合逗留的时长和频度,结合与地点的字典,推测用户的和等特征。(3)综合信息库的构建技术系统将源源不断的获取与大学生创新就业相关的数据,然而这些数据存在非结构化和模式异构等特点,传统的数据库系统无法很好的进行有效的管理和检索。系统将采用基于网状的数据模式,来构建就业和相关的综合信息库,主要包含以下几方面的内容:(a)从网页抽取的数据,将分为行业动态和信息入库,作为信息聚合及发布的数据源。系统将基于 Lucene 以支持全文检索的方式进行文本,提供友好的用户查询和交互;(b)用户的输入数据、移动终端感知的数据,将建模为语义相关的实体节点,到相应的网状数据库中。系统将把用户(大

22、学生、企业、创投机构等)、创意、岗位等定义为实体节点,并构建实体的模式信息。实体模式定义了节点的各种特息,以及实体和实体之间的关联信息,实体的实例将以网状的结构进行。系统将采用采用基于用户语义信息的自动的实体识别和去重技术,并动态更新实体之间的关联信息;(c)Neo4j 作为一个兼容 ACID 的图形数据库,能够建模常见的复杂领域数据集,并简化模式变更和延迟数据迁移。然而,其针对创新创业就业等特定领域的查询和结构支持不够,需要做二次开发和改进。将把 Neo4j 作为内嵌数据库使用,并结合基于大数据的系统,提供友好的信息匹配、检索和等服务。(二)基于大数据的非结构化数据技术在大学毕业生招聘工作中

23、,如何从成千上万份简历中挑选出合适的应聘者,是企业人力资源工作的最大之一。基于大数据的数据挖掘和分析而产生的人力资源管理系统面向的是招聘的业务支撑和决策系统,并结合大数据社交网络数据挖掘和分析,提出一套同时面向求职者和招聘官的双向扩展匹配算法,既能让人力资源在茫茫人海中发现与职位需求高度匹配的专业,又能为求职者提供个性化的,找到能够展现个华的最佳舞台。该系统的独特优势还体现在对各种社交网络如一品威客网、Linkedin、人人网等网络大数据的深度分析上,通过建立求职者的性格图谱、图谱和关系图谱,深入了解求职者的性格特点、方向和社交圈子。这些在企业招聘最终决策和求职者人生职业规划中都占有重要地位。

24、同时,该系统在企业员工上的优势更为明显,通过对员工社交关系的延展和判断,系统不仅能精准发现与职位需求匹配的求职者,还能计算求职者与者的信任关系及参与应聘的意愿度。据分析,传统的商业智能系统中用以分析人力资源的数据,大都是企业自身信息系统所产生的标准化和结构化的运营数据,低于企业可利用数据的 30%,另外 70%的非结构化和半结构化数据则广泛存在于以社交网络为代表的媒介之中。这也就意味着,企业一旦掌握了基于社交网络等媒介所产生的定向数据,就能够掌握获取优秀的先机。非结构化数据管理系统的体系结构如图 4-1 所示。的操作,对应地有几个不同非结构化数据的操作引擎。最上面的是系统提供给用户的操作语言。

25、(1)数据模型图 4-2 数据模型示意图为了表示非结构化数据,必需要有一个的数据模型,拟提出一种可扩展的非结构化数据模型。图 4-2 给出了该模型的示意图。该模型首先对非结构数据,比如音频、图像、图形和文本等,建立 XML 元数据,这些元数据包括文件名,文件类型、存放路径、索引路径、创建时间等等信息。XML 元数据存放在文件系统或数据库中,可以实现对非结构化数据的元搜索;为了实现对内容的检索,对非结构化必需建立混合索引,比如文本建立文本索引,图形建立图形索引库等。通过这样的模型抽象后,任何的非结构化数据都可以在系统中和表示,并且能够实现基于元数据和内容的添加、删除、查询和修改等操作。主要研究非

26、结构化数据的建模、检索及管理与系统实现;研究内容包括非结构化数据的XML 表示、基于内容的图像、音频、图形、文本的索引模型;研究基于 XML 的非结构化数据管理以及非结构化数据的检索方法。(2) 用户接口语言非结构化音频数据管理系统的用户接口肯定不能用一个表格来描述,对于音频的公共性质和每一种音频的特殊性质,都要在用户的接口上、在查询的过加以体现。例如对音频内容的描述、对空间的描述以及对时间的描述。可以拟开发浏览、查找和表现音频内容的新方法,使得用户很方便地描述自己的查询需求,并得到相应的数据。在很多情况下,面对音频数据,用户有时甚至不知道自己要查找什么,不知道如何描述自己的查询。所以,非结构

27、化音频数据管理系统对用户的接口要求不仅仅是接收用户的描述,协助用户描述出他的想法,找到他所要的内容,并在接口上来。非结构化音频数据管理系统的查询结果将不仅仅是传统的表格,而将是丰富的音频信息的表现,甚至是由计算机组合出来的结果。许多应用对非结构化音频数据的传输、表现和的质量要求是不一样的。系统能够提供的资源也要根据系统运行的情况进行控制。系统用户接口需要提供这种支持。(3) 数据逻辑管理层非结构化数据逻辑管理层负责管理系统中全部数据的逻辑结构和特征描述,提供通用和专业的非结构化数据管理引擎,并维持较高的数据独立性。它在结构上可进一步分解为两个子层,如图 3-3所示。上层为应用支持层,主要包括非

28、结构化数据查询语言的功能、针对应用层的统计及性能优化功能,和系统缓存策略控制功能等。应用支持层根据不同的应用请求,确立局部数据的逻辑结构和特征描述,并生成与某一应用相关的数据的逻辑视图。这种从全局逻辑管理模式到局部应用模式的数据视图能够保证数据与程序的逻辑独立性。下层为非结构化数据逻辑管理引擎接入层,可插式引擎设计能够大大提高系统数据管理的优化潜力和可扩展性。对于主流非结构、图形/图像将提供专业管理引擎。不化数据,如文本、音频、同的逻辑管理引擎可能针对特定非结构化数据类型进行模式和策略优化,以提高数据和效率。逻辑管理引擎的接入过程同时也是确立数据由全局逻辑管理模式到模式方式的过程。各类专业管理

29、引擎遵循的接口标准,从上层后的数据查询语言中分解出务,并在执行完成后分别向接入点返回数据;数据最终由接入层管理模块整合并返回给应用支持层。模式多样化是非结构化数据管理系统有别于传统结构化数据库的重要特征。图 4-3 所示为分布式索引的分发管理机制,用户提交待归档文档给索引管理服务器,索引管理服务器的主要功能包括对待归档文档进行分词处理,索引分布式管理。索引管理服务器将分词后的单词提交给相应的索引服务器构建索引。这一片特定的数据。这种通过把数据管理与数据本离的模式增加了灵活性,简化了系统的任务。在设备中,所有对象都由一个 128-bit 的对象 ID 所标识。对对象的都采用一个基于对象 ID 的

30、简单接口(partition ID,object ID,permis,offset,length),其中,partition ID 和 object ID 用来定位具体的对象,permis用来定义对对象的权限,offset 用于定位要操作对象的开始字节地址,length 是要的数据字节长度。本项目将利用对象系统中数据对象本身的关联关系和对象的灵活性,建立非结构数据各部分的逻辑管理。1.2 创新点(1)针对传统信息割裂、数据来源单一等特点,本课题将利用移动感知技术获取大学生的个性化数据,并从深度网络中抽取创业就业相关的信息,构建大规模的综合信息库。信息库不仅能满足基本的信息发布、查询等功能,还通

31、过基础信息、抽取信息、行为信息等全方位的定义实体及实体之间的关系,从而支撑推荐、和信用等综合应用;(2)提出了基于大数据的非结构化分布式数据技术,包括非结构化数据的元数据管理和表示模型,从而增强了大规模数据的可扩展性和可管理性;(3)针对多样化的数据提出了基于异构的非结构化数据索引和管理模型,并采用了基于对象(OBS)使用对象作为接口,极大地提高了上层大数据挖掘和分析等应用的系统性能。2 课题进度安排及各年度目标本课题计划用 3 年时间完成,各年度的安排及年度目标如下:阶段起止时间年度安排和年度目标第 1 阶段(1 年)2015-01-01至2015-12-31对课题建设目标进行详细需求分析和

32、系统整体设计;调研国内外数据抽取与融合、大数据建设的方法,并进行案例分析;研究基于社会网络的信息融合技术;研究基于大数据的非结构化分布式数据技术;五、课题考核指标(考核指标包括约束性指标和预期性指标,约束性指标指对完成课题任务具有关键性作用,必须保证实现的指标;预期性指标指在完成约束性指标的基础上,对完成课题任务具有重要意义,确有必要的其他导向性的相关任务指标,请明确分类。其中,约束性指标要有量化的检测指标,并委托具备相关资质的第检测检测;有标准的按标准检测,没有标准的要事先约定检测方法。)1.主要技术(性能、性状、工艺参数,技术的稳定性、可靠性,形成生产能力或达到实际应用的程度等)、经济(投

33、入产出比、性能价格比、成本、规模等)、环境、生态等指标,及其与国内外同类技术、产品的先进程度或竞争力比较。约束指标:构建自动的针对大学生创新创业就业的信息抽取系统,服务于大学生创新创业综合信息库,信息时延小于 1 天;构建大学生创新创业就业综合信息库,可以容纳 100 万大学生第 2 阶段(1 年)2016-01-01至2016-12-31继续信息融合和非结构化分布式数据技术(非结构化数据的元数据管理和表示模型;研究基于对象使用对象作为接口等)撰写学术,拟申请发明专利和著作权;5 研发大学生创新创业就业综合信息库。第 3 阶段(1 年)2017-01-01至2017-12-31与各高校到的基础

34、数据集成,对系统进行功能和性能测试,并对系统进行应用前的调试;系统投入试运行和正式运行,服务于项目。按照规范撰写课题研究的总结,做好课题验收的准备工作。相关信息;2形成的知识、技术标准的种类和数量。预期指标:课题将申请著作权 1 项,申请专利 1 项。3应用示范、中试线、生产线或规模。无。4队伍培养。预期指标:将培养中青年教师 2 名,培养6 名。5课题执行过的与课题研究相关的的学术、研究报告和专著等其他考核的预期指标。约束指标:将与课题相关的学术4-6 篇,其中半数将被期刊或 EI 索引。六、经费6-1课题表:万元序号科目名称合计专项经费自筹经费一、经费支出(一)直接费用308.8172.4

35、136.431、设备费8315684(1)购置设备费8315685(2)试制设备费0006(3)设备改造与租赁费00072、材料费295.823.283、测试化验加工费23.423.4094、动力费7.32.35105、差旅费27.127.10116、会议费6.46.40127、国际合作与交流费11.211.20138、/文献/信息/知识事务费24.49.415149、劳务费87.161.925.21510、费9.99.901611、其他支出00017(二)间接费用41.227.613.618其中:绩效支出10.36.93.419二、经费来源350.00200.00150.00201申请从专项

36、经费获得的资助200.00200.00/212自筹经费来源150.00/150.0022(1)其他财政拨款0.00/0.0023(2)自有货币150.00/150.0024(3)其他0.00/0.006-2设备费购置/试制设备明细表金额:万元填表说明:1、设备分类代码:A购置、B试制;2、试制设备不需填列本表(6)列、(7)列;3、单价10万元(具体金额待定)的设备需填写明细;4、来源分类代码:A为专项经费、B为自筹经费。序号设备名称设备分类单价(元/台件)数量(台件)金额购置设备型号购置设备生产国别与地区主要技术性能指标用途(与课题研究任务的关系)来源(1)(2)(3)(4)(5)(6)(7

37、)(8)(9)(10)单价10万元以上购置设备合计00单价10万元以上试制设备合计00单价10万元以下购置设备215单价10万元以下试制设备00累计2156-3测试化验加工费明细表金额:万元填表说明:量大及价高测试化验,是指课题研究过需测试化验加工的数量过多或价格较高、总费用在5万元及以上的测试化验加工,需填写明细。序号测试化验加工的内容测试化验加工计量单价(元/数量)数量金额(1)(2)(3)(4)(5)(6)1评测(两项技术和综合信息库)福建省中心厦门分部次3262综合信息库商业(稳定性和安全性测试各1次)厦门次4.529量大及价高测试化验费合计/15其他测试化验费/8.4累计/23.46

38、-4承担与参加研究经费支出明细表金额:万元填表说明:承担类型分为,A、第一承担B、其他承担。序号名称组织机构代码承担单位类型任务分工研究任务合计专项经费自筹经费小计其中:间接费用(1)(2)(3)(4)(5)(6)(7)(8)(9)1厦门大学(学院)B3695219-3A调研、 技术研发、系统研制、测试、参与试运行与运行等35020027.6累计.61506-5课题说明书一、对承担和相关部门承诺提供的支撑条件进行详细说明,并针对课题实施可能形成的科技条件资源和成果,提出社会共享的方案。本课题承担厦门大学(学院),是教育部直属、省部共建的普通高等学校,是首批进入国家“211 工程”和“985 工

39、程”建设的若干所重点大学之一。厦门大学学院成立于 2002 年 2月,是教育部和原国家计委批准的首批 35 所示范性学院之一,设有工程系和数字技术系。厦门大学(学院)为本课题的实施提供以下几方面的条件:1)提供实施:包括 2 名教师和 9 名。教师均具有博士学位,1 人为、1 人为助理教授(博士后,留美)。2)提供配套经费 150 万元,主要包括设备和运行阶段的开销。3)提供基本的研发环境,包括所有成员的办公环境(包括电脑),临时聘用的办公环境等。4)提供科研设备支持:包括本课题使用的 NAS引擎(价值约 60 万元)、硬盘柜等,节省了费用。本课题为研究性课题,研究是难点,同时结合研究成果开发

40、出综合信息库并用于项目的应用示范。课题的研究成果将以学术的形式,共全社会共享。课题研究成果的应用以互联网服务的形式供所有大学生使用。二、结合课题任务分工、任务的主要内容,对承担及参加经费安排进行详细说明。本课题的任务划分为以下务:务 1:大学生创新创业就业数据融合技术研究;务 2:大学生创新创业就业非结构化数据技术研究;务 3:大学生创新创业就业综合信息库研制;务 4:综合信息库试运行与运行(配合项目应用示范)。课题唯一承担为厦门大学,由牵头承担全部的四个子任务。本课题总概算为 350 万元,其中申请科研经费 200 万元,自筹经费 150 万元。二、 对各科目支出的主要用途、具体内容及明细支

41、出情况进行详细分析说明。(一)设备费共 83 万元,其中专项 15 万元,自筹 68 万元。专项经费购置设备主要用于务 2 的研发(也包括务 3 综合信息库研制的数据部分、后期经扩展空间变为项目的数据备份系统)中。自筹经费购置设备主要用于务 1 研发(也包括务 3 综合信息库研制的数据抽取与融合部分)中。专项:15 万元本课题专项经费 15 万元,将用于购置两台RH2485 机架式服务器。设备具体用途有三,具体为:1)务 2 中进行非结构化数据研究时需要数据前置机,方案是:两台服务器采备份技术,通过交换网络连接到 NAS 引擎(交换机和 NAS 引擎作为现有条件,厦大已经具备)和阵列(本课题所

42、需空间需扩展)配合;2)作为务 3 综合信息库研制过数据小组开发、测试环境;3)技术和系统研发工作结束后,在系统试运行和示范化应用(运行)阶段,该设备扩展后(与其它设备配合)用于运行数据的备份。考虑到务 2功能对带宽吞吐量的要求,还考虑到设备在研发结束后可以在示范应用中充当灾备系统的前置服务器。因此,选择能力比较平衡的机架式服务器RH2485 系列服务器。参考华为给厦大的报价,每台 7.5 万元。两台共 15 万元。在转作和备份用途时,两台 RH2485 以热备的形式通过以太网连接到 NAS 引擎(该设备利用厦大现有条件,无需另外购置。型号:N8500,自带硬盘阵列)。备注:两台服务器采机热备

43、方式。自筹:68 万元专项经费着重解决问题,两台RH2485 可以作为从网络转存数据的前置机器满足务 2 的需要,但务 1 数据抽取与融合对计算能力的要求需要服务器资源的支撑,同时,融合前后的数据也需要能力的支撑。系统按照每天数据增量在 0.05-0.1TB设计,这些数据都需要进行抽取和融合。在课题指标部分提出:数据融合延迟应该小于 1 天,数据下行要求集中在非用户期,序号内容品牌数量单价合计1PC 服务器RH248527.515单台E6000(性价比较高的国产服务器)容量约为 24TB,8颗el 至强5500/5600CPU,据此可以估算出还需要8 台E6000才可以基本满足数据和处理的要求

44、。作为科研系统,不需要太大的能力预留,因此只采购 8 台服务器。根据给厦大的报价。这部分服务器的价格约 68 万元。全部从自筹支出。(二)材料费共计 29 万元,其中专项 5.8 万元,自筹 23.2 万元。专项:5.8 万元,用于务 2、3、4 研发、研制测试盒试运行阶段购置两组硬盘扩展单元。项目确定了整个应用示范系统的数据空间为 200TB(如非特别提及,涉及数据空间均为可用空间而非盘空间),备份系统的数据容量应与此匹配,也设置为 200TB,从安全和充分利用现有设备节约经费的角度考虑,备份系统采用本地备份方式。本课题务 2、3、4 均需要一定数量的空间为基础。课题确定按照系统 1/10的

45、规模建立研发(测试)环境,并在后续扩展空间,成为系统数据备份系统。因此本课题建立的研发(测试)系统容量为 20TB,系统采用 RAID5 方案,相对应的盘空间约为 30TB。因此,课题确定为 N8500 配备两个硬盘扩展柜,每个扩展柜采用 8 备 1 的方序号内容品牌数量单价合计1PC 服务器E600088.568案,每个硬盘 2TB(当前性价比最高的方案),企业级 SATA 硬盘。依照这个方案,需扩展两个硬盘柜,盘空间共 32TB,可用空间约20TB 或稍多一点。现有的 NAS 引擎和模块(单元控制框、单元扩展框、单元硬盘组件)是一体的,没有剩余空间供本课题使用,但N8500 可以线性扩展空

46、间。参面的计算,要扩展约20TB空间(32TB盘空间)。参照的报价每组单元(含2000GB 7.2K RPMSAS-SATA 硬盘单元 3.5 ,8+1,硬盘框及相应材料)的报价(给厦大的报价)为 2.9 万元,如前所述,本课题需要增加两组单元,5.8 万元。共计专项 5.8 万元。自筹部分:自筹经费用于运行阶段的设备扩容,其测试方法和依据于试运行阶段完全相同。因为扩展工作在 2017 年进行,相关费用会有所下降,假设扩展的 9 组单元相当于现在 8 组单元的价格,则空间从 20TB 扩展到 200TB 的费用,为(每 10TB 费用)2.9 万元*(9-1)=23.2 万元。共计自筹 23.

47、2 万元。(三)测试化验加工费共 23.4 万元,全部使用专项经费。课题两大技术(务 1、3)和综合信息库(务 3)在研发完成后,为保证质量,也为交付项目承担或接受国家验收时威的质量证明,本课题需要聘请第进试和。具体如下:测试部分:17.4 万元务 1任务 2 涉及的两大技术的测试工作由课题组进行,不聘请第。务 3 综合信息库作为关键性系统为整个业务系统提供包括原始数据快照、数据集成、数据查询、搜索等约 30 个功能点,为保证商业应用质量,在课题组自行组织测试的基础上聘请第进行的功能验证和集成测试,其价格分别为每个功能点 800 元和 500 元,总计 30*(800+500)=3.9 万元。

48、要求服务 100 万名大学生,支持 4 万人同时,作为业务最重要的子系统之一,为验证该系统的并发能力,综合信息库在上线和试运行之前需聘请第进行压力测试,30 个功能点(压力测试起价一般在 4 万元以上)系统进行压力测试的价格按照每个功能 1500 元(考虑多轮测试和调整的情况)测算,约需 4.5 万元。同时,为保证综合信息库商业运行的可靠性和安全性,需聘请专业公司进行安全性和可靠性测试,这两项测试专业性较强,专业公司的起价都在 4-5 万元,为此分别4.5 万元,共需 9 万元。合计 17.4 万元。部分:6 万元。工作由科技部指定的机构进行(福建省中心厦门分部),包含信息融合技术、数据技术和

49、综合信息库三部分。福建省中心厦门分部的标准(在属于比较低的)是:功能:0.5 万元起价,按照功能点多少计价。压力:1.5 万元起价,按照科目多少计价。性能:1 万元起价,按照科目多少计价。本课题中数据融合和非结构化数据两项技术做功能和性能即可,按起步价即可,各1.5 万元,合计 3 万元。综合信息库需要同时做三项,按起步价测算(部分自筹)预计 3 万元。费用合计 6 万元。测试与费用合计 23.4 万元。(四)动力费共 7.3 万元,其中专项 2.3 万元,自筹 5 万元。专项部分用于数据设备在研发、测试与试运行阶段电力费用。自筹部分用于数据抽取及融合设备在研发、测试与试运行阶段电力费用,以及

50、所有设备在运行(应用示范)阶段的电力费用。专项:2.3 万元本系统的硬件包括RH2485 机架式服务 2 台,铭牌功率 2kw,N8500 节点引擎 1 台,(节点引擎 1530W(四节点)单元控制框: 850W 扩展框: 670W),带两组硬盘扩展柜的情况下功率约为 3.5kw。按照课题进度安排,设备从 2015 年下半年-2016 年底进行科研性使用(三分之一的时间使用);2017 年全年处于试运行和运行阶段(2017 年上半年试运行,2017 年下半年正式运行),设备不间断使用。机器实际运行功率按照铭牌功率的 50%测算。厦门市工业用电约 0.96 元/kwh,则RH2485 服务器和N

51、8500 节点引擎,在研究和研发阶段共使用电力费用为:0.96 元/千瓦时*(2 千瓦+3.5 千瓦)*50%*24 小时*182 天=1.15 万元;在试运行阶段共使用电费费用为:0.96 元/千瓦时*(2 千瓦+3.5 千瓦)*24小时*182 天=1.15 万元两项共计 2.3 万元。自筹:5 万元。如前所述,在运行阶段,空间将从 20TB 扩展到 200TB,参考与专项部分相同的测算标准,实际功率按照铭牌功率 50%测算,设备耗电量为 0.96 元/千瓦时*(2 千瓦+10 千瓦)*50%*24 小时*182天=2.5 万元。自筹经费增加的 8 台E6000,铭牌功率 3kw(实际功率

52、按照铭牌功率 50%测算),在研究、开发、测试、试运行的两年中按照1/8 的使用率测算,则所需电费为:0.96 元/千瓦时*(3kw*8)*50%*6小时*730 天*0.125=2.5 万元。两项共计 5 万元。(五)差旅费本课题差旅费 27.1 万元,全部为专项经费。专项经费差旅费主要用于课题相关学术与技术活动,以及参加项目评审和评估会的差旅费。分别介绍如下:技术活动差旅费:14.4 万元。调研与设计阶段:因市各校在大学生创新创业就业方面的政策和措施不尽相同,数据也没有的格式和标准,要抽取和融合各来源数据,首先需要对各类数据源进行调研。课题拟在东部、中部、西部各选取 3 个城市(每个城市选

53、取 2 个学校)进行大学生创业创新就业相关数据源和融合需求情况的调研。初定东部选取厦门(本地)、哈尔滨;中部选取郑州、和广州;西部选取、西安和。兼顾城市规模、城市位置和学校档次。每次派出 2 人小组,其中,一人侧重需求、一人侧重技术分析。共计 16(厦门不需要出差,所以按 8 个而非 9 个城市计算)人次。选择郑州作为基准进算,每人次差旅费用包括(测算标准参照和国家机关差旅费管理办法(财行2013531 号):机票:(6 折票)750 元+160(机场建设/燃油附加费)=900 元(约),双程 1800 元/人住宿费:300 元*3=900 元补贴:80*3=240 元单人合计:2940 元。

54、该项合计:2940 元/人次*16 人次=4.7 万元系统试运行和运行阶段:配合项目进行相应的任务(与课题 1 不同,课题 1 派出负责具体的事务,本课题派出技术解决过的技术问题,主要是市数据接口不,本课题技术并不参加项目的所有差旅,而只在每个省市的第一次任务时参加),出差以增加一名随队的方式进行,考虑到每个省市的数据往往有所不同,因此预计每个省(市)需要出差一人次。预计出差 33 人次(共 34 个省市,厦门代表福建,不列入差旅计划,则剩下 33 个省市)。仍然选择郑州作为基准进算,会期按照 3 天测算。共计 13 人次。则所需费用非:2940元/人次*33 人次=9.7 万元。学术活动差旅

55、费:7.1 万元研究内容的水平直接影响本课题的水平,课题组将积极参加国内学术活动,以参加学术会议为主要方式。在课题的不同阶段,参与频率和方式略有不同。技术调研和研发阶段:持续 1.5 年,教师每人参加 2 次学术会议,参与课题的每人参加 1 次学术会议。仍然选择郑州作为基准进算,会期按照 3 天测算。共计 13 人次。则所需费用为:2940 元/人次*13 人次=3.8 万元。系统开发阶段:持续 0.5 年,教师每人参加 1 次学术会议,参与课题的每人参加半次学术会议。共计约 7 人次。仍然选择郑州作为基准进算,会期按照 3 天测算。共计 13 人次。则所需费用非:2940 元/人次*7 人次

56、=2.1 万元。系统试运行和运行阶段:持续 1 年,参加学术会议,教师每人参加 2 次学术会议(不参加),选择郑州作为基准进算,会期按照 3 天测算。共计 4 人次。则所需费用非:2940 元/人次*4人次=1.2 万元。差旅费:5.6 万元。调研与设计阶段:拟召开需求和设计评审会各一次(分别安排在 2015 年第一季度和第二季度),会期 2 天,每次 7 名,其中3 名从外地邀请,以的为主,也以为基准进试,本地差旅费不计入。共计 6 人次。技术研发阶段:拟召开课题进度评审会两次(每半年一次,分别安排在 2015 年 12 月和 2016 年 6 月),每次 2 天,每次 7 名专家,其中 3

57、 名从外地邀请,以的为主,也以为基准进试,本地差旅费不计入。共计 6 人次。综合信息库研制阶段:拟召开课题进度评审会 1 次(安排在 2016年 12 月),会期 2 天,7 名,其中 3 名从外地邀请,以的为主,也以为基准进试,本地差旅费不计入。共计 3 人次。试运行及运行阶段:拟召开课题进度评审会 1 次(安排在 2017年 6 月),7 名,其中 3 名从外地邀请,以的为主,也以为基准进试,本地差旅费不计入。共计 3 人次。三年共计 6 次会议,合计外地差旅 18 人次,每次 2 天。每人次差旅费用包括(测算标准参照和国家机关差旅费管理办法(财行2013531 号):机票:(6 折票)1

58、022 元+160(机场建设方/燃油附加费)=1182元,双程 2364 元/人住宿费:300 元*2=600 元补贴:80 元*2=160 元单人合计:3124 元。总计差旅费为:3124 元/人次* 18 人次=5.6 万元(六)会议费共 6.4 万元,全部为专项经费。专项:6.4 万元,用于课题实施过各种评审和评估会。课题评审会共 6 次(会议安排已经在差旅费中差旅费部分介绍),每次 2 天。每次会议成员包括: 7 名,2 名教师,9名,4 名临时聘用(只参加 2 场会议)。参照和国家机关会议后管理办法(财行2013286 号)制定的标准按照 450 元/人日的标准,项目组参与按照 15

59、0元/日(因不参加住宿)的标准执行。包含临时聘用程序员的单次会议费是:450*2*7 + 150*15*2 =10800 元,不包含临时聘用程序员的单次会议费是: 450*2*7 +150*11*2 = 10200 元,3 年共 6 次会的费用为:10800*4*2=6.4 万元。(七)国际合作与交流费共计 11.2 万元,全部从专项经费支出。本课题属于数据融合与云领域,云计算本来就是由硅谷的谷歌公司,高水平的人次和企业集中在硅谷地区,同时高等级行业会议和学术会议如 SOCC,SCAPDPS,OSDI,SOSP 几乎都在硅谷召开。本课题为服务具体应用的研究性课题,为保持课题研发工作的前沿性和前

60、瞻性,课题组两名教师需与前沿同步,拟每 1.5 年去硅谷地区进行一次技术和学术活动。为充利用经费和时间,以参加学术或行业会议为契机(SOCC 或SCAPDPS),会议一般为 3 天,然后利用 4 天时间拜访硅谷一些公司和技术(因为研究领域的关系,课题组两位教师对行业公司和都较熟悉)。因此,共计参加国际交流(共计 4 人次),地点就是旧金山硅谷地区。每次交流约 6 天,包含参加会议 3 天,参加交流 4 天。依照因公临时出国经费管理办法(财行2013516 号),旧金山(硅谷)地区的标准是:往返机票的价格(含税费)共约为 2000(部分自筹)。则每人次交流费用约为 2000*6.2+(250+5

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论