科研大数据的管理和分析_第1页
科研大数据的管理和分析_第2页
科研大数据的管理和分析_第3页
科研大数据的管理和分析_第4页
科研大数据的管理和分析_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、PAGE PAGE 33申报人编号:(123197)2012年度南京领军型科技创业人才引进计划创业计划书(A类)申报人: 项目名称:科研大数据的管理和分析 第一部分 申报人及团队基本情况一、基本信息国内最高学历/学位硕士/硕士研究生国外最高学位硕士目前工作单位Morgridge Institute for Research (UW-Madison)目前工作地点美洲美国 创业经历创业企业名称创业地点注册时间公司是否仍在运行与原企业关系上海来今化工有限公司亚洲,中华人民共和国,上海1996-5是辞职离开二、教育、工作经历学习经历时间学校专业学历/学位1981-5至1985-7山西大学化学本科198

2、6-9至1990-7河北大学化学硕士1996-9至2000-7Marquette University计算机科学硕士工作经历时间单位任职1993-9至1995-7ECOLAB Chemical LtdDirector1996-9至1998-7Legendary Chemical LtdVice President2000-9至2006-7Medical College of WisconsinDirector2006-9至2012-6Morgridge Institute for ResearchSenior Scientist三、申报人简介申报人介绍(300字之内):介绍申报人的创新意识、开

3、拓能力、经营理念以及在科技、经济、管理领域取得的主要业绩。聂金福,双科硕士(化学硕士,中国河北大学;计算机科学硕士,美国马凯特大学,Marquette University),现就职于美国莫格里奇研究所(Morgridge Institute for Research)任资深生物信息研究员,同时也是中国科学院广州生物医药与健康研究院研究员。聂金福有长达十二年的生物信息工作经验,最近五年更是持续与美国多家科技公司合作,提供关键性的生物信息咨询服务及负责生物信息分析工具开发工作。在美国莫格里奇研究所工作期间,聂金福帮助建设了一个功能齐全的生物信息学研究团队,提供多方面的生物信息科研服务,包括在科学

4、杂志发表的iPS细胞论文中相关的生物信息分析。聂金福曾任美国威斯康星大学医学院大鼠基因组数据库生物信息组负责人,在利用生物信息数据挖掘,分析方面具有很好的经验积累。聂金福尤其擅长新一代测序为基础的海量数据的分析与挖掘,曾发表过最先进的转录因子聚类算法,开发过多种新一代测序数据分析工具。在高性能计算领域,对不同的分布计算系统有深入的了解,包括LSF,PBS,SGE,Condor and Amazon Cloud等。曾发表过多篇科学论文,其中包括科学等顶级杂志的论文。聂金福对中国的企业管理和运作也有非常丰富和直接的经验。聂金福曾和合伙人一起创建上海来今化工有限公司(Legendary Chemic

5、al Ltd.)并担任副总经理。在任职期间,将企业从初创阶段发展为千万元营收的国际公司。聂金福也曾担任艺康化工有限公司(艺康集团, ECOLAB Chemical Ltd.)研发部经理,负责开发过300多产品,直接负责多个部门的工作。在聂金福的领导下,企业曾达到人均盈利全国排名第三的好成绩。四、创业团队其他成员创业团队其他主要成员列表(限填10人以内)姓名出生日期毕业院校学历/学位角色是否全职张新民1975-01-14Columbia University博士首席运营官及市场部总监是赵沁1969-08-02University of Wisconsin-Madison博士中国市场部经理是赵国燕

6、1972-12-25Washington University博士高级技术专家否吴稷1972-02-12Columbia University博士国际市场部经理否团队其他成员介绍(1000字之内):核心团队包括拟任总经理、分管技术、市场、财务等方面的副总经理和同类职务的人员,介绍每一成员的受教育背景、能力与专长、工作业绩等。首席运营官及市场部总监:张新民,博士本科毕业于北京大学生物系,并获得美国哥伦比亚大学(Columbia University)生物学博士学位。 张新民博士有十多年的生物技术开发经验,曾在罗氏(Roche)公司担任全球高级产品开发和市场部经理,以及科研市场总监的职位。张新民博

7、士领导开发过多种生物芯片及第二代高通量测序技术产品,并领导商务团队快速将产品推向市场,取得过销售额逐年翻番的骄人业绩。在罗氏公司,张新民博士直接负责的产品年销售额超过数千万美元,多个主要产品在全球市场占有率遥遥领先。张新民博士在为罗氏新测序产品打开中国市场过程中做出过重要贡献,他协同中国团队和华大基因,上海交大等多个重点客户建立密切联系,开拓出逾千万人民币的新市场。中国市场部经理:赵沁,博士赵沁本科毕业于南开大学,在美国威斯康星大学获得了生物化学博士。赵沁博士拥有近二十年生物化学科研经验,发表过近30篇科研文献。在美国威斯康星大学博士后工作期间,赵沁博士参与了美国NIH第一阶段的大型蛋白质结构

8、组学(PSI-1),由于成绩突出,于一年内被提升为研究员。赵沁博士后来在著名的美国生物试剂公司Promega任职高级研究员。赵沁博士拥有七年以上的工业界生物试剂研发和生产的经验,主导和参与了十多个生物试剂产品的研发和生产,并获得了自己的专利。赵沁博士在工作期间,多次参与市场部工作,并代表公司在大型国际会议上每年至少做一次科研报告。在最近一年,赵沁博士回到中国,带领一家业界领先的生物CRO公司的服务和生物试剂的市场部上游业务团队,领导和制定的公司营销计划,在一年内上市了二十多个新服务和产品,并成功地实施了十几个业务拓展,产品营销和促销计划,一年内将公司的客户流量和产值提升了近30%。赵沁博士带领

9、的市场部上游业务团队,管理公司的近5000种产品在全球范围内的营销,负责近30家全球范围内经销商的管理,以及主导公司两个独立网站的建立和运营。高级技术专家:赵国燕,博士本科毕业于北京大学生物系,在华盛顿大学获得分子细胞生物学博士学位,在博士后期间接受过专业生物信息学培训,有八年生物信息学研究经验。赵国燕博士目前是美国Washington University(St Louis)助理教授,是该校病原发现中心的创始人兼总监。赵国燕博士擅长新一代测序数据分析(454,Illumna等),有多年 RNA-Seq及基因组数据的分析经验以及分析工具开发经验。在国际顶级科学杂志上发表过多篇科研论文。精通多种

10、计算机编程语言,生物信息学工具及数据库。国际市场部经理:吴稷:博士武汉大学本科,协和医科大学硕士,并获得美国哥伦比亚大学生物学博士学位。吴稷博士对生物技术产品在全球市场的营销有丰富的经验,有超过十年的生物制药市场管理及营销的成功记录。吴稷曾在美国英杰生命技术有限公司(Invitrogen),Epicentre Biotechnologies,及Covance担任过高级产品经理及市场营销主管,负责超过上千种产品的营销,年销售额超过6000万美元。财务总监及企业发展总监:叶正义,博士, 工商管理硕士, 注册金融分析师(联系中)叶正义拥有工商管理硕士(MBA, University of Calif

11、ornia, Irvine) ,生物医学博士(University of California, San Diego),注册金融分析师(CFA)等学历,也是美国KaJo Investments LLC出资人和首席投资官,及Morgan Stanley投资财务顾问。叶正义博士是商业专业人士和创业者,具有广泛生物医学,金融和市场运销的的经验。叶正义博士对生物医学研发有深刻的理解,有很强的客户培养,资产组合管理,风险管理和金融建模能力。五、团队创业能力开发能力(200字之内):介绍团队的研发队伍和资金投入以及项目已取得的研究开发成果。核心团队成员在科研行业、信息技术、产品开发、国内国际营销等方面有非

12、常丰富的经验。这种能力和经验互补的团队组成保证我们能够把握市场机会、理解科研客户的需求、开发适合科研客户的产品、保证产品具备科研行业领先的技术、并配合市场营销确保产品具备市场潜力。这些成员的具体科研成果、相关的技术水平和产品开发能力、大公司的工作经验、工作业绩等在他们的简历有详细描述。和本项目直接相关的科研成果大部分已发表,总科研经费从美国国立卫生研究院的统计来看已在千万美元级别。我们的团队成员在工作中已积累了丰富的经验并建立了自己的专有技术,其中的直接科研成果包括独有的大数据管理平台及分析系统。这些科研成果已经在实际工作中得到了广泛的测试,并被数百家美国和欧洲的科研院所使用。我们在中国的公司

13、虽然刚刚成立,但根据计划,很快将会增资到几百万至千万级别。所以这些进展使我们确信我们的团队具有行业领先的产品开发能力和市场营销能力。营销能力(200字之内):介绍团队的经营模式和市场策划能力、销售渠道等。我们的市场营销专家具有丰富的国内国际市场营销经验,在业界领先的大公司中都有多年的工作经历和成功业绩。他们能够理解客户需求,有能力选择高效的市场营销手段,制定可行的目标并保证营销业绩。同时,他们还能够把握市场机会,积极提供反馈,配合产品开发,并保证客户服务质量等。我们的团队熟悉直接销售,子公司,代理等多种渠道,并擅长灵活应用这些渠道取得科研市场最高的占有率。总之,我们的核心团队在市场营销方面已经

14、做好了充分的准备。融资能力(200字之内):介绍团队的融资策划能力、融资渠道等。我们的核心团队成员有丰富的人脉关系,这些人脉关系能够确保我们在需要融资时有充分的资源。我们的团队成员都有在国内、国际名牌大学的学习经历,也有在业界大公司的工作经验,他们不仅已经经历过各种融资事件(工作期间有融资、上市、并购等事件),他们也都有很多同学、同事现在涉及创业、投融资等事业。我们正在联系具有财务、融资、工商管理等背景的人才加入团队。我们正在联系叶正义,一位潜在的财务总监及企业发展总监。叶正义不仅是生物医药博士,而且也是工商管理硕士和注册金融分析师。叶博士在财务管理、融资等方面具有丰富的经验。我们相信我们团队

15、在需要时能够展示他们特有的财务和融资能力。其他特殊能力(100字之内):介绍创业项目已获得的特殊资格认证或证明等。我们的核心团队成员有坚实的科研大数据管理和分析经验。他们在相应领域都有多年的工作和丰富的科研成果,从他们的简历可以看出他们已经取得了同行们的认可。因为这个行业的人才非常紧缺,我们非常有幸能联合这些有共同理想的同行一起创业。第二部分 项目概述一、创业项目概述创业项目概述(500字之内):对项目总体情况的描述,包括采用的关键技术、技术的创新点、权威部门的技术鉴定情况、环保评价等内容。本项目产品将为生物医学科研人员提供基于云计算的生命科学大数据解决方案,产品主要为科研大数据的存储,检索和

16、分析系统。基于云计算的软件服务给研究者提供了存储和分析数据的高效能平台,使用户不再需要自己搭建计算机集群即可按需完成海量数据的处理。本项目的关键技术包括专有的科研应用开发平台、科研大数据管理系统及一系列科研大数据分析工具。这些平台、系统及工具在理念上居于世界领先地位,在中国还基本是空白。相关的专有技术正在准备作技术鉴定并申请知识产权。本项目的创新要点包括1)云计算大数据解决方案相对传统技术的低成本,高效,易交流的优势。传统技术依赖大规模电脑服务器中心和专业生物信息人员来管理生物医学的大量数据,成本昂贵,效率低下,结果不容易交流。2)适用于科研行业大数据的应用开发平台。目前国家及大型企业的“云计

17、算”重点在基础设施服务、平台服务和通用软件服务上。只有很少的企业开始将云计算应用在科研领域里。3)高端生命科学大数据分析系统。每一个分析工具都整合了最新的算法,具有最尖端的分析能力,以及最易于接受的用户界面和服务形式。在过去几年里,我们的团队成员已经向众多国际知名科研院所的实验室提供了相关的服务,包括美国的威斯康星大学,哈佛大学,斯坦福大学,索尔克(Salk)研究所,加利福尼亚大学(UCSD,UCLA,.)等。这些服务不仅验证了相关技术的可靠性,也明确展示了广阔的市场前景。二、创业机会概述创业机会概述(300字之内):要从项目产品的先进性及应用发展前景、进入市场机会(如:市场现实需求处于萌芽、

18、起步、成长、成熟、饱和、衰退阶段)及市场发展空间、团队实施项目的现有能力和发展潜力等方面描述创业机会。现代社会已经进入大数据时代。据市场研究公司IDC预测,未来10年全球数据量将增长近50倍。如何充分利用数据资产是每个行业面临的一个核心议题。生物医学领域由于高通量基因组技术的高速发展,大数据爆炸带来的机遇和挑战尤其明显。如何有效,实用地管理和分析生物医学领域的大数据是生命科学研究的一个难题。生命科学大数据已经发展到了一个新的临界点,数据分析成本开始超过产生数据的成本,传统数据管理方案遇到了严重瓶颈。近年云计算的兴起对大数据问题提供了创新的解决思路,科研领域采用基于云计算的解决方案是大势所趋,前

19、景广阔。此方向的突破具有巨大的市场潜力,并将促进生命科学和医学研究的革命。生命科学大数据的主要来源是生物芯片(2012年全球市场9.8亿美元)和高通量测序(2012年全球市场9.2亿美元)。其中高通量测序市场每年有超过20%的增长率,是继互联网之后的又一个经济增长亮点。目前只有很少的企业和机构开始将云计算应用在科研领域里。本项目产品会填补国内科研领域的一个空白,在数亿人民币的大数据管理市场上带来可观的经济效益。更重要的是,由于我们领先的技术和先进的科研理念,以及团队在北美和欧洲生物医学市场宝贵的营销经验,产品将会顺利打入国际知名科研院所,在几十亿美元全球生命科学大数据管理市场站稳领先地位。我们

20、的技术不仅在概念上超越所有其他公司,而且已开发的平台和系统已确保新公司拥有领先的市场竞争优势。三、拟办(已创办)企业情况企业名称南京云蔚谷信息科技有限公司已办企业注册时间2012-5企业注册地址南京市鼓楼区华侨路街道明华新村3-3号所在区县(开发区) 南京市鼓楼区申报人担任的职务是 其他:副总经理企业人数 6博士 2硕士 1本科 3企业性质内资注册资本10 万元是否为高新技术企业否 企业获得的资格认定、产品鉴定等产业领域生物和医药承担市级以上科技项目项目名称及编号立项批准部门资助额度获得的各级政府支持项目名称支持部门资助额度股本构成(万元)内容货币出资无形资产作价有形资产作价技术作价其他无形资

21、产作价申报人200(正在增资) 400(正在评估) 团队其他成员 风险投资 其他资金 合计 申报人个人投入占股百分比:99 %注:南京云蔚谷信息科技有限公司正在准备增资手续并积极寻求融资。根据股东协议,股东将在9月30日前增资到200万元人民币以上。四、嫁接企业情况N/A第三部分 项目技术与产品(服务)实现第一章 项目技术方案一、项目总体技术概述(一)总体技术方案项目所依据的技术原理(1000字之内):在现代生物医学领域,如何有效,实用地管理和分析高通量技术革命所带来的大数据是一个核心议题。根据美国国立卫生研究院提供的数据,每一百万碱基测序的成本在2001年大约是五千美元;到2011年底,应用

22、高通量测序技术,产生同样数据只需要0.1美元。高通量测序技术的飞速发展带来生物医学数据的爆炸性增长,科学家们面临的问题不再是怎么产生数据,而是如何有效的管理分析大数据以获得有用信息。传统技术无法充分解决这个问题。云计算技术的快速发展使人们有可能开发出一个这样的解决方案。云计算是基于互联网、通过虚拟化方式共享资源的计算模式,使计算、存储、网络、软件等资源,按照用户的动态需要,以服务的方式提供。虽然云计算技术已经在全世界范围内流行,国家和地方也已在大力发展云计算基础设施目前,还没有一个专门针对科研大数据的应用系统。我们采用最新的网络技术(包括LAMP (Linux, Apache, MySQL,

23、and PHP),HTML5/XHTML/AJAX 等技术),结合我们多年的生命科学科研经历,研发了一套独有的、基于云计算的、专门针对于生命科学大数据的应用开发平台。该平台包括系统核心数据管理工具,用户程序接口及新系统开发工具,审计追踪,以及众多的生物信息分析模块。这个平台允许快速开发出以云计算为基础的各种信息系统。在这个应用开发平台上可以整合各种管理工具、分析工具、第三方应用等。为了将我们的应用平台技术和理论应用于实际工作中,我们分析了生命科学大数据的特点、数据类型、用户需求、常见困难等,在我们的平台上开发了一套通用的科研大数据管理和分析系统。我们的科研大数据管理和分析系统是在多年的科研和实

24、践经验基础上设计的。这是一套整合的、基于网络的大数据系统,能够在多个方面帮助科研人员提高效率和降低成本,包括大数据长期存储,整合,常用分析流水线的自动化,数据搜索和图表显示的优化,自动生成实时研究报告等。在生物医药行业里普及这套系统,能够极大地提高科研效率和降低成本,最终引领科研行业进入云计算时代。我们的科研大数据管理和分析系统在提供了非常强大的数据分析能力的同时,也注重用户界面的人性化,以及充分把数据分析结果和生物医学意义紧密结合,使科研人员不需要有统计或生物信息学背景也能驾驭大数据。系统里包含行业里最新的生物信息、生物统计、数据整合、网络数据库、数据后台处理等技术,具有国际领先水平。主要技

25、术与性能指标(500字之内):科研大数据应用开发平台。指标:1)高速;这个平台允许我们快速开发出基于云计算的信息系统。一个中等实验室的基因表达数据库用我们的平台一周内可以完成,而其他平台则需数月时间。)高整合度;我们的平台包括常用的生物分析工具(DNA和蛋白序列分析,引物设计,抗体流程等),并很方便插入第三方数据库和应用(如GenBank, SRA, R/Bioconductor)。案例:此平台已经被用于开发多种科研信息管理系统(如实验动物信息管理系统)并以经过数千科研人员的测试,相关产品也已经拥有数百家国际著名科研院所实验室的付费客户。科研大数据管理系统。指标:)自动化程度高。系统包括常用生

26、物流程的自动化,数据搜索,图表显示,实时研究报告等。2)成本低,是传统方法的或更少,并易于扩大。案例:糖尿病数据库(/)。该数据库对糖尿病研究领域提供强大的资源,允许研究人员搜索多个糖尿病小鼠模型的全基因组数据。迄今有上万访问量。科研大数据分析系统。指标:)优化的分析流水线。从原始数据采集,质控,首轮分析,整合分析,图表显示,我们充分结合多个最新算法,建立了灵活,高效的流水线。2)用户界面的人性化,我们团队有强大的科研背景,熟悉科研人员需要,能把数据分析结果和生物医学意义紧密结合。案例:数千基因芯片数据整合分析系统(/,内部系统),联合威斯康星大学生化系Attie教授开发。该数据库能同时多数千

27、基因芯片实验结果做多种分析和比较,如eQTL,Time Course, Enrichment等,允许研究人员随时搜索多个基因组数据,已成为相关实验室的日常数据分析工具。(二)项目创新内容创新类别X理论创新 X应用创新 X技术创新 工艺创新 结构创新项目创新内容(1200字之内):创新内容要根据选择的创新类别,用技术语言按创新点分条目描述,尽可能多用实验数据,要有数据分析、对比。如果是技术创新,请说明目前一般采用什么技术,申报项目对什么技术进行了创新,;如果是结构创新、工艺创新,需进行新旧结构或工艺对比,并画出新旧结构图和工艺流程图。本项目描述的是一种基于云计算的、针对于科研行业的大数据管理和分

28、析的解决方案。项目中的技术在世界上领先,在中国还完全是个空白。基于篇幅限制,以下是一些总体的创新要点:(一)云计算大数据解决方案相对传统技术的优势传统技术依赖大规模电脑服务器中心和专业生物信息人员来管理生物医学的大量数据,成本昂贵,效率低下,结果不容易交流。指标传统技术云计算解决方案硬件成本昂贵,经常需要更新用户不需投资硬件,系统从云端根据需要提供资源软件每台应用机器要分别安装软件,不同系统的兼容问题系统统一提供软件资源,自动使用最新版本界面复杂,用户需掌握多个操作系统及多个软件界面简单明了,浏览器界面支持所有常用系统数据同步和备份手续繁琐,耗时长实时同步,自动永久备份访问及共享数据需要专用硬

29、件和软件,共享困难在线快捷访问数据,方便设定共享权限(二)适用于科研行业大数据的应用开发平台。目前还没有一个相应的适合于科研行业大数据的应用开发平台。目前国家及大型企业的“云计算”重点在基础设施服务、平台服务和通用软件服务上。只有很少的企业开始将云计算应用在科研领域里。我们开发的平台包括系统核心大数据管理工具,用户程序接口及新系统开发工具,以及众多的生物信息分析模块。这个平台方便科研信息共享,允许快速开发出以云计算为基础的各种信息系统。已经开发的多种应用系统以及向众多国际著名科研院所实验室提供的服务证明了这个平台的实用性,可靠性,以及可塑性。(三)高端生命科学大数据分析系统。在生命科学领域里,

30、通常由于涉及到的科研数据庞大,类型复杂,数据分析通常需要专业的生物信息或生物统计人员参加。即使是专业人员,他们也只是利用手工或简单的批处理命令作分析。在这种情况下,不仅效率低下,无法自动化,也会引入很多的错误。例如,在做基因序列分析时,实验人员需要使用多个工具查找序列,转换格式,手工拼接,人工分析结果等。我们利用在生命科学领域里的多年科研经验,建立了一系列高端生物信息数据分析系统。这些分析系统提供了非常强大的数据分析能力,能应用于生命科学研究的各个领域,从常规的基因序列分析到复杂的基因组数据的处理。每一个分析工具都整合了最新的算法,具有最尖端的分析能力,以及最易于接受的用户界面和服务形式。(四

31、)人性化,智能的生物医学数据界面生物信息学近年有大幅度发展,涌现了大量优秀的开源程序。但一个关键问题一直没有解决,那就是绝大多数生物医学科研人员不熟悉编程,而程序员又缺乏专业的生物知识,造成数据分析和结果诠释的脱节。我们的团队有独特的生物和编程紧密结合的经验,在此领域发表过近百篇国际论文。我们开发的数据系统注重体现复杂数据背后的生物意义,并根据我们对生物医学研究的经验,提供多维数据的整合功能,以帮助科学家发现大数据后的复杂生命现象。我们的理念是生物医学研究人员无需编程知识,就可以利用我们的系统进行大数据的深度分析,做出新发现。(三)与项目相关的知识产权情况权利人相关说明:申报人或团队使用单位知

32、识产权(申报人为非权利人)的,要逐一说明是否得到了权利人的许可使用(提供许可证明文件为有效)、是否存在股权关系、合作关系等。我们正在申请“科研大数据管理和分析系统”的专有技术鉴定及相关知识产权。我们团队是相关技术的发明人,并完全拥有相应技术的使用权。二、项目技术开发可行性(一)项目技术发展现状国内外相关技术的研究、开发现状的介绍、分析(1200字之内): 本项目涉及两个关键技术领域,云计算和新一代测序技术,都是国家十二五规划的重点领域。云计算是继个人电脑、互联网之后,信息技术的重大革新,它将使现有的计算机处理器、存储、服务器、终端、操作系统及应用软件得到深刻改变,为电子信息业带来一个全新的发展

33、机遇。全球云计算市场发展迅速。根据2011年八月在上海举办的“2011IBM云计算高峰论坛”,2010年,云计算去年在全球快速成长,全球云服务市场规模达443亿美元,云组件市场规模达到了108亿美元。仅去年一年就有1900万公共云用户,80%的世界500强用户已经在使用云计算。目前在中国市场上,云计算已在各地开花结果。中国的地方政府对加强云计算基础设施建设也热情有加。“云计算”产业已被列为中国及许多地方战略性新兴产业的突破口。国家及大型企业的“云计算”重点在基础设施服务、平台服务和通用软件服务上。新一代测序技术是近几年来出现的新技术,可以在一周之内完成人类23条染色体上全部基因的30亿碱基对的

34、序列。这个技术一经问世,就得到了学术界和企业界的广泛关注,成为生物医学的热门话题和投资的热点。关于新一代测序技术的文献从2007年的14篇剧增到2010年的四百余篇。美国在经济不景气的时候,对新一代测序技术领域的投资却在不断增加,并希望它成为继互联网之后的又一个经济增长点。在中国,新一代测序技术领域是中国大力支持和发展的未来重点领域,也是明确列入国家十二五规划的重点领域。华大基因已经成为中国乃至全球最大的测序中心之一。针对各种微生物、植物、动物的基因组序列研究也正在积极的开展,大量的基因组和转录组序列被检测,分析,基因数据越来越成为现代生物和医药研究的基础之一。以新一代测序技术为代表的高通量技

35、术给生物医学科研带来了大数据的挑战,云计算的成熟为此提供了基于网络的全新解决方案。全世界多家传统生物信息软件公司(SoftGenetics, DNAStar, DNAnexus,NextBio等)正在努力向云计算转型。在美国,新创业的DNAnexus公司于2011年获得谷歌1500万美元投资,一起打造打造云端DNA数据库以提供新一代测序数据的存储和分析服务。未来DNAnexus将使用 HYPERLINK /p/52391.html o Google推出企业版Google App Engine、云存储服务和Prediction API t _blank 谷歌的云服务,也是有史以来运行在Googl

36、e资源上的最大的第三方服务。科研大数据云计算平台及相关系统的开发在国际上也是一个全新的领域,在国内基本还是个空白。我们团队成员利用美国NIH科研基金等资助已经在这个行业研究开发了五年。目前不仅基本平台和主要系统已经开发完成,而且这些系统已经经过了数千科研人员的测试。同时,一些系统已经以付费形式推向了数百国际知名科研院所的实验室。我们在中国的创业主要集中在将先进的理念和核心系统带入中国,充分利用本土丰富的资源和良好的创业环境,打造出中国开发并能推广到全球的先进科研大数据云计算系统。(二)项目主要研究内容项目研究开发内容及涉及的关键技术及技术指标描述(1500字之内):逐条阐述项目研究开发的主要内

37、容及涉及的关键技术及技术指标。1)科研大数据管理平台的本土化及国际化由于我们的核心平台涉及到多种技术,包括互联网、数据库、硬件环境、移到设备等,本土化不仅涉及语言界面的中文化,也要考虑到中国的计算机和网络等硬件设施、移到设备及环境,中国的互联网特殊要求、开发人员和用户的技术水准、使用习惯等。由于核心技术已经比较成熟,本土化的关键在于吸引一批本土的、熟悉中国环境的高端网络技术人才,在经过特别培训后能尽快掌握核心技术,将界面中文化,并根据中国的技术环境作改进。我们现有的核心平台使用英语,本土化后会与中文兼容,下一步是做好国际化推广的准备,包括多国语言的支持和常用数据库的跨国兼容。2)高端生命科学大

38、数据管理和分析系统的进一步开发这里涉及到的高端大数据分析系统包括基因芯片,高通量测序结果数据分析,整合数据库等。基因芯片数据分析将基于BxArrays基因芯片数据在线分析系统。该项目曾两度获得美国NIH资金资助,由于自动化程度高,运算速度远高于其他系统,被多个顶级科研院所使用。 进一步开发将增加支持的基因芯片类型,并更加简化界面,和加强与其他基因组数据如RNA-Seq的兼容性等。为了解释高通量测序数据管理和分析策略,这里先对DNA测序技术所引起的数据分析挑战做些解释。从2005年到2010年,每台测序机器的数据产生能力已提高了五十万倍。例如,一台Illumina公司HiSeq2000机器每次运

39、行可以产生600G的碱基序列。即使只保存序列和相应的数据质量信息,估计也将占用600GB的磁盘空间。相比而言,一个DVD光碟一般只有4GB,也就是说,一次测序的结果需要150张DVD光盘才能存得下。对于一套典型的2*100碱基对的末端配对人类基因数据,用一个8核心高级计算机和流行的tophat/cufflinnk软件包来处理,需要处理约一个星期的时间。基因组信息学正面临超大规模基因组数据的挑战。这些数据对计算机的存储能力和计算能力都是极大的挑战。首先,为了处理超大规模的测序信息,我们将采用最先进的压缩和可扩展的存储技术,包括参考基因组的压缩和可扩展的并行存储管理的技术。我们开发的软件可以有效地

40、压缩文件到原始大小的1-15,使得在互联网上传输测序数据是实际可行的。然后,我们将进一步开发多种基于云计算的生物信息学工具。这些工具能够读取超大的输入文件,将数据分解成数千个小部分,并分发到成千上万的服务器中作并行数据处理。这种处理方法能提高数据分析速度数百倍甚至数千倍。我们的基于云计算的数据分析工具包括单核苷酸多态性分析,碱基插入和删除分析,基因组大结构变化,表观遗传改变、基因表达的差异等。我们的高通量测序结果数据分析平台将包括以下常用分析流水线:表达谱分析(RNA-Seq)蛋白和DNA结合分析(ChIP-Seq)定位针对性测序(Targeted Sequencing)全基因组测序(Whol

41、e-genome sequencing)我们的整合数据库将基于在线数据库和应用进行设计。这个系统允许用户不通过编程就可以设计相关的、有数据库支持的应用。用户根据程序指导创建数据库表格。然后,系统将自动生成相应的数据录入和其他操作的网络界面。这样用户就可以立即导入数据。设置相关权限后,用户可以轻松地与他人分享的数据库内容,或者与其他人合作,一起更新和维护内容。3)人性化,智能的生物医学数据界面的完善和开发我们系统一个独特的优势是利用简洁直观的界面提供强大的功能,以帮助生物医学研究者在不需编程背景下,完成大数据的深度分析,做出新发现。这些界面及后台功能是基于团队带头人多年的相关科研和开发经验。为保

42、持此优势,我们的整个团队将坚持以人性化界面为主的理念,充分利用新技术来优化大数据处理过程。一方面尽量自动化常规步骤以减少对生物统计和信息学背景知识的依赖,另一方面加强生物医药科学人员常用的工具,如基因注解,图表显示,功能富集等。公司将吸引有具有编程和生物双背景的高端人才来带领营销和开发团队,并和多个学科带头人保持密切联系,以最快,最好的方式开发生命科学急需的数据产品。(三)项目技术路线描述项目技术路线描述(1200字之内):包括技术原理图、工艺流程图、产品结构图、框架图等。本项目涉及到多种平台和应用系统。具体技术细节属于商业秘密。这里简述一些基本技术概念和应用性能。项目的核心是一个云计算应用开

43、发平台。该平台包括系统核心数据管理工具,用户程序接口及新系统开发工具,审计追踪,以及众多的生物信息分析模块。这个平台支持多用户,并且这些用户可以自由组合成小组,以便共享数据。系统结构示意图如下。基于商业原因,示意图已做了简化处理。我们团队成员在行业里的丰富知识和经验使得我们能够向客户提供国际领先的产品和专业的服务。我们计划在下一代高通量测序数据的分析和展示领域向科研人员提供全面的服务。和一些潜在的竞争对手公司相比,我们不仅提供个别算法分析结果,而且提供多个算法分析结果及比较。分析是高度自动化的,使得用户能够不需要专业培训即可快速上手。我们已经成功的在云计算的环境下进行大规模的数据处理,并取得了

44、国际领先的数据处理速度和性能。我们的分析系统支持所有主流的下一代高通量测序平台,包括:The 454 FLX System from RocheGenome Analyzer Systems from IlluminaSOLiD system from Life TechnologiesIon Torrent from Life Technologies下面是我们的分析系统示意图:我们的分析系统功能包括:Quality Control: Trim the sequence bases with low quality and remove the adaptor and other vendo

45、r specific primer contaminated reads.Demultiplexing: Demultiplex the barcode labeled sequence into different samples, supporting both both 3 and 5 indexed reads. De novoTranscriptome and Genome Assembly: Offers comprehensive support for a variety of data formats, including both short and long reads,

46、 and mixing of paired reads (both insert size and orientation). We use the Trinity for the transcriptome assembly and SOAPdenova, ABySS and ALLPATHS2 for the genome assembly. Map to Reference Sequences: Support both genome andtranscriptome. Ultra-fast alignment tools Bowtie and BWA are used.SNP Dete

47、ction for Whole Genome Sequencing and Targeted Sequencing: Based on customer specifications, the SNP detection will scan through the entire data and report all the SNPs that meet the requirements. GATK will be used to preform the SNP detection.ChIP Sequencing: Support both ChIP-seq data analysis for

48、 IP samples only and IP plus control (input) samples. The sequencing reads will be mapped to the reference genome first than perform a peak finding analysis. Read density (wig) files for each sample will be generated. User could visualize the data directly through UCSC genome browser. We use MACS an

49、d QuEST to preform the peak finding. RNA-Seq Analysis: Based on an annotated reference genome and mRNA sequencing reads, calculate the gene expression levels as well as discover novel exons. Both gene and isoform level expression level will be reported. Differentially expressed gene could be detecte

50、d also. Tools including Topat/Cufflink, Rsem, DESeq, HYPERLINK /wiki/EdgeR o EdgeREdgeR will be used.(四)项目技术实现依据设计思想依据(200字之内):包括文献,或专利,或发明等。基于云计算的科研大数据管理和分析平台及应用系统属于本团队专有技术,正在准备评估鉴定。专有技术包括:基于云计算的科研大数据应用开发平台。通用科研大数据信息管理系统。科研大数据信息分析系统。系统及数据库设计思想主要依据是团队成员及合作者的实际工作案例及相应已发表的文献。Nie J, , Wei H. TF-Cluster

51、: A pipeline for identifying functionally coordinated transcription factors via network decomposition of the shared coexpression connectivity matrix (SCCM). BMC Syst Biol. 2011 Apr 15;5:53. Howden SE, , Nie J, Thomson JA. Genetic correction and analysis of induced pluripotent stem cells from a patie

52、nt with gyrate atrophy. PNAS. 2011 Apr 19;108(16):6537-42Cho M, Xiao Y, Nie J, , Soh HT. Quantitative selection of DNA aptamers through microfluidic selection and high-throughput sequencing. PNAS. 2010 Aug 31;107(35):15373-8Yu J, , Nie J, , Thomson JA. Induced pluripotent stem cell lines derived fro

53、m human somatic cells. Science. 2007 Dec 21;318(5858):1917-20. Twigger SN, Pasko D, Nie J, , Jacob HJ. Tools and strategies for physiological genomics: the Rat Genome Database. Physiol Genomics. 2005 Oct 17;23(2):246-56. Otto EA, , Zhang X, et al. Candidate exome capture identifies mutation of SDCCA

54、G8 as the cause of a retinal-renal ciliopathy. Nat Genet. 2010 Oct;42(10):840-50. Epub 2010 Sep 12. PubMed PMID: 20835237Heintzman ND, , Zhang X, et al. Histone modifications at human enhancers reflect global cell-type-specific gene expression. Nature. 2009 May 7;459(7243):108-12. Epub 2009 Mar 18.

55、PubMed PMID: 19295514.Whittle CM, , Zhang X, et al. The genomic distribution and function of histone variant HTZ-1 during C. elegans embryogenesis. PLoS Genet. 2008 Sep 12;4(9):e1000187. PubMed PMID: 18787694; PubMed Central PMCID: PMC2522285.Ravnskjaer K, , Zhang X, et al. Cooperative interactions

56、between CBP and TORC2 confer selectivity to CREB target gene expression. EMBO J. 2007 Jun 20;26(12):2880-9. Epub 2007 May 3. PubMed PMID:17476304.Zhao G., Stormo G.D., Conserved Motifs and Prediction of Regulatory Modules in Caenorhabditis elegans, 2012, G3: Genes, Genomes, Genetics, 2(4): 469-481Zh

57、ao G., Wang D., The genome of yoka poxvirus. 2011, J Virol. 85(19):10230-8. PMID: 21813608Zhao, G., Skeath, J.B. Linking pattern formation to cell-type specification: Dichaete and Ind directly repress achaete gene expression in the Drosophila CNS. 2007. Proc Natl Acad Sci U S A. 104(10):3847-52. PMI

58、D: 17360441 Zhao, G., Stormo, G.D. Evidence for active maintenance of inverted repeat structures identified by a comparative genomic approach. 2007. PLoS One. 2(2):e262. PMID: 17327921 Zhao, G., Wheeler, S.R. and Skeath, J.B. Genetic control of dorsoventral patterning and neuroblast specification in

59、 the Drosophila Central Nervous System. 2007. Int J Dev Biol. 51(2):107-15. PMID: 17294361 Zhao, G., Schriefer, L.A. and Stormo, G.D. Identification of muscle-specific regulatory modules in Caenorhabditis elegans. 2007. Genome Res. 17(3):348-57. PMID: 17284674 主要分析算法参考文献:M. G Grabherr and etc. Full-

60、length transcriptome assembly from RNA-Seq data without a reference genome Nature Biotechnology 29, 644652 (2011)Li et al. De novo assembly of human genomes with massively parallel short read sequencing. Genome Res (2010) vol. 20 (2) pp. 265-72Jared T. Simpson and etc.ABySS: A parallel assembler for

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论