大基因组数据与生物信息学英文和翻译_第1页
大基因组数据与生物信息学英文和翻译_第2页
大基因组数据与生物信息学英文和翻译_第3页
大基因组数据与生物信息学英文和翻译_第4页
大基因组数据与生物信息学英文和翻译_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

/BigGenomicDatainBioinformaticsCloudAbstractTheachievementofHumanGenomeprojecthasledtotheproliferationofgenomicsequencingdata.Thisalongwiththenextgenerationsequencinghashelpedtoreducethecostofsequencing,whichhasfurtherincreasedthedemandofanalysisofthislargegenomicdata.Thisdatasetanditsprocessinghasaidedmedicalresearches.Thus,werequireexpertisetodealwithbiologicalbigdata.TheconceptofcloudcomputingandbigdatatechnologiessuchastheApacheHadoopproject,areherebyneededtostore,handleandanalysethisdata.Because,thesetechnologiesprovidedistributedandparallelizeddataprocessingandareefficienttoanalyseevenpetabyte<PB>scaledatasets.However,therearesomedemeritstoowhichmayincludeneedoflargertimetotransferdataandlessernetworkbandwidth,majorly.人类基因组计划的实现导致基因组测序数据的增殖。这与下一代测序一起有助于降低测序的成本,这进一步增加了对这种大基因组数据的分析的需求。该数据集及其处理有助于医学研究。因此,我们需要专门知识来处理生物大数据。因此,需要云计算和大数据技术〔例如ApacheHadoop项目的概念来存储,处理和分析这些数据。因为,这些技术提供分布式和并行化的数据处理,并且能够有效地分析甚至PB级的数据集。然而,也有一些缺点,可能包括需要更大的时间来传输数据和更小的网络带宽,主要。IntroductionTheintroductionofnextgenerationsequencinghasgivenunrivalledlevelsofsequencedata.So,themodernbiologyisincurringchallengesinthefieldofdatamanagementandanalysis.Asinglehuman'sDNAcomprisesaround3billionbasepairs<bp>representingapproximately100gigabytes<GB>ofdata.Bioinformaticsisencounteringdifficultyinstorageandanalysisofsuchdata.Moore'sLawinfersthatcomputersdoubleinspeedandhalfinsizeevery18months.Andreportssaythatthebiologicaldatawillaccumulateatevenfasterpace[1].Sequencingahumangenomehasdecreasedincostfrom$1millionin2007to$1thousandin2012.WiththisfallingcostofsequencingandafterthecompletionoftheHumanGenomeprojectin2003,inundateofbiologicalsequencedatawasgenerated.Sequencingandcataloguinggeneticinformationhasincreasedmanyfolds<ascanbeobservedfromtheGenBankdatabaseofNCBI>.VariousmedicalresearchinstitutesliketheNationalCancerInstitutearecontinuouslytargetingonsequencingofamilliongenomesfortheunderstandingofbiologicalpathwaysandgenomicvariationstopredictthecauseofthedisease.Given,thewholegenomeofatumourandamatchingnormaltissuesampleconsumes0.1TBofcompresseddata,thenonemilliongenomeswillrequire0.1millionTB,i.e.103PB<petabyte>[2].TheexplosionofBiology'sdata<thescaleofthedataexceedsasinglemachine>hasmadeitmoreexpensivetostore,processandanalysecomparedtoitsgeneration.Thishasstimulatedtheuseofcloudtoavoidlargecapitalinfrastructureandmaintenancecosts.Infact,itneedsdeviationfromthecommonstructureddata<row-columnorganisation>toasemi-structuredorunstructureddata.Andthereisaneedtodevelopapplicationsthatexecuteinparallelondistributeddatasets.Withtheeffectiveuseofbigdatainthehealthcaresector,areductionofaround8%inexpenditureispossible,thatwouldaccountfor$300billionsavingannually.下一代测序的引入给出了无与伦比的序列数据水平。因此,现代生物学在数据管理和分析领域面临挑战。单个人类DNA包含约30亿个碱基对〔bp,表示约100吉字节〔GB的数据。生物信息学在这种数据的存储和分析中遇到困难。摩尔定律推测,计算机速度增加了一倍,每18个月大小减少一半。报告说,生物数据将以更快的速度积累[1]。人类基因组测序的成本从20XX的100万美元降至20XX的1千美元。随着测序成本的下降,在20XX人类基因组项目完成后,产生了生物序列数据的淹没。测序和编目遗传信息已经增加了许多倍〔如从NCBI的GenBank数据库可以观察到的。诸如国家癌症研究所的各种医学研究机构正在连续地将一百万个基因组的测序用于理解生物学途径和基因组变异以预测疾病的原因。假定肿瘤的全基因组和匹配的正常组织样品消耗0.1TB的压缩数据,则一百万基因组将需要10万TB,即103PB〔petabyte[2]。生物学数据的爆炸〔数据的规模超过单个机器使得与其一代相比存储,处理和分析更昂贵。这刺激了云的使用,以避免大的资本基础设施和维护成本。实际上,它需要从公共结构化数据〔行-列组织偏移到半结构化或非结构化数据。并且需要开发在分布式数据集上并行执行的应用程序。随着医疗行业大数据的有效利用,支出减少约8%,每年可节省3000亿美元。ReviewCloudcomputingCloudcomputingisdefinedas"apay-per-usemodelforenablingconvenient,on-demandnetworkaccesstoasharedpoolofconfigurablecomputingresources<e.g.,networks,servers,storage,applicationsandservices>thatcanberapidlyprovisionedandreleasedwithminimalmanagementeffortorserviceproviderinteraction"[3].Someofthemajorconceptsinvolvedaregridcomputing,distributedsystems,parallelisedprogrammingandvisualizationtechnology.Asinglephysicalmachinecanhostmultiplevirtualmachinesthroughvirtualisationtechnology.Problemwithgridcomputingwasthateffortwasmajorlyspentonmaintainingtherobustnessandresilienceoftheclusteritself.Bigdatatechnologiesnowhaveidentifiedsolutionstoprocesshugeparalleliseddatasetscosteffectively.Cloudcomputingandbigdatatechnologiesaretwodifferentthings,oneisfacilitatingthecosteffectivestorageandtheotherisaPlatformasaService<PaaS>,respectively。Threetypesofcloudsare:publiccloud,PrivatecloudandHybridcloud.Firstonereferstoresourceslikeinfrastructure,applications,platforms,etc.madeavailabletogeneralpublic,accessibleonlythroughInterneton"payasyougo"basis.Secondonereferstovirtualisedcloudinfrastructureowned,housedandmanagedbyasingleorganisation.Thirdonerefertotheconnectionofprivateandpublic,forscalabilityandfaulttoleranceviaVirtualPrivateNetworking<VPN>.Afourthmodelisalsoproposed,namelyCommunityCloud.Hereorganisationslikepublicsectororganisations,havingsameinterest,cancontributefinanciallytowardsacloudinfrastructure.云计算被定义为"用于实现对可快速供应和释放的可配置计算资源〔例如,网络,服务器,存储,应用和服务的共享池的方便,按需的网络访问的按使用付费模型与最小的管理努力或服务提供者交互"[3]。涉及的一些主要概念是网格计算,分布式系统,并行编程和可视化技术。单个物理机器可以通过虚拟化技术托管多个虚拟机。网格计算的问题是,努力主要花在维护集群本身的鲁棒性和弹性。大数据技术现在已经确定了以成本有效的方式处理大量并行数据集的解决方案。云计算和大数据技术是两个不同的事情,一个是促进成本有效的存储,另一个是分别是平台即服务〔PaaS。三种类型的云是:公共云,私有云和混合云。第一种是指向一般公众提供的基础设施,应用程序,平台等资源,只能通过互联网以"按需付费"的方式访问。第二个是指由单个组织拥有,安置和管理的虚拟化云基础设施。第三种是指私有和公共连接,通过虚拟专用网〔VPN实现可扩展性和容错。还提出了第四个模型,即社区云。这里的组织像公共部门组织,具有相同的兴趣,可以贡献财务到云基础设施。GenomicsthroughbigdatatechnologiesWiththeimplementationofbigdatatechnologiesinstoring,processingandanalysinggenomicsdataofmedicalresearchcanprofoundlyimpactmankind.Timelyprocessingofdata,andsubsequentanalysisarestillachallenge.SolutionscouldbeimplementationofleadingbigdatatechnologieslikeHadoop.TherehavebeenstudiesregardingtheutilisationofApacheHadoopplatforminbioinformaficsprojects[4].随着大数据技术在存储,处理和分析基因组学数据的实施,医学研究可以深刻地影响人类。及时处理数据,以及随后的分析仍然是一个挑战。解决方案可能是实施领先的大数据技术,如Hadoop。已经有关于ApacheHadoop平台在生物信息学项目中的利用的研究[4]。BioinformaticstoolsdevelopedMapReduceprojects[5]Crossbowproject[6]B1astReduceproject[7]C1oudBurst[8]CrossBow[9}ClouderaCloudera,beingtheserviceproviderinthebigdataplatformistheleadingApacheHadoopsoftware.Itiscontributing>50%ofitsoutputintoopensource〔Apachelicensed>projects,drawingacuttingedgeinthedevelopmentofbigdatatechnologyandtheHadoopframework.ItwasestablishedbyGoogle,YahooandFacebookleadingengineersalongwithanOracleexecutive,whowerelaterjoinedbythefounderofApacheHadoopproject.[3]Clouderaisapioneerofbigdataandcloudcomputinginthebiomedicalresearches.Thechiefscienfistandtheco-founderofCloudera,isaimingtodedicate25%oftheirtimetowardstheuseofcomputationalbiologyingenomics[10].Hence,leadingpioneersofbigdataandcomputationalbiologyalongwithleadingmultinationalsarenowcommittingtoaidmedicaldiscoveriesthroughcontributiontowardsanalysisoflargebiologicaldata,fortheunderstanding,diagnosisandtreatmentofdiseases.Infact,thisistheneedofthehour,becausetheannualgrowthforhealthcarecomputingisgoingtobearound20.5%through2017[11].Cloudera作为大数据平台中的服务提供商,是领先的ApacheHadoop软件。它将其50%的输出贡献给开源〔Apache许可项目,在大数据技术和Hadoop框架的开发中占据了前沿。它由Google,雅虎和Facebook领先的工程师与Oracle高管共同建立,后来他们被ApacheHadoop项目的创始人加入。[3]Cloudera是大数据和云计算在生物医学研究领域的先驱。Cloudera的首席科学家和联合创始人,旨在将25%的时间用于在基因组学中使用计算生物学[10]。因此,大数据和计算生物学的领先先驱与领先的跨国公司现在承诺通过对大型生物数据的分析,疾病的理解,诊断和治疗的贡献,帮助医疗发现。事实上,这是小时的需要,因为到2017年,医疗保健计算的年增长率将达到20.5%左右[11]。HadoopTwokeymodules:i>MapReduceii>HadoopDistributedFileSystem<HDFS>1.Acomputationalprogramisdividedintomanysmallsub-problems.Distributedonmultiplenodesofthecomputer.2.Adistributedfilesystemforstoringdataonthesenodes.Suchsoftwaresaredesignedforloadbalancingamongdifferentnodesandallowingdistributedprocessingoflargedatasets,enablingfault-tolerantparallelizedanalysis.Bioinformaticscloudinvolveserviceslikedatastorage,acquisition,analysis,etc.asthecloudplatformdelivershostedservicesovertheInternet.Itcouldbecategorizedintofourcategoriesnamely,DataasaService,SoftwareasaService,PlatformasaService,andInfrastructureasaService[12-16}.两个关键模块:iMapReduceiiHadoop分布式文件系统〔HDFS计算程序被分为许多小的子问题。分布在计算机的多个节点上。2.用于在这些节点上存储数据的分布式文件系统。这样的软件被设计用于在不同节点之间的负载平衡,并允许大型数据集的分布式处理,使得容错并行化分析成为可能。生物信息云涉及数据存储,采集,分析等服务,因为云平台通过Internet提供托管服务。它可以分为四类:数据即服务,软件即服务,平台即服务和基础设施即服务[12-16]。Dataasaservice<DaaS>Bioinformaticscloudsaredependentondatafordownstreamanalyses."Itisreportedthatannualworldwidesequencingcapacityisbeyond13Pbpandonanincreasebyafactoroffiveeveryyear"[17].Duetothisunrevealedexplosionofdata,DataasaService<DaaS>deliveryviaInternethasgainedimportance.Itprovidesdynamicdataaccessondemand,alongwithup-to-datedataaccesstoawiderangeofdevices,connectedovertheWeb.AmazonWebServices<AWS>provideacentralizedcloudofpublicdatasets<e.g.archivesofGenBank,Ensembldatabases,1000Genomes,ModelOrganismEncyclopedia,Unigene,etc.>ofbiology,economics,etc.asservices[18}.生物信息学云取决于下游分析的数据。"据报道,全球每年的测序能力超过13Pbp,每年增加5倍"[17]。由于这种数据泄露的爆炸式增长,通过因特网的数据即服务〔DaaS交付已变得越来越重要。它可根据需要提供动态数据访问,以及通过Web连接的各种设备的最新数据访问。亚马逊网络服务〔AWS提供生物学,经济学等作为服务的公共数据集〔例如GenBank,Ensembl数据库,1000基因组,模型生物百科全书,Unigene等的归档的集中云。Softwareasaservice<SaaS>SaaSdeliversalargevarietyofsoftwareservicesonlinefordifferenttypesofdataanalysisfacilitatingremoteaccessofvariousheavybioinformaticssoftwares.Thus,iteliminatestheneedforlocalinstallation,therebyeasingsoftwaremaintenance.Up-to-datecloud-basedservicesforbioinformaticdataanalysishasmadelifeeasyfortheusers.Effortshavebeenmadetodevelopcloud-scaleandcloud-basedsequencemapping[19],multiplesequencealignment[20],expressionanalysis[21],identificationofepistaticinteractionsofSNPs<singlenucleotidepolymorphisms>[22],andNGS<Next-GenerationSequencing>.SaaS在线提供各种各样的软件服务,用于不同类型的数据分析,便于远程访问各种重型生物信息学软件。因此,它消除了对本地安装的需要,从而简化软件维护。最新的基于云的生物信息数据分析服务为用户带来了轻松的生活。已经开发了云尺度和基于云的序列作图[19],多重序列比对[20],表达分析[21],SNPs〔单核苷酸多态性上位相互作用的鉴定[22]和NGS下一代测序。Platformasaservice<PaaS>PaaSallowuserstodevelop,testandusecloudapplicationsinanenvironmentwherecomputerresourcesscaletomatchapplicationdemandautomaticallyanddynamically.Thisscalabilityfactorhelpsindevelopingapplicationsforbiologicaldata.TwoPaaSplatforms:1.Eoulsan,cloud-based-forhigh-throughputsequencinganalyses[23];2.GalaxyCloud,cloud-scale-forlarge-scaledataanalyses[24].PaaS允许用户在计算机资源自动和动态地扩展以匹配应用程序需求的环境中开发,测试和使用云应用程序。这种可扩展性因素有助于开发生物数据的应用程序。两个PaaS平台:1.Eoulsan,基于云的高通量测序分析[23];2.GalaxyCloud,云规模-用于大规模数据分析[24]。Infrastructureasaservice<IaaS>IaaSdeliversallkindsofresources<virtualized>includingCPU<hardwares>,OS<softwares>etc.summingupafullcomputerinfrastructure,reachingtothefullpotentialofcomputerresourcesviaInternet.Virtualizedresourcescanbeaccessedasapublicutilitybyusersandtherebypayingforthecloudresourcesthattheyutilize.Flexibilityandcustomizationgivefreedomtodifferentuserstoaccessdifferentcloudresources,aspertheirrequirement,thusmeetingthecustomizedneedsofdifferentusers.Examples:1.CloudBioLinuxisavirtualmachinethatispubliclyaccessibleforhigh-performancebioinformaticscomputing[25].2.CloVRisaportablevirtualmachinethatincorporatesseveralpipelinesforautomatedsequenceanalysis[26].IaaS提供各种资源〔虚拟化,包括CPU〔硬件,操作系统〔软件等等,总计完整的计算机基础设施,通过互联网充分发挥计算机资源的潜力。虚拟化资源可以作为用户的公用设施访问,从而为他们使用的云资源付费。灵活性和定制使得不同用户可以根据自己的需求访问不同的云资源,从而满足不同用户的定制需求。例子:1.CloudBioLinux是一个可以高性能生物信息学计算公开访问的虚拟机[25]。2.CloVR是一种便携式虚拟机,它包含了几个用于自动序列分析的管道[26]。BioinformaticscloudDatainthecloudInitialmethodofanalysisinvolvedownloadingofdatafromNCBI,Ensembl,etc.andinstallationofsoftwareslocallyonin-housecomputers.Placingdataandloadingsoftwaresincloud,makeawaytodeliverthemasDaaSorSaaS.Bothcanbeseamlesslyintegratedintocloud.thus,storingofbiologicaldataachievestheaimofbigdataanalysiswithinthecloud.Weareusingconventionalbiologicaldatabasesinsteadofcloudbased.But,forlargersequencingprojects,generatingultra-largevolumesofdata,wouldrequirecloudforbigdataanalysisandsharing[27,28].ProjectlikeGenome10K,1001GenomesProject,1KITE,TCGAetc.,aresimilarkindofprojectsrequiringbigdataanalysis,wheresolutionsofcomplexbiologicalqueriesinvolvesutilizationofbigdatatools[29].初始分析方法涉及从NCBI,Ensembl等下载数据,并在本地计算机上安装软件。在云中放置数据和加载软件,使其成为DaaS或SaaS。两者都可以无缝集成到云。因此,生物数据的存储实现了云内大数据分析的目的。我们使用传统的生物数据库而不是云。但是,对于更大的测序项目,生成超大量的数据,将需要云进行大数据分析和共享[27,28]。像Genome10K,1001GenomesProject,1KITE,TCGA等项目是类似的需要大数据分析的项目,其中复杂生物查询的解决方案涉及大数据工具的利用[29]。Transferringbigdatathebottleneckofcloudcomputingisthetransferofdataintocloud.Insteadofphysicallyshipingharddrivestothecloudcenter,apromisingsolutioncouldbetheintegrationofinnovativetransferringtechnologieswithcloudcomputing.Oneiscloud-basedEasyGenomicsforhighspeedgenomicdatatransfer.therewasasuccessfuleventoftransferringgenomicdataacrossPacificOceanatarateofabout10GigabitspersecondwhichprovedtechnologiestobecapableofdealingwithbigdataovertheWeb.Apartfromthis,therearetechnologieslikedatacompressionandPeer-to-Peer<P2P>datadistributiontoaidbigdatatransfer[30].云计算的瓶颈是将数据传输到云中。而不是将硬盘驱动器物理运送到云中心,一个有前途的解决方案可能是将创新的传输技术与云计算集成。一种是基于云的EasyGenomics,用于高速基因组数据传输。有一个成功的事件,以大约10吉比特每秒的速度跨太平洋传输基因组数据,这证明了技术能够通过网络处理大数据。除此之外,还有诸如数据压缩和对等〔P2P数据分发等技术来帮助大数据传输[30]。Cloud-basedprogrammingtheanalysistaskisimplementedaspipelinethroughlinkagesbetweentheoutputsoftoolswiththeinputsofothertools,toautomatethesystem.Developmentofcustomizedpipelinesisneededforthelarge-scaleautomatedandconfigurabledataanalysisonacloud-basedenvironment.SimilarprogrammingparadigmisadoptedthroughHadoop,whereasingletaskisdistributedovermultiplenodes.Computationalskillsarerequiredforthedevelopmentofcloud-basedpipelinesinHadoopwithouttherequirementofextensivecoding,ratherthesettingupasystemfordataexchangetopavethewayforprogrammingenvironment[31].分析任务通过工具输出与其他工具的输入之间的联系来实现为管道,以使系统自动化。需要开发定制管道以在基于云的环境上进行大规模自动化和可配置的数据分析。通过Hadoop采用类似的编程范例,其中单个任务分布在多个节点上。在Hadoop中开发基于云的管线需要计算技能,而不需要大量编码,而是建立一个用于数据交换的系统为编程环境铺平道路[31]。BioinformaticscloudPresently,thebiggestcloudproviderisAmazon,providingcommercialcloudsforbigdataprocessing.Googleisanotherproviderallowinguserstodevelopwebapplicationsandanalysedata.thereismoretobedonewithcommercialcloudstoprovideampledataandsoftware,alongwithkeepingpaceoftheemergingneedsofresearches,whichrequirecustomizedcloudsforbioinformaticsanalysis.Openaccessandpublicavailabilityofdataandsoftwareareofequalsignificance[32].theavailabilityofthecloudpubliclytothescientificcommunityisessentialwhendataandsoftwaresareincloud[33].Itensuresdataintegration,reproducibleanalyses,maximumscopeforsharing.目前,最大的云提供商是亚马逊,为大数据处理提供商业云。Google是另一个供应商,允许用户开发网络应用程序和分析数据。还需要做更多的工作来提供充足的数据和软件,以及保持研究的新兴需求的步伐,这需要定制云的生物信息学分析。开放获取和数据和软件的公共可用性同等重要[32]。当数据和软件在云中时,云对科学界公开的可用性是至关重要的[33]。它确保数据集成,可重复分析,最大范围的共享。PotentialChallengesGenomicsresearcheswithenormousamountsofdatahasrecognizedthepotentialbenefitsofmovingtothecloud,butatthesametimecloudcomputingraisessomeconcernsaswell.Theoptimizationofthegenomicsanalysisforthecloudhasprovidedefficientandtimelyservices.Forinstance,datacanbeeasilyrunfromsequencingfacilitytoanalysispipelineonthecloud,asitisgenerated.However,thereisneedtobeawareofvariouspotentialchallengesinadoptingcloudcomputingtechnologies.HadoopprogrammingrequiresahighlevelofJavaexpertise;itneedstobesimplifiedtoaSQLlikeinterfacetogenerateparallelizedprograms.Standardisationofreportingandsummarisationofresultsisaproblemwhichisnotmuchaddressed;needistodevelopbetteranalyticsandvisualisationtechnologies.Hadoopwithnofrontendvisualisationisdifficulttoset,useandmaintain;effortsarebeingmadetowardsintroducingdeveloperfriendlymanagementinterfacesinsteadofshell/commandlineinterfaces.Consideringthescaleofthegenomicdatathatneedstobetransmittedoverinternet,ittakesconsiderablylargeamountoftime<mightextendtoweeksattimes>.thus,therateoftransferofdataremainsabottleneckofthetechnology[36].Datatenancyisanotherchallenge.Mostlycloudsprovidelessercapabilityondataandserviceinteroperability,makingitdifficultforacustomertomovedataandservicesbacktoanin-houseITenvironmentortomigratefromoneprovidertoanother.Moreover,dataprivacylegislation,legalownershipandresponsibilitypertainingtodatastoredbetweeninternationalzonespointsatanotherchallenge[37].Nevertheless,genomicsandproteomicsresearchprojectsforsureexhibittheapplicationsfornextgenerationcloudbasedcomputationalbiologyanditessentiallyhasthepotentialtorevolutionisethepaceofresearchinlifesciences.具有大量数据的基因组学研究已经认识到移动到云的潜在好处,但同时云计算也引起了一些关注。云的基因组分析的优化提供了高效和及时的服务。例如,数据可以容易地从测序设备运行到云上的分析流水线,因为它是生成的。然而,需要了解采用云计算技术的各种潜在挑战。Hadoop编程需要高水平的Java专业知识;它需要简化为类似SQL的接口来生成并行程序。标准化报告和总结结果是一个没有得到很多解决的问题;需要开发更好的分析和可视化技术。Hadoop没有前端可视化是很难设置,使用和维护;正在努力引入开发者友好的管理接口而不是shell/命令行接口。考虑到需要通过因特网传输的基因组数据的规模,需要相当大量的时间〔可能延长到几个星期。因此,数据传输的速率仍然是该技术的瓶颈[36]。数据租赁是另一个挑战。大多数云对数据和服务互操作性提供较少的能力,使得客户难以将数据和服务移回到内部IT环境或从一个提供商迁移到另一个。此外,数据隐私立法,法律所有权和与存储在国际区域之间的数据有关的责任指出了另一个挑战[37]。然而,基因组学和蛋白质组学研究项目肯定会展示下一代基于云的计算生物学的应用,它本质上有可能改变生命科学研究的步伐。SecurityPrivacyandconfidentialityissomethingthatismusttomaintainespeciallywhendealingwithhealthinformation.Cloudcomputingofferstheuseofdataencryption,passwordprotection,securedatatransfer,processes’audits,andtheimplementationofrespectivepoliciesagainstdatabreechesandmalicioususe[34].theinvolvementofanexternalentityfordatastorageandprocessingservicesoffersaddedsecurityconcerns.Loggingaccesstothedata,role-basedaccess,thirdpartycertifications,computernetworksecurity,notificationalarms,changetrackers,cloudusagetermandassociatedservicesaremadetoaddresstheseconcerns[35].隐私和保密是在处理健康信息时必须保持的。云计算提供了数据加密,密码保护,安全数据传输,流程审计以及针对数据流量和恶意使用实施相应策略的使用[34]。外部实体参与数据存储和处理服务提供了额外的安全问题。记录对数据的访问,基于角色的访问,第三方认证,计算机网络安全,通知报警,变化跟踪,云使用期限和相关服务,以解决这些问题[35]。FutureinmicrobiologyresearchPetabytesofrawinformationcanrevolutionizemicrobiologyresearchifwearesuccessfultofigureouthowtousethisgoldmine.WinstonHidesays"Inthelastfiveyears,morescientificcdatahasbeengeneratedthanintheentirehistoryofmankind".Todaythedatagenerationislight-yearsfasterthatitwasjustafewyearsagoandthuswecan’timaginetheamountofdigitalinformationavailabletousnow.Liketostudyrespiratorydiseasewerequirecapturinghugequantitiesofdataforairqualityandthenmatchitwithequivalentlylargedatasets,arestudieswhichinvolvebigdata.Weneedtoengagelotsofeyesinthisprocess.如果我们成功地想出如何使用这个金矿,那么几百亿的原始信息可以革命微生物研究。温斯顿·史密斯说:"在过去五年里,生成的科学数据比人类整个历史更多。今天,数据生成比仅仅几年前的光年快,因此我们无法想象我们现在可用的数字信息量。像研究呼吸系统疾病一样,我们需要捕获大量的空气质量数据,然后将其与等量的大数据集相匹配,是涉及大数据的研究

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论