基于GPU的高性能嵌入式计算CUDA技术沙龙课件_第1页
基于GPU的高性能嵌入式计算CUDA技术沙龙课件_第2页
基于GPU的高性能嵌入式计算CUDA技术沙龙课件_第3页
基于GPU的高性能嵌入式计算CUDA技术沙龙课件_第4页
基于GPU的高性能嵌入式计算CUDA技术沙龙课件_第5页
已阅读5页,还剩107页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

邓仰东:基于GPU的高性能嵌入式计算CUDA技术沙龙邓仰东:基于GPU的高性能嵌入式计算CUDA技术沙龙邓仰东:基于GPU的高性能嵌入式计算CUDA技术沙龙HighPerformanceEmbeddedComputingwithMassivelyParallelProcessorsYangdongSteveDeng邓仰东TsinghuaUniversityOutlineMotivationandbackgroundMorphingGPUintoanetworkprocessorHighperformanceradarDSPprocessorConclusion一、在化学实验教学中培养学生的创新精神在用亚铁盐和碱反应制取Fe(OH)2时,若用常规的滴加方法制取,则立刻由白色沉淀→灰绿色→红褐色的Fe(OH)3沉淀,这是因为Fe(OH)2在空气中迅速被氧化成Fe(OH)3。:如何才能制得Fe(OH)2呢?:Fe(OH)2主要是被空气中O2氧化,只要想办法避免有较多O2环境即可。课本实验中采取:①用煮过的NaOH溶液②新制的FeSO4溶液③滴管操作违反常规,滴管尖端插入试管溶液底部。:还有什么方法可以制得Fe(OH)2呢?方案Ⅰ:在试管中的FeSO4溶液中加入少量苯,苯层起到液封隔绝空气的作用。方案Ⅱ:在如图装置中,用NaOH溶液、铁屑、稀H2SO4等试剂制备。(1)在试管Ⅰ里加入的试剂是稀H2SO4、铁屑。(2)在试管Ⅱ里加入的试剂是NaOH溶液(3)为了制得白色Fe(OH)2沉淀,在试管Ⅰ和Ⅱ中加入试剂,打开止水夹,塞紧塞子后的实验步骤是检验试管Ⅱ出口处排出的氢气的纯度。当排出的H2纯净时,再夹紧止水夹。(4)这样生成的Fe(OH)2沉淀能较长时间保持白色,其理由是试管Ⅰ中反应生成的H2充满了试管Ⅰ和试管Ⅱ,且外界空气不容易进入。二、在化学实验教学中培养学生的创新意识(一)鼓励学生从身边做起,做生活中的有心人化学科学源于自然,它与能源、材料、环境保护,人类生活的方方面面密切相关,引导学生关注这些方面的发展,认识它们的真实现象与书本知识的联系,不仅是化学课科学素质教育急待开发和利用的一种重要资源,而且是点燃学生学习热情,激发探索、学习和创新的动机,增强社会责任感的有效途径。因此鼓励学生做一些与生活相关的小实验,如:“用身边的材料制一个化学电池”。根据原电池原理:1.需要有电解质溶液。可以选用西红柿或橘子,也可以用橙汁饮料等;2.选用两个活动性不同的金属或金属和非金属导体。可以用身边的钥匙、小刀、铁钉,甚至可以是一支铅笔,作为电极;三、在化学实验教学中培养学生的创新思维1.以“多变”来训练和培养学生的发散性思维发散性思维是创造性思维的主要形式,它是一种让思路多方向,多数量、全面展开的立体型、辅射型思维方法,就是围绕一个中心问题,调动思维,从不同角度、不同层次、不同方向、拓宽解决问题的思维方法。案例1:球型干燥管是实验中常用的仪器,大部分同学只知道用作盛放固体干燥剂的干燥管。为此可设立以下问题展开讨论:2.在头脑中“做”实验,培养创新想象能力丰富的联想和想象,也是重要的创新思维方法。学会在头脑里做实验,凭借神奇的想象,使实验条件理想化,方法简化,也可使实验过程抽象化,再通过大脑对“实验”后信息的处理加工,导致创新思维的科学延伸。事实上,大部分的实验习题都是在学生的头脑中,通过想象完成的。四、在化学实验教学中培养学生的创新能力(一)探究性实验教学可以为学生提供发现问题和解决问题、研究实践的机会,为增强学生实践能力和创新能力创建了一个平台。精心组织和选择一些课题让学生展开探究性实验,例如:⑴铁的锈蚀和防锈试验。⑵烷烃卤代反应条件的探索。⑶探讨用哪些实验和事实比较铁和铜的金属活动性。⑷含氯废气的干法吸收等。下面以“铁的锈蚀和防锈试验”为例,介绍其实验探究过程:(二):铁在大气中的锈蚀主要是电化学腐蚀。铁的电化学腐蚀分吸氧腐蚀和析氢腐蚀两种。钢铁在酸性介质中发生析氢腐蚀,在中性和弱酸性介质中发生吸氧腐蚀。钢铁的防锈主要有表面涂油,涂涂料,镀锌镀锡及对钢铁进行表面发蓝或发黑处理。:(1)取铁钉或铁丝,除去表面镀锌层,进行铁在以下各种环境中腐蚀情况的比较实验。在空气中在干燥的空气中、在水中、在酸液中、在碱液中、在盐水中。(2)镀锌铁片和镀锡铁片在水中的腐蚀试验(3)列表记录上述实验中铁被腐蚀的情况和时间(4)分别进行对照比较,找出影响铁的腐蚀的因素,例如空气的相对湿度、水、酸、碱、盐等电解质对铁腐蚀的影响,提出增强耐腐蚀的方法,如:涂油、镀金属等。化学实验在提高学生素质上具有整体的、综合的、独创的功能,在化学教学过程中,要去发现和探究解决问题的方法,努力发挥化学实验在探究性学习中创设问题情境、验证假设或猜想等环节的作用,为学生提供更多探究、实践、创新的机会,激励学生改进实验养方案,引导他们不折不挠的敢于冒险的创新精神,从而在素质教育的实施过程中,通过化学实验培学生的创新意识和创新能力。初中语文教学要求在教师的指导下,学生能主动地、有个性地进行学习,教师要充分调动学生学习的主动性,创造性地进行教学。而阅读教学能充分体现这一教学特点,在课堂上能有效地训练学生的听、说、读、写的能力,学生的语文素养能得到一定的提高。在文本阅读教学中,除了更好地利用文本教材,在教学方法上教师也应当不断探索、革新,抛弃陈旧的本位意识,因材施教,让每一个学生都得到培养、提升。同时应运用新兴教学手段,增强学生的学习兴趣,营造良好的课堂教学氛围,让学生开心地学习,又能真正学到东西。一、创设师生互动、民主平等的学习氛围在教学过程中,好的课堂氛围是必不可少的,轻松愉悦的教学环境、民主平等的师生关系往往能让学生更享受学习的过程,更愿意思考、愿意参与,学习兴趣也更浓。在传统的教学模式中,往往是教师占主导地位,多数情况下是教师一个人演独角戏,学生都习惯了“老师讲、学生听”,这不仅限制了学生的思维,难以提升他们的学习兴趣,而且会让学生对教师形成很强烈的依赖性。遇到问题,没有独立思考的意识及习惯,反正老师会讲,于是就等着老师讲。久而久之,很容易造成思维僵化、学习被动、学习效率低下等问题。例如,在教学《端午日》(沈从文)时,在课堂上我给学生们带去了粽子,课前特意让学生回忆了自己过端午节的情景,课上我安排了学生陈述的环节,让学生回想过去自己是如何和家人过端午节的,在端午节都看到过哪些有意思的情景。有了这些铺垫,再带着学生来学课文,学生对于学习内容就会觉得更容易理解,对于作者的描述也能有更深的体会。传统的教学模式是应当被摒弃的,在如今的课堂上,要倡导创设师生互动、民主平等的学习氛围。教师不再是课堂的主导,教学重心应当放到学生身上来,老师的角色是引导者、启发者、参与者,学生则是课堂的主角。师生间应当经常互动,教师提出问题,让学生自己独立思考、共同探讨,一起来解决问题。这样的课堂氛围才能提升学生各方面的能力,增强他们的学习兴趣。二、合理运用现代媒体技术,优化课堂教学,提高学生的阅读兴趣科技飞速发展,多媒体技术不断被运用到课堂教学中。在语文阅读教学中,多媒体也可以发挥它的积极作用。对于很多拍成了优秀影视作品的名著,教师可以抽出时间为学生播放,学生往往会产生浓厚的兴趣。影视作品让原著变得更生动、更直观,帮助学生更好地理解原著的意蕴,能为学生的阅读提供实帮助。除此之外,多媒体技术在语文课堂教学中的运用方式还有很多,教师可以在多媒体教室举办例如演讲比赛、诗歌朗诵竞赛等活动,这都能极大地提升学生的学习兴趣,让学生学得愉快、学得轻松,同时也学得有效率。例如,在教学《充满活力的春天》(高晓声)时,我把学生带到了多媒体教室,课上我利用事先准备好的课件向学生们展示了一幅幅春天美好的图画,伴随着图画,学生们耳边回响的是潺潺的流水声、小鸟的鸣叫声,在这种轻松惬意的环境下展开教学,学生们觉得自己仿佛置身于作者所描绘的画面中,情不自禁地进入对文本的阅读和赏析之中。这样的教学设计一方面极大地调动了学生的学习兴趣,另一方面也很好地帮助学生进入文本情境,学生对于作者的描述也有了更深的体验。三、为课堂添加灵性语文课堂是充满着人文气息的,是培养学生发现世界、认识世界、感知世界的过程,尤其是进行初中语文阅读教学时。文章有的呈现名人的生平事迹,让学生领会人性的光辉;有的描绘山水美景,让学生感受自然的美;有的则抒发感悟,借景抒怀,让学生体味人生的真谛,语文教学中应当添加更多灵动的色彩。1.培养学生的人文情怀在阅读教学中,教师应当让学生走进文章,然后再走出来。走进去是要引导学生真正读懂文章,知道作者想传达的意思,领会文章的思想内涵;走出来则是要求学生跳出教材,将从书本中读到的、看到的、学到的知识运用到生活中,将文章中的人文关怀表现出来,从而更好地理解世界、体味生活。例如,在教学《老人与海》(节选)时,面对跌宕起伏的故事情节,学生们的情绪随着老人的境遇变化会产生很大的起伏,学生们都很担忧在和大鲨鱼的搏斗中老人是否能获胜,都融入了故事的情节中。然而在学完文章后,我会让学生走出来,领会下这篇文章的含义,让学生感受人在和自然搏斗中的种种情境,让学生领会到大自然的博大。2.培养学生的创造性语文教学看似和创造性没有太大关联,实则不然。语文阅读教学能够很好地激发学生的创造思维。开放性地去读文章,带着问题去读文章,在阅读过程中养成独立思考的习惯,自己去寻求答案,学生的创造性才能得到提升。语文是一门培养学生理解世界、认识世界、感知世界的人文学科,初中语文课堂阅读则为这些目的的达成发挥着重要作用。语文阅读不应该是枯燥无味的过程,这样被动的接受很难让学生体会到文章的价值及教育意义。因此,在平时的教学过程中,教师要最大程度地激发学生的求知欲及阅读兴趣,创设平等互动的师生关系、轻松愉快的课堂氛围,让学生都积极参与到课堂教学中来。同时,教师应当针对不同的学生采用不同的教学方式,这样才能让每一个学生都得到发展和提升。邓仰东:基于GPU的高性能嵌入式计算CUDA技术沙龙邓仰东:1HighPerformanceEmbeddedComputingwithMassivelyParallelProcessorsYangdongSteveDeng邓仰东TsinghuaUniversityHighPerformanceEmbeddedCompOutlineMotivationandbackgroundMorphingGPUintoanetworkprocessorHighperformanceradarDSPprocessorConclusionOutlineMotivationandbackgrouHighPerformanceEmbeddedComputingFutureITinfrastructuredemandsevenhighercomputingpowerCoreInternetrouterthroughput:upto90Tbps4Gwirelessbasestation:1Gbit/sdataratepercustomerandupto200subscribersinserviceareaCMUdriverlesscar:270GFLOPs(GigaFLoatingpointOperationsPersecond)…HighPerformanceEmbeddedComp~$1MFastIncreasingICCostsFabricationCostMoore’sSecondLaw:ThecostofdoublingcircuitdensityincreasesinlinewithMoore'sFirstLaw.DesignCostNow$20-50MperproductWillreach$75-120Mat32nmnodeThe4-yeardevelopmentofCellprocessorbySony,IBM,andToshibacostsover$400M.~$1MFastIncreasingICCostsFaImplicationsoftheProhibitiveCostASICswouldbeunaffordableformanyapplications!ScottMacGregor,CEOofBroadcom:“Broadcomisnotintendingamoveto45nminthenextyearorsoasitwillbetooexpensive.”DavidTurek,VPofIBM:“IBMwillbepullingoutofCelldevelopment,withPowerXCell8itobethecompany’slastentranceinthetechnology.”ImplicationsoftheProhibitivMulticoreMachinesAreReallyPowerful!ManufacturerProcessorTypeModelModelNumber#CoresGFLOPsFP64GFLOPsFP32AMDGPGPUFireStream9270160/8002401200AMDGPURadeonHD5870320/16005442720AMDGPURadeonHD5970640/32009284640AMDCPUMagny-Cours12362.11362.11FujitsuCPUSPARC64VII4128128IntelCPUCore2ExtremeQX9775451.251.2nVidiaGPUFermi4805127801560nVidiaGPGPUTeslaC106024077.76933.12nVidiaGPGPUTeslaC2050448515.21288TileraCPUTilePro64166166AMD12-CoreCPUTileraTileGx100CPUNVidiaFermiGPUGPU:GraphicsProcessingUnit GPGPU:GeneralPurposeGPUMulticoreMachinesAreReallyImplicationsAnincreasingnumberofapplicationswouldbeimplementedwithmulti-coredevicesHuawei:multi-corebasestationsIntel:clusterbasedInternetroutersIBM:signalprocessingandradarapplicationsonCellprocessor…AlsomeetsthestrongdemandsforcustomizabilityandextendibilityImplicationsAnincreasingnumbOutlineMotivationandbackgroundMorphingGPUintoanetworkprocessorHighperformanceradarDSPprocessorConclusionOutlineMotivationandbackgrouBackgroundandmotivationGPUbasedroutingprocessingRoutingtablelookupPacketclassificationDeeppacketinspectionGPUmicroarchitectureenhancementCPUandGPUintegrationQoS-awareschedulingSoftwareRoutingwithGPUBackgroundandmotivationSoftwEver-IncreasingInternetTrafficEver-IncreasingInternetTraffFastChangingNetworkProtocols/ServicesNewservicesarerapidlyappearingData-center,Ethernetforwarding,virtualLAN,…PersonalcustomizationisoftenessentialforQoSHowever,today’sInternetheavilydependon2protocolsEthernetandIPv4,with

bothdevelopedin1970s!FastChangingNetworkProtocolInternetRouter…InternetRouter…InternetRouterBackbonenetworkdevicePacketforwardingandpathfindingConnectmultiplesubnetsKeyrequirementsHighthroughput:40G-90TbpsHighflexibilityPacketsRouterPacketsInternetRouterBackbonenetworCurrentRouterSolutionsHardwareroutersFastLongdesigntimeExpensiveAndhardtomaintainNetworkprocessorbasedrouterNetworkprocessor:dataparallelpacketprocessorNogoodprogrammingmodelsSoftwareroutersExtremelyflexibleLowcostButslowCurrentRouterSolutionsHardwaOutlineBackgroundandmotivationGPUbasedroutingprocessingRoutingtablelookupPacketclassificationDeeppacketinspectionGPUmicroarchitectureenhancementCPUandGPUintegrationQoS-awareschedulingOutlineBackgroundandmotivatiCriticalPathofRoutingProcessingIPAddressLookupUpdateHeaderHeaderProcessingRoutingTableIPAddrNextHopBufferMemoryPacketClassificationDataHdrDataHdrQueuePacketRuleSetHdrFieldsFlowSwitchFabricDeepPacketInspectionCriticalPathofRoutingProceGPUBasedSoftwareRouterCPU0CPU1CPU2CPU3FrontSideBus(FSB)NorthBridge(Memorycontroller)NICNICPCIe16-lanePCIe4-lanePCIe4-laneMainMemoryMemoryBusGPUGPUMemoryGraphicsCardInternetDatalevelparallelism=packetlevelparallelismGPUBasedSoftwareRouterCPU0CRoutingTableLookupRoutingtablecontainsnetworktopologyinformationFindtheoutputportaccordingtodestinationIPaddressPotentiallylargeroutingtable(~1Mentries)CanbeupdateddynamicallyDestinationAddressPrefixNext-HopOutputPort24.30.32/204860/286208.12.32/2096111/32955AnexemplarroutingtableRoutingTableLookupRoutingtaRoutingTableLookupLongestprefixmatchMemoryboundUsuallybasedonatriedatastructureTrie:aprefixtreewithstringsaskeysAnode’spositiondirectlyreflectsitskeyPointeroperationsWidelydivergentbranches!DestinationAddressPrefixNext-HopOutputPort24.30.32/204860/286208.12.32/2096111/3295524.30.32/2060/28208.12.32/20SearchTrie11/3210234RoutingTableLookupLongestprGPUBasedRoutingTableLookupOrganizethesearchtrieintoanarrayPointerconvertedtooffsetwithregardtoarrayhead6XspeedupevenwithfrequentroutingtableupdatesGPUBasedRoutingTableLookupPacketClassificationMatchheaderfieldswithpredefinedrulesSizeofrule-setscanbehuge(i.e.,over5000rules)RuleExamplePriorityTreatpacketsdestinedto0-7ashighestpriorityPacketfilteringDenyalltrafficfromISP3destinedto7TrafficratelimitEnsureISP2doesnotinjectmorethan10Mbpsemailtrafficoninterface2Accounting&billingTreatvideotrafficto166.111.X.XashighestpriorityandperformaccountingPacketClassificationMatchheaPacketClassificationHardwaresolutionUsuallywithTernaryCAM(TCAM)ExpensiveandpowerhungrySoftwaresolutionsLinearsearchHashbasedTuplespacesearchConverttherulesintoasetofexactmatchPacketClassificationHardwareGPUBasedPacketClassificationAlinearsearchapproachScaletorulesetswith20,000rulesMeta-programmingCompilerulesintoCUDAcodewithPyCUDATreatpacketsdestinedto0-7ashighestpriorityif(DA>=0)&&(DA<=7) priority=0;GPUBasedPacketClassificatioGPUBasedPacketClassification~60XspeedupGPUBasedPacketClassificatioDeepPacketInspection(DPI)CorecomponentfornetworkintrusiondetectionAgainstviruses,spam,softwarevulnerabilities,…PacketDecoderPreprocessor(Plug-ins)DetectionEngine(Plug-ins)OutputStage(Plug-ins)SniffingSnortDataFlowAlerts/LogsPacketstreamFixedStringMatchingRegularExpressionMatchingExamplerule:alerttcp$EXTERNAL_NET27374->$HOME_NETany(msg:"BACKDOORsubseven22";flags:A+;content:"|0d0a5b52504c5d3030320d0a|";

DeepPacketInspection(DPI)CoGPUBasedDeepPacketInspection(DPI)FixedstringmatchEachruleisjustastringthatisdisallowedBloom-filterbasedsearchOnewarpforapacketandonethreadforastringThroughput:19.2Gbps(30Xspeed-upoverSNORT)Hash1Hash2Hash3InitialBloomFilterAfterpre-processingrulesCheckingpacketcontentBloomVectorGPUBasedDeepPacketInspectiGPUBasedDeepPacketInspection(DPI)RegularexpressionmatchingEachruleisaregularexpressione.g.,a|b*={ε,a,b,bb,bbb,...}Aho-CorasickAlgorithmConvertspatternsintoafinitestatemachineMatchingisdonebystatetraversalMemoryboundVirtuallynocomputationCompressthestatetableMergingdon’t-caredentriesThroughput:9.3Gbps15Xspeed-upoverSNORTExample:P={he,she,his,hers}GPUBasedDeepPacketInspectiOutlineBackgroundandmotivationGPUbasedroutingprocessingRoutingtablelookupPacketclassificationDeeppacketinspectionGPUmicroarchitectureenhancementCPUandGPUintegrationQoS-awareschedulingOutlineBackgroundandmotivatiLimitationofGPU-BasedPacketProcessingPacketqueueCPU-GPUcommunicationoverheadNoQoSguaranteeLimitationofGPU-BasedPacketMicroarchitecturalEnhancementsCPU-GPUintegrationwithasharedmemoryMaintaincurrentCUDAinterfaceImplementedonGPGPU-Sim**A.Bakhoda,etal.,AnalyzingCUDAWorkloadsUsingaDetailedGPUSimulator,ISPASS,2009.

NICCPUInternetNPGPUCPU/GPUSharedMemoryTaskFIFODelayedCommitQueueGPUMicroarchitecturalEnhancementMicroarchitecturalEnhancementsUniformlyonethreadforonepacketNothreadblocknecessaryDirectlyscheduleandissuewarpsGPUfetchespacketIDsfromtaskqueuewhenEitherasufficientnumberofpacketsarealreadycollectedOragivenintervalpassesafterlastfetchCPU-maintainedtaskqueueDelayedCommitQueueGPUCoreGPUCoreGPUCoreGPUCoreGPUCoreGPUCoreMicroarchitecturalEnhancementResults:ThroughputResults:ThroughputResults:PacketLatencyResults:PacketLatencyOutlineMotivationandbackgroundMorphingGPUintoanetworkprocessorHighperformanceradarDSPprocessorConclusionOutlineMotivationandbackgrouHighPerformanceRadarDSPProcessorMotivationFeasibilityofGPUforDSPprocessingDesigningamassivelyparallelDSPprocessorHighPerformanceRadarDSPProResearchObjectivesHighperformanceDSPprocessorForhigh-performanceapplicationsRadar,sonar,cellularbaseband,…PerformancerequirementsThroughput≥800GFLOPsPowerEfficiency≥100GFLOPS/WMemorybandwidth≥400Gbit/sScaletomulti-chipsolutionsResearchObjectivesHighperforCurrentDSPPlatforms*GDDR5:PeakBandwidth28.2GB/sProcessorFrequency#coresThroughputMemoryBandwidthPowerPowerEfficiency(GFLOPS/W)TITMS320C6472-700500MHz633.6GMac/sNA3.8W17.7FreeScaleMSC81561GHz648GMac/s1GB/s10W9.6ADITigerSHARCADSP-TS201S600MHz14.8GMac/s38.4GB/s(on-chip)2.18W4.4PicoChipPC205260MHz1GPP+248DSPs31GMac/sNA<5W12.4IntelCorei7980XE3.3GHz6107.5GFLOPS31.8GB/s130W0.8TileraTile64866MHz64CPUs221GFLOPS6.25GB/s22W10.0NVidiaFermiGPU1GHz512scalarcores1536GFLOPS230GB/s*200W7.7CurrentDSPPlatforms*GDDR5:PHighPerformanceRadarDSPProcessorMotivationFeasibilityofGPUforDSPprocessingDesigningamassivelyparallelDSPprocessorHighPerformanceRadarDSPProHPECChallenge-RadarBenchmarksBenchmarkDescriptionTDFIRTime-domainfiniteimpulseresponsefilteringFDFIRFrequency-domainfiniteimpulseresponsefilteringCTCornerturnormatrixtransposetoplaceradardataintoacontiguousrowforefficientFFTQRQRfactorization:prevalentintargetrecognitionalgorithmsSVDSingularvaluedecomposition:producesabasisforthematrixaswellastherankforreducinginterferenceCFARConstantfalse-alarmratedetection:findtargetinanenvironmentwithvaryingbackgroundnoiseGAGraphoptimizationviageneticalgorithm:removinguncorrelateddatarelationsPMPatternMatching:identifystoredtracksthatmatchatargetDBDatabaseoperationstostoreandquerytargettracksHPECChallenge-RadarBenchmaGPUImplementationBenchmarkDescriptionTDFIRLoopsofmultiplicationandaccumulation(MAC)FDFIRFFTfollowedbyMACloopsCTGPUbasedmatrixtranspose,extremelyefficientQRPipelineofCPU+GPU,FastGivensalgorithmSVDBasedonQRfactorizationandfastmatrixmultiplicationCFARAccumulationofneighboringvectorelementsGAParallelrandomnumbergeneratorandinter-threadcommunicationPMVectorlevelparallelismDBBinarytreeoperation,hardforGPUimplementationGPUImplementationBenchmarkDesPerformanceResultsKernelsDataSetCPUThroughput(GFLOPS)*GPUThroughput(GFLOPS)*SpeedupTDFIRSet1Set23.3823.32697.50623.13028.86.9FDFIRSet1Set20.5410.54261.68111.955114.122.1CTSet1Set21.1940.50117.17735.54514.370.9PMSet1Set20.8710.2817.76121.2418.975.6CFARSet1Set2Set3Set41.1541.3141.3131.2612.23417.31913.9628.3011.9GASet1Set2Set3Set40.5620.6830.4410.3731.1778.5710.5892.246.0QRSet1Set2Set31.7040.9010.90454.3095.6796.686SVDSet1Set20.7470.7914.1752.6845.63.4DBSet1Set2112.35.794126.88.4591.131.46*ThethroughputsofCTandDBaremeasuredinMbytes/sandTransactions/s,respectively.PerformanceResultsKernelsDataPerformanceComparisonGPU:NVIDIAFermi,CPU:IntelCore2Duo(3.33GHz),DSPADTigherSharc101PerformanceComparisonGPU:NVIInstructionProfilingInstructionProfilingThreadProfilingWarpoccupancy:numberofactivethreadsinanissuedwarp32threadsperwarpThreadProfilingWarpoccupancyOff-ChipMemoryProfilingDRAMefficiency:thepercentageoftimespentonsendingdataacrossthepinsofDRAMoverthewholetimeofmemoryservice.Off-ChipMemoryProfilingDRAMLimitationGPUsuffersfromalowpower-efficiency(MFLOPS/W)LimitationGPUsuffersfromalHighPerformanceRadarDSPProcessorMotivationFeasibilityofGPUforDSPprocessingDesigningamassivelyparallelDSPprocessorHighPerformanceRadarDSPProKeyIdea-HardwareArchitectureBorrowtheGPUmicroarchitectureUsingaDSPcoreasthebasicexecutionunitMultiprocessorsorganizedinprogrammablepipelinesNeighboringmultiprocessorscanbemergedaswiderdatapathsKeyIdea-HardwareArchitectuKeyIdea–ParallelCodeGenerationMeta-programmingbasedparallelcodegenerationFoundationtechnologiesGPUmeta-programmingframeworksCopperhead(UCBerkeley)andPyCUDA(NYUniversity)DSPcodegenerationframeworkSpiral(CarnegieMellonUniversity)runtimeDSPcodegenerationSourceoptimizationCompileKeyIdea–ParallelCodeGenerKeyIdea–InternalRepresentationasKPNKahnProcessNetwork(KPN)AgenericmodelforconcurrentcomputationSolidtheoreticfoundationProcessalgebraKeyIdea–InternalRepresentaSchedulingandOptimizationonKPNAutomatictaskandthreadschedulingandmappingExtractdataparallelismthroughprocesssplittingLatencyandthroughputawareschedulingPerformanceestimationbasedonanalyticalmodelsTtotalT1T2TiSchedulingandOptimizationonKeyIdea-LowPowerTechniquesGPU-likeprocessorsarepowerhungry!PotentiallowpowertechniquesAggressivememorycoalescingEnabletask-pipelinetoavoidsynchronizationviaglobalmemoryOperationchainingtoavoidextramemoryaccesses???DRAMlineDRAMchipUsedUnused…CurrentcoalescingOurcoalescingsolutionKeyIdea-LowPowerTechniqueOutlineMotivationandbackgroundMorphingGPUintoanetworkprocessorHighperformanceradarDSPprocessorConclusionOutlineMotivationandbackgrouConclusionAnewmarketofhighperformanceembeddedcomputingisemergingMulti-coreengineswouldbethework-horsesNeedbothHWandSWresearchCasestudy1:GPUbasedInternetroutingCasestudy2:MassivelyparallelDSPprocessorSignificantperformanceimprovementsMoreworksaheadLowpower,scheduling,parallelprogrammingmodel,legacycode,…ConclusionAnewmarketofhigh谢谢骑封篙尊慈榷灶琴村店矣垦桂乖新压胚奠倘擅寞侥蚀丽鉴晰溶廷箩侣郎虫林森-消化系统疾病的症状体征与检查林森-消化系统疾病的症状体征与检查11、越是没有本领的就越加自命不凡。——邓拓

12、越是无能的人,越喜欢挑剔别人的错儿。——爱尔兰

13、知人者智,自知者明。胜人者有力,自胜者强。——老子

14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。——歌德

15、最具挑战性的挑战莫过于提升自我。——迈克尔·F·斯特利谢谢骑封篙尊慈榷灶琴村店矣垦桂乖新压胚奠倘擅寞侥蚀丽鉴晰溶廷56邓仰东:基于GPU的高性能嵌入式计算CUDA技术沙龙邓仰东:基于GPU的高性能嵌入式计算CUDA技术沙龙邓仰东:基于GPU的高性能嵌入式计算CUDA技术沙龙HighPerformanceEmbeddedComputingwithMassivelyParallelProcessorsYangdongSteveDeng邓仰东TsinghuaUniversityOutlineMotivationandbackgroundMorphingGPUintoanetworkprocessorHighperformanceradarDSPprocessorConclusion一、在化学实验教学中培养学生的创新精神在用亚铁盐和碱反应制取Fe(OH)2时,若用常规的滴加方法制取,则立刻由白色沉淀→灰绿色→红褐色的Fe(OH)3沉淀,这是因为Fe(OH)2在空气中迅速被氧化成Fe(OH)3。:如何才能制得Fe(OH)2呢?:Fe(OH)2主要是被空气中O2氧化,只要想办法避免有较多O2环境即可。课本实验中采取:①用煮过的NaOH溶液②新制的FeSO4溶液③滴管操作违反常规,滴管尖端插入试管溶液底部。:还有什么方法可以制得Fe(OH)2呢?方案Ⅰ:在试管中的FeSO4溶液中加入少量苯,苯层起到液封隔绝空气的作用。方案Ⅱ:在如图装置中,用NaOH溶液、铁屑、稀H2SO4等试剂制备。(1)在试管Ⅰ里加入的试剂是稀H2SO4、铁屑。(2)在试管Ⅱ里加入的试剂是NaOH溶液(3)为了制得白色Fe(OH)2沉淀,在试管Ⅰ和Ⅱ中加入试剂,打开止水夹,塞紧塞子后的实验步骤是检验试管Ⅱ出口处排出的氢气的纯度。当排出的H2纯净时,再夹紧止水夹。(4)这样生成的Fe(OH)2沉淀能较长时间保持白色,其理由是试管Ⅰ中反应生成的H2充满了试管Ⅰ和试管Ⅱ,且外界空气不容易进入。二、在化学实验教学中培养学生的创新意识(一)鼓励学生从身边做起,做生活中的有心人化学科学源于自然,它与能源、材料、环境保护,人类生活的方方面面密切相关,引导学生关注这些方面的发展,认识它们的真实现象与书本知识的联系,不仅是化学课科学素质教育急待开发和利用的一种重要资源,而且是点燃学生学习热情,激发探索、学习和创新的动机,增强社会责任感的有效途径。因此鼓励学生做一些与生活相关的小实验,如:“用身边的材料制一个化学电池”。根据原电池原理:1.需要有电解质溶液。可以选用西红柿或橘子,也可以用橙汁饮料等;2.选用两个活动性不同的金属或金属和非金属导体。可以用身边的钥匙、小刀、铁钉,甚至可以是一支铅笔,作为电极;三、在化学实验教学中培养学生的创新思维1.以“多变”来训练和培养学生的发散性思维发散性思维是创造性思维的主要形式,它是一种让思路多方向,多数量、全面展开的立体型、辅射型思维方法,就是围绕一个中心问题,调动思维,从不同角度、不同层次、不同方向、拓宽解决问题的思维方法。案例1:球型干燥管是实验中常用的仪器,大部分同学只知道用作盛放固体干燥剂的干燥管。为此可设立以下问题展开讨论:2.在头脑中“做”实验,培养创新想象能力丰富的联想和想象,也是重要的创新思维方法。学会在头脑里做实验,凭借神奇的想象,使实验条件理想化,方法简化,也可使实验过程抽象化,再通过大脑对“实验”后信息的处理加工,导致创新思维的科学延伸。事实上,大部分的实验习题都是在学生的头脑中,通过想象完成的。四、在化学实验教学中培养学生的创新能力(一)探究性实验教学可以为学生提供发现问题和解决问题、研究实践的机会,为增强学生实践能力和创新能力创建了一个平台。精心组织和选择一些课题让学生展开探究性实验,例如:⑴铁的锈蚀和防锈试验。⑵烷烃卤代反应条件的探索。⑶探讨用哪些实验和事实比较铁和铜的金属活动性。⑷含氯废气的干法吸收等。下面以“铁的锈蚀和防锈试验”为例,介绍其实验探究过程:(二):铁在大气中的锈蚀主要是电化学腐蚀。铁的电化学腐蚀分吸氧腐蚀和析氢腐蚀两种。钢铁在酸性介质中发生析氢腐蚀,在中性和弱酸性介质中发生吸氧腐蚀。钢铁的防锈主要有表面涂油,涂涂料,镀锌镀锡及对钢铁进行表面发蓝或发黑处理。:(1)取铁钉或铁丝,除去表面镀锌层,进行铁在以下各种环境中腐蚀情况的比较实验。在空气中在干燥的空气中、在水中、在酸液中、在碱液中、在盐水中。(2)镀锌铁片和镀锡铁片在水中的腐蚀试验(3)列表记录上述实验中铁被腐蚀的情况和时间(4)分别进行对照比较,找出影响铁的腐蚀的因素,例如空气的相对湿度、水、酸、碱、盐等电解质对铁腐蚀的影响,提出增强耐腐蚀的方法,如:涂油、镀金属等。化学实验在提高学生素质上具有整体的、综合的、独创的功能,在化学教学过程中,要去发现和探究解决问题的方法,努力发挥化学实验在探究性学习中创设问题情境、验证假设或猜想等环节的作用,为学生提供更多探究、实践、创新的机会,激励学生改进实验养方案,引导他们不折不挠的敢于冒险的创新精神,从而在素质教育的实施过程中,通过化学实验培学生的创新意识和创新能力。初中语文教学要求在教师的指导下,学生能主动地、有个性地进行学习,教师要充分调动学生学习的主动性,创造性地进行教学。而阅读教学能充分体现这一教学特点,在课堂上能有效地训练学生的听、说、读、写的能力,学生的语文素养能得到一定的提高。在文本阅读教学中,除了更好地利用文本教材,在教学方法上教师也应当不断探索、革新,抛弃陈旧的本位意识,因材施教,让每一个学生都得到培养、提升。同时应运用新兴教学手段,增强学生的学习兴趣,营造良好的课堂教学氛围,让学生开心地学习,又能真正学到东西。一、创设师生互动、民主平等的学习氛围在教学过程中,好的课堂氛围是必不可少的,轻松愉悦的教学环境、民主平等的师生关系往往能让学生更享受学习的过程,更愿意思考、愿意参与,学习兴趣也更浓。在传统的教学模式中,往往是教师占主导地位,多数情况下是教师一个人演独角戏,学生都习惯了“老师讲、学生听”,这不仅限制了学生的思维,难以提升他们的学习兴趣,而且会让学生对教师形成很强烈的依赖性。遇到问题,没有独立思考的意识及习惯,反正老师会讲,于是就等着老师讲。久而久之,很容易造成思维僵化、学习被动、学习效率低下等问题。例如,在教学《端午日》(沈从文)时,在课堂上我给学生们带去了粽子,课前特意让学生回忆了自己过端午节的情景,课上我安排了学生陈述的环节,让学生回想过去自己是如何和家人过端午节的,在端午节都看到过哪些有意思的情景。有了这些铺垫,再带着学生来学课文,学生对于学习内容就会觉得更容易理解,对于作者的描述也能有更深的体会。传统的教学模式是应当被摒弃的,在如今的课堂上,要倡导创设师生互动、民主平等的学习氛围。教师不再是课堂的主导,教学重心应当放到学生身上来,老师的角色是引导者、启发者、参与者,学生则是课堂的主角。师生间应当经常互动,教师提出问题,让学生自己独立思考、共同探讨,一起来解决问题。这样的课堂氛围才能提升学生各方面的能力,增强他们的学习兴趣。二、合理运用现代媒体技术,优化课堂教学,提高学生的阅读兴趣科技飞速发展,多媒体技术不断被运用到课堂教学中。在语文阅读教学中,多媒体也可以发挥它的积极作用。对于很多拍成了优秀影视作品的名著,教师可以抽出时间为学生播放,学生往往会产生浓厚的兴趣。影视作品让原著变得更生动、更直观,帮助学生更好地理解原著的意蕴,能为学生的阅读提供实帮助。除此之外,多媒体技术在语文课堂教学中的运用方式还有很多,教师可以在多媒体教室举办例如演讲比赛、诗歌朗诵竞赛等活动,这都能极大地提升学生的学习兴趣,让学生学得愉快、学得轻松,同时也学得有效率。例如,在教学《充满活力的春天》(高晓声)时,我把学生带到了多媒体教室,课上我利用事先准备好的课件向学生们展示了一幅幅春天美好的图画,伴随着图画,学生们耳边回响的是潺潺的流水声、小鸟的鸣叫声,在这种轻松惬意的环境下展开教学,学生们觉得自己仿佛置身于作者所描绘的画面中,情不自禁地进入对文本的阅读和赏析之中。这样的教学设计一方面极大地调动了学生的学习兴趣,另一方面也很好地帮助学生进入文本情境,学生对于作者的描述也有了更深的体验。三、为课堂添加灵性语文课堂是充满着人文气息的,是培养学生发现世界、认识世界、感知世界的过程,尤其是进行初中语文阅读教学时。文章有的呈现名人的生平事迹,让学生领会人性的光辉;有的描绘山水美景,让学生感受自然的美;有的则抒发感悟,借景抒怀,让学生体味人生的真谛,语文教学中应当添加更多灵动的色彩。1.培养学生的人文情怀在阅读教学中,教师应当让学生走进文章,然后再走出来。走进去是要引导学生真正读懂文章,知道作者想传达的意思,领会文章的思想内涵;走出来则是要求学生跳出教材,将从书本中读到的、看到的、学到的知识运用到生活中,将文章中的人文关怀表现出来,从而更好地理解世界、体味生活。例如,在教学《老人与海》(节选)时,面对跌宕起伏的故事情节,学生们的情绪随着老人的境遇变化会产生很大的起伏,学生们都很担忧在和大鲨鱼的搏斗中老人是否能获胜,都融入了故事的情节中。然而在学完文章后,我会让学生走出来,领会下这篇文章的含义,让学生感受人在和自然搏斗中的种种情境,让学生领会到大自然的博大。2.培养学生的创造性语文教学看似和创造性没有太大关联,实则不然。语文阅读教学能够很好地激发学生的创造思维。开放性地去读文章,带着问题去读文章,在阅读过程中养成独立思考的习惯,自己去寻求答案,学生的创造性才能得到提升。语文是一门培养学生理解世界、认识世界、感知世界的人文学科,初中语文课堂阅读则为这些目的的达成发挥着重要作用。语文阅读不应该是枯燥无味的过程,这样被动的接受很难让学生体会到文章的价值及教育意义。因此,在平时的教学过程中,教师要最大程度地激发学生的求知欲及阅读兴趣,创设平等互动的师生关系、轻松愉快的课堂氛围,让学生都积极参与到课堂教学中来。同时,教师应当针对不同的学生采用不同的教学方式,这样才能让每一个学生都得到发展和提升。邓仰东:基于GPU的高性能嵌入式计算CUDA技术沙龙邓仰东:57HighPerformanceEmbeddedComputingwithMassivelyParallelProcessorsYangdongSteveDeng邓仰东TsinghuaUniversityHighPerformanceEmbeddedCompOutlineMotivationandbackgroundMorphingGPUintoanetworkprocessorHighperformanceradarDSPprocessorConclusionOutlineMotivationandbackgrouHighPerformanceEmbeddedComputingFutureITinfrastructuredemandsevenhighercomputingpowerCoreInternetrouterthroughput:upto90Tbps4Gwirelessbasestation:1Gbit/sdataratepercustomerandupto200subscribersinserviceareaCMUdriverlesscar:270GFLOPs(GigaFLoatingpointOperationsPersecond)…HighPerformanceEmbeddedComp~$1MFastIncreasingICCostsFabricationCostMoore’sSecondLaw:ThecostofdoublingcircuitdensityincreasesinlinewithMoore'sFirstLaw.DesignCostNow$20-50MperproductWillreach$75-120Mat32nmnodeThe4-yeardevelopmentofCellprocessorbySony,IBM,andToshibacostsover$400M.~$1MFastIncreasingICCostsFaImplicationsoftheProhibitiveCostASICswouldbeunaffordableformanyapplications!ScottMacGregor,CEOofBroadcom:“Broadcomisnotintendingamoveto45nminthenextyearorsoasitwillbetooexpensive.”DavidTurek,VPofIBM:“IBMwillbepullingoutofCelldevelopment,withPowerXCell8itobethecompany’slastentranceinthetechnology.”ImplicationsoftheProhibitivMulticoreMachinesAreReallyPowerful!ManufacturerProcessorTypeModelModelNumber#CoresGFLOPsFP64GFLOPsFP32AMDGPGPUFireStream9270160/8002401200AMDGPURadeonHD5870320/16005442720AMDGPURadeonHD5970640/32009284640AMDCPUMagny-Cours12362.11362.11FujitsuCPUSPARC64VII4128128IntelCPUCore2ExtremeQX9775451.251.2nVidiaGPUFermi4805127801560nVidiaGPGPUTeslaC106024077.76933.12nVidiaGPGPUTeslaC2050448515.21288TileraCPUTilePro64166166AMD12-CoreCPUTileraTileGx100CPUNVidiaFermiGPUGPU:GraphicsProcessingUnit GPGPU:GeneralPurposeGPUMulticoreMachinesAreReallyImplicationsAnincreasingnumberofapplicationswouldbeimplementedwithmulti-coredevicesHuawei:multi-corebasestationsIntel:clusterbasedInternetroutersIBM:signalprocessingandradarapplicationsonCellprocessor…AlsomeetsthestrongdemandsforcustomizabilityandextendibilityImplicationsAnincreasingnumbOutlineMotivationandbackgroundMorphingGPUintoanetw

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论