該系統(tǒng)將于2009年底至2010年全面部署于國(guó)家超級(jí)計(jì)算天津中心,屆時(shí)我國(guó)將成為繼美國(guó)之后可以研制和應(yīng)用千萬億次超級(jí)計(jì)算機(jī)的國(guó)家。
“天河一號(hào)”所采用的“CPU+GPU”混合計(jì)算架構(gòu)引發(fā)了與會(huì)專家和各大廠商的強(qiáng)烈關(guān)注,尤其是針對(duì)這種架構(gòu)的軟件編程和應(yīng)用問題。
誰來當(dāng)千萬億次機(jī)的加速器
由于“天河一號(hào)”使用了“CPU+GPU”的混合架構(gòu),其中GPU作為加速計(jì)算單元存在,但這種結(jié)構(gòu)這無疑會(huì)增加系統(tǒng)的使用難度,畢竟現(xiàn)在能夠利用GPGPU的軟件還比較少,需要用戶自己去針對(duì)這一架構(gòu)改編軟件。對(duì)此,TOP100排行榜創(chuàng)始人、中科院軟件所張?jiān)迫┦空劦,目前來看,GPGPU的應(yīng)用對(duì)于普通用戶而言確實(shí)比較難,但是“天河一號(hào)”在體系結(jié)構(gòu)設(shè)計(jì)上也已經(jīng)考慮到這一點(diǎn),其CPU與GPU的比例是1:1,這樣,即便只使用CPU,也可以實(shí)現(xiàn)200萬億次的計(jì)算性能,與上海超算的曙光5000A相當(dāng)。
曙光公司副總裁聶華在接受IT168記者采訪時(shí)談到,“GPU確實(shí)是高性能計(jì)算業(yè)內(nèi)人士非常關(guān)注的熱門技術(shù),曙光也在提供采用Nvidia或AMD/ATI的GPU的服務(wù)器產(chǎn)品,但根據(jù)一線用戶的反饋來看,喜憂參半。”一方面,GPU的并行計(jì)算性能很高,對(duì)于某些專業(yè)領(lǐng)域來說確實(shí)可以實(shí)現(xiàn)幾十倍、上百倍的性能提升,比如石油勘探領(lǐng)域已經(jīng)有證明,但另一方面,也有很多應(yīng)用無法實(shí)現(xiàn)那么高的性能加速比。
他分析說,跟CPU不同,GPU協(xié)同并行計(jì)算顛覆了傳統(tǒng)的計(jì)算理念。對(duì)高性能計(jì)算來說,首要的是確保計(jì)算結(jié)果的正確無誤,而GPU出身于圖形處理卡,從設(shè)計(jì)結(jié)構(gòu)上就是無法絕對(duì)保證計(jì)算結(jié)果的正確。而今天,我們的編程模型、算法模型都是傳統(tǒng)的,因此只有按GPU的體系架構(gòu)重新去編程才容易獲得高性能,否則可能得不償失。
“CPU通用計(jì)算仍然是基礎(chǔ),同時(shí)我們更傾向于用龍芯來做協(xié)處理器。”聶華表示,根據(jù)計(jì)劃,曙光公司將于2010年推出采用龍芯處理器的千萬億次超級(jí)計(jì)算機(jī)曙光6000,預(yù)計(jì)會(huì)落戶于深圳的華南超算中心。與天河一號(hào)類似,曙光6000也將采用異構(gòu)計(jì)算的結(jié)構(gòu),不同的是,天河一號(hào)用的是“英特爾CPU+ATIGPU”,而曙光6000將使用“普通CPU+國(guó)產(chǎn)龍芯處理器”。
可見,在高性能計(jì)算加速單元上,過去的FPGA似乎正在被人遺忘,取而代之的是其他形形色色的協(xié)處理器,如IBM在“走鵑”用的CELL處理器,“天河一號(hào)”用的ATIGPU,以及未來曙光6000里會(huì)用到“龍芯”處理器……未來一段時(shí)間,將會(huì)是叢林競(jìng)爭(zhēng)的時(shí)代。
雙精度性能:GPU首先要過的一道坎
就GPU通用計(jì)算的話題,記者現(xiàn)場(chǎng)還采訪了英特爾、Nvidia、AMD、寶德、聯(lián)想、浪潮等多家廠商代表的看法。
聯(lián)想首席科學(xué)家祝明發(fā)教授表示,目前GPU的單精度性能很高,但雙精度性能很小(大約是雙精度性能的1/8-1/10,編者注),而高性能計(jì)算軟件很多都要求雙精度性能。
實(shí)際上,國(guó)外TOP500和國(guó)內(nèi)TOP100高性能計(jì)算機(jī)排行榜一般都按照雙精度浮點(diǎn)計(jì)算性能來測(cè)試排序,按單精度性能算,“天河一號(hào)”的峰值性能高達(dá)1206萬億次每秒,但Linpack測(cè)試性能卻只有560.3萬億次每秒,正是受到GPU的影響,使得整個(gè)系統(tǒng)的效率偏低。正可謂,遇到需要單精度性能的應(yīng)用,GPU能以一擋十,如虎添翼,而一旦碰到要求雙精度的場(chǎng)合,就未免有些英雄氣短了。
此外,GPU計(jì)算單元密度高,但數(shù)據(jù)吞吐受限,I/O瓶頸突出,缺少校驗(yàn)機(jī)制等也受到人們的詬病。不過,作為GPU通用計(jì)算領(lǐng)域的推動(dòng)者,Nvidia公司沒有知難而退。在此次年會(huì)上,Nvidia公司主要推介了其最新一代的“Fermi”GPU架構(gòu),具體產(chǎn)品預(yù)計(jì)要到明年1季度推出。據(jù)介紹,F(xiàn)ermi已經(jīng)針對(duì)雙精度性能、ECC校驗(yàn)等方面進(jìn)行了“重大”的革新——引入L1、L2緩存機(jī)制,雙精度性能是上一代產(chǎn)品的8倍,顯存控制器支持ECC顯存糾錯(cuò)技術(shù)等。Nvidia現(xiàn)場(chǎng)工程師告訴IT168記者:“Fermi的最大改進(jìn)在于雙精度方面,與上一代架構(gòu)的CUDA通用計(jì)算相比,現(xiàn)在的雙精度計(jì)算性能提高了8倍。而雙精度在線性代數(shù),數(shù)學(xué)模擬以及生物化學(xué)領(lǐng)域的高性能計(jì)算中發(fā)揮著重要作用。”
軟件才是關(guān)鍵看CUDA和OpenCL之爭(zhēng)
不過,祝明發(fā)教授認(rèn)為,CPU+GPU的混合架構(gòu),硬件并不是最主要的,關(guān)鍵還得看軟件和編程環(huán)境。寶德公司產(chǎn)品經(jīng)理陳齊旺也表示,CPU+GPU的方案比較大的挑戰(zhàn)就是在程序優(yōu)化和編程方面。
由于絕大部分針對(duì)CPU編寫的程序需要改編才能運(yùn)行在GPU架構(gòu)之下,需要軟件人員重新學(xué)習(xí),而現(xiàn)在Nvidia和AMD又分別主推CUDA和OpenCL(OpenComputingLanguage)編程環(huán)境,沒有統(tǒng)一的標(biāo)準(zhǔn),各自的軟件互不兼容,也增加了用戶的投資風(fēng)險(xiǎn)。
對(duì)于CUDA和OpenCL之爭(zhēng),曙光公司的李寧表示,從高性能計(jì)算發(fā)展的歷史來看,專有技術(shù)的路會(huì)越走越窄,而標(biāo)準(zhǔn)化的技術(shù)會(huì)更有發(fā)展,如X86服務(wù)器取代RISC小型機(jī),千兆以太網(wǎng)和Infiniband等商用網(wǎng)絡(luò)取代了專有的網(wǎng)絡(luò),Linux取代了一些專有的UNIX操作系統(tǒng)等。目前曙光的服務(wù)器同時(shí)支持Nvidia和ATI的產(chǎn)品,但CUDA這個(gè)編程環(huán)境只適合Nvidia自己的產(chǎn)品,因此,“OpenCL會(huì)在眾多廠商的支持下越走越好。”
作為另一家重要的GPU通用計(jì)算廠商,AMD/ATI公司主推的正是OpenCL。該公司在此次年會(huì)上就展示了其最新HD5000系列顯卡及相關(guān)GPU通用高性能計(jì)算應(yīng)用案例。據(jù)介紹,已經(jīng)有很多實(shí)驗(yàn)性算法是基于OpenCL標(biāo)準(zhǔn),面向最新的HD5000系列GPU架構(gòu)制作。
期待英特爾Larrabee+Ct加入戰(zhàn)團(tuán)
浪潮目前是國(guó)內(nèi)推廣NvidiaGPU桌面超算產(chǎn)品力度最大的廠商,其倚天系列受到了眾多高性能計(jì)算用戶的關(guān)注。
該公司高性能服務(wù)器產(chǎn)品部總經(jīng)理劉軍則表示,無論是誰的解決方案,ATI也好,Nvidia也罷,主要看使用環(huán)境,看編譯環(huán)境好不好用,而他本人“更希望看到英特爾推出Larrabee,在桌面超算產(chǎn)品里希望是Larrabee+Ct的技術(shù)。”
據(jù)了解,英特爾基于Larrabee的首款GPU產(chǎn)品預(yù)計(jì)將于2010年推出,主要面向個(gè)人電腦圖形市場(chǎng),可支持DirectX和OpenGL,能夠運(yùn)行目前的所有游戲和相關(guān)程序。同時(shí),英特爾的研究人員還正在研究各種方法,以幫助編程人員應(yīng)對(duì)在萬億級(jí)、并行計(jì)算處理器上運(yùn)行類似的實(shí)時(shí)應(yīng)用時(shí)所面臨的挑戰(zhàn)。其中的一個(gè)關(guān)鍵研究項(xiàng)目就是Ct編程語言,這種靈活的語言致力于幫助主流編程人員高效地開發(fā)高度并行化、高性能的軟件,從而充分發(fā)揮出英特爾當(dāng)前和未來許多內(nèi)核處理器的優(yōu)勢(shì)。與其他并行編程語言相比,使用Ct作為編程語言可以讓編程人員的工作效率得到明顯提高,因?yàn)閹缀醪恍枰獙?duì)源代碼進(jìn)行修改。Ct編程語言不但適用于目前的硬件環(huán)境,還能升級(jí)到基于Larrabee和AVX(高級(jí)向量擴(kuò)展)指令集的系統(tǒng)開發(fā),而無需編程人員的介入。
英特爾中國(guó)服務(wù)器產(chǎn)品經(jīng)理顧凡認(rèn)為,“CPU與GPU之間最終是軟件戰(zhàn)爭(zhēng),誰能保護(hù)用戶代碼投資誰就能贏。”不過,目前英特爾還沒有明確時(shí)間表將Larrabee用于高性能計(jì)算,“英特爾希望給用戶的是一款成熟的產(chǎn)品。”而且,跟Nvidia和AMD不同,英特爾更多會(huì)通過“若干大內(nèi)核+數(shù)百小內(nèi)核”的異構(gòu)多核CPU設(shè)計(jì)來集成類似GPU功能模塊,以滿足更大規(guī)模并行計(jì)算的需要。
綜上所述,GPU和CPU之間的競(jìng)爭(zhēng)不僅僅是兩種技術(shù)架構(gòu)之間的競(jìng)爭(zhēng),也不只是Nvidia和英特爾或AMD兩三家公司之間的競(jìng)爭(zhēng),而是標(biāo)準(zhǔn)之爭(zhēng),是包括硬件、軟件、應(yīng)用在內(nèi)的兩種產(chǎn)業(yè)生態(tài)鏈之間的競(jìng)爭(zhēng),涉及到很多軟硬件廠商和用戶。
其實(shí),這場(chǎng)戰(zhàn)爭(zhēng)才剛剛開始!
- 亞洲廠商將主導(dǎo)未來5年電動(dòng)車鋰電池市場(chǎng)
- 美國(guó)國(guó)家半導(dǎo)體“聰明”掌握太陽能電池技術(shù)
- 低碳產(chǎn)品開發(fā)區(qū)生產(chǎn),商業(yè)區(qū)應(yīng)用
- 鋰電池成為真命天子要過5道坎
- 首屆美中先進(jìn)汽車峰會(huì)在美國(guó)印第安納州舉行
- 長(zhǎng)沙首座太陽能別墅日產(chǎn)15度電
- 德研發(fā)光子高密度集中法以提高太陽能電池效率
- 德研發(fā)光子高密度集中法以提高太陽能電池效率
- 維多利亞州政府投資300萬澳元進(jìn)行太陽能電池技術(shù)的研發(fā)
- 荷蘭專家加盟中國(guó)規(guī)模最大薄膜光伏研發(fā)檢測(cè)中心