您當前位置:首頁>資訊頻道>行業(yè)新聞>正文
CPU與GPU:戰(zhàn)爭才剛剛開始
來源:IT168 日期:2009-11-6 作者:全球電池網 點擊:
近日,在湖南長沙2009年高性能計算學術年會上,國防科技大學發(fā)布了“天河一號”千萬億次超級計算機。該系統采用了6144顆最新英特爾至強5500系列CPU和5120顆ATIGPU,峰值性能為1206萬億次每秒,Linpack測試性能超過560.3萬億次每秒,在2009年中國TOP100排行榜中排行第一位。

    該系統將于2009年底至2010年全面部署于國家超級計算天津中心,屆時我國將成為繼美國之后可以研制和應用千萬億次超級計算機的國家。

    “天河一號”所采用的“CPU+GPU”混合計算架構引發(fā)了與會專家和各大廠商的強烈關注,尤其是針對這種架構的軟件編程和應用問題。

    誰來當千萬億次機的加速器

    由于“天河一號”使用了“CPU+GPU”的混合架構,其中GPU作為加速計算單元存在,但這種結構這無疑會增加系統的使用難度,畢竟現在能夠利用GPGPU的軟件還比較少,需要用戶自己去針對這一架構改編軟件。對此,TOP100排行榜創(chuàng)始人、中科院軟件所張云泉博士談到,目前來看,GPGPU的應用對于普通用戶而言確實比較難,但是“天河一號”在體系結構設計上也已經考慮到這一點,其CPU與GPU的比例是1:1,這樣,即便只使用CPU,也可以實現200萬億次的計算性能,與上海超算的曙光5000A相當。

    曙光公司副總裁聶華在接受IT168記者采訪時談到,“GPU確實是高性能計算業(yè)內人士非常關注的熱門技術,曙光也在提供采用Nvidia或AMD/ATI的GPU的服務器產品,但根據一線用戶的反饋來看,喜憂參半。”一方面,GPU的并行計算性能很高,對于某些專業(yè)領域來說確實可以實現幾十倍、上百倍的性能提升,比如石油勘探領域已經有證明,但另一方面,也有很多應用無法實現那么高的性能加速比。

    他分析說,跟CPU不同,GPU協同并行計算顛覆了傳統的計算理念。對高性能計算來說,首要的是確保計算結果的正確無誤,而GPU出身于圖形處理卡,從設計結構上就是無法絕對保證計算結果的正確。而今天,我們的編程模型、算法模型都是傳統的,因此只有按GPU的體系架構重新去編程才容易獲得高性能,否則可能得不償失。

    “CPU通用計算仍然是基礎,同時我們更傾向于用龍芯來做協處理器。”聶華表示,根據計劃,曙光公司將于2010年推出采用龍芯處理器的千萬億次超級計算機曙光6000,預計會落戶于深圳的華南超算中心。與天河一號類似,曙光6000也將采用異構計算的結構,不同的是,天河一號用的是“英特爾CPU+ATIGPU”,而曙光6000將使用“普通CPU+國產龍芯處理器”。

    可見,在高性能計算加速單元上,過去的FPGA似乎正在被人遺忘,取而代之的是其他形形色色的協處理器,如IBM在“走鵑”用的CELL處理器,“天河一號”用的ATIGPU,以及未來曙光6000里會用到“龍芯”處理器……未來一段時間,將會是叢林競爭的時代。

    雙精度性能:GPU首先要過的一道坎

    就GPU通用計算的話題,記者現場還采訪了英特爾、Nvidia、AMD、寶德、聯想、浪潮等多家廠商代表的看法。

聯想首席科學家祝明發(fā)教授表示,目前GPU的單精度性能很高,但雙精度性能很小(大約是雙精度性能的1/8-1/10,編者注),而高性能計算軟件很多都要求雙精度性能。

    實際上,國外TOP500和國內TOP100高性能計算機排行榜一般都按照雙精度浮點計算性能來測試排序,按單精度性能算,“天河一號”的峰值性能高達1206萬億次每秒,但Linpack測試性能卻只有560.3萬億次每秒,正是受到GPU的影響,使得整個系統的效率偏低。正可謂,遇到需要單精度性能的應用,GPU能以一擋十,如虎添翼,而一旦碰到要求雙精度的場合,就未免有些英雄氣短了。

    此外,GPU計算單元密度高,但數據吞吐受限,I/O瓶頸突出,缺少校驗機制等也受到人們的詬病。不過,作為GPU通用計算領域的推動者,Nvidia公司沒有知難而退。在此次年會上,Nvidia公司主要推介了其最新一代的“Fermi”GPU架構,具體產品預計要到明年1季度推出。據介紹,Fermi已經針對雙精度性能、ECC校驗等方面進行了“重大”的革新——引入L1、L2緩存機制,雙精度性能是上一代產品的8倍,顯存控制器支持ECC顯存糾錯技術等。Nvidia現場工程師告訴IT168記者:“Fermi的最大改進在于雙精度方面,與上一代架構的CUDA通用計算相比,現在的雙精度計算性能提高了8倍。而雙精度在線性代數,數學模擬以及生物化學領域的高性能計算中發(fā)揮著重要作用。”

    軟件才是關鍵看CUDA和OpenCL之爭

    不過,祝明發(fā)教授認為,CPU+GPU的混合架構,硬件并不是最主要的,關鍵還得看軟件和編程環(huán)境。寶德公司產品經理陳齊旺也表示,CPU+GPU的方案比較大的挑戰(zhàn)就是在程序優(yōu)化和編程方面。

    由于絕大部分針對CPU編寫的程序需要改編才能運行在GPU架構之下,需要軟件人員重新學習,而現在Nvidia和AMD又分別主推CUDA和OpenCL(OpenComputingLanguage)編程環(huán)境,沒有統一的標準,各自的軟件互不兼容,也增加了用戶的投資風險。

    對于CUDA和OpenCL之爭,曙光公司的李寧表示,從高性能計算發(fā)展的歷史來看,專有技術的路會越走越窄,而標準化的技術會更有發(fā)展,如X86服務器取代RISC小型機,千兆以太網和Infiniband等商用網絡取代了專有的網絡,Linux取代了一些專有的UNIX操作系統等。目前曙光的服務器同時支持Nvidia和ATI的產品,但CUDA這個編程環(huán)境只適合Nvidia自己的產品,因此,“OpenCL會在眾多廠商的支持下越走越好。”

    作為另一家重要的GPU通用計算廠商,AMD/ATI公司主推的正是OpenCL。該公司在此次年會上就展示了其最新HD5000系列顯卡及相關GPU通用高性能計算應用案例。據介紹,已經有很多實驗性算法是基于OpenCL標準,面向最新的HD5000系列GPU架構制作。

    期待英特爾Larrabee+Ct加入戰(zhàn)團

    浪潮目前是國內推廣NvidiaGPU桌面超算產品力度最大的廠商,其倚天系列受到了眾多高性能計算用戶的關注。

該公司高性能服務器產品部總經理劉軍則表示,無論是誰的解決方案,ATI也好,Nvidia也罷,主要看使用環(huán)境,看編譯環(huán)境好不好用,而他本人“更希望看到英特爾推出Larrabee,在桌面超算產品里希望是Larrabee+Ct的技術。”

    據了解,英特爾基于Larrabee的首款GPU產品預計將于2010年推出,主要面向個人電腦圖形市場,可支持DirectX和OpenGL,能夠運行目前的所有游戲和相關程序。同時,英特爾的研究人員還正在研究各種方法,以幫助編程人員應對在萬億級、并行計算處理器上運行類似的實時應用時所面臨的挑戰(zhàn)。其中的一個關鍵研究項目就是Ct編程語言,這種靈活的語言致力于幫助主流編程人員高效地開發(fā)高度并行化、高性能的軟件,從而充分發(fā)揮出英特爾當前和未來許多內核處理器的優(yōu)勢。與其他并行編程語言相比,使用Ct作為編程語言可以讓編程人員的工作效率得到明顯提高,因為幾乎不需要對源代碼進行修改。Ct編程語言不但適用于目前的硬件環(huán)境,還能升級到基于Larrabee和AVX(高級向量擴展)指令集的系統開發(fā),而無需編程人員的介入。

    英特爾中國服務器產品經理顧凡認為,“CPU與GPU之間最終是軟件戰(zhàn)爭,誰能保護用戶代碼投資誰就能贏。”不過,目前英特爾還沒有明確時間表將Larrabee用于高性能計算,“英特爾希望給用戶的是一款成熟的產品。”而且,跟Nvidia和AMD不同,英特爾更多會通過“若干大內核+數百小內核”的異構多核CPU設計來集成類似GPU功能模塊,以滿足更大規(guī)模并行計算的需要。

    綜上所述,GPU和CPU之間的競爭不僅僅是兩種技術架構之間的競爭,也不只是Nvidia和英特爾或AMD兩三家公司之間的競爭,而是標準之爭,是包括硬件、軟件、應用在內的兩種產業(yè)生態(tài)鏈之間的競爭,涉及到很多軟硬件廠商和用戶。

    其實,這場戰(zhàn)爭才剛剛開始!

上一篇: 固態(tài)照明挑戰(zhàn)傳統照明 仍需遷就 下一篇:  太陽能電池業(yè)前景堪憂 擴產企業(yè)規(guī)模多縮水
版權聲明:全球電池網轉載作品均注明出處,本網未注明出處和轉載的,是出于傳遞更多信息之目的,并不意味 著贊同其觀點或證實其內容的真實性。如轉載作品侵犯作者署名權,或有其他諸如版權、肖像權、知識產權等方面的傷害,并非本網故意為之,在接到相關權利人通知后將立即加以更正。
評論表單加載中...
正在加載評論列表...
本文共有 條評論
>>