在线观看不卡亚洲电影,日本乱子人伦在线视频

CPU與GPU：戰(zhàn)爭(zhēng)才剛剛開始

來源：IT168 日期：2009-11-6 作者：全球電池網(wǎng) 點(diǎn)擊：

近日，在湖南長(zhǎng)沙2009年高性能計(jì)算學(xué)術(shù)年會(huì)上，國(guó)防科技大學(xué)發(fā)布了“天河一號(hào)”千萬億次超級(jí)計(jì)算機(jī)。該系統(tǒng)采用了6144顆最新英特爾至強(qiáng)5500系列CPU和5120顆ATIGPU，峰值性能為1206萬億次每秒，Linpack測(cè)試性能超過560.3萬億次每秒，在2009年中國(guó)TOP100排行榜中排行第一位。

該系統(tǒng)將于2009年底至2010年全面部署于國(guó)家超級(jí)計(jì)算天津中心，屆時(shí)我國(guó)將成為繼美國(guó)之后可以研制和應(yīng)用千萬億次超級(jí)計(jì)算機(jī)的國(guó)家。

“天河一號(hào)”所采用的“CPU+GPU”混合計(jì)算架構(gòu)引發(fā)了與會(huì)專家和各大廠商的強(qiáng)烈關(guān)注，尤其是針對(duì)這種架構(gòu)的軟件編程和應(yīng)用問題。

誰來當(dāng)千萬億次機(jī)的加速器

由于“天河一號(hào)”使用了“CPU+GPU”的混合架構(gòu)，其中GPU作為加速計(jì)算單元存在，但這種結(jié)構(gòu)這無疑會(huì)增加系統(tǒng)的使用難度，畢竟現(xiàn)在能夠利用GPGPU的軟件還比較少，需要用戶自己去針對(duì)這一架構(gòu)改編軟件。對(duì)此，TOP100排行榜創(chuàng)始人、中科院軟件所張?jiān)迫┦空劦�，目前來看，GPGPU的應(yīng)用對(duì)于普通用戶而言確實(shí)比較難，但是“天河一號(hào)”在體系結(jié)構(gòu)設(shè)計(jì)上也已經(jīng)考慮到這一點(diǎn)，其CPU與GPU的比例是1：1，這樣，即便只使用CPU，也可以實(shí)現(xiàn)200萬億次的計(jì)算性能，與上海超算的曙光5000A相當(dāng)。

曙光公司副總裁聶華在接受IT168記者采訪時(shí)談到，“GPU確實(shí)是高性能計(jì)算業(yè)內(nèi)人士非常關(guān)注的熱門技術(shù)，曙光也在提供采用Nvidia或AMD/ATI的GPU的服務(wù)器產(chǎn)品，但根據(jù)一線用戶的反饋來看，喜憂參半。”一方面，GPU的并行計(jì)算性能很高，對(duì)于某些專業(yè)領(lǐng)域來說確實(shí)可以實(shí)現(xiàn)幾十倍、上百倍的性能提升，比如石油勘探領(lǐng)域已經(jīng)有證明，但另一方面，也有很多應(yīng)用無法實(shí)現(xiàn)那么高的性能加速比。

他分析說，跟CPU不同，GPU協(xié)同并行計(jì)算顛覆了傳統(tǒng)的計(jì)算理念。對(duì)高性能計(jì)算來說，首要的是確保計(jì)算結(jié)果的正確無誤，而GPU出身于圖形處理卡，從設(shè)計(jì)結(jié)構(gòu)上就是無法絕對(duì)保證計(jì)算結(jié)果的正確。而今天，我們的編程模型、算法模型都是傳統(tǒng)的，因此只有按GPU的體系架構(gòu)重新去編程才容易獲得高性能，否則可能得不償失。

“CPU通用計(jì)算仍然是基礎(chǔ)，同時(shí)我們更傾向于用龍芯來做協(xié)處理器。”聶華表示，根據(jù)計(jì)劃，曙光公司將于2010年推出采用龍芯處理器的千萬億次超級(jí)計(jì)算機(jī)曙光6000，預(yù)計(jì)會(huì)落戶于深圳的華南超算中心。與天河一號(hào)類似，曙光6000也將采用異構(gòu)計(jì)算的結(jié)構(gòu)，不同的是，天河一號(hào)用的是“英特爾CPU+ATIGPU”，而曙光6000將使用“普通CPU+國(guó)產(chǎn)龍芯處理器”。

可見，在高性能計(jì)算加速單元上，過去的FPGA似乎正在被人遺忘，取而代之的是其他形形色色的協(xié)處理器，如IBM在“走鵑”用的CELL處理器，“天河一號(hào)”用的ATIGPU，以及未來曙光6000里會(huì)用到“龍芯”處理器……未來一段時(shí)間，將會(huì)是叢林競(jìng)爭(zhēng)的時(shí)代。

雙精度性能：GPU首先要過的一道坎

就GPU通用計(jì)算的話題，記者現(xiàn)場(chǎng)還采訪了英特爾、Nvidia、AMD、寶德、聯(lián)想、浪潮等多家廠商代表的看法。

聯(lián)想首席科學(xué)家祝明發(fā)教授表示，目前GPU的單精度性能很高，但雙精度性能很小(大約是雙精度性能的1/8-1/10，編者注)，而高性能計(jì)算軟件很多都要求雙精度性能。

實(shí)際上，國(guó)外TOP500和國(guó)內(nèi)TOP100高性能計(jì)算機(jī)排行榜一般都按照雙精度浮點(diǎn)計(jì)算性能來測(cè)試排序，按單精度性能算，“天河一號(hào)”的峰值性能高達(dá)1206萬億次每秒，但Linpack測(cè)試性能卻只有560.3萬億次每秒，正是受到GPU的影響，使得整個(gè)系統(tǒng)的效率偏低。正可謂，遇到需要單精度性能的應(yīng)用，GPU能以一擋十，如虎添翼，而一旦碰到要求雙精度的場(chǎng)合，就未免有些英雄氣短了。

此外，GPU計(jì)算單元密度高，但數(shù)據(jù)吞吐受限，I/O瓶頸突出，缺少校驗(yàn)機(jī)制等也受到人們的詬病。不過，作為GPU通用計(jì)算領(lǐng)域的推動(dòng)者，Nvidia公司沒有知難而退。在此次年會(huì)上，Nvidia公司主要推介了其最新一代的“Fermi”GPU架構(gòu)，具體產(chǎn)品預(yù)計(jì)要到明年1季度推出。據(jù)介紹，F(xiàn)ermi已經(jīng)針對(duì)雙精度性能、ECC校驗(yàn)等方面進(jìn)行了“重大”的革新——引入L1、L2緩存機(jī)制，雙精度性能是上一代產(chǎn)品的8倍，顯存控制器支持ECC顯存糾錯(cuò)技術(shù)等。Nvidia現(xiàn)場(chǎng)工程師告訴IT168記者：“Fermi的最大改進(jìn)在于雙精度方面，與上一代架構(gòu)的CUDA通用計(jì)算相比，現(xiàn)在的雙精度計(jì)算性能提高了8倍。而雙精度在線性代數(shù)，數(shù)學(xué)模擬以及生物化學(xué)領(lǐng)域的高性能計(jì)算中發(fā)揮著重要作用。”

軟件才是關(guān)鍵看CUDA和OpenCL之爭(zhēng)

不過，祝明發(fā)教授認(rèn)為，CPU+GPU的混合架構(gòu)，硬件并不是最主要的，關(guān)鍵還得看軟件和編程環(huán)境。寶德公司產(chǎn)品經(jīng)理陳齊旺也表示，CPU+GPU的方案比較大的挑戰(zhàn)就是在程序優(yōu)化和編程方面。

由于絕大部分針對(duì)CPU編寫的程序需要改編才能運(yùn)行在GPU架構(gòu)之下，需要軟件人員重新學(xué)習(xí)，而現(xiàn)在Nvidia和AMD又分別主推CUDA和OpenCL(OpenComputingLanguage)編程環(huán)境，沒有統(tǒng)一的標(biāo)準(zhǔn)，各自的軟件互不兼容，也增加了用戶的投資風(fēng)險(xiǎn)。

對(duì)于CUDA和OpenCL之爭(zhēng)，曙光公司的李寧表示，從高性能計(jì)算發(fā)展的歷史來看，專有技術(shù)的路會(huì)越走越窄，而標(biāo)準(zhǔn)化的技術(shù)會(huì)更有發(fā)展，如X86服務(wù)器取代RISC小型機(jī)，千兆以太網(wǎng)和Infiniband等商用網(wǎng)絡(luò)取代了專有的網(wǎng)絡(luò)，Linux取代了一些專有的UNIX操作系統(tǒng)等。目前曙光的服務(wù)器同時(shí)支持Nvidia和ATI的產(chǎn)品，但CUDA這個(gè)編程環(huán)境只適合Nvidia自己的產(chǎn)品，因此，“OpenCL會(huì)在眾多廠商的支持下越走越好。”

作為另一家重要的GPU通用計(jì)算廠商，AMD/ATI公司主推的正是OpenCL。該公司在此次年會(huì)上就展示了其最新HD5000系列顯卡及相關(guān)GPU通用高性能計(jì)算應(yīng)用案例。據(jù)介紹，已經(jīng)有很多實(shí)驗(yàn)性算法是基于OpenCL標(biāo)準(zhǔn)，面向最新的HD5000系列GPU架構(gòu)制作。

期待英特爾Larrabee+Ct加入戰(zhàn)團(tuán)

浪潮目前是國(guó)內(nèi)推廣NvidiaGPU桌面超算產(chǎn)品力度最大的廠商，其倚天系列受到了眾多高性能計(jì)算用戶的關(guān)注。

該公司高性能服務(wù)器產(chǎn)品部總經(jīng)理劉軍則表示，無論是誰的解決方案，ATI也好，Nvidia也罷，主要看使用環(huán)境，看編譯環(huán)境好不好用，而他本人“更希望看到英特爾推出Larrabee，在桌面超算產(chǎn)品里希望是Larrabee+Ct的技術(shù)。”

據(jù)了解，英特爾基于Larrabee的首款GPU產(chǎn)品預(yù)計(jì)將于2010年推出，主要面向個(gè)人電腦圖形市場(chǎng)，可支持DirectX和OpenGL，能夠運(yùn)行目前的所有游戲和相關(guān)程序。同時(shí)，英特爾的研究人員還正在研究各種方法，以幫助編程人員應(yīng)對(duì)在萬億級(jí)、并行計(jì)算處理器上運(yùn)行類似的實(shí)時(shí)應(yīng)用時(shí)所面臨的挑戰(zhàn)。其中的一個(gè)關(guān)鍵研究項(xiàng)目就是Ct編程語言，這種靈活的語言致力于幫助主流編程人員高效地開發(fā)高度并行化、高性能的軟件，從而充分發(fā)揮出英特爾當(dāng)前和未來許多內(nèi)核處理器的優(yōu)勢(shì)。與其他并行編程語言相比，使用Ct作為編程語言可以讓編程人員的工作效率得到明顯提高，因?yàn)閹缀醪恍枰獙?duì)源代碼進(jìn)行修改。Ct編程語言不但適用于目前的硬件環(huán)境，還能升級(jí)到基于Larrabee和AVX(高級(jí)向量擴(kuò)展)指令集的系統(tǒng)開發(fā)，而無需編程人員的介入。

英特爾中國(guó)服務(wù)器產(chǎn)品經(jīng)理顧凡認(rèn)為，“CPU與GPU之間最終是軟件戰(zhàn)爭(zhēng)，誰能保護(hù)用戶代碼投資誰就能贏。”不過，目前英特爾還沒有明確時(shí)間表將Larrabee用于高性能計(jì)算，“英特爾希望給用戶的是一款成熟的產(chǎn)品。”而且，跟Nvidia和AMD不同，英特爾更多會(huì)通過“若干大內(nèi)核+數(shù)百小內(nèi)核”的異構(gòu)多核CPU設(shè)計(jì)來集成類似GPU功能模塊，以滿足更大規(guī)模并行計(jì)算的需要。

綜上所述，GPU和CPU之間的競(jìng)爭(zhēng)不僅僅是兩種技術(shù)架構(gòu)之間的競(jìng)爭(zhēng)，也不只是Nvidia和英特爾或AMD兩三家公司之間的競(jìng)爭(zhēng)，而是標(biāo)準(zhǔn)之爭(zhēng)，是包括硬件、軟件、應(yīng)用在內(nèi)的兩種產(chǎn)業(yè)生態(tài)鏈之間的競(jìng)爭(zhēng)，涉及到很多軟硬件廠商和用戶。

其實(shí)，這場(chǎng)戰(zhàn)爭(zhēng)才剛剛開始!

上一篇: 固態(tài)照明挑戰(zhàn)傳統(tǒng)照明仍需遷就下一篇: 太陽能電池業(yè)前景堪憂擴(kuò)產(chǎn)企業(yè)規(guī)模多縮水

版權(quán)聲明：全球電池網(wǎng)轉(zhuǎn)載作品均注明出處，本網(wǎng)未注明出處和轉(zhuǎn)載的，是出于傳遞更多信息之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。如轉(zhuǎn)載作品侵犯作者署名權(quán)，或有其他諸如版權(quán)、肖像權(quán)、知識(shí)產(chǎn)權(quán)等方面的傷害，并非本網(wǎng)故意為之，在接到相關(guān)權(quán)利人通知后將立即加以更正。

>>相關(guān)文章

評(píng)論表單加載中...

正在加載評(píng)論列表...

本文共有條評(píng)論