通信世界網(wǎng)消息(CWW)眾所周知,隨著非市場因素的不斷變化,中國相關(guān)產(chǎn)業(yè)和企業(yè)在發(fā)展AI的過程中,獲得和使用英偉達AI芯片的限制越來越多。那么問題來了,除了英偉達之外,中國是否具備自主替代的能力?近日,媒體頻頻報道稱,海光信息的DCU有望成為英偉達芯片最佳替代者。
事實真的如此嗎?如果是,在替代的過程中,海光信息又面臨怎樣的機遇和挑戰(zhàn)?
海光DCU系列產(chǎn)品以GPGPU架構(gòu)為基礎(chǔ),兼容通用的“類CUDA”環(huán)境以及國際主流商業(yè)計算軟件、人工智能軟件,可廣泛應用于大數(shù)據(jù)處理、人工智能、商業(yè)計算等領(lǐng)域。
值得一提的是,與目前全球主流人工智能企業(yè)都在使用的英偉達A100產(chǎn)品相比,海光信息DCU的第一代產(chǎn)品海光“深算一號”生產(chǎn)工藝同為7nm制程,內(nèi)存頻率和顯存位寬與A100基本相當,顯存容量、顯存帶寬和顯存頻率相當于A100的50%左右,差距比較大的是多卡協(xié)同的交互速率,只有A100的30%。總體來講,海光“深算一號”的性能應該能達到英偉達A100的40%以上水平。
海光信息于2023年第三季度發(fā)布的“深算二號”性能相對于“深算一號”提升100%以上,據(jù)此估計,此款產(chǎn)品性能至少已達到A100的80%,等到正在研發(fā)中的“深算三號”上市,其趕上甚至超越A100應該沒有太大問題。
雖然單純從性能來看,最新的“深算三號”可以達到甚至超越A100的水平;但事實上,發(fā)展AI芯片不僅關(guān)乎硬件,還關(guān)乎軟件生態(tài)。一類芯片可能無法支持所有現(xiàn)有的深度學習框架和算法,這將限制芯片的應用范圍。
具體到GPU,由于當前全球主流深度學習框架均使用CUDA平臺進行開發(fā),國產(chǎn)GPU可以通過兼容CUDA的部分功能,快速打開市場,降低開發(fā)難度和用戶移植成本。然而,CUDA本身涵蓋功能非常廣泛,且許多功能與英偉達GPU硬件深度耦合,包含了許多英偉達GPU的專有特性,這些特性并不能在國產(chǎn)AI芯片上全部體現(xiàn)。
有觀點認為,海光DCU并不適合做訓練,尤其不適合做大模型的訓練(因為浮點性能低和無法集群組網(wǎng))。一方面是推理場景性價比低,大約為2022年主流專用推理芯片10%~15%的性能;另一方面由于海光DCU在最初得到Mi100授權(quán)時,把與訓練有關(guān)的性能和關(guān)鍵特性做了裁剪,導致“高不成(訓練)、低不就(推理)”。
而更大的挑戰(zhàn)還在于,由于海光DCU始于兼容通用的“類CUDA”,英偉達可能禁止使用第三方硬件,也就是非英偉達的GPU通過使用模擬層運行CUDA軟件,而之前英偉達只是在在線EULA用戶協(xié)議中提出警告而已。雖然業(yè)內(nèi)對此持有不同的看法,因為英偉達此前僅是警告,始終沒有付諸行動;但在筆者看來,鑒于目前日益嚴峻的非市場環(huán)境因素,我們不應再抱有僥幸心理,而應未雨綢繆,即通過提升自身的軟硬件實力,構(gòu)筑屬于自己的軟硬件生態(tài)。
可喜的是,有報道稱,百度、阿里等互聯(lián)網(wǎng)企業(yè)已認證通過海光的DCU產(chǎn)品并推出聯(lián)合方案,打造全國產(chǎn)軟硬件一體全棧AI基礎(chǔ)設施;此外,科大訊飛、商湯和云從等國內(nèi)頭部AI企業(yè),已有大量模型移植并運行在海光DCU平臺上。
而為了完善通用計算平臺的國產(chǎn)生態(tài),海光還發(fā)起成立了海光產(chǎn)業(yè)生態(tài)合作組織,聯(lián)合了體制內(nèi)外的高校、科研院所和產(chǎn)業(yè)鏈上下游企業(yè),開展“產(chǎn)學研”相結(jié)合的協(xié)同攻關(guān),為突破行業(yè)內(nèi)關(guān)鍵共性技術(shù)提供助力。
所謂“萬事開頭難”,隨著海光信息DCU產(chǎn)品的不斷迭代以及其對生態(tài)建設的重視和推進,趕上甚至超越,直至替代英偉達的AI芯片,也許只是時間早晚的問題。
*本文刊載于《通信世界》
總第940期 2024年3月25日 第6期
- QQ:61149512