特斯拉D1芯片擁有500億個(gè)晶體管 AI算力可擴(kuò)展至百億億級別
- 來源:超能網(wǎng)
- 作者:呂嘉儉
- 編輯:豆角
近日特斯拉(Tesla)舉行的AI Day活動中,埃隆-馬斯克(Elon Musk)及多位工程師,講解了特斯拉純視覺方案FSD的進(jìn)展、神經(jīng)網(wǎng)絡(luò)自動駕駛訓(xùn)練、D1芯片和Dojo超級計(jì)算機(jī)等相關(guān)信息。其中特斯拉研發(fā)的AI訓(xùn)練芯片D1引起了不少人的興趣,這款芯片將用于特斯拉目前正在構(gòu)建的超級計(jì)算機(jī),旨在以更少的消耗和更少的空間提供更高的性能。
據(jù)ComputerBase報(bào)道,D1芯片是采用7nm工藝制造的定制芯片,擁有500億個(gè)晶體管,其裸片面積為645 mm2,小于英偉達(dá)的A100(826 mm2)和AMD Arcturus(750 mm2)。其配備了354個(gè)訓(xùn)練節(jié)點(diǎn),支持用于AI訓(xùn)練的各種指令,包括FP32、BFP16、CFP8、INT32、INT16和INT8。
特斯拉表示。D1芯片可以提供22.6 TFLOPS的單精度浮點(diǎn)運(yùn)算性能,BF16/CFP8的峰值算力達(dá)到了362 TFLOPS,熱設(shè)計(jì)功耗(TDP)不超過400W。對AI訓(xùn)練來說,可擴(kuò)展性非常重要,因此通過帶寬為10 TB/s的“延遲交換結(jié)構(gòu)”在各個(gè)方向進(jìn)行互連。D1芯片周圍會有一個(gè)I/O環(huán),有576個(gè)通道,每個(gè)通道提供112 Gbit/s帶寬。同時(shí)25個(gè)D1芯片可以組成的一個(gè)訓(xùn)練模塊,帶寬達(dá)到36 TB/s,BF16/CFP8的峰值算力達(dá)到9 PFLOPS。
如果在數(shù)個(gè)機(jī)柜中部署120個(gè)訓(xùn)練模塊(包含3000個(gè)D1芯片),就能組成ExaPOD。這是世界上首屈一指的AI訓(xùn)練超級計(jì)算機(jī),超過100萬個(gè)訓(xùn)練節(jié)點(diǎn),BF16/CFP8的峰值算力達(dá)到1.1 ExaFLOPS。相比特斯拉目前基于英偉達(dá)設(shè)備構(gòu)造的超級計(jì)算機(jī),在同樣成本條件下,性能提高了4倍,每瓦性能提高了1.3倍,占地面積僅為五分之一。

玩家點(diǎn)評 (0人參與,0條評論)
熱門評論
全部評論