本文的標題是《RTX 3090 AI性能實測:FP32訓練速度提升50%》來源于:由作者:陳水萍采編而成,主要講述了曉查 發自 凹非寺 量子位 報道 | 公眾號 QbitAI
NVIDIA最近發布了備
曉查 發自 凹非寺 量子位 通訊 | 大眾號 qbitai
nvidia邇來頒布了備受憧憬的rtx 30系列顯卡。
個中,性能最宏大的rtx 3090具備24gb顯存和10496個cuda中心。而2018年推出的**顯卡titan rtx同樣具備24gb顯存。
rtx 3090在深度進修演練工作中,性能展現畢竟怎樣,它是否代替titan rtx變成最強耗費級ai演練卡?此刻仍舊有了謎底。
海外兩位ai在業者在拿到這款顯卡后,第一功夫嘗試了其在tensorflow上的ai演練性能。
因為rtx 3090現階段不許很好地扶助tensorflow 2,所以先在tensorflow 1.15長進行嘗試。
話不多說,先看數據。在fp32工作上,rtx 3090每秒可處置561張圖片,titan rtx每秒可處置373張圖片,性能提高50.4%!
而在fp16工作上,rtx 3090每秒可處置1163張圖片,titan rtx每秒可處置1082張圖片,性能僅提高7.5%。
何以在fp32工作上的性能提高比在fp16上更鮮明,主假如由于rtx 3090大大普及了cuda中心的數目。然而用來處置fp16的張量中心數目鮮明縮小,這大概會感化fp16性能。
即使如許,張量中心更少的rtx 3090在很多fp16工作上,性能仍舊有小幅提高。
隨后,英偉達官方供給了扶助rtx 3090的cuda 11.1,谷歌官方在tensorflow nightly版中供給了對最新顯卡的扶助。
又有效戶再次嘗試了兩款顯卡的性能比較。
△ 演練性能:每秒處置的圖片數目
不妨看出,運用fp32舉行的一切模子演練,rtx 3090都能實行40%~60%的演練提高。而大普遍模子的fp16演練速率簡直靜止,最多提高20%,以至在inception模子上再有所低沉。
只能說rtx 3090在張量中心上的“刀法”頗為精準,即使你對fp16演練性能有較高訴求,大概不妨等候此后的晉級版。
然而rtx 3090掛牌價格僅1499美元,比titan rtx廉價1000美元,仍不失為“性價比”之選。
參考鏈接:
https://www.pugetsystems.com/labs/hpc/rtx3090-tensorflow-namd-and-hpcg-performance-on-linux-preliminary-1902/
https://www.evolution.ai/post/benchmarking-deep-learning-workloads-with-tensorflow-on-the-nvidia-geforce-rtx-3090
— 完 —
量子位 qbitai · 頭條號簽訂契約作家
關心咱們,第一功夫獲知前沿高科技動靜
正文原作家為陳水萍,連載請證明:根源!如該文有不當之處,請接洽站長簡略,感謝協作~
原創文章,作者:陳水萍,如若轉載,請注明出處:http://m.uuuxu.com/20220218166247.html