天天快播:穩定擴散基準測試哪個GPU運行AI最快

2023-04-06 10:50:06 來源:互聯網


(資料圖片僅供參考)

如今,人工智能和深度學習不斷成為頭條新聞,無論是ChatGPT生成糟糕的建議、自動駕駛汽車、被指控使用人工智能的藝術家、人工智能的醫療建議等等。這些工具中的大多數都依賴于具有大量硬件的復雜服務器來進行訓練,但是可以在您的PC上使用其顯卡通過推理使用經過訓練的網絡。但是消費類GPU進行AI推理的速度有多快?

我們在最新的Nvidia、AMD甚至英特爾GPU上對流行的AI圖像創建器StableDiffusion進行了基準測試,以了解它們的性能如何。如果您偶然嘗試在您自己的PC上啟動并運行StableDiffusion,您可能對它的復雜性或簡單性略有了解!-可以。簡短的總結是Nvidia的GPU占據主導地位,大多數軟件都是使用CUDA和其他Nvidia工具集設計的。但這并不意味著您無法在其他GPU上運行StableDiffusion。

我們最終使用三個不同的StableDiffusion項目進行測試,主要是因為沒有一個包適用于每個GPU。對于Nvidia,我們選擇了Automatic1111的webui版本(在新標簽頁中打開);它表現最好,有更多選擇,而且很容易上手。AMDGPU使用Nod.ai的Shark版本進行了測試(在新標簽頁中打開)—我們檢查了NvidiaGPU的性能(在Vulkan和CUDA模式下),發現它……缺乏。由于缺乏支持,讓英特爾的ArcGPU運行起來有點困難,但StableDiffusionOpenVINO(在新標簽頁中打開)給了我們一些非常基本的功能。

免責聲明是有序的。我們沒有編寫任何這些工具的代碼,但我們確實在尋找易于運行(在Windows下)并且似乎也經過合理優化的東西。我們相對有信心Nvidia30系列測試在提取接近最佳性能方面做得很好——尤其是在啟用xformers時,它提供了大約20%的額外性能提升(盡管精度降低可能會影響質量)。同時,RTX40系列結果最初較低,但GeorgeSV8ARJ提供了此修復(在新標簽頁中打開),其中替換PyTorchCUDADLLs給性能帶來了健康的提升。

AMD的結果也有點喜憂參半:RDNA3GPU表現非常好,而RDNA2GPU似乎相當平庸。Nod.ai讓我們知道他們仍在為RDNA2開發“調整”模型,一旦可用,它們應該會大大提高性能(可能翻倍)。最后,在英特爾GPU上,盡管最終性能似乎與AMD選項相當,但實際上渲染時間要長得多——實際生成任務開始需要5-10秒,而且可能需要很多額外的背景東西正在發生,這會減慢它的速度。

由于軟件項目的選擇,我們還使用了不同的穩定擴散模型。Nod.ai的Shark版本使用SD2.1,而Automatic1111和OpenVINO使用SD1.4(盡管可以在Automatic1111上啟用SD2.1)。同樣,如果您對StableDiffusion有一些內部知識,并且想推薦可能比我們使用的運行得更好的不同開源項目,請在評論中告訴我們(或者發送電子郵件給Jarred(在新標簽頁中打開)).

我們的測試參數對于所有GPU都是相同的,盡管在Intel版本上沒有否定提示選項的選項(至少,我們找不到)。上面的圖庫是在NvidiaGPU上使用Automatic1111的webui生成的,具有更高分辨率的輸出(需要更長、更長時間才能完成)。這是相同的提示,但目標是2048x1152而不是我們用于基準測試的512x512。請注意,我們選擇的設置適用于所有三個SD項目;一些可以提高吞吐量的選項僅適用于Automatic1111的構建,但稍后會提供更多。以下是相關設置:

肯定提示:

后世界末日蒸汽朋克城市,探索,電影,逼真,超詳細,逼真最大細節,體積光,(((focus))),廣角,(((brightlylit))),(((vegetation))),閃電,藤蔓,破壞,破壞,wartorn,廢墟

標簽:

上一篇:
下一篇:
業界
更多
手機
更多
測評
軟件
數碼