色综合久久亚洲国产日韩_日本在线观看_国产成人精品久久二区二区_免费观看一区二区

只需一個 GPU:Stable Diffusion的推理基準
發布時間: 2024-08-09 15:17

我需要什么才能運行最先進的文本到圖像模型?游戲卡可以完成這項工作嗎?還是我應該買一個高級的 A100?如果我只有 CPU 怎么辦?


為了闡明這些問題,我們提出了不同 GPU 和 CPU 上Stable Diffusion的推理基準。以下是我們的發現:


  • 許多消費級 GPU 可以很好地完成這項工作,因為Stable Diffusion只需要大約 5 秒和 5 GB 的 VRAM 即可運行。

  • 在輸出單張圖像的速度方面,最強大的 Ampere GPU(A100)僅比 3080 快 33%(或 1.85 秒)。

  • 通過將批量大小推至最大值,A100 可以提供 2.5 倍的推理吞吐量(與 3080 相比)。


我們的基準測試使用文本提示作為輸入并輸出分辨率為 的圖像。我們使用Huggingface 擴散器庫中的模型實現,并從速度、內存消耗、吞吐量和輸出圖像質量方面分析推理性能。我們研究了硬件(GPU 模型、GPU 與 CPU)和軟件(單精度與半精度、pytorch 與 onnxruntime)的不同選擇如何影響推理性能。


作為參考,我們將提供以下 GPU 設備的基準測試結果:A100 80GB PCIe、RTX3090、RTXA5500、RTXA6000、RTX3080、RTX8000。


最后但并非最不重要的一點是,我們很高興看到社區進展如此迅速。例如,“切片注意力”技巧可以進一步將 VRAM 成本降低到“低至 3.2 GB”,但推理速度會降低約 10%。我們也期待在不久的將來,一旦ONNX 運行時變得更加穩定,就可以使用 CUDA 設備對其進行測試。


速度


下圖展示了使用不同的硬件和精度生成單幅圖像的推理速度,使用(任意)文本提示:“一張宇航員在火星上騎馬的照片”。


Stable Diffusion Text2Image 速度(以秒為單位)


我們發現:

  • 在我們測試的 Ampere GPU 上,生成單個輸出圖像的時間范圍3.74為5.59幾秒,包括消費者 3080 卡到旗艦 A100 80GB 卡。

  • 半精度可40%將安培 GPU 的時間減少約,將52%上一代RTX8000GPU 的時間減少約。


我們認為,由于使用了 ,Ampere GPU 的加速比半精度的“較小” TF32。對于不熟悉 的讀者,它是一種格式,已被用作主要深度學習框架(如 PyTorch 和 TensorFlow)上 Ampere GPU 的默認單精度數據類型。由于它是一種真正的格式,因此可以預期半精度的加速比會更大。


我們在 CPU 設備上運行相同的推理作業,以便了解在 GPU 設備上觀察到的性能。


Stable Diffusion Text2Image GPU 與 CPU


我們注意到:

  • GPU 的速度明顯更快——根據精度,速度可提高一到兩個數量級。

  • onnxruntime可以將 CPU 推理時間減少約40%到50%,具體取決于 CPU 的類型。


順便提一下,ONNX 運行時目前沒有針對 Hugging Face 擴散器的穩定CUDA 后端支持,我們在初步測試中也沒有觀察到有意義的加速。我們期待在 ONNX 運行時針對Stable Diffusion進行進一步優化后進行更全面的基準測試。


內存


我們還測量了運行Stable Diffusion推理的內存消耗。


Stable Diffusion Text2Image 內存 (GB)


經觀察,所有經過測試的 GPU 的內存使用情況都是一致的:


  • 7.7 GB運行批量大小為 1 的單精度推理大約需要GPU 內存。

  • 4.5 GB運行批量大小為 1 的半精度推理大約需要GPU 內存。


吞吐量


到目前為止,我們已經測量了單個輸入的處理速度,這對于不能容忍哪怕是最小延遲的在線應用程序來說至關重要。但是,一些(離線)應用程序可能會關注“吞吐量”,它衡量在固定時間內處理的數據總量。


我們的吞吐量基準測試將每個 GPU 的批處理大小推至最大值,并測量它們每分鐘可以處理的圖像數量。最大化批處理大小的原因是讓張量核心保持繁忙,以便計算可以主導工作負載,避免任何非計算瓶頸并最大化吞吐量。


我們在 pytorch 中以半精度運行了一系列吞吐量實驗,并使用了每個 GPU 可以使用的最大批量大小:


Stable Diffusion文本到圖像吞吐量(圖像/分鐘)


我們注意到:

  • 再次,A100 80GB 表現最佳,且具有最高的吞吐量。

  • A100 80GB 與其他卡在吞吐量方面的差距可以通過此卡上可使用的最大批量大小較大來解釋。


作為一個具體的例子,下圖顯示了當我們將批處理大小從 1 更改為 28(不會導致內存不足錯誤的最大值)時,A100 80GB 的吞吐量如何增加。同樣有趣的是,當批處理大小達到某個值時,吞吐量的增長并不是線性的,而是趨于平穩,此時 GPU 上的張量核心已飽和,GPU 內存中的任何新數據都必須排隊才能獲得自己的計算資源。


Stable Diffusion Text2Image 批次大小與吞吐量(圖像/分鐘)


自動播報


Hugging Face 團隊對其擴散器代碼進行的更新聲稱,刪除自動投射可將 pytorch 的半精度推理速度提高約 25%。


使用自動播報:


with autocast("cuda"):

   image = pipe(prompt).images[0] 


未使用自動施放:

image = pipe(prompt).images[0] 


我們在 NVIDIA RTX A6000 上重現了該實驗,并能夠驗證速度和內存使用方面的性能提升。我們預計其他支持半精度的設備也會有類似的改進。


Stable Diffusion-text2image-pytorch-半精度速度



Stable Diffusion-text2image-pytorch-半精度內存


綜上所述,請勿將 autocast 與 FP16 結合使用。


精確


我們很好奇半精度是否會降低輸出圖像的質量。為了測試這一點,我們修復了文本提示以及“潛在”輸入,并將它們輸入到單精度模型和半精度模型中。我們以增加的步數運行了 100 次推理。每次運行時,都會保存兩個模型的輸出及其差異圖。


100 步中的單精度與半精度


我們的觀察是,單精度輸出和半精度輸出之間確實存在明顯差異,尤其是在早期步驟中。差異通常會隨著步驟數量的增加而減小,但可能不會消失。


有趣的是,這種差異可能并不意味著半精度輸出中存在偽影。例如,在步驟 70 中,下圖顯示半精度沒有在單精度輸出中產生偽影(額外的前腿):


單精度 v 半精度,步驟 70


重復實驗


您可以使用捷智算平臺自帶的存儲庫來重現本文中呈現的結果。


設置


在運行基準測試之前,請確保您已完成存儲庫安裝步驟。


然后您需要設置 huggingface 訪問令牌:

1、在 Hugging Face 上創建用戶賬戶并生成訪問令牌。

2、將您的 huggingface 訪問令牌設置為ACCESS_TOKEN環境變量:

export ACCESS_TOKEN=<hf_...> 


用法


啟動benchmark.py腳本以將基準測試結果附加到現有的 benchmark.csv 結果文件:

python ./scripts/benchmark.py


啟動benchmark_quality.py腳本來比較單精度和半精度模型的輸出:

python ./scripts/benchmark_quality.py


備注

由于每次運行的文本提示以及“潛在”輸入都是固定的,這相當于運行 100 步推理,并保存每一步的中間結果。

粵公網安備 44030502006483號、 粵ICP備15047669號
  • 捷易科技聯系人
  • 色综合久久亚洲国产日韩_日本在线观看_国产成人精品久久二区二区_免费观看一区二区

                    欧美成人免费小视频| 一本一本久久a久久精品牛牛影视| 1000部精品久久久久久久久| 快播亚洲色图| 一区二区三区国产在线| 亚洲人成7777| 在线国产精品播放| 影音先锋亚洲一区| 国产精品区二区三区日本| 国产精品国产三级国产专播精品人| 欧美精品一区二区在线观看| 久久成人av少妇免费| 欧美中文在线观看国产| 久久国产一区二区| 蜜臀av在线播放一区二区三区| 午夜激情亚洲| 亚洲欧美国产va在线影院| 亚洲一区二区高清| 欧美一区在线看| 久热精品视频在线观看| 久久国产精品一区二区三区| 久久一区二区三区国产精品| 欧美国产欧美亚洲国产日韩mv天天看完整 | 欧美精品情趣视频| 欧美一级理论性理论a| 久久精品成人一区二区三区| 久久五月天婷婷| 欧美激情91| 欧美日韩国产精品| 国产精品久99| 国产在线拍揄自揄视频不卡99| 在线欧美不卡| 日韩一级大片在线| 亚洲欧美日本另类| 久久久青草青青国产亚洲免观| 欧美不卡高清| 国产精品99一区| 国产一区二区主播在线| 亚洲精品国久久99热| 亚洲一区久久| 久久精品夜色噜噜亚洲a∨| 一本久道久久久| 久久综合免费视频影院| 国产一区二区三区奇米久涩| 亚洲少妇中出一区| 久久综合精品国产一区二区三区| 久久免费偷拍视频| 激情小说亚洲一区| 亚洲综合精品四区| 妖精成人www高清在线观看| 亚洲精品色图| 欧美高清在线一区| 久久精品午夜| 欧美国产日韩一区二区三区| 先锋a资源在线看亚洲| 亚洲精品视频在线播放| 欧美高清视频www夜色资源网| 国内外成人在线视频| 国产一区二区三区最好精华液| 国产在线一区二区三区四区| 狠狠爱成人网| 在线一区日本视频| 久久久999精品| 欧美午夜精品理论片a级按摩 | 国产伦精品一区二区三区视频孕妇 | 国产精品一区二区久久久久| 一区视频在线| 亚洲欧美日本国产专区一区| 欧美丰满少妇xxxbbb| 国产美女扒开尿口久久久| 亚洲国产精品毛片| 久久久久女教师免费一区| 欧美婷婷在线| 一区二区久久久久久| 免费亚洲一区二区| 国产一区二区精品在线观看| 国产精品视频免费一区| 欧美精品手机在线| 欧美不卡高清| 欧美制服丝袜| 欧美资源在线观看| 久久国产精品高清| 久久综合九色综合久99| 久久精品国产免费看久久精品| 亚洲精品视频免费在线观看| 一本久久综合亚洲鲁鲁五月天| 国产精品xxxxx| 欧美在线视频免费观看| 在线成人国产| 欧美日韩亚洲系列| 久久精品国产视频| 亚洲精品在线观看视频| 国产精品欧美日韩一区| 久久最新视频| 中日韩男男gay无套| 黑人一区二区三区四区五区| 欧美日韩国产成人在线观看| 欧美怡红院视频| 亚洲精品视频在线播放| 国产欧美日韩一区二区三区在线| 久久这里只有精品视频首页| 亚洲无线观看| 最新成人av网站| 国产一区二区三区奇米久涩 | 午夜综合激情| 伊人久久久大香线蕉综合直播| 欧美日韩国产综合在线| 久久久在线视频| 亚洲欧美日韩在线播放| 亚洲精品免费在线播放| 国产一区二区三区在线观看精品| 欧美色视频在线| 男人的天堂亚洲在线| 欧美一区成人| 亚洲天堂成人在线观看| 亚洲破处大片| 国产自产女人91一区在线观看| 欧美午夜在线视频| 欧美日韩国产在线一区| 欧美电影在线| 麻豆乱码国产一区二区三区| 欧美亚洲免费| 亚洲免费伊人电影在线观看av| 日韩视频在线观看| 亚洲区一区二| 91久久综合亚洲鲁鲁五月天| 在线成人欧美| 亚洲欧美日韩一区在线观看| 欧美日韩国产999| 欧美一区二区三区视频在线观看| 在线看日韩av| 国产精品久久久久久久免费软件 | 欧美插天视频在线播放| 一二美女精品欧洲| 国产精品嫩草99a| 欧美一级久久久| 亚洲国产91色在线| 欧美婷婷六月丁香综合色| 久久精品综合一区| 正在播放亚洲| 亚洲第一黄网| 国产精品一级二级三级| 欧美精品激情在线| 久久精品视频导航| 亚洲一级片在线看| 亚洲欧洲在线播放| 一区二区亚洲精品| 国产精品热久久久久夜色精品三区 | 性欧美超级视频| 夜夜精品视频| 亚洲国产婷婷香蕉久久久久久| 国产精品女人网站| 欧美日韩国产电影| 男女激情久久| 久久噜噜亚洲综合| 欧美专区日韩视频| 性欧美超级视频| 亚洲男人的天堂在线| 亚洲青色在线| 最新中文字幕亚洲| 亚洲第一伊人| 伊人久久亚洲影院| 国产一区自拍视频| 国产真实精品久久二三区| 国产精品亚洲一区| 国产精品一卡二卡| 国产精品久久久久一区二区三区共 | 欧美日韩国产首页在线观看| 噜噜噜久久亚洲精品国产品小说| 欧美伊人久久久久久午夜久久久久| 亚洲一级片在线观看| 亚洲图中文字幕| 亚洲自拍偷拍视频| 亚洲欧美www| 欧美一级黄色录像| 久久精品人人| 久久男人资源视频| 欧美成人精品在线视频| 免费看的黄色欧美网站| 久久久综合免费视频| 免费h精品视频在线播放| 免费不卡在线观看| 欧美破处大片在线视频| 欧美日韩综合网| 欧美午夜在线| 国产女人aaa级久久久级| 国语自产精品视频在线看一大j8 | 欧美午夜视频网站| 亚洲第一精品电影| 久久精品2019中文字幕| 欧美午夜一区二区三区免费大片 | 日韩一级视频免费观看在线| 欧美在线亚洲一区| 国产精品久久久久久久久果冻传媒 | 国内外成人免费激情在线视频网站| av成人福利| 欧美极品在线视频| 亚洲欧洲精品天堂一级| 久久天天躁狠狠躁夜夜爽蜜月| 国产精品影音先锋|