在线播放三级,亚洲精品美女视频,韩国福利午夜片在线观看

NVIDIA A10 與 A100 GPU 對(duì)比分析：用于LLM 和Stable Diffusion推理

發(fā)布時(shí)間： 2024-07-02 14:22

部署新的 ML 模型時(shí)，很難決定需要哪種 GPU 進(jìn)行推理。您需要一款能夠運(yùn)行模型的 GPU，但又不想花太多錢購買比您需要的更強(qiáng)大的顯卡。本文比較了兩種流行的模型推理選擇 — NVIDIA 的 A10 和 A100 GPU，并討論了使用多 GPU 實(shí)例處理較大模型的選項(xiàng)。

在為模型推理任務(wù)選擇 A10 和 A100 時(shí)，請(qǐng)考慮延遲、吞吐量和模型大小的要求以及預(yù)算。而且您不僅限于單個(gè) GPU。您可以通過在單個(gè)實(shí)例中組合多個(gè) A100 來運(yùn)行對(duì)于一個(gè) A100 來說太大的模型，并且您可以通過將它們拆分到多個(gè) A10 上來節(jié)省一些大型模型推理任務(wù)的費(fèi)用。

本指南將幫助您在為模型推理工作負(fù)載選擇 GPU 時(shí)在推理時(shí)間和成本之間做出正確的權(quán)衡。

一、關(guān)于 Ampere GPU

A10 和 A100 中的“A”表示這些 GPU 是基于 NVIDIA 的Ampere 微架構(gòu)構(gòu)建的。Ampere 以物理學(xué)家 André-Marie Ampère 的名字命名，是 NVIDIA 推出的一種微架構(gòu)，用于替代之前的Turing 微架構(gòu)。Ampere 微架構(gòu)于 2020 年首次發(fā)布，為RTX 3000 系列消費(fèi)級(jí) GPU提供支持，其中最受矚目的是 GeForce RTX 3090 Ti，但它在數(shù)據(jù)中心的影響更大。基于 Ampere 的數(shù)據(jù)中心 GPU 有六種：

NVIDIA A2

NVIDIA A10

NVIDIA A16

NVIDIA A30

NVIDIA A40

NVIDIA A100（有 40 和 80 GiB 版本）

在這些 GPU 中，A10 和 A100 最常用于模型推理，還有 A10G，這是 A10 的 AWS 特定變體，可互換用于大多數(shù)模型推理任務(wù)。我們將在本文中比較標(biāo)準(zhǔn) A10 和 80 GB 的 A100。

二、A10 與 A100：規(guī)格

這兩款 GPU 都有很長的規(guī)格表，但一些關(guān)鍵信息讓我們了解 A10 和 A100 在 ML 推理方面的性能差異。

對(duì)于機(jī)器學(xué)習(xí)推理來說，最重要的因素是 FP16 Tensor Core 性能，它表明 A100 的性能是 A10 的兩倍多，擁有 312 teraFLOP（1 teraFLOP 是每秒一萬億次浮點(diǎn)運(yùn)算）。A100 還擁有三倍以上的 VRAM，這對(duì)于處理大型模型至關(guān)重要。

1、核心數(shù)量和核心類型

A100 的卓越性能源自其較高的Tensor Core數(shù)量。

CUDA 核心是 GPU 中的標(biāo)準(zhǔn)核心。A10 的 CUDA 核心實(shí)際上比 A100 多，這與其更高的基本 FP32 性能相對(duì)應(yīng)。但對(duì)于 ML 推理而言，Tensor Cores 更為重要。

Ampere 卡采用第三代 Tensor Core。這些核心專門用于矩陣乘法，這是 ML 推理中最耗費(fèi)計(jì)算資源的部分之一。A100 的 Tensor Core 數(shù)量比 A10 多 50%，這使其模型推理能力得到極大提升。

光線追蹤 (RT) 核心不用于大多數(shù) ML 推理任務(wù)。它們更常用于使用 Blender、Unreal Engine 和 Unity 等引擎的面向渲染的工作負(fù)載。A100 針對(duì) ML 推理和其他 HPC 任務(wù)進(jìn)行了優(yōu)化，因此它沒有任何 RT 核心。

2、VRAM 和內(nèi)存類型

VRAM，即視頻隨機(jī)存取存儲(chǔ)器，是 GPU 上的內(nèi)存，可用于存儲(chǔ)計(jì)算數(shù)據(jù)。VRAM 通常是模型調(diào)用的瓶頸；您需要足夠的 VRAM 來加載模型權(quán)重并處理推理。

A10 具有 24GiB 的 DDR6 VRAM。同時(shí)，A100 有兩個(gè)版本：40GiB 和 80GiB。兩個(gè)版本的 A100 都使用 HBM2，這是一種比 DDR6 更快的內(nèi)存架構(gòu)。由于采用了 HBM2 架構(gòu)，A100 比 A10 擁有更大的內(nèi)存總線和更大的帶寬。HBM2 的生產(chǎn)成本更高，因此僅限于這些旗艦 GPU。

Baseten 為 A100 提供 80GiB VRAM，因?yàn)檫@通常是模型推理所需要的。

三、A10 與 A100：性能

規(guī)格看起來很棒，但它們?nèi)绾无D(zhuǎn)化為實(shí)際任務(wù)？我們?cè)?A10 和 A100 上對(duì)Llama 2和Stable Diffusion等流行模型的模型推理進(jìn)行了基準(zhǔn)測試，以了解它們?cè)趯?shí)際用例中的表現(xiàn)。

這些示例中的所有模型均以浮點(diǎn) 16 (fp16) 運(yùn)行。這通常稱為“半精度”，意味著 GPU 正在對(duì) 16 位浮點(diǎn)數(shù)進(jìn)行計(jì)算，與以全精度 (浮點(diǎn) 32) 進(jìn)行計(jì)算相比，這可節(jié)省大量時(shí)間和內(nèi)存。

1、Llama 2 推理

Llama 2是 Meta 開源的大型語言模型，有三種大小：70 億、130 億和 700 億個(gè)參數(shù)。模型大小越大，結(jié)果越好，但需要更多的 VRAM 來運(yùn)行模型。

一個(gè)好的經(jīng)驗(yàn)法則是，大型語言模型在 fp16 中運(yùn)行時(shí)，每十億個(gè)參數(shù)需要 2 GB 的 VRAM，再加上運(yùn)行推理和處理輸入和輸出的一些開銷。因此，Llama 2 模型具有以下硬件要求：

A100 GPU 可讓您運(yùn)行更大的模型，對(duì)于超過其 80 GB VRAM 容量的模型，您可以在單個(gè)實(shí)例中使用多個(gè) GPU 來運(yùn)行該模型。A100 GPU 可讓您運(yùn)行更大的模型，對(duì)于超過其 80 GB VRAM 容量的模型，您可以在單個(gè)實(shí)例中使用多個(gè) GPU 來運(yùn)行該模型。

2、Stable Diffusion 推理

Stable Diffusion 適用于 A10 和 A100，因?yàn)?A10 的 24 GiB VRAM 足以運(yùn)行模型推理。因此，如果它適用于 A10，為什么還要在更昂貴的 A100 上運(yùn)行它？

A100 不僅更大，而且速度更快。優(yōu)化穩(wěn)定擴(kuò)散推理后，該模型在 A100 上的運(yùn)行速度大約是在 A10 上的兩倍。

因此，如果必須盡快生成圖像，則在 A100 上部署將為您提供單個(gè)請(qǐng)求的最快推理時(shí)間。

四、A10 與 A100：價(jià)格

雖然 A100 比 A10 更大更快，但使用起來也更昂貴。捷智算的 A100 實(shí)例每分鐘 0.10240 美元，是最便宜的配備 A10 的實(shí)例（每分鐘 0.02012 美元）的五倍。

如果更快的推理時(shí)間絕對(duì)重要，您可以在 A100 上運(yùn)行較小的模型（如 Stable Diffusion）以獲得更快的結(jié)果。但成本很快就會(huì)增加。因此，如果您主要關(guān)心的是吞吐量（單位時(shí)間內(nèi)創(chuàng)建的圖像數(shù)量，而不是創(chuàng)建每個(gè)圖像所需的時(shí)間），那么您最好水平擴(kuò)展到多個(gè)實(shí)例，每個(gè)實(shí)例都使用 A10。使用捷智算，您可以在每次模型部署時(shí)獲得自動(dòng)擴(kuò)展基礎(chǔ)設(shè)施，從而使這種水平擴(kuò)展自動(dòng)化。

1、計(jì)算模型吞吐量

假設(shè)您需要 Stable Diffusion 每分鐘 1,000 張圖像的吞吐量，但生成每張圖像需要多少秒并不重要。做出許多現(xiàn)實(shí)世界中不存在的簡化假設(shè)（一致的流量模式、可忽略的網(wǎng)絡(luò)延遲等），您將從 A10 實(shí)例每分鐘獲得大約 34 張圖像，這意味著您將以每分鐘約 0.60 美元（每分鐘每實(shí)例 0.02012 美元乘以 30 個(gè)實(shí)例）的價(jià)格獲得所需的吞吐量。

同時(shí)，在 A100s 上，您只需要 15 個(gè)實(shí)例，每分鐘就可以生成 67 張圖像，但每個(gè)實(shí)例的成本是其 5 倍，總吞吐量成本約為 1.54 美元/分鐘（每個(gè)實(shí)例每分鐘 0.10240 美元乘以 15 個(gè)實(shí)例），或大約 2.5 倍。

除非生成每張圖像的時(shí)間非常關(guān)鍵，否則在許多用例中，使用 A10 進(jìn)行水平擴(kuò)展可以為您提供比使用 A100 更具成本效益的吞吐量。

管理模型推理的多個(gè)副本可能是一個(gè)很大的難題，因此 Baseten 提供了自動(dòng)擴(kuò)展功能，使吞吐量的擴(kuò)展變得簡單且免維護(hù)。

2、多個(gè) A10 與一個(gè) A100

A10 還可以幫助您垂直擴(kuò)展，創(chuàng)建更大的實(shí)例來運(yùn)行更大的模型。假設(shè)您想要運(yùn)行一個(gè)太大而無法在 A10 上容納的模型，例如Llama-2-chat 13B。除了啟動(dòng)昂貴的 A100 支持的實(shí)例之外，您還有另一種選擇。

相反，您可以選擇在具有多個(gè) A10 的單個(gè)實(shí)例上運(yùn)行模型。2 個(gè) A10 合計(jì)擁有 48 GiB 的 VRAM，足以滿足 130 億參數(shù)模型的需求。具有 2 個(gè) A10 的實(shí)例每分鐘成本為 0.05672 美元，略高于單個(gè) A100 成本的一半。

當(dāng)然，在 A100 上推理速度仍然會(huì)更快。在一個(gè)實(shí)例中使用多個(gè) A10 可讓您在更大的模型上運(yùn)行推理，但這不會(huì)使推理速度更快。使用多個(gè) A10 而不是 A100 的選項(xiàng)可讓您根據(jù)用例和預(yù)算在速度和成本之間進(jìn)行權(quán)衡。

捷智算提供多 GPU 實(shí)例，最多可配備 8 個(gè) A10 或 8 個(gè) A100。

五、哪種 GPU 適合您？

A100 無疑是一款功能強(qiáng)大的顯卡，也是某些 ML 推理任務(wù)的唯一選擇。但 A10（尤其是在單個(gè)實(shí)例中具有多個(gè)顯卡的情況下）為許多工作負(fù)載提供了經(jīng)濟(jì)高效的替代方案。最終，選擇取決于您的需求和預(yù)算。

如果 A10 和 A100 都超出了您的使用情況，這里是A10 與較小的 T4 GPU 的比較，與要求不高的推理任務(wù)相比，這可以為您節(jié)省 A10 的費(fèi)用。

還有 A10G，這是 A10 的 AWS 專用變體。雖然這些卡具有不同的統(tǒng)計(jì)數(shù)據(jù)，但它們對(duì)于大多數(shù)模型推理任務(wù)而言是可以互換的。

如需估算不同 GPU 的成本，請(qǐng)查看捷智算的定價(jià)頁面，并使用我們方便的計(jì)算器根據(jù)按分鐘付費(fèi)的 GPU 定價(jià)估算每月支出。我們隨時(shí)幫助您找到最適合您的 ML 推理需求的硬件。

H100整機(jī)服務(wù)器多少錢一臺(tái)？英偉達(dá)H100整機(jī)價(jià)格變化分析

英偉達(dá)整機(jī)模組價(jià)格對(duì)比分析：H100 VS H800

熱門產(chǎn)品

NVIDIA QM9790 交換機(jī)

NVIDIA H100 Tensor Core GPU

為各類數(shù)據(jù)中心提供出...

NVIDIA H100 Tensor Core GPU

為各類數(shù)據(jù)中心提供出...

ESC-N8-E11 AI超算服務(wù)器

NVIDIA HGX...

英偉達(dá)h200,全球高性能GPU,現(xiàn)貨

英偉達(dá)h200,Te...

色综合久久亚洲国产日韩_日本在线观看_国产成人精品久久二区二区_免费观看一区二区