全て
-
- April 05, 2025 6
RTX 6000 Ada と RTX PRO 6000 Blackwell の比較 – 大規模LLM開発向け
本記事では、NVIDIAのプロ向けGPUであるRTX 6000 Ada(Ada Lovelace世代)とRTX PRO 6000 Blackwell(Blackwell世代)の違いを、Linux + PyTorch環境での大規模なLLM(Large Language Model)開発を念頭に比較します。両者ともAI開発や高度なシミュレーション向けのハイエンドGPUですが、アーキテクチャ世代の違いにより性能や仕様が大きく異なります。以下では、性能、VRAM(メモリ容量)、消費電力、冷却方式、物理サイズの項目ごとに詳細を解説します。
目次
項目 RTX 6000 Ada RTX PRO 6000 Blackwell アーキテクチャ Ada Lovelace (第3世代RTコア / 第4世代Tensorコア) Blackwell (第4世代RTコア / 第5世代Tensorコア) CUDAコア数 18,176 24,064 GPU計算性能*
(FP32ピーク)約91.1 TFLOPS 約125 TFLOPS AI演算性能*
(INT8/FP8)約1,457 TFLOPS (≈1457 TOPS) 約4,000 TFLOPS (≈4000 TOPS) Tensorコア数 568 (第4世代) 752 (第5世代) RTコア数 142 (第3世代) 188 (第4世代) GPUメモリ 48GB GDDR6 (ECC対応) 96GB GDDR7 (ECC対応) メモリ帯域幅 960 GB/s 1792 GB/s 最大ボード電力 300W 300W (ワークステーション)
~600W (サーバー)冷却方式 空冷アクティブ(ブロアーファン) 空冷アクティブ(デュアルブロアー)
※サーバー版はパッシブ物理サイズ Dual-slot, Full-height
長さ約10.5インチ (26.7cm)Dual-slot, Full-height
長さ約10.5インチ (26.7cm)*FP32およびAI演算性能は公称ピーク値。
性能
計算性能: RTX 6000 AdaはAda Lovelaceアーキテクチャに基づき、CUDAコア数
-
- April 05, 2025 6
NVIDIA RTX PRO 6000 Blackwell シリーズ GPU 詳細比較
(Workstation Edition・Max-Q Workstation Edition・Server Edition)
技術仕様
NVIDIA RTX PRO 6000 Blackwell シリーズは、最新の「Blackwell」アーキテクチャを採用したプロ向けGPUで、デスクトップワークステーションおよびサーバー向けの最上位モデルです [1]。全モデル共通の基本仕様としてCUDAコア数は24,064基(GB202 GPU上のSM 188基有効)で、96GBの超高速GDDR7メモリ(ECC対応)を搭載します。メモリ帯域幅は1,792GB/秒に達し、512ビットの大規模メモリインターフェースによって実現されています [2]。接続はPCI Express Gen5 x16に対応し、映像出力はDisplayPort 2.1を4ポート備えます [2]。RTX PRO 6000シリーズには用途に応じて Workstation Edition(ワークステーション向け)、Max-Q Workstation Edition(省電力ワークステーション向け)、Server Edition(データセンター向け)の3つのエディションが存在します [3]。各エディションでハードウェア構成(コア数・メモリ容量)は共通ですが、TDPや冷却方式、カードサイズが異なります。
項目 Workstation Edition Max-Q Workstation Edition Server Edition GPUアーキテクチャ NVIDIA Blackwell CUDAコア数 24,064 基 Tensorコア数 752 基 RTコア数 188 基 GPUメモリ 96 GB GDDR7 (ECC対応) 96 GB GDDR7 (ECC対応) 96 GB GDDR7 (ECC対応) ディスプレイ出力 DisplayPort 2.1 ×4 DisplayPort 2.1 ×4 DisplayPort 2.1 ×4 最大消費電力 (TDP) 600 W 300 W 最大600 W
(構成に応じ可変)対応スロット PCI Express 5.0 x16 PCI Express 5.0 x16 PCI -
- March 01, 2025 68
IPMIのパスワードがわからない、または忘れた場合は、ipmitoolを使って新しいパスワードを設定するのが最短の対策です。
sudo ipmitool user list
を実行します。ipmitoolがインストールされていない場合は、sudo apt install ipmitool (Ubuntuなどの場合)、dnf install ipmitool (Redhat, Rockyなどの場合)を行いインストールします。
[dl@dl-machine ~]$ sudo ipmitool user list
ID Name Callin Link Auth IPMI Msg Channel Priv Limit
1 true false false Unknown (0x00)
2 ADMIN true false false Unknown (0x00)
3 fwupd true false false Unknown (0x00)
4 true false false Unknown (0x00)
5 true false false Unknown (0x00)
6 true false false Unknown (0x00)
7 true false false Unknown (0x00)
8 true false false Unknown (0x00)
9 true false false Unknown (0x00) -
- September 05, 2024 77
前回の記事では、Mistral AI社が開発したLLMを小規模なマシンでChatbotにすることを紹介しました。
今回はこのChatbotにGPT4o作成の問題を入力し、出力された回答をGPT4oで採点してみました。
この記事を書く前に同じChatbotで推論の問題をいろいろ試していました(それに関しては別の記事で紹介します)。
推論以外にLLMに必要な機能をGPT4oに聞いてみました。
私の質問:LLMに必要な能力は推論の他に何がありますか
LLM(大規模言語モデル)に必要な能力は推論以外にもさまざまあります。以下に代表的な能力を挙げます。
### 1. **理解力(Comprehension)**
- モデルが自然言語を理解し、文脈や意図を正確に把握する能力です。例えば、曖昧な言葉や異なる意味を持つ言葉を正しく解釈することが求められます。この能力は、モデルが文脈に基づいて適切な返答を生成するために必要です。### 2. **知識の保持(Knowledge Retention)**
- 広範なドメイン知識を持ち、それを元に正確な回答を提供できる能力です。LLMは事前に大量のテキストを学習するため、一般常識や専門知識を保持しておくことが求められます。事実に基づいた回答や、特定の分野に特化した知識を提供する際に重要です。### 3. **言語生成力(Text Generation)**
- 与えられた指示に基づいて、自然で流暢なテキストを生成する能力です。文法や文脈を正しく理解し、適切な語彙や文体を使うことが必要です。例えば、ニュース記事の生成や、プログラムコードの自動生成など多様なタスクに活かされます。### 4. **対話管理(Conversation Management)**
- 複数ターンの会話を正確に管理し、過去の会話履歴を適切に参照しながら、整合性のある返答を行う能力です。これにより、対話型システムとして一貫したやり取りが可能になります。### 5. **創造力(Creativity)**
- 物語の生成や新しいアイデアの提案など、創造的なタスクにおいて重要な能力です。特に文章や詩、デザインのアイデア生成など、想像力を活かしたタスクに強いモデルが求められる場合があります。### 6. **常識推論(Commonsense
-
- September 05, 2024 64
GeForce RTX 4080 Super *2のマシンにMistran AI社のMistral-NeMoをインストールしてChatbotを動作させ、その能力を試しています。
今回は推論能力を試してみましょう。前回と同様、GPT4oで問題を作成し、採点もGPT4oで行いました。
難易度の高い推論問題をいくつか作成しました。これらの問題は、論理的思考や複雑な条件を必要とし、より高度な推論力を試すことができます。
### 1. **条件付き自己矛盾問題**
- **問題**: AさんとBさんは、正直者か嘘つきのどちらかです。Aさんは「Bさんは嘘をついている」と言い、Bさんは「Aさんは嘘をついている」と言いました。この場合、AさんとBさんのどちらが正直者で、どちらが嘘つきでしょうか?また、その理由を説明してください。### 2. **多数派と少数派の推論問題**
- **問題**: 10人の友達がパーティーにいます。そのうち7人はいつも真実を話し、3人は常に嘘をつきます。Aさん、Bさん、Cさんの3人が次のように言いました。Aさんは「Bさんと私はどちらも真実を話している」と言い、Bさんは「Aさんは嘘をついている」と言い、Cさんは「Bさんは嘘をついている」と言いました。Aさん、Bさん、Cさんのうち、誰が真実を話していて、誰が嘘をついているかを推論してください。### 3. **条件付き時系列推論問題**
- **問題**: ジョンは毎週月曜日と水曜日にジムに行きます。メアリーはジョンがジムに行かない日に買い物をします。サムはメアリーが買い物をしない日に映画館に行きます。次の火曜日、ジョン、メアリー、サムのうち、誰がどこに行くかを推論してください。### 4. **相対的な時間の推論問題**
- **問題**: アリス、ボブ、キャロルの3人がいます。アリスはボブよりも30分早く家に帰り、キャロルはアリスよりも15分遅く家に帰ります。ボブは18時30分に家に帰りました。アリスとキャロルはそれぞれ何時に家に帰ったでしょうか?### 5. **論理パズル問題**
- **問題**: 5人の友達が公園で遊んでいます。AさんはBさんよりも早く公園を出ましたが、Cさんよりは遅く出ました。DさんはCさんの後に出ましたが、Bさんの前に出ました。Eさんは全員の中で最も遅く公園を出ました。この5人が公園を出た順番を推論してください。 -
- September 04, 2024 121
MIstral-NeMoはMIstral AI社が開発した12Bの大規模言語モデル(パラメーターの数が120億個)です。多言語で訓練されていますので、日本語でのやりとりも問題ありません。比較的入手が容易でそこまで高価でないGeForce RTX 4080 Superが2枚あれば、ダウンロードしてオフラインでChatを楽しむことができます。やりかたはここを見れば簡単です。
今回はこのマシンで、試しました。以下はChatのやりとりです。
Prompt: 日本の首都はどこですか?
日本の首都は東京です。東京は日本の政治、経済、文化の中心であり、世界でも最も人口の多い都市の一つです。東京は1868年に明治天皇が東京に遷都して以来、日本の首都として機能しています。
=====================
Prompt: 次の文を文法的に正しい日本語に修正してください。「明日、学校行く。」
「明日、学校に行きます。」と修正してください。文法的に正しい日本語としては、「に」を付けて動詞の連用形「行きます」を使うのが適切です。また、敬語を使う場合は「行きます」を「参ります」に変えて「明日、学校に参ります。」と表現することもできます。
=====================
Prompt: 「全てのAはBである。CはAである。CはBであるか?」この命題の正しさを説明してください。
この命題は、シンプル・プレミセとメジャープレミセから構成される三段論法の例です。正しい三段論法の形は次のようになります:1. 全てのAはBである(メジャープレミセ)
2. CはAである(シンプル・プレミセ)
3. したがって、CはBである(コノセンス)この命題では、メジャープレミセは「全てのAはBである」と表現されています。これは、全てのAに関してBが当てはまるという一般的な主張を表しています。シンプル・プレミセは「CはAである」と表現されています。これは、CがAの一例であることを表しています。コノセンスは「CはBであるか?」と表現されていますが、これは三段論法の結論を問い合わせているように見えます。
この命題の正しさを判断するためには、メジャープレミセとシンプル・プレミセが正しいかどうかを確認する必要があります。もしメジャープレミセとシンプル・プレミセが正しい場合、コノセンスも正しいことになります。例えば、「全ての人々は死す(メジャープレミセ)」「ソクラテスは人々である(シンプル・プレミセ)」から「ソクラテスは死す(コノセンス)」という三段論法が成り立つように、この命題も同様に正しいことになります。
-
- July 24, 2024 592
この記事は未完成です。完成まで少しお待ちください。
今年4月にリリースされたUbuntu 24.04 LTSを使いHPC Clusterを構築します。この記事を書くに至った理由は次のとおりです。
私のお客様でHPC Clusterをお使いの方は何人かいらっしゃいますが、その中にCentOS 6.3の時代にHPC Clusterを構築させていただいて、毎年ノードを追加しながら25ノードのクラスタまで成長した事例があります。今年度1ノードを追加する際にOSも最新のものにアップグレードすることになりました。現地でスクラッチからHPC Clusterを構築するのは、時間もかかりますし、予期しないトラブルへの対処も難しいことから、私の作業場で小規模なHPC Clusterを構築して動作検証を行い、そのOSクローンを行ったUSBを使い、現地でノード数を拡大するという手順を採用しました。この記事では私の作業場での小規模HPC Cluster構築の手順を実際の体験に基づいて記述していきます。この方法で構築した26台のHPC Clusterがお客様の大学で順調に稼働しており、日夜計算が流されています。HPC Clusterを構築したい読者の役に立つよう、最短手数でのクラスタ構築の解説を行います。
この記事では4台のPCを使ってHPC Clusterを構築します(HPC Cluster構成図参照)。
-
- May 21, 2024 2207
以前の記事ではGPUがない場合の、Slurmのインストールと設定と使用方法を解説しましたが、この記事では8GPUのサーバーにSlurmのインストールと設定を行います。設定ファイルの自動生成のスクリプトの紹介も行っていますので、これを使えばGPUサーバーでのSlurmの設定も簡単に行うことができます。その後、tf cnn benchmarksを網羅的にジョブ投入して実行させてみます。OSはubuntu 22.04 LTSです。ubuntu 20.04 LTSとは設定ファイルの場所など微妙に異なりますので、ご注意ください
最初に、slurm-wlmパッケージをインストールします。コマンドはsudo apt install slurm-wlmを1行入力するだけですので簡単です。mungeなどの必要なパッケージは全てこのコマンド1つでインストールされます。
この後、/etc/slurm/slurm.confと/etc/slurm/gres.confを用意するのが面倒なのですが、スクリプトを使って使用するサーバーに合わせて自動生成します。それらのスクリプトの紹介も行います。
sudo apt install slurm-wlm
-
- February 17, 2024 526
消費電力が最大級のgpu、RTX4090を4枚でgpu burnすると消費電力はどのくらいになるのかIPMIから確認してみました。
使用したマシンはSupermicroのSYS-741GE-TNRT、CPU: 2 * Intel Xeon Silver 4110T TDP 150W、Memory : 16 * 32GB DDR5-4800 ECC RDIMM、SSD: 960GB M.2 PCIe Gen4 x4 NVMe M.2 SSDです。
gpu_burnを実行してしばらくすると最初のscreenshotの状態で安定します。