cookie が無効になっている場合、ストアは正しく機能しません。
Blog
-
Ken Hanabusa
- November 07, 2025
11
Ep.2 | LLZO–Li 界面を Quantum ESPRESSO + GPU で幾何最適化する(再現可能な手順・落とし穴つき)
TL;DR(本編のゴール)
- 目的: 界面モデルの 安定構造 をつくる(以降の 電荷再分布・DOS/PDOS(Ep.3)、AIMD/DeePMD 学習(Ep.4)の土台)。
- 完了条件: 幾何最適化(
relax / 必要なら vc-relax)で max|F| < 1e-3 Ry/Bohr、残留圧力 < 0.5 kbar を達成。
- いまの進捗: まず SCF ベースラインを 4×A100 で取得済(42イテレーションで収束、詳細は下の「ベースライン結果」)。この状態から 幾何最適化へ進めます。
- この記事でできること: ブログの内容をコピペするだけで 同条件で再現できます(擬ポテMD5、k点、KS数、壁時計時間などの 再現性メタデータ付き)。
計算環境(GPU)
| QE | Quantum ESPRESSO 7.4.1(GPUビルド) |
| GPU/CPU | NVIDIA A100 80GB × 4(単一ノード) / MPI 4 ranks, OpenMP 1 thread |
| ツールチェイン | NVHPC 25.7(CUDA 12.9, HPC-X Open MPI 2.22.1) |
| 実行スクリプト | run_qe_4gpu_auto.sh(npool自動、GPU静音化のヒントつき) |
| 作業ディレクトリ | ~/li_llzo_if_demo/qe/llzo_if |
すぐ試せる:コピー&ペースト手順(4GPU)
0) 擬ポテンシャル(短名に統一 / symlink)
mkdir -p ./pseudos_min
ln -sf /home/dl/li_llzo_if_demo/qe/llzo_if/pseudos/Li.pbe-s-van_ak.UPF ./pseudos_min/Li.UPF
ln -sf /home/dl/li_llzo_if_demo/qe/llzo_if/pseudos/O.pbe-rrkjus.UPF ./pseudos_min/O.UPF
-
Ken Hanabusa
- October 31, 2025
28
Quantum ESPRESSO / DOS / PDOS / LLZO / Li metal interface
この記事の目的:LLZO–Li 界面モデルの電子状態を解析する第一歩として、
全元素・全軌道の寄与(PDOS)を E − EF 軸で可視化し、
「どの元素(どの軌道)が価電子帯上部・伝導帯下部を支配しているか」を把握します。
これは、界面でのバンド整列(Band Alignment)や電子注入の起こりやすさの見積り、ひいては デンドライト成長の駆動因子を議論するための基礎データになります。
つまり、「LLZO のどの原子が電子を運びやすいか」を調べることで、 リチウム金属と接したときにデンドライトが伸びる/伸びない原因を探る第一歩となります。
0. 環境と準備
- QE 7.4.1(GPU 版で SCF/NSCF、PostProc はCPUビルド)
- OpenBLAS/FFTW(pp は CPU スレッドで可)
- インプット/アウトプットはプロジェクト直下
./tmp/if_gap3p0.save/
PostProc(pp)の最小ビルド
# 例:ソース直下で CMake ビルド
cd /home/dl/src/q-e-qe-7.4.1
mkdir -p build-pp-cmake && cd build-pp-cmake
cmake ../ -DQE_ENABLE_OPENMP=ON -DQE_ENABLE_CUDA=OFF -DQE_ENABLE_CUDA_HOST=OFF \
-DQE_ENABLE_LIBXC=OFF -DQE_ENABLE_SCALAPACK=OFF -DQE_ENABLE_MPI=OFF
cmake --build . --target pp -j$(nproc)
# 実行パスを追加
export PATH="/home/dl/src/q-e-qe-7.4.1/build-pp-cmake/bin:$PATH"
1. 界面モデル(要旨)
界面モデルの構成(LLZO 基板 + Li 層 + 真空、格子合わせの簡易最適化など)は Ep.0 の方針に従います。
本ノートでは計算レシピの最短経路に集中し、詳細な構造パラメータは付録/レポで提供します。
2. SCF(初期密度)
# scf.in(抜粋)
&control
calculation='scf',
-
Ken Hanabusa
- October 31, 2025
15
本シリーズでは、全固体電池の固体電解質 LLZO(リチウム・ランタン・ジルコネート)と金属リチウム負極の界面で、なぜデンドライトが生えるのかという根源的な問いに、第一原理計算(Quantum ESPRESSO)+DeepMD+LAMMPSのパイプラインで迫ります。
この記事(Ep.0=導入)のゴール
- 本シリーズの狙いと到達点(どんな課題を解くか/解くと何が嬉しいか)を最初に俯瞰。
- 使用するツールと検証環境(
QE 7.4.1・DeepMD・LAMMPS ほか)を明確化。
- Ep.1 以降の手順(構造作成 → 電子状態(DOS/PDOS)→ 構造緩和 → Li 拡散/デンドライト萌芽の前哨戦)の全体像を提示。
1. この連載でやること(全体像)
- Ep.1:LLZO–Li 界面を “再現できる” 形で構築し、
Quantum ESPRESSO で DOS/PDOS(電子状態)を取得。
Ep.2:構造最適化(SCF → NSCF)を安定化。
メッシュ・収束条件・擬ポテンシャルの選び方を含む「つまずきポイント」を具体例で解説。Ep.3:LLZO バルクと界面の 電子密度・電荷再分布・バンドギャップを比較。界面の電気化学的安定性を考察。Ep.4:第一原理分子動力学(AIMD)→ DeepMD+LAMMPS による大規模拡散シミュレーションへ発展。
H200 NVL ×4 環境で「リチウムの道(Li-ion pathway)を 3D で可視化」。
2. なぜ取り組むのか(意義)
- 安全性と高性能の両立:LLZO は高いイオン伝導率と不燃性を両立できる有望材料。だが Li デンドライト侵入は実用化の最大課題。
- 実験+計算の補完: ナノスケールの界面で起きる電子・イオンの再配列は、実験だけでは全容把握が難しい。第一原理計算と機械学習ポテンシャルが有効。
- 設計指針の獲得: 表面修飾・ドーピング・応力設計などの「利くツボ」を、電子構造の観点から説明可能にする。
3. 再現の鍵(Repo / 環境)
| 対象 |
構成/バージョン |
| 試料 |
LLZO–Li 界面(3×3×3 立方セル / 96原子 + Li 薄片) |
| 第一原理 |
Quantum ESPRESSO 7.4.1(pw.x、projwfc.x) |
| MD/ML |
DeepMD-kit、LAMMPS(後続回) |
-
Ken Hanabusa
- October 25, 2025
33
H200 NVL × QE / DeePMD / LAMMPS で、“DFT級の理解”を “MDスケールの現象”へ
本バンドルは、DFT(Quantum ESPRESSO)で得た忠実度の高いデータから DeePMD でポテンシャルを学習し、 LAMMPS で ナノ秒級・スーパーセル規模のダイナミクスを回す――という 「精度×時間×サイズ」のトレードオフを一気に突破します。
新しくできること
- DFT級の化学精度を保ったまま、数 ns 規模の拡散・相転移・界面現象を追跡
- 温度・欠陥・ドープ量などのパラメータスイープを短サイクルで反復
- 結果を“回せる 3D HTML”で即共有(論文・社内レビュー・営業資料に直送)
従来難しかった理由
- 純粋な ab initio MD は桁違いに重く、ns スケールは現実的でない
- QE/DeePMD/LAMMPS を安定共存&GPU最適化する構築コストが高い
- 計算~可視化までが分断され、成果の共有に時間がかかった
H200 NVL が効く理由
- 大容量・高帯域 HBMで学習と長時間 MD を安定高速化
- NVLink による GPU 間通信でスケール&I/O 待ちを抑制
- 動作検証済みバンドルで、導入初日から再現可能
以下に、LLZO 中の Liイオン拡散経路を、ブラウザで自由に回転できる 3D インタラクティブとして公開します。凡例(Legend)クリックで骨格原子の表示/非表示を切替できます。
結果①:センタータイル(1/27)
単位胞を 3×3×3 に分割した中央タイル内部だけを抜き出して、Li のボクセル密度を Turbo カラーマップで点群表示。骨格原子は中央タイル分のみ描画(Legend で切替可)。
※ マウスドラッグで回転、ホイールでズーム、右ドラッグで平行移動。
凡例クリックで La/Zr/O の表示/非表示を切替。3D ツールバー(右上)でカメラ操作も可能です。 フルスクリーンで開く
結果②:3×3×3 スーパーセル(全域)
LAMMPS の 5 ns 計算結果から、3×3×3 スーパーセル全域の Li のボクセル密度を高解像度でプロット。 骨格原子と重ねて、結晶全体の連結パスを俯瞰できます(Legend で切替可)。
点群の色はヒット頻度を表現しています。凡例クリックで骨格原子のトグルが可能です。
-
Ken Hanabusa
- August 25, 2025
11
第2回: シリコンにフェムト秒レーザーで穴を開ける——GPUシミュレーション“予習編”
要約:本番の「Si 薄膜 × フェムト秒レーザー」分子動力学を成功させるため、まず Quantum ESPRESSO で基礎データを収集しました。A100 80GB ×4 機での実測時間を整理し、どのケースが穴あけシミュレーションの何を支えるのかをストーリー仕立てで説明します。さらに、H200 NVL に置き換えた場合の時間短縮効果も展望します。
TL;DR:液体化と空孔形成が最重量級。A100×4 で 1 ステップ 70–95 秒、総時間は 2.8–3.7 時間級。Bulk/Strain は 1 ステップ 2–3 秒台で網羅向き。H200 NVL×4 なら概ね 1.7–2.3×(推定)短縮、8GPU でさらに半減レンジ。
なぜ“予習”が必要か:ケースの役割を物語で理解
① Bulk(バルク)=「健康診断」
シリコン結晶の標準状態を決めます。これがないと、レーザー照射後の「異常」を正しく比較できません。
② Strain(ひずみ)=「耐久テスト」
引張・圧縮で材料の応力–歪み特性を把握。レーザーによる瞬間的な膨張・収縮を理解する基盤となります。
③ Liquid(液体化)=「氷が解ける瞬間の再現」
レーザー直下では Si が溶融します。液体状態を正しく記述できなければ、溶け拡がりや再凝固の描像は成立しません。計算負荷は最重量級。
④ Void(空孔)=「割れ目のタネ」
欠陥や空孔は、穴あけの起点になります。局所的な応力集中や熱流入を理解するために必須です。
A100×4 実測まとめ(WALL 時間)
総時間ランキング
| カテゴリ |
ケース |
総時間 (秒) |
備考 |
| 最重量級 |
strain_extra/strain_extra_T600K |
13260 |
ひずみ拡張大規模 |
| 重量級 |
voids/void_strain_+00pct_T300K |
10500 |
空孔シミュレーション |
| 重量級 |
voids/void_strain_+05pct_T300K |
10080 |
空孔シミュレーション |
| 液体 |
liquid/liquid_T3000K |
1115.99 |
溶融 Si 高温 |
| 液体 |
liquid/liquid_T2000K |
570.22 |
溶融 Si 中温 |
1ステップあたり時間ランキング
-
Ken Hanabusa
- August 24, 2025
22
【予告編】GPU で拓く未来のシミュレーション —— シリコン薄膜 × フェムト秒レーザー
要約:これまで困難だった「シリコン薄膜にフェムト秒レーザーを照射し、原子レベルで穴が形成される過程」を、DeepMD + LAMMPS + GPUサーバーという最新スタックで再現する試みが始まりました。この記事は本編シリーズの予告編です。
TL;DR:「現実には絶対に観測できない瞬間」を GPU によるシミュレーションで可視化。その迫力と実用価値をお届けします。
1. 誰も見たことのない現象を映像化する
シリコン薄膜にフェムト秒レーザーを照射すると、わずか数百フェムト秒の間に原子が弾き飛ばされ、穴が形成されます。
これまでの理論や実験では「起きる」ことは分かっても、その ダイナミクス を再現するのはほぼ不可能でした。
しかし今、GPU を活用した新しいアプローチで、その瞬間を映像化できるようになったのです。
2. これまでの壁 —— なぜ不可能だったのか?
- 第一原理分子動力学(DFT-MD)はサイズ・時間スケールの制約が大きすぎた
- 古典ポテンシャル(Tersoff 等)はレーザー誘起の非平衡現象を正しく記述できなかった
結果として「穴が空くシーン」を原子スケールで追いかけることは夢物語でした。
3. DeepMD が開いた突破口
Deep Potential Molecular Dynamics (DeepMD) は、第一原理計算(Quantum ESPRESSO)で生成したデータをディープラーニングで学習し、現実的な時間・サイズでの分子動力学を可能にします。
これにより、従来の 1,000 ステップ級の制約を超え、数百万ステップにわたるシミュレーションを GPU で実行できるようになりました。
4. 実用的価値とインパクト
- 半導体加工:EUV を超える次世代微細加工の理解
- 光応答材料:耐レーザー性や新規設計への応用
- 教育・可視化:研究室や展示で「原子の世界」を直感的に伝えられる
つまり「派手で人目を引く」だけでなく、「研究・産業的に意味がある」テーマなのです。
5. GPU サーバーの役割
今回の挑戦は A100 80GB ×4GPU サーバーを用いて進めています。
本編記事では、ここで得られた計算時間を基準に、H200 NVL 4GPU / 8GPU
-
Ken Hanabusa
- August 24, 2025
47
第1回・入門編:Quantum ESPRESSO で何を計算すれば「シリコン薄膜 × フェムト秒レーザー」を再現できるのか?
要約:この記事では、シリコン薄膜にフェムト秒レーザーを照射して穴を開けるシミュレーションを行うために、Quantum ESPRESSO(QE)で必要となる計算の種類と役割を整理します。「なぜこの計算が必要か」を理解することで、後続の DeepMD 学習や LAMMPS 実行の意味がつながります。
TL;DR:基礎構造 → 表面 → 欠陥 → 高温挙動。この順で QE のデータを揃えれば、レーザー照射のダイナミクスを DeepMD で学習し、LAMMPS によって原子レベルでの「穴あき」を再現できます。
目次
- バルク計算(シリコン結晶の基準点)
- 薄膜(スラブ)計算
- 欠陥・空孔計算
- 液体相(高温シリコン)計算
- 歪み(strain)計算
- これらがどう役立つか(DeepMD 学習との関係)
1. バルク計算 —— シリコンの「教科書的」基準
最初に必要なのは シリコン結晶(ダイヤモンド構造)のバルク計算です。
ここで得られる格子定数・エネルギー・力は 全ての基準点になります。
たとえば、レーザーで加熱する前の「健全なシリコン」の姿を定義する役割です。
2. 薄膜(スラブ)計算 —— 表面を作る
次に 薄膜(スラブ)構造を計算します。
レーザー照射は基本的に「表面現象」なので、周期境界の中にシリコン薄膜+真空層をつくり、表面の安定性や原子の動きやすさを評価します。
ここがなければ「穴が開く場所そのもの」がモデル化できません。
3. 欠陥・空孔計算 —— 穴のタネを仕込む
レーザーが当たった瞬間にすぐ原子が飛び出すわけではなく、欠陥や空孔が拡大していくことで穴が成長します。
そこで、シリコン結晶や薄膜に原子を抜いた状態を作り、「欠けたときの力学応答」を QE で計算しておきます。
4. 液体相(高温シリコン)計算 —— 溶ける過程
レーザーで数千 K に加熱されたシリコンは 一瞬で液体化します。
そのため、液体状態のシリコンを QE で分子動力学(MD)しておくことが重要です。
これにより「固体から液体へ移行する原子の動き」を学習データに反映できます。
5. 歪み(strain)計算 —— 引き延ばし・圧縮の効果
最後に strain(引張・圧縮)を加えた構造
-
Ken Hanabusa
- August 24, 2025
43
フェムト秒レーザーとは何か――シリコン薄膜に穴を開ける最先端技術
要約:フェムト秒レーザーは「1フェムト秒=10-15秒」という極短パルスの光を発する特殊なレーザーです。この超高速パルスにより、物質の熱拡散を抑えながら原子・分子レベルで精密加工が可能になります。従来のレーザーでは困難だった「シリコン薄膜に微細な穴を開ける」シナリオが現実の技術応用として見えてきました。
TL;DR:フェムト秒レーザーは「熱で溶かす」前に加工が終わる。だからシリコン薄膜にナノスケールの穴を正確に開けられる。
1. フェムト秒レーザーとは?
フェムト秒レーザーは極めて短い時間幅の光パルスを照射するレーザーで、代表的には「チタンサファイアレーザー」などが使われます。その特徴は:
- パルス幅が極端に短い:10-15秒単位
- 高ピーク強度:瞬間的に巨大なエネルギーを物質表面に集中
- 熱拡散を抑制:熱が広がる前に加工が完了するため、周辺に損傷を与えにくい
2. なぜシリコン薄膜に穴を開けるのにフェムト秒レーザーを使うのか
従来のナノ加工手法(ナノインプリントや電子線加工)には以下の課題がありました:
- 加工速度が遅い
- 熱による変形・欠陥が避けられない
- 大面積加工への展開が難しい
フェムト秒レーザーはこれを克服します。
- 熱影響が極小 → 周囲の結晶を壊さず穴を開けられる
- 高い再現性 → 同じ条件なら同じサイズの穴が形成可能
- 高スループット → レーザーパルスをアレイ化すれば大面積加工も視野に
3. 実用的価値:どんな応用があるのか
- 半導体微細加工:次世代トランジスタや光学デバイスの作製
- フォトニクス:シリコンフォトニクス用のナノホールアレイ形成
- バイオ応用:センサー基板やDNAチップへの加工
つまり「現実には目で見られない微細な加工」を可能にすることが、フェムト秒レーザーの実用的価値です。
4. シミュレーションでの挑戦とGPUの役割
ただし、このプロセスを「原子レベル」でシミュレーションするのは極めて難しい課題でした。従来の分子動力学や第一原理計算では計算コストが膨大で、ナノ秒スケールすら現実的に扱えませんでした。
ここで登場するのが DeepMD(機械学習ポテンシャル) と GPU サーバーです。Quantum ESPRESSO で生成したデータを DeepMD で学習し、LAMMPS
-
Ken Hanabusa
- August 13, 2025
45
CPU で材料計算を回しているなら——いまが GPU への乗り換え時。A100 実測を踏まえた H200 NVL 141GB(PCIe)導入ガイド
CPU で材料計算を回しているなら——いまが GPU への乗り換え時。A100 実測を踏まえた H200 NVL 141GB(PCIe)導入ガイド
要約:量子化学・固体計算を CPU で回している研究室では 1 本の SCF にも何十分もかかるのが日常です。この記事では Quantum ESPRESSO(QE)GPU 版を A100 80GB ×4 機で実測し、最短 47.35 秒を確認しました。比較用に CPU 64 MPI では 10分58.33秒(658.33 秒)で、約 13.9× 高速化です。さらに H200 NVL 141GB(PCIe)×4 なら、HBM 帯域と容量の伸びから おおむね 1.7〜2.3×(推定)短縮が期待できます。つまり「分」単位の計算が「十数秒」へ。
TL;DR:CPU 64MPI ≈ 10分58秒 → A100×4 ≈ 47秒(13.9×)。H200×4(推定)で 20〜30 秒台のレンジ。
目次
- なぜ今 GPU なのか(Gaussian ユーザーにも刺さる話)
- テスト環境(読者マシン比較用スペック表)
- ベンチマーク条件(QE / Au 表面「DEISA pw」)
- 結果:CPU vs GPU の実測比較と 1 / 2 / 4 GPU スケール
- H200 NVL 141GB ×4 はどこまで短縮できるか(推定)
- Gaussian ユーザーへの現実的な移行ライン
- 再現方法とスクリプト
- どの構成を選ぶか:1 / 2 / 4 GPU の目安
1. なぜ今 GPU なのか(Gaussian ユーザーにも刺さる話)
Gaussian を長年お使いの方ほど CPU を積み増すことで凌いできましたが、表面・周期境界系では FFT/BLAS とメモリ帯域がボトルネックになりがちです。QE(平面波・擬ポテンシャル)はここを GPU に逃がせます。FFT、ハミルトニアン作用、密度生成など重い箇所を GPU に載せ、PCIe/NVLink の転送を抑える実装が成熟。結果として、A100×4 実測で「分」が「秒」になりました。
2. テスト環境(読者マシン比較用スペック表)
-
Ken Hanabusa
- May 20, 2025
65
RTX A6000 と RTX PRO 6000 Blackwell Max-Q (デスクトップ向け) ― PyTorch 学習ワークロード向け比較表
|
指標
|
RTX A6000
|
RTX PRO 6000 Blackwell Max-Q
|
|
アーキテクチャ
|
Ampere (GA102)
|
Blackwell (GB202)
|
|
CUDA コア数
|
10 ,752
|
24 ,064
|
|
Tensor コア
|
第 3 世代 ×336
|
第 5 世代 ×752
|
|
FP32 理論性能
|
38.71 TFLOPS
|
110.1 TFLOPS
|
|
GPU メモリ
|
48 GB GDDR6
|
96 GB GDDR7
|
|
メモリ帯域幅
|
768 GB/s
|
1 ,792 GB/s
|
|
TDP (公称)
|
300 W
|
300 W
|
|
1 W あたり FP32
|
0.13 TFLOPS/W
|
0.37 TFLOPS/W
|
|
典型的学習速度*(ResNet-50, 224², AMP/TF32)
|
1 × (≈1,800 p>
|
≈2.8–3 ×
|
|
典型的学習速度*(BERT-Large pre-train, FP16)
|
1 × (≈21 k token/s)
|
≈3.0–3.5 ×
|
|
特記事項
|
• TF32/FP16• NVLink (96 GB)
|
• FP8/FP4, MIG 4 分割• PCIe 5.0, NVLink v4
|
*学習速度は公開ベンチマーク(A6000)と Blackwell の理論性能/FP8・帯域の伸びを基にした 推定値 です。実際の値はフレームワーク・ドライバの成熟度、モデル実装、I/O ボトルネックで上下します。
1. 画像分類ワークロード(例:ImageNet、ViT)
-
計算性能 FP32 で約 2.8 倍、FP8 を使うと行列演算は最大 4 倍に達します。
-
メモリ バッチサイズをほぼ 2 倍に拡大でき、勾配累積が不要になり I/O 待ちが減少。
-
実効速度 PyTorch 2.4 + torch.compile を想定すると、単 GPU で ~5,000 s)。
2. 自然言語処理(例:BERT-Large、Llama 7B)
Copyright © 2013-現在 Magento, Inc. All rights reserved.