DeepSeekがDeepGEMMをリリース:V3/R1トレーニングと推論を最適化する効率的なFP8 GEMMライブラリ

By PANews – 2025/02/26 10:41:30 (JST)

DeepSeekは、効率的なFP8 GEMM操作のために設計されたCUDAライブラリDeepGEMMをリリースしました。これにより、V3/R1モデルのトレーニングと推論が強化されます。このリリースはOpenSourceWeek中に行われ、密な行列計算とMixtures of Experts (MoE)アーキテクチャに重点を置いています。

DeepGEMMは、Hopper GPU上で1350 FP8 TFLOPSを超える超高性能を達成し、簡単な実装のために最小限の依存関係を特徴としています。また、Just-In-Time (JIT)コンパイルを利用し、事前コンパイルなしでランタイム中にパフォーマンスを最適化します。

約300行のコアコードを持つDeepGEMMは、さまざまな行列サイズにおいて多くの専門的に最適化されたカーネルを上回ります。さらに、密なレイアウトをサポートし、MoEのための2つの構成を提供することで、開発者にとって多用途なツールとなっています。

※これは引用元記事をもとにAIが書いた要約です (画像の権利は引用元記事に記載のクレジットに帰属します)

(β版: 記事が長い場合は動かない可能性があります)

類似記事

Share on: