By PANews – 2025/02/26 10:41:30 (JST)
DeepSeekは、効率的なFP8 GEMM操作のために設計されたCUDAライブラリDeepGEMMをリリースしました。これにより、V3/R1モデルのトレーニングと推論が強化されます。このリリースはOpenSourceWeek中に行われ、密な行列計算とMixtures of Experts (MoE)アーキテクチャに重点を置いています。
DeepGEMMは、Hopper GPU上で1350 FP8 TFLOPSを超える超高性能を達成し、簡単な実装のために最小限の依存関係を特徴としています。また、Just-In-Time (JIT)コンパイルを利用し、事前コンパイルなしでランタイム中にパフォーマンスを最適化します。
約300行のコアコードを持つDeepGEMMは、さまざまな行列サイズにおいて多くの専門的に最適化されたカーネルを上回ります。さらに、密なレイアウトをサポートし、MoEのための2つの構成を提供することで、開発者にとって多用途なツールとなっています。
※これは引用元記事をもとにAIが書いた要約です (画像の権利は引用元記事に記載のクレジットに帰属します)
類似記事
- DeepSeekがオープンソースウィークを開始 (類似度: 88.7%)
- インサイダー:DeepSeekは5月前に次世代R2モデルをリリースする可能性がある (類似度: 85.8%)
- DeepSeekが来週5つのコードリポジトリをオープンソース化予定 (類似度: 85.5%)