GPU Direct Storageを用いた大規模言語モデルのロード時間短縮手法

吉村, 剛; 千葉, 立寛; Takeshi, Yoshimura; Tatsuhiro, Chiba

WEKO3

インデックスツリー

RootNode

アイテム

GPU Direct Storageを用いた大規模言語モデルのロード時間短縮手法

https://ipsj.ixsq.nii.ac.jp/records/237552

名前 / ファイル	ライセンス	アクション
IPSJ-OS24164007.pdf (1.0 MB) 2026年8月1日からダウンロード可能です。	Copyright (c) 2024 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, OS:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2024-08-01

タイトル

GPU Direct Storageを用いた大規模言語モデルのロード時間短縮手法

言語

jpn

キーワード

主題Scheme

Other

主題

ストレージ・ネットワーク

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

IBM東京基礎研究所

著者所属

IBM東京基礎研究所

著者名

吉村, 剛
千葉, 立寛

著者名(英)

Takeshi, Yoshimura
Tatsuhiro, Chiba

論文抄録

内容記述タイプ

Other

内容記述

大規模言語モデルは様々な自然言語処理タスクを可能にし，ミリ秒単位のトークン生成の高速化が進んだ結果，様々なコンピュータサービスへの応用が広まっている．しかし，タスク処理能力に直結するモデルの大きさが 100 億パラメータ以上に増加した結果，GPU メモリへロードする時間が分単位近くまで増大してしまっている．その結果，スケーリング時や障害回復処理でのダウンタイム増加や開発時の待機時間の増加など，様々な悪影響が懸念される．本研究は現状の safetensors ファイル向けのモデルローダの非効率的な箇所を分析し，特にホストメモリをバウンスバッファとしてのみ利用している点を解決する．具体的には GPU Direct Storage を用いることで，ファイルシステムから GPU メモリへのロード部分にかかるオーバヘッドを削減する．本論文では実験結果として 400 億パラメータの Falcon および 1760 億パラメータの Bloom においてそれぞれ 9.4 倍と 3.3 倍の性能改善を得られたことを示す．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10444176

書誌情報

研究報告システムソフトウェアとオペレーティング・システム（OS）

巻 2024-OS-164, 号 7, p. 1-8, 発行日 2024-08-01

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8795

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 08:50:51.024669

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

GPU Direct Storageを用いた大規模言語モデルのロード時間短縮手法

× 吉村, 剛

× 千葉, 立寛

× Takeshi, Yoshimura

× Tatsuhiro, Chiba

Versions

Share

Cite as

エクスポート