1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録

TL;DR PrismMLの1-bit LLM「Bonsai-8B」(1.07GB) をRTX 4080 (16GB) に 8プロセス同時起動 できた 1台で260 tok/s、8台同時リクエストでも全台が2秒以内に応答 アンサンブル推論(7台で回答→1台で統合)を試したが、精度は +1.7pp でほぼ誤差 ファンアウト検索(質問分解→並列深掘り→統合)は構造化に強いがコンテキスト...

みんなの反応

はてなブックマークでの反応
"ねとなび"は今ネットで話題になっている最新記事と最新ニュースを全部まとめてチェックすることができるサイトです。 スマートフォンからも同じURLで閲覧できます。
人気の反応
ニュース