1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録
TL;DR PrismMLの1-bit LLM「Bonsai-8B」(1.07GB) をRTX 4080 (16GB) に 8プロセス同時起動 できた 1台で260 tok/s、8台同時リクエストでも全台が2秒以内に応答 アンサンブル推論(7台で回答→1台で統合)を試したが、精度は +1.7pp でほぼ誤差 ファンアウト検索(質問分解→並列深掘り→統合)は構造化に強いがコンテキスト...
みんなの反応
はてなブックマークでの反応
