1-bit LLM「Bonsai-8B」をRTX 4080に8台載せて並列推論を試した全記録

TL;DR PrismMLの1-bit LLM「Bonsai-8B」(1.07GB) をRTX 4080 (16GB) に 8プロセス同時起動できた 1台で260 tok/s、8台同時リクエストでも全台が2秒以内に応答アンサンブル推論（7台で回答→1台で統合）を試したが、精度は +1.7pp でほぼ誤差ファンアウト検索（質問分解→並列深掘り→統合）は構造化に強いがコンテキスト...