LongCat-Flash-Lite,美團 2026 年 2 月發布,560B MoE 模型,Apache 2.0 授權,256K 上下文,GPQA 66.8%,長文本處理能力突出。
| 量化 | 1K | 4K | 8K | 16K | 32K | 64K | 128K |
|---|---|---|---|---|---|---|---|
| FP16 / BF16 | 1121.6 GB | 1125.1 GB | 1128.5 GB | 1134.5 GB | 1144.9 GB | 1163.3 GB | 1195.3 GB |
| Q2_K | 183.6 GB | 187.1 GB | 190.5 GB | 196.5 GB | 206.9 GB | 225.3 GB | 257.3 GB |
| Q3_K_M | 246.6 GB | 250.1 GB | 253.5 GB | 259.5 GB | 269.9 GB | 288.3 GB | 320.3 GB |
| Q4_K_M★ | 316.6 GB | 320.1 GB | 323.5 GB | 329.5 GB | 339.9 GB | 358.3 GB | 390.3 GB |
| Q5_K_M | 386.6 GB | 390.1 GB | 393.5 GB | 399.5 GB | 409.9 GB | 428.3 GB | 460.3 GB |
| Q6_K | 456.6 GB | 460.1 GB | 463.5 GB | 469.5 GB | 479.9 GB | 498.3 GB | 530.3 GB |
| Q8_0 | 596.6 GB | 600.1 GB | 603.5 GB | 609.5 GB | 619.9 GB | 638.3 GB | 670.3 GB |
適合進階用戶,支援 CPU 和 GPU 混合推理,可精確控制量化等級。
# Download GGUF model from Hugging Face, then run: ./llama-cli -m model.gguf -p "Hello" -n 128
適合生產環境,支援批次推理和 OpenAI 相容 API。
pip install vllm vllm serve LongCat --dtype auto
分享你的使用體驗,幫助其他人了解這個模型