So sánh trước và sau khi có Multi-Token Prediction — kết quả thực tế trên Qwen3.6
Bạn có bao giờ chờ AI trả lời một câu hỏi chưa? Đôi khi nó mất vài giây, vài chục giây. Lý do rất đơn giản: AI viết từng từ một.
MTP Head (Multi-Token Prediction) là một kỹ thuật mới giúp AI đoán trước nhiều từ tiếp theo, rồi viết chúng cùng lúc — giúp tốc độ tăng gấp 2.5 đến 3 lần mà không làm giảm chất lượng.
Giống như đọc sách từng chữ một:
"Trên" → dừng → "đường" → dừng → "đằng" → dừng → "khổ" → dừng ...
Mỗi từ đều phải chờ AI "suy nghĩ" riêng. Nếu câu trả lời 100 từ → 100 lần AI phải xử lý.
Giống như đọc hiểu — não bạn không chỉ đoán từ tiếp theo, mà đoán luôn cả câu tiếp theo:
"Trên đường khổ..." → nhảy ngay → "khổ đau sẽ đến" → nhảy ngay → "nhưng hạnh phúc sẽ đến sau"
Trong quá trình train, model được dạy:
Mỗi vị trí trong mạng neural sẽ có thêm các "head" phụ (auxiliary heads) để dự đoán các token tương lai. Các head này học cách dự đoán dựa trên hidden state của model chính.
Khi đang sinh văn bản, MTP head hoạt động như một draft model nội bộ:
| Chỉ số | Trước MTP | Sau MTP | Thay đổi |
|---|---|---|---|
| Tốc độ decode | 1x (bình thường) | 2.5 - 3x | ⬆️ Nhanh gấp 3 lần |
| Chất lượng | 100% | 100% | ✅ Không giảm |
| Acceptance rate | N/A | ~98% | ⬇️ Giảm rất nhỏ, chấp nhận được |
| Chi phí GPU | Cao | Thấp hơn 2/3 | 💰 Tiết kiệm đáng kể |
| Setup | Đơn giản | Không cần draft model riêng | 🔧 Đơn giản hơn |
--spec-type draft-mtp --spec-draft-n-max 3
| Task | Không MTP | Có MTP | Tăng tốc |
|---|---|---|---|
| 📝 Narrative | ~50 tok/s | ~134 tok/s | ~2.7x |
| 💻 Code | ~60 tok/s | ~177 tok/s | ~3.0x |
Mỗi lần MTP viết nháp 3 token, main model xác nhận. Kết quả:
Không phải lúc nào AI cũng đoán đúng. Giống như bạn đọc nhanh một cuốn sách và "nhảy chữ":
Nhưng tốc độ trung bình vẫn nhanh hơn gấp 3 lần, và quan trọng nhất — chất lượng câu trả lời không bị ảnh hưởng. Vì main model vẫn xác nhận từng token trước khi chấp nhận.
MTP Head giống như việc AI học cách "đọc nhanh" — nó không chỉ đoán từ tiếp theo, mà đoán luôn cả một đoạn. Kết quả:
Và quan trọng nhất: nó hoạt động ngay lập tức trên các model đã được train với MTP như Qwen3.6, DeepSeek-V3, Nemotron 3 Super.
Tham khảo: Sebastian Raschka's LLM Architecture Gallery, vLLM Documentation, Qwen3.6 Technical Report, DeepSeek-V3 Technical Report, NVIDIA Megatron-Bridge, FastMTP (Tencent, 2025)