← Về trang Blog

🚀 MTP Head — Khi AI Học "Nhảy Chữ" để Trả Lời Nhanh Gấp 3 Lần

So sánh trước và sau khi có Multi-Token Prediction — kết quả thực tế trên Qwen3.6


Bạn có bao giờ chờ AI trả lời một câu hỏi chưa? Đôi khi nó mất vài giây, vài chục giây. Lý do rất đơn giản: AI viết từng từ một.

MTP Head (Multi-Token Prediction) là một kỹ thuật mới giúp AI đoán trước nhiều từ tiếp theo, rồi viết chúng cùng lúc — giúp tốc độ tăng gấp 2.5 đến 3 lần mà không làm giảm chất lượng.

📖 MTP là gì? Giải thích đơn giản

Không có MTP (cách cũ)

Giống như đọc sách từng chữ một:

"Trên" → dừng → "đường" → dừng → "đằng" → dừng → "khổ" → dừng ...

Mỗi từ đều phải chờ AI "suy nghĩ" riêng. Nếu câu trả lời 100 từ → 100 lần AI phải xử lý.

Có MTP (cách mới)

Giống như đọc hiểu — não bạn không chỉ đoán từ tiếp theo, mà đoán luôn cả câu tiếp theo:

"Trên đường khổ..." → nhảy ngay → "khổ đau sẽ đến" → nhảy ngay → "nhưng hạnh phúc sẽ đến sau"

💡 MTP (Multi-Token Prediction): Thay vì chỉ đoán từ tiếp theo, AI học cách đoán luôn 3-4 từ tiếp theo dựa trên ngữ cảnh. Giống như người đọc nhanh vậy — họ không đọc chữ, họ đọc cả câu.

🔬 MTP hoạt động thế nào?

Cơ chế training

Trong quá trình train, model được dạy:

Mỗi vị trí trong mạng neural sẽ có thêm các "head" phụ (auxiliary heads) để dự đoán các token tương lai. Các head này học cách dự đoán dựa trên hidden state của model chính.

Cơ chế inference (khi trả lời)

Khi đang sinh văn bản, MTP head hoạt động như một draft model nội bộ:

  1. Main model suy nghĩ một lần → trả về hidden state
  2. MTP head dùng hidden state này để viết nháp 3-4 token cùng lúc
  3. Main model xác nhận các token này: đúng thì giữ, sai thì sửa
  4. Nếu đúng → tiết kiệm thời gian (vì viết nhiều token trong 1 lần forward)
  5. Nếu sai → phải viết lại từ đầu, nhưng bù lại vẫn nhanh hơn

📊 So sánh trước và sau khi có MTP

Chỉ số Trước MTP Sau MTP Thay đổi
Tốc độ decode 1x (bình thường) 2.5 - 3x ⬆️ Nhanh gấp 3 lần
Chất lượng 100% 100% ✅ Không giảm
Acceptance rate N/A ~98% ⬇️ Giảm rất nhỏ, chấp nhận được
Chi phí GPU Cao Thấp hơn 2/3 💰 Tiết kiệm đáng kể
Setup Đơn giản Không cần draft model riêng 🔧 Đơn giản hơn

🎯 Kết quả thực tế trên Qwen3.6

💻 Model: Qwen3.6 35B-A3B-MTP-GGUF (UD-Q3_K_XL)
📈 GPU: RTX 3090 (24GB VRAM)
⚙️ Setup: llama.cpp với --spec-type draft-mtp --spec-draft-n-max 3

Tốc độ decode

Task Không MTP Có MTP Tăng tốc
📝 Narrative ~50 tok/s ~134 tok/s ~2.7x
💻 Code ~60 tok/s ~177 tok/s ~3.0x

Acceptance rate (tỷ lệ token đúng)

Mỗi lần MTP viết nháp 3 token, main model xác nhận. Kết quả:

❓ Tại sao acceptance rate không phải 100%?

Không phải lúc nào AI cũng đoán đúng. Giống như bạn đọc nhanh một cuốn sách và "nhảy chữ":

Nhưng tốc độ trung bình vẫn nhanh hơn gấp 3 lần, và quan trọng nhất — chất lượng câu trả lời không bị ảnh hưởng. Vì main model vẫn xác nhận từng token trước khi chấp nhận.

🔍 MTP khác gì so với cách cũ?

Trước MTP (Speculative Decoding truyền thống)

Sau MTP (Built-in Speculative Decoding)

📝 Tổng kết

MTP Head giống như việc AI học cách "đọc nhanh" — nó không chỉ đoán từ tiếp theo, mà đoán luôn cả một đoạn. Kết quả:

Và quan trọng nhất: nó hoạt động ngay lập tức trên các model đã được train với MTP như Qwen3.6, DeepSeek-V3, Nemotron 3 Super.


🚀 Performance 💻 LLM ⚡ Speed 📝 MTP

Tham khảo: Sebastian Raschka's LLM Architecture Gallery, vLLM Documentation, Qwen3.6 Technical Report, DeepSeek-V3 Technical Report, NVIDIA Megatron-Bridge, FastMTP (Tencent, 2025)