🚀 MTP Head — Khi AI Học "Nhảy Chữ" để Trả Lời Nhanh Gấp 3 Lần

So sánh trước và sau khi có Multi-Token Prediction — kết quả thực tế trên Qwen3.6

Bạn có bao giờ chờ AI trả lời một câu hỏi chưa? Đôi khi nó mất vài giây, vài chục giây. Lý do rất đơn giản: AI viết từng từ một.

MTP Head (Multi-Token Prediction) là một kỹ thuật mới giúp AI đoán trước nhiều từ tiếp theo, rồi viết chúng cùng lúc — giúp tốc độ tăng gấp 2.5 đến 3 lần mà không làm giảm chất lượng.

📖 MTP là gì? Giải thích đơn giản

Không có MTP (cách cũ)

Giống như đọc sách từng chữ một:

"Trên" → dừng → "đường" → dừng → "đằng" → dừng → "khổ" → dừng ...

Mỗi từ đều phải chờ AI "suy nghĩ" riêng. Nếu câu trả lời 100 từ → 100 lần AI phải xử lý.

Có MTP (cách mới)

Giống như đọc hiểu — não bạn không chỉ đoán từ tiếp theo, mà đoán luôn cả câu tiếp theo:

"Trên đường khổ..." → nhảy ngay → "khổ đau sẽ đến" → nhảy ngay → "nhưng hạnh phúc sẽ đến sau"

💡 MTP (Multi-Token Prediction): Thay vì chỉ đoán từ tiếp theo, AI học cách đoán luôn 3-4 từ tiếp theo dựa trên ngữ cảnh. Giống như người đọc nhanh vậy — họ không đọc chữ, họ đọc cả câu.

🔬 MTP hoạt động thế nào?

Cơ chế training

Trong quá trình train, model được dạy:

Cách cũ: Tại vị trí t → dự đoán t+1
Có MTP: Tại vị trí t → dự đoán t+1, t+2, t+3, t+4

Mỗi vị trí trong mạng neural sẽ có thêm các "head" phụ (auxiliary heads) để dự đoán các token tương lai. Các head này học cách dự đoán dựa trên hidden state của model chính.

Cơ chế inference (khi trả lời)

Khi đang sinh văn bản, MTP head hoạt động như một draft model nội bộ:

Main model suy nghĩ một lần → trả về hidden state
MTP head dùng hidden state này để viết nháp 3-4 token cùng lúc
Main model xác nhận các token này: đúng thì giữ, sai thì sửa
Nếu đúng → tiết kiệm thời gian (vì viết nhiều token trong 1 lần forward)
Nếu sai → phải viết lại từ đầu, nhưng bù lại vẫn nhanh hơn

📊 So sánh trước và sau khi có MTP

Chỉ số	Trước MTP	Sau MTP	Thay đổi
Tốc độ decode	1x (bình thường)	2.5 - 3x	⬆️ Nhanh gấp 3 lần
Chất lượng	100%	100%	✅ Không giảm
Acceptance rate	N/A	~98%	⬇️ Giảm rất nhỏ, chấp nhận được
Chi phí GPU	Cao	Thấp hơn 2/3	💰 Tiết kiệm đáng kể
Setup	Đơn giản	Không cần draft model riêng	🔧 Đơn giản hơn

🎯 Kết quả thực tế trên Qwen3.6

💻 Model: Qwen3.6 35B-A3B-MTP-GGUF (UD-Q3_K_XL)
📈 GPU: RTX 3090 (24GB VRAM)
⚙️ Setup: llama.cpp với --spec-type draft-mtp --spec-draft-n-max 3

Tốc độ decode

Task	Không MTP	Có MTP	Tăng tốc
📝 Narrative	~50 tok/s	~134 tok/s	~2.7x
💻 Code	~60 tok/s	~177 tok/s	~3.0x

Acceptance rate (tỷ lệ token đúng)

Mỗi lần MTP viết nháp 3 token, main model xác nhận. Kết quả:

Acceptance rate trung bình: ~98%
Đôi khi MTP đoán sai → phải viết lại (chiếm ~2% trường hợp)
Nhưng bù lại, 98% thời gian tiết kiệm được 2/3 lần forward

❓ Tại sao acceptance rate không phải 100%?

Không phải lúc nào AI cũng đoán đúng. Giống như bạn đọc nhanh một cuốn sách và "nhảy chữ":

Đúng: bạn tiết kiệm thời gian — không phải đọc lại đoạn đó
Sai: bạn phải quay lại đọc từ đầu đoạn — mất chút thời gian

Nhưng tốc độ trung bình vẫn nhanh hơn gấp 3 lần, và quan trọng nhất — chất lượng câu trả lời không bị ảnh hưởng. Vì main model vẫn xác nhận từng token trước khi chấp nhận.

🔍 MTP khác gì so với cách cũ?

Trước MTP (Speculative Decoding truyền thống)

Cần 2 model riêng biệt: main model + draft model
Tăng độ phức tạp và chi phí GPU (phải chạy 2 model)
Tốc độ cải thiện hạn chế (~1.5-2x)

Sau MTP (Built-in Speculative Decoding)

Model tự làm được, không cần thứ gì thêm
Tốc độ tăng gấp 2.5-3 lần
Chi phí GPU không tăng — chỉ 1 model
Acceptance rate cao hơn vì MTP head được train chính trên model đó

📝 Tổng kết

MTP Head giống như việc AI học cách "đọc nhanh" — nó không chỉ đoán từ tiếp theo, mà đoán luôn cả một đoạn. Kết quả:

✅ Nhanh gấp 3 lần — từ 50 tok/s lên ~134 tok/s
✅ Chất lượng không đổi — main model vẫn xác nhận tất cả
✅ Không cần thêm phần cứng — chỉ cần model có MTP head
✅ Tiết kiệm chi phí — giảm 2/3 số lần forward trên GPU
✅ Dễ tích hợp — chỉ cần thêm 2 tham số trong llama.cpp

Và quan trọng nhất: nó hoạt động ngay lập tức trên các model đã được train với MTP như Qwen3.6, DeepSeek-V3, Nemotron 3 Super.

🚀 Performance 💻 LLM ⚡ Speed 📝 MTP

Tham khảo: Sebastian Raschka's LLM Architecture Gallery, vLLM Documentation, Qwen3.6 Technical Report, DeepSeek-V3 Technical Report, NVIDIA Megatron-Bridge, FastMTP (Tencent, 2025)