ยุคที่สมาร์ทโฟนสามารถรันโมเดลภาษาขนาดใหญ่ (LLM) ได้โดยไม่ต้องพึ่งคลาวด์กำลังใกล้ความจริงมากขึ้น เมื่อ Google ปล่อยโมเดลโอเพนซอร์ส Gemma 4 เวอร์ชัน Quantization-Aware Training (QAT) ที่ลดความต้องการหน่วยความจำสำหรับการรันบนมือถือเหลือเพียงประมาณ 1GB ตามรายงานของ Android Authority การประมวลผลแบบออฟไลน์นี้ไม่เพียงประหยัดแบตเตอรี่ แต่ยังตอบโจทย์ด้านความเป็นส่วนตัวที่ผู้ใช้ในไทยให้ความสำคัญมากขึ้นอย่างต่อเนื่อง

QAT ก้าวข้ามขีดจำกัดของ PTQ ด้วยการ Quantize ตั้งแต่ขั้นตอนเทรน

การรันโมเดล AI บนสมาร์ทโฟนหรือโน้ตบุ๊ก จำเป็นต้องใช้เทคนิค quantization เพื่อบีบอัดขนาดหน่วยความจำ โดยวิธีที่นิยมใช้กันคือ Post-Training Quantization (PTQ) ซึ่งบีบอัดโมเดลหลังจากเทรนเสร็จแล้ว แต่มีจุดอ่อนสำคัญคือคุณภาพของโมเดลมักลดลงอย่างเห็นได้ชัด

Gemma 4 QAT แก้ปัญหาดังกล่าวด้วยการผนวก quantization เข้าไปในกระบวนการเทรนตั้งแต่ต้น ส่งผลให้คุณภาพของโมเดลไม่ลดลงมากนัก พร้อมเพิ่มความเร็วในการ decode ขึ้นอย่างมีนัยสำคัญ Google ระบุในบล็อกอย่างเป็นทางการว่า โมเดลที่ผ่าน QAT ให้ผลลัพธ์ดีกว่า checkpoint ที่ผ่าน PTQ แบบดั้งเดิม

เทคนิคบีบอัดเฉพาะทางสำหรับโมบาย รันได้โดยไม่ต้องต่อคลาวด์

Gemma 4 QAT ใช้ mobile quantization schema ที่ออกแบบมาเฉพาะสำหรับสมาร์ทโฟนและโน้ตบุ๊ก ตามรายงานประกอบด้วยเทคนิคหลายอย่างผสมกัน ได้แก่

  • การใช้ค่า quantization ที่คำนวณไว้ล่วงหน้า
  • การบีบอัดบางส่วนของโมเดลด้วย 2-bit compression
  • การบีบอัด vocabulary list และ short-term memory

Google ระบุว่าโมเดลเหล่านี้ "คงคุณภาพเทียบเท่า bfloat16 แต่ลดหน่วยความจำที่ต้องใช้ในการโหลดได้อย่างมหาศาล" ผลลัพธ์ที่ผู้ใช้สัมผัสได้โดยตรงคือ การตอบสนองที่เกิดขึ้นบนเครื่องเอง ไม่มีการส่งข้อมูลออกไปยังเซิร์ฟเวอร์ภายนอก จึงตัด latency จากเครือข่ายและลดความกังวลด้านความเป็นส่วนตัวลงอย่างชัดเจน

ห้าขนาดให้เลือก รุ่นเล็กสุดใช้ RAM แค่ 1GB

Gemma 4 QAT ถูกปล่อยออกมาทั้งหมด 5 ขนาด เพื่อให้ครอบคลุมอุปกรณ์หลากหลายระดับ

  • Gemma 4 E2B
  • Gemma 4 E4B
  • Gemma 4 12B
  • Gemma 4 26B A4B
  • Gemma 4 31B

โดยรุ่นเล็กสุดอย่าง Gemma 4 E2B (text-only) ลดความต้องการหน่วยความจำบนมือถือเหลือเพียงประมาณ 1GB ทำให้เหมาะกับการรันบนสมาร์ทโฟนทั่วไป ส่วนความต้องการหน่วยความจำของแต่ละขนาดนั้น Google ได้เปิดเผยผ่านกราฟอย่างเป็นทางการ

ดาวน์โหลดได้ 4 ฟอร์แมต ผ่าน Hugging Face และ LM Studio

ฟอร์แมตที่เปิดให้ดาวน์โหลดมี 4 รูปแบบ ได้แก่ QAT checkpoint แบบยังไม่ quantize, GGUF (GPT-Generated Unified Format), เวอร์ชัน mobile-optimized และ Compressed Tensors เมื่อดาวน์โหลด weights แล้วสามารถนำไปรันได้ทั้งบนสมาร์ทโฟน โน้ตบุ๊ก และเดสก์ท็อป

ผู้ใช้สามารถดาวน์โหลดผ่าน Hugging Face รวมถึง LM Studio สำหรับเวอร์ชัน mobile และ desktop หากต้องการทดลองว่าอุปกรณ์ของตนรันได้แค่ไหน ขอแนะนำให้เริ่มจาก E2B ก่อน เพื่อทดสอบงานเบา ๆ เช่น การสรุปข้อความ การแปลภาษา หรือการตอบข้อความสั้น แล้วค่อยขยับไป E4B ขึ้นไปเมื่อต้องการประมวลผลที่ซับซ้อนกว่าเดิม

เทียบกับคู่แข่งในตลาด — Phi-4 Mini, Llama 3.2 และ Qwen 2.5

Phi-4 Mini (3.8B parameters) ของ Microsoft ถือเป็นโมเดลที่มีความสามารถด้าน reasoning สูงที่สุดในกลุ่ม sub-4B โดยทำผลงานเหนือกว่า Gemma 3 4B และ Llama 3.2 3B ในงาน Chain-of-thought ขณะที่ Gemma 3 4B สามารถทำความเร็วได้ราว 27 tok/s บน iPhone 16 Pro ผ่าน Google AI Edge SDK ตารางด้านล่างคือ memory footprint ของแต่ละโมเดลที่ Q4_K_M

โมเดลMemory (Q4_K_M)
Phi-4 Mini 3.8Bประมาณ 2.7GB
Llama 3.2 3Bประมาณ 2.2GB
SmolLM 2 1.7Bประมาณ 1.1GB
Qwen 2.5 1.5Bประมาณ 1.0GB

หากเน้นประสิทธิภาพ reasoning สูงสุด Phi-4 Mini คือตัวเลือกแรก แต่หากต้องการประหยัดหน่วยความจำในเครื่อง Qwen 2.5 1.5B หรือ SmolLM 2 1.7B จะเหมาะกว่า ผู้ใช้ควรเลือกขนาดโมเดลจากสองปัจจัยหลัก คือความหนักของงานที่ต้องการ และหน่วยความจำที่อุปกรณ์มีให้

NPU ขับเคลื่อน On-device AI พร้อมตลาด Edge AI โตทะยาน

ฝั่งฮาร์ดแวร์เองก็พัฒนา NPU บน mobile SoC อย่างต่อเนื่อง Snapdragon X2 Elite Extreme ของ Qualcomm ทำได้ถึง 80 TOPS เพิ่มจากรุ่นก่อนหน้าเป็นสองเท่า ขณะเดียวกัน Gemma 4 QAT ยังให้ความเร็ว inference สูงสุด 2 เท่าเมื่อเทียบกับเวอร์ชัน FP16 และลดการใช้หน่วยความจำลงราว 40–50% บน NPU ระดับโมบาย

  • Coral NPU: Google เปิดตัวแพลตฟอร์มใหม่สำหรับ Edge AI ที่กินไฟต่ำมาก โดยให้ประสิทธิภาพระดับ 512 GOPS ที่ใช้พลังงานเพียงไม่กี่ mW
  • ขนาดตลาด: ตลาด Edge AI hardware คาดว่าจะมีมูลค่าราว US$30,700 ล้าน (ประมาณ 1.10 ล้านล้านบาท) ในปี 2026 ส่วนชิป inference optimization คาดแตะระดับเกิน US$50,000 ล้าน (ประมาณ 1.80 ล้านล้านบาท)
  • การประมวลผลในเครื่อง: เมื่อ inference เกิดขึ้นภายในอุปกรณ์ ทั้ง prompt และรูปภาพจะไม่ถูกส่งออกไปข้างนอก

สำหรับผู้บริโภคในไทย จุดที่น่าจับตาคือสมาร์ทโฟนเรือธงจาก Samsung, Apple, Oppo, Xiaomi และ Vivo ที่จำหน่ายผ่าน Studio7, iStudio และ Power Buy ในช่วงปี 2026 จะเริ่มมาพร้อม NPU ที่รองรับการรัน LLM บนเครื่องได้จริง ผู้ใช้ที่ใส่ใจเรื่อง PDPA และความเป็นส่วนตัวของข้อมูลจะได้รับประโยชน์โดยตรง เนื่องจากข้อมูลสนทนาและรูปภาพไม่จำเป็นต้องส่งผ่านอินเทอร์เน็ตอีกต่อไป

Q&A

Q. QAT แตกต่างจาก PTQ อย่างไร? PTQ คือการ quantize โมเดลหลังจากเทรนเสร็จ ซึ่งมีโอกาสที่คุณภาพจะลดลง ส่วน QAT ผนวก quantization เข้าไปในกระบวนการเทรนตั้งแต่ต้น ทำให้คุณภาพใกล้เคียง bfloat16 พร้อมลดความต้องการหน่วยความจำได้มากกว่า ตามที่ Google ระบุ

Q. ขนาดไหนเหมาะกับการรันบนสมาร์ทโฟน? Gemma 4 E2B (text-only) คือรุ่นเล็กสุดที่ใช้หน่วยความจำเพียงประมาณ 1GB จึงเหมาะกับสมาร์ทโฟนทั่วไปมากที่สุด หากต้องการประสิทธิภาพสูงขึ้นสามารถเลือก E4B แต่ความต้องการหน่วยความจำจะเพิ่มตามไปด้วย

Q. ใช้งานแบบออฟไลน์ได้จริงหรือไม่? ได้ เนื่องจากเป็นโมเดลที่ออกแบบมาให้ดาวน์โหลด weights มาเก็บไว้ในเครื่อง จึงสามารถ inference ได้โดยไม่ต้องเชื่อมต่อคลาวด์ ข้อมูลที่ป้อนเข้าไปก็ไม่ถูกส่งไปยังเซิร์ฟเวอร์ภายนอก ซึ่งเป็นจุดเด่นของ On-device AI

แหล่งที่มา