Google เปิดตัว Gemma 4 QAT รุ่นเล็กสุดใช้ RAM แค่ 1GB รัน LLM บนมือถือได้แบบออฟไลน์

ยุคที่สมาร์ทโฟนสามารถรันโมเดลภาษาขนาดใหญ่ (LLM) ได้โดยไม่ต้องพึ่งคลาวด์กำลังใกล้ความจริงมากขึ้น เมื่อ Google ปล่อยโมเดลโอเพนซอร์ส Gemma 4 เวอร์ชัน Quantization-Aware Training (QAT) ที่ลดความต้องการหน่วยความจำสำหรับการรันบนมือถือเหลือเพียงประมาณ 1GB ตามรายงานของ Android Authority การประมวลผลแบบออฟไลน์นี้ไม่เพียงประหยัดแบตเตอรี่ แต่ยังตอบโจทย์ด้านความเป็นส่วนตัวที่ผู้ใช้ในไทยให้ความสำคัญมากขึ้นอย่างต่อเนื่อง

QAT ก้าวข้ามขีดจำกัดของ PTQ ด้วยการ Quantize ตั้งแต่ขั้นตอนเทรน

การรันโมเดล AI บนสมาร์ทโฟนหรือโน้ตบุ๊ก จำเป็นต้องใช้เทคนิค quantization เพื่อบีบอัดขนาดหน่วยความจำ โดยวิธีที่นิยมใช้กันคือ Post-Training Quantization (PTQ) ซึ่งบีบอัดโมเดลหลังจากเทรนเสร็จแล้ว แต่มีจุดอ่อนสำคัญคือคุณภาพของโมเดลมักลดลงอย่างเห็นได้ชัด

Gemma 4 QAT แก้ปัญหาดังกล่าวด้วยการผนวก quantization เข้าไปในกระบวนการเทรนตั้งแต่ต้น ส่งผลให้คุณภาพของโมเดลไม่ลดลงมากนัก พร้อมเพิ่มความเร็วในการ decode ขึ้นอย่างมีนัยสำคัญ Google ระบุในบล็อกอย่างเป็นทางการว่า โมเดลที่ผ่าน QAT ให้ผลลัพธ์ดีกว่า checkpoint ที่ผ่าน PTQ แบบดั้งเดิม

เทคนิคบีบอัดเฉพาะทางสำหรับโมบาย รันได้โดยไม่ต้องต่อคลาวด์

Gemma 4 QAT ใช้ mobile quantization schema ที่ออกแบบมาเฉพาะสำหรับสมาร์ทโฟนและโน้ตบุ๊ก ตามรายงานประกอบด้วยเทคนิคหลายอย่างผสมกัน ได้แก่

การใช้ค่า quantization ที่คำนวณไว้ล่วงหน้า
การบีบอัดบางส่วนของโมเดลด้วย 2-bit compression
การบีบอัด vocabulary list และ short-term memory

Google ระบุว่าโมเดลเหล่านี้ "คงคุณภาพเทียบเท่า bfloat16 แต่ลดหน่วยความจำที่ต้องใช้ในการโหลดได้อย่างมหาศาล" ผลลัพธ์ที่ผู้ใช้สัมผัสได้โดยตรงคือ การตอบสนองที่เกิดขึ้นบนเครื่องเอง ไม่มีการส่งข้อมูลออกไปยังเซิร์ฟเวอร์ภายนอก จึงตัด latency จากเครือข่ายและลดความกังวลด้านความเป็นส่วนตัวลงอย่างชัดเจน

ห้าขนาดให้เลือก รุ่นเล็กสุดใช้ RAM แค่ 1GB

Gemma 4 QAT ถูกปล่อยออกมาทั้งหมด 5 ขนาด เพื่อให้ครอบคลุมอุปกรณ์หลากหลายระดับ

Gemma 4 E2B
Gemma 4 E4B
Gemma 4 12B
Gemma 4 26B A4B
Gemma 4 31B

โดยรุ่นเล็กสุดอย่าง Gemma 4 E2B (text-only) ลดความต้องการหน่วยความจำบนมือถือเหลือเพียงประมาณ 1GB ทำให้เหมาะกับการรันบนสมาร์ทโฟนทั่วไป ส่วนความต้องการหน่วยความจำของแต่ละขนาดนั้น Google ได้เปิดเผยผ่านกราฟอย่างเป็นทางการ

ดาวน์โหลดได้ 4 ฟอร์แมต ผ่าน Hugging Face และ LM Studio

ฟอร์แมตที่เปิดให้ดาวน์โหลดมี 4 รูปแบบ ได้แก่ QAT checkpoint แบบยังไม่ quantize, GGUF (GPT-Generated Unified Format), เวอร์ชัน mobile-optimized และ Compressed Tensors เมื่อดาวน์โหลด weights แล้วสามารถนำไปรันได้ทั้งบนสมาร์ทโฟน โน้ตบุ๊ก และเดสก์ท็อป

ผู้ใช้สามารถดาวน์โหลดผ่าน Hugging Face รวมถึง LM Studio สำหรับเวอร์ชัน mobile และ desktop หากต้องการทดลองว่าอุปกรณ์ของตนรันได้แค่ไหน ขอแนะนำให้เริ่มจาก E2B ก่อน เพื่อทดสอบงานเบา ๆ เช่น การสรุปข้อความ การแปลภาษา หรือการตอบข้อความสั้น แล้วค่อยขยับไป E4B ขึ้นไปเมื่อต้องการประมวลผลที่ซับซ้อนกว่าเดิม

เทียบกับคู่แข่งในตลาด — Phi-4 Mini, Llama 3.2 และ Qwen 2.5

Phi-4 Mini (3.8B parameters) ของ Microsoft ถือเป็นโมเดลที่มีความสามารถด้าน reasoning สูงที่สุดในกลุ่ม sub-4B โดยทำผลงานเหนือกว่า Gemma 3 4B และ Llama 3.2 3B ในงาน Chain-of-thought ขณะที่ Gemma 3 4B สามารถทำความเร็วได้ราว 27 tok/s บน iPhone 16 Pro ผ่าน Google AI Edge SDK ตารางด้านล่างคือ memory footprint ของแต่ละโมเดลที่ Q4_K_M

โมเดล	Memory (Q4_K_M)
Phi-4 Mini 3.8B	ประมาณ 2.7GB
Llama 3.2 3B	ประมาณ 2.2GB
SmolLM 2 1.7B	ประมาณ 1.1GB
Qwen 2.5 1.5B	ประมาณ 1.0GB

หากเน้นประสิทธิภาพ reasoning สูงสุด Phi-4 Mini คือตัวเลือกแรก แต่หากต้องการประหยัดหน่วยความจำในเครื่อง Qwen 2.5 1.5B หรือ SmolLM 2 1.7B จะเหมาะกว่า ผู้ใช้ควรเลือกขนาดโมเดลจากสองปัจจัยหลัก คือความหนักของงานที่ต้องการ และหน่วยความจำที่อุปกรณ์มีให้

NPU ขับเคลื่อน On-device AI พร้อมตลาด Edge AI โตทะยาน

ฝั่งฮาร์ดแวร์เองก็พัฒนา NPU บน mobile SoC อย่างต่อเนื่อง Snapdragon X2 Elite Extreme ของ Qualcomm ทำได้ถึง 80 TOPS เพิ่มจากรุ่นก่อนหน้าเป็นสองเท่า ขณะเดียวกัน Gemma 4 QAT ยังให้ความเร็ว inference สูงสุด 2 เท่าเมื่อเทียบกับเวอร์ชัน FP16 และลดการใช้หน่วยความจำลงราว 40–50% บน NPU ระดับโมบาย

Coral NPU: Google เปิดตัวแพลตฟอร์มใหม่สำหรับ Edge AI ที่กินไฟต่ำมาก โดยให้ประสิทธิภาพระดับ 512 GOPS ที่ใช้พลังงานเพียงไม่กี่ mW
ขนาดตลาด: ตลาด Edge AI hardware คาดว่าจะมีมูลค่าราว US$30,700 ล้าน (ประมาณ 1.10 ล้านล้านบาท) ในปี 2026 ส่วนชิป inference optimization คาดแตะระดับเกิน US$50,000 ล้าน (ประมาณ 1.80 ล้านล้านบาท)
การประมวลผลในเครื่อง: เมื่อ inference เกิดขึ้นภายในอุปกรณ์ ทั้ง prompt และรูปภาพจะไม่ถูกส่งออกไปข้างนอก

สำหรับผู้บริโภคในไทย จุดที่น่าจับตาคือสมาร์ทโฟนเรือธงจาก Samsung, Apple, Oppo, Xiaomi และ Vivo ที่จำหน่ายผ่าน Studio7, iStudio และ Power Buy ในช่วงปี 2026 จะเริ่มมาพร้อม NPU ที่รองรับการรัน LLM บนเครื่องได้จริง ผู้ใช้ที่ใส่ใจเรื่อง PDPA และความเป็นส่วนตัวของข้อมูลจะได้รับประโยชน์โดยตรง เนื่องจากข้อมูลสนทนาและรูปภาพไม่จำเป็นต้องส่งผ่านอินเทอร์เน็ตอีกต่อไป

Q&A

Q. QAT แตกต่างจาก PTQ อย่างไร? PTQ คือการ quantize โมเดลหลังจากเทรนเสร็จ ซึ่งมีโอกาสที่คุณภาพจะลดลง ส่วน QAT ผนวก quantization เข้าไปในกระบวนการเทรนตั้งแต่ต้น ทำให้คุณภาพใกล้เคียง bfloat16 พร้อมลดความต้องการหน่วยความจำได้มากกว่า ตามที่ Google ระบุ

Q. ขนาดไหนเหมาะกับการรันบนสมาร์ทโฟน? Gemma 4 E2B (text-only) คือรุ่นเล็กสุดที่ใช้หน่วยความจำเพียงประมาณ 1GB จึงเหมาะกับสมาร์ทโฟนทั่วไปมากที่สุด หากต้องการประสิทธิภาพสูงขึ้นสามารถเลือก E4B แต่ความต้องการหน่วยความจำจะเพิ่มตามไปด้วย

Q. ใช้งานแบบออฟไลน์ได้จริงหรือไม่? ได้ เนื่องจากเป็นโมเดลที่ออกแบบมาให้ดาวน์โหลด weights มาเก็บไว้ในเครื่อง จึงสามารถ inference ได้โดยไม่ต้องเชื่อมต่อคลาวด์ ข้อมูลที่ป้อนเข้าไปก็ไม่ถูกส่งไปยังเซิร์ฟเวอร์ภายนอก ซึ่งเป็นจุดเด่นของ On-device AI

แหล่งที่มา

Android Authority — The latest Gemma 4 models use a training trick to slash their on-device memory footprint
PromptQuorum — Best Mobile LLM Models in 2026: Phi-4 Mini vs Gemma 3 vs SmolLM
WinBuzzer — Google Releases Smaller Gemma 4 QAT Models for Local AI

Google เปิดตัว Gemma 4 QAT รุ่นเล็กสุดใช้ RAM แค่ 1GB รัน LLM บนมือถือได้แบบออฟไลน์

QAT ก้าวข้ามขีดจำกัดของ PTQ ด้วยการ Quantize ตั้งแต่ขั้นตอนเทรน

เทคนิคบีบอัดเฉพาะทางสำหรับโมบาย รันได้โดยไม่ต้องต่อคลาวด์

ห้าขนาดให้เลือก รุ่นเล็กสุดใช้ RAM แค่ 1GB

ดาวน์โหลดได้ 4 ฟอร์แมต ผ่าน Hugging Face และ LM Studio

เทียบกับคู่แข่งในตลาด — Phi-4 Mini, Llama 3.2 และ Qwen 2.5

NPU ขับเคลื่อน On-device AI พร้อมตลาด Edge AI โตทะยาน

Q&A

แหล่งที่มา

บทความที่เกี่ยวข้อง

iPhone Fold โผล่ภาพ Dummy — จอใน 7.8 นิ้ว Touch ID สีขาวเดียว ราคาทะลุ 70,000 บาท

หลุดภาพเครื่องจริง iPhone Fold สี White/Silver — ลือเปิดตัวกันยายน 2026

Android Auto ใช้ดีขึ้นเมื่อเลิกมองเป็น "จอมือถือที่สอง" — บรรณาธิการ XDA สรุป 3 การใช้งานหลัก

ทำไม Zigbee ถึงประหยัดแบตกว่า Matter over Thread — เซ็นเซอร์อยู่ได้ 4 ปี vs แค่ 8 เดือน