ใครที่อยากลอง รัน AI ภาษาขนาดใหญ่ (LLM) บนเครื่องส่วนตัวโดยไม่ต้องพึ่งการ์ดจอแยก อาจสนใจผลการทดสอบชิ้นนี้ XDA Developers เพิ่งเผยแพร่รายงานการทดลองรัน Gemma 3 (4B) บน Intel N100 ซึ่งเป็นหนึ่งในโปรเซสเซอร์ x86 ราคาถูกที่สุดในตลาด โดยใช้เพียง iGPU และ RAM 8GB — ผลที่ได้ออกมา "ใช้งานได้จริง" เกินคาด
LattePanda Mu: มินิ PC ราคาประหยัดที่ใช้ทดสอบ
Ayush Pande นักเขียนจาก XDA Developers เลือกใช้ LattePanda Mu ซึ่งเป็น Compute Module ขนาด 69.6×60 มม. ขับเคลื่อนด้วย Intel N100 และ RAM 8GB เป็นแพลตฟอร์มทดสอบ เหตุผลที่เลือก N100 เพราะเป็น "หนึ่งในโปรเซสเซอร์ x86 ที่ถูกที่สุดในตลาด" และไม่มี dGPU แยกต่างหาก
| รายการ | รายละเอียด |
|---|---|
| ผลิตภัณฑ์ | LattePanda Mu (Compute Module) |
| CPU | Intel N100 |
| RAM | 8GB |
| TDP | 6W – 35W (ปรับได้) |
ราคาจำหน่ายปัจจุบันของ LattePanda Mu อยู่ที่ประมาณ $179 (ประมาณ 6,400 บาท) สำหรับโมดูลเพียงอย่างเดียว โดยยังต้องซื้อ Carrier Board และระบบระบายความร้อนเพิ่มเติม ราคาช่วงเปิดตัวแรกอยู่ที่ $139 และมีราคา Early Bird ที่ $99
ติดตั้ง llama.cpp บน Proxmox LXC — ทำไมไม่ใช้ Ollama?
Pande เลือกใช้ Proxmox LXC Container เป็นสภาพแวดล้อมหลัก แทนที่จะติดตั้งตรงบน Arch Linux หรือ DietPi เพราะต้องการความสะดวกในการทำ Snapshot เพื่อย้อนสถานะได้รวดเร็ว
การ Passthrough iGPU เข้า LXC ทำได้ไม่ยาก เพียงเพิ่ม /dev/dri/renderD128 ในแท็บ Resources ของ LXC และตั้งค่า Access Mode เป็น 0666 จากนั้นติดตั้ง intel-media-va-driver และ vainfo ในคอนเทนเนอร์เพื่อยืนยันว่า iGPU ถูกรับรู้แล้ว
สำหรับ Inference Engine Pande ตัดสินใจไม่ใช้ Ollama โดยให้เหตุผลว่า:
- Ollama มี Performance Overhead สูง ไม่เหมาะกับฮาร์ดแวร์ที่มีทรัพยากรจำกัดอย่าง N100
- ความยืดหยุ่นในการกำหนด Parameter ขณะ Serve ยังไม่เพียงพอ
แนวทางที่เลือกคือ Build llama.cpp จาก Source Code พร้อมเปิดใช้งาน Vulkan เพื่อให้ iGPU ทำงานได้เต็มประสิทธิภาพ
ปัญหา Build ล้มเหลวที่ 18% — แก้ด้วยการเพิ่ม RAM และ Swap
ขั้นตอนที่สะดุดมากที่สุดคือการ Build llama.cpp ซึ่ง Pande รายงานว่าคำสั่ง cmake -B build cmake --build build -- -j1 หยุดทำงานซ้ำๆ ที่ประมาณ 18% ทุกครั้ง และต้อง Re-login เข้า LXC ใหม่
สาเหตุคือ RAM ไม่เพียงพอ — ระบบมี RAM รวม 8GB แต่จัดสรรให้ LXC เพียง 5GB และ Swap แค่ 512MB วิธีแก้ที่ได้ผลคือ:
- เพิ่ม RAM ที่จัดสรรให้ LXC เป็น 7GB
- เพิ่ม Swap เป็น 3GB
หลังจากนั้น Build ผ่านสำเร็จ อย่างไรก็ตาม Pande แนะนำให้ ปิด Swap หลัง Build เสร็จ เพราะการใช้ SSD Swap ระหว่าง Inference จะทำให้ความเร็วในการประมวลผลลดลงอย่างเห็นได้ชัด
ผลทดสอบ Gemma 3 (4B) — ใช้งานได้จริงบน iGPU เพียงอย่างเดียว
หลัง Build สำเร็จ Pande รัน Gemma 3 (4B, Q4_K_M) ผ่าน llama-server ด้วยคำสั่ง:
./llama-server -m "/root/llama.cpp/models/gemma-3-4b-it-Q4_K_M.gguf" --host 0.0.0.0 --port 8082
ผลที่ได้น่าสนใจ — โมเดลที่เคยทำงานได้ไม่ดีบน Raspberry Pi กลับรันได้ในระดับ "decent" (ใช้งานได้จริง) บน N100 และเมื่อขยาย Context Window ไปถึง 16K Tokens ก็ยังไม่ทำให้ RAM เต็ม ซึ่ง Pande มองว่าเป็นสัญญาณที่ดีสำหรับการใช้งานจริง
สรุปภาพรวม: N100 + iGPU + 8GB RAM เพียงพอสำหรับ LLM ขนาด 4B Class ในงานเบาถึงปานกลาง และเหมาะเป็น Sub-Server เสริมจากระบบ dGPU หลัก หรือเป็น Step-Up จาก Raspberry Pi ที่ยังขาดพลังงานประมวลผล
Gemma 4 และทางเลือก BitNet สำหรับฮาร์ดแวร์ราคาประหยัด
ขณะที่การทดสอบนี้ใช้ Gemma 3 Google ได้เปิดตัว Gemma 4 ภายใต้ Apache 2.0 License เมื่อวันที่ 31 มีนาคม 2026 แล้ว โดยมี 4 ขนาดสำหรับการใช้งานต่างกัน:
| รุ่น | พารามิเตอร์ | เป้าหมาย |
|---|---|---|
| E2B | 2B | สมาร์ตโฟน |
| E4B | 4B | Edge / Local |
| 26B MoE | 3.8B active | Consumer GPU |
| 31B Dense | 31B | Workstation |
E2B และ E4B รองรับ Multimodal ทั้งข้อความ รูปภาพ และเสียงแบบ Native พร้อม Context Window สูงสุด 128K Tokens และทุกรุ่นมี "Configurable Thinking Mode" สำหรับงาน Reasoning โดยเฉพาะ คำถามที่น่าติดตามคือ Gemma 4 E4B จะรันบน N100 ได้ดีเพียงใด
ทางเลือกที่เบากว่า: สำหรับผู้ที่ต้องการประหยัดทรัพยากรยิ่งขึ้น Microsoft มี bitnet.cpp Framework ที่รัน BitNet 2B Model ด้วย RAM เพียง ~1.2GB และคาดว่าจะได้ความเร็วประมาณ 5–10 Tokens/วินาที บน N100 ซึ่งเป็นตัวเลือกที่น่าสนใจหากไม่ต้องการยึดติดกับโมเดล 4B
สำหรับผู้ที่สนใจสร้าง Local AI Server ในงบประมาณจำกัด ผลการทดสอบนี้ชี้ให้เห็นว่า N100 เป็นตัวเลือกที่คุ้มค่ากว่า Raspberry Pi อย่างชัดเจน ในราคา $179 (ประมาณ 6,400 บาท) สำหรับโมดูลเพียงอย่างเดียว ยังต้องบวกค่า Carrier Board และระบบระบายความร้อนเพิ่ม แต่ถ้าเทียบกับการซื้อการ์ดจอแยกเพื่อรัน LLM ถือว่าต่างกันมาก ผู้ที่อยู่ในไทยและสนใจสั่งซื้อ LattePanda Mu ควรตรวจสอบช่องทาง Import และค่าธรรมเนียมนำเข้าเพิ่มเติม เนื่องจากยังไม่มีการจำหน่ายอย่างเป็นทางการในประเทศไทย
