รัน Local LLM บน Intel N100 iGPU ราคาถูก — ทดสอบ Gemma 3 ด้วย LattePanda Mu 8GB ผลลัพธ์น่าประหลาดใจ

ใครที่อยากลอง รัน AI ภาษาขนาดใหญ่ (LLM) บนเครื่องส่วนตัวโดยไม่ต้องพึ่งการ์ดจอแยก อาจสนใจผลการทดสอบชิ้นนี้ XDA Developers เพิ่งเผยแพร่รายงานการทดลองรัน Gemma 3 (4B) บน Intel N100 ซึ่งเป็นหนึ่งในโปรเซสเซอร์ x86 ราคาถูกที่สุดในตลาด โดยใช้เพียง iGPU และ RAM 8GB — ผลที่ได้ออกมา "ใช้งานได้จริง" เกินคาด

LattePanda Mu: มินิ PC ราคาประหยัดที่ใช้ทดสอบ

Ayush Pande นักเขียนจาก XDA Developers เลือกใช้ LattePanda Mu ซึ่งเป็น Compute Module ขนาด 69.6×60 มม. ขับเคลื่อนด้วย Intel N100 และ RAM 8GB เป็นแพลตฟอร์มทดสอบ เหตุผลที่เลือก N100 เพราะเป็น "หนึ่งในโปรเซสเซอร์ x86 ที่ถูกที่สุดในตลาด" และไม่มี dGPU แยกต่างหาก

รายการ	รายละเอียด
ผลิตภัณฑ์	LattePanda Mu (Compute Module)
CPU	Intel N100
RAM	8GB
TDP	6W – 35W (ปรับได้)

ราคาจำหน่ายปัจจุบันของ LattePanda Mu อยู่ที่ประมาณ $179 (ประมาณ 6,400 บาท) สำหรับโมดูลเพียงอย่างเดียว โดยยังต้องซื้อ Carrier Board และระบบระบายความร้อนเพิ่มเติม ราคาช่วงเปิดตัวแรกอยู่ที่ $139 และมีราคา Early Bird ที่ $99

ติดตั้ง llama.cpp บน Proxmox LXC — ทำไมไม่ใช้ Ollama?

Pande เลือกใช้ Proxmox LXC Container เป็นสภาพแวดล้อมหลัก แทนที่จะติดตั้งตรงบน Arch Linux หรือ DietPi เพราะต้องการความสะดวกในการทำ Snapshot เพื่อย้อนสถานะได้รวดเร็ว

การ Passthrough iGPU เข้า LXC ทำได้ไม่ยาก เพียงเพิ่ม /dev/dri/renderD128 ในแท็บ Resources ของ LXC และตั้งค่า Access Mode เป็น 0666 จากนั้นติดตั้ง intel-media-va-driver และ vainfo ในคอนเทนเนอร์เพื่อยืนยันว่า iGPU ถูกรับรู้แล้ว

สำหรับ Inference Engine Pande ตัดสินใจไม่ใช้ Ollama โดยให้เหตุผลว่า:

Ollama มี Performance Overhead สูง ไม่เหมาะกับฮาร์ดแวร์ที่มีทรัพยากรจำกัดอย่าง N100
ความยืดหยุ่นในการกำหนด Parameter ขณะ Serve ยังไม่เพียงพอ

แนวทางที่เลือกคือ Build llama.cpp จาก Source Code พร้อมเปิดใช้งาน Vulkan เพื่อให้ iGPU ทำงานได้เต็มประสิทธิภาพ

ปัญหา Build ล้มเหลวที่ 18% — แก้ด้วยการเพิ่ม RAM และ Swap

ขั้นตอนที่สะดุดมากที่สุดคือการ Build llama.cpp ซึ่ง Pande รายงานว่าคำสั่ง cmake -B build cmake --build build -- -j1 หยุดทำงานซ้ำๆ ที่ประมาณ 18% ทุกครั้ง และต้อง Re-login เข้า LXC ใหม่

สาเหตุคือ RAM ไม่เพียงพอ — ระบบมี RAM รวม 8GB แต่จัดสรรให้ LXC เพียง 5GB และ Swap แค่ 512MB วิธีแก้ที่ได้ผลคือ:

เพิ่ม RAM ที่จัดสรรให้ LXC เป็น 7GB
เพิ่ม Swap เป็น 3GB

หลังจากนั้น Build ผ่านสำเร็จ อย่างไรก็ตาม Pande แนะนำให้ ปิด Swap หลัง Build เสร็จ เพราะการใช้ SSD Swap ระหว่าง Inference จะทำให้ความเร็วในการประมวลผลลดลงอย่างเห็นได้ชัด

ผลทดสอบ Gemma 3 (4B) — ใช้งานได้จริงบน iGPU เพียงอย่างเดียว

หลัง Build สำเร็จ Pande รัน Gemma 3 (4B, Q4_K_M) ผ่าน llama-server ด้วยคำสั่ง:

./llama-server -m "/root/llama.cpp/models/gemma-3-4b-it-Q4_K_M.gguf" --host 0.0.0.0 --port 8082

ผลที่ได้น่าสนใจ — โมเดลที่เคยทำงานได้ไม่ดีบน Raspberry Pi กลับรันได้ในระดับ "decent" (ใช้งานได้จริง) บน N100 และเมื่อขยาย Context Window ไปถึง 16K Tokens ก็ยังไม่ทำให้ RAM เต็ม ซึ่ง Pande มองว่าเป็นสัญญาณที่ดีสำหรับการใช้งานจริง

สรุปภาพรวม: N100 + iGPU + 8GB RAM เพียงพอสำหรับ LLM ขนาด 4B Class ในงานเบาถึงปานกลาง และเหมาะเป็น Sub-Server เสริมจากระบบ dGPU หลัก หรือเป็น Step-Up จาก Raspberry Pi ที่ยังขาดพลังงานประมวลผล

Gemma 4 และทางเลือก BitNet สำหรับฮาร์ดแวร์ราคาประหยัด

ขณะที่การทดสอบนี้ใช้ Gemma 3 Google ได้เปิดตัว Gemma 4 ภายใต้ Apache 2.0 License เมื่อวันที่ 31 มีนาคม 2026 แล้ว โดยมี 4 ขนาดสำหรับการใช้งานต่างกัน:

รุ่น	พารามิเตอร์	เป้าหมาย
E2B	2B	สมาร์ตโฟน
E4B	4B	Edge / Local
26B MoE	3.8B active	Consumer GPU
31B Dense	31B	Workstation

E2B และ E4B รองรับ Multimodal ทั้งข้อความ รูปภาพ และเสียงแบบ Native พร้อม Context Window สูงสุด 128K Tokens และทุกรุ่นมี "Configurable Thinking Mode" สำหรับงาน Reasoning โดยเฉพาะ คำถามที่น่าติดตามคือ Gemma 4 E4B จะรันบน N100 ได้ดีเพียงใด

ทางเลือกที่เบากว่า: สำหรับผู้ที่ต้องการประหยัดทรัพยากรยิ่งขึ้น Microsoft มี bitnet.cpp Framework ที่รัน BitNet 2B Model ด้วย RAM เพียง ~1.2GB และคาดว่าจะได้ความเร็วประมาณ 5–10 Tokens/วินาที บน N100 ซึ่งเป็นตัวเลือกที่น่าสนใจหากไม่ต้องการยึดติดกับโมเดล 4B

สำหรับผู้ที่สนใจสร้าง Local AI Server ในงบประมาณจำกัด ผลการทดสอบนี้ชี้ให้เห็นว่า N100 เป็นตัวเลือกที่คุ้มค่ากว่า Raspberry Pi อย่างชัดเจน ในราคา $179 (ประมาณ 6,400 บาท) สำหรับโมดูลเพียงอย่างเดียว ยังต้องบวกค่า Carrier Board และระบบระบายความร้อนเพิ่ม แต่ถ้าเทียบกับการซื้อการ์ดจอแยกเพื่อรัน LLM ถือว่าต่างกันมาก ผู้ที่อยู่ในไทยและสนใจสั่งซื้อ LattePanda Mu ควรตรวจสอบช่องทาง Import และค่าธรรมเนียมนำเข้าเพิ่มเติม เนื่องจากยังไม่มีการจำหน่ายอย่างเป็นทางการในประเทศไทย