Kaggle Benchmarks รองรับ Local Dev — สร้าง AI Evaluation ผ่าน VSCode, Cursor, Antigravity ได้แล้ว

Google ประกาศขยายการใช้งาน Kaggle Benchmarks ออกจากเว็บโน้ตบุ๊กของ Kaggle มาสู่สภาพแวดล้อมการพัฒนาบนเครื่องผู้ใช้โดยตรง รองรับเครื่องมือยอดนิยมอย่าง VSCode, Cursor และ Antigravity พร้อมเปิดตัว skill ใหม่ที่ให้ AI Coding Agent สร้างชุดทดสอบโมเดลได้ด้วยคำสั่งภาษาธรรมชาติ ถือเป็นความเคลื่อนไหวที่น่าจับตาในเวลาที่วงการ AI กำลังต้องการเครื่องมือประเมินผลที่ยืดหยุ่นและขยายตัวได้รวดเร็ว

Kaggle Benchmarks ย้ายลงเครื่อง — ครบจบในตัวแก้โค้ดประจำของนักพัฒนา

จากบล็อกของ Kaggle โดย Nicholas Kang (Product Manager) และ Andrew Wang (Software Engineer) เปิดเผยเมื่อวันที่ 4 มิถุนายน 2026 ว่าตั้งแต่นี้ไป นักพัฒนาสามารถใช้ Kaggle CLI ร่วมกับ AI Coding Agent เพื่อสร้าง ตรวจสอบ push รัน และดาวน์โหลดผลของ evaluation task ได้ทั้งหมดบนเครื่องตัวเอง โดยไม่ต้องสลับไปยังเว็บอินเทอร์เฟซของ Kaggle อีกต่อไป

ตามรายงาน เครื่องมือที่รองรับในเฟสแรก ได้แก่ Antigravity, VSCode และ Cursor ซึ่งครอบคลุม IDE และ editor ที่นักพัฒนาในไทยใช้กันอย่างแพร่หลายในงานสาย Data Science และ Machine Learning

Google ระบุว่านับตั้งแต่เปิดตัว Kaggle Benchmarks มา ชุมชนทั่วโลกได้สร้างเทสต์เคสไปแล้วมากกว่า 10,000 รายการ การเปิดให้ทำงานบน local ในครั้งนี้จึงเป็นการลดอุปสรรคในการสร้าง evaluation set ลงอีกขั้น และย่นระยะทางจากแนวคิดสู่การลงมือทำให้สั้นลงอย่างชัดเจน

write-kaggle-benchmarks skill — สั่งงานด้วยภาษาธรรมชาติ ไม่ต้องเขียนโค้ดเอง

ไฮไลต์สำคัญของอัปเดตครั้งนี้คือ write-kaggle-benchmarks skill ซึ่งเป็นชุดคำสั่งที่ส่งให้ AI Coding Agent เรียนรู้วิธีใช้ kaggle-benchmarks SDK และ Kaggle CLI เพื่อสร้าง task ในรูปแบบที่มีโครงสร้างชัดเจน

ขั้นตอนการใช้งานประกอบด้วย 3 ส่วนหลัก

สั่งให้ Agent ติดตั้ง skill โดยพิมพ์ว่า "Install the write-kaggle-benchmarks skill: https://github.com/Kaggle/kaggle-skills"
บอก Agent ด้วยภาษาธรรมชาติว่าต้องการประเมินอะไร เช่น "สร้าง task ที่ถามโมเดลว่า 300+140=460 is correct?"
Agent จะสร้าง task ที่พร้อมทำงานบน Kaggle ให้อัตโนมัติ

ผลที่ตามมาคือนักพัฒนาสามารถโฟกัสไปที่การออกแบบโจทย์การประเมิน แทนที่จะเสียเวลาไปกับเทมเพลตหรือรายละเอียดของ API โดย Google ได้เผยแพร่วิดีโอสาธิตการทำงานไว้บน YouTube แล้ว

เบื้องหลังการลงทุนของ Google — เร่งการแข่งขันของ AI Lab ผ่าน community

Google อธิบายว่าเหตุผลที่ตั้งโครงการ Kaggle Benchmarks ขึ้นมา มาจากการที่โมเดล AI ในปัจจุบันก้าวข้ามขั้นแชตบอตธรรมดา ไปสู่ "reasoning agent" ที่เขียนโค้ดได้ ใช้เครื่องมือเป็น และแก้ปัญหาซับซ้อนได้ เบนช์มาร์กแบบเดิมจึงไม่เพียงพออีกต่อไป และต้องการชุดการประเมินที่ยืดหยุ่นและเข้มงวด สร้างโดยผู้ใช้งานจริงในโลกความเป็นจริง

แนวคิดสำคัญที่ Google ย้ำคือ "หากมีความสามารถใดที่วัดได้ AI Lab ทุกแห่งจะแข่งกันพัฒนาความสามารถนั้น" การวางโครงสร้างพื้นฐานให้คนทั่วโลกสร้าง evaluation set ที่สะท้อนปัญหาจริงได้ จึงเป็นการป้อนสัญญาณเชิงคุณภาพให้กับวงการ AI โดยรวม

ผลกระทบต่อนักพัฒนาและทีม AI ในไทย

สำหรับนักพัฒนาในไทยที่คุ้นเคยกับ VSCode หรือ Cursor การไม่ต้องสลับไปยังเว็บเอดิเตอร์ถือเป็นข้อได้เปรียบโดยตรง เพราะลด context switch ที่กินเวลาในแต่ละวัน ทำให้สามารถลงมือทำ evaluation ได้ทันทีที่คิดไอเดียออก

ที่น่าสนใจยิ่งกว่านั้นคือเมื่อรวมกับ AI Coding Agent การออกแบบเบนช์มาร์กจะเปลี่ยนรูปแบบจาก "การเขียนโค้ด" ไปเป็น "การเขียน requirement" ซึ่งหมายความว่าผู้เชี่ยวชาญในสายงานที่ไม่ใช่นักพัฒนาโดยตรง เช่น งานด้านกฎหมาย การแพทย์ การศึกษา หรือ Customer Support ก็สามารถมีส่วนร่วมในการสร้าง evaluation set ด้วยภาษาที่คุ้นเคยได้

สำหรับองค์กรในไทยที่กำลังพิจารณานำ LLM มาใช้งานในระบบภายใน ไม่ว่าจะเป็นภาคธนาคาร ค้าปลีก หรือบริการลูกค้า ความสามารถในการสร้างเบนช์มาร์กที่ตรงกับ use case ของตนเองได้รวดเร็วและแม่นยำ จะเป็นปัจจัยชี้ขาดต่อการเลือกใช้โมเดลและการทำ fine-tuning โดยทีมที่ต้องการเริ่มต้นสามารถลองติดตั้ง write-kaggle-benchmarks skill กับ Agent ของตน แล้วสร้างเทสต์เคสง่าย ๆ ขึ้นมาหนึ่งชุดเพื่อทำความคุ้นเคยกับ workflow ใหม่นี้ก่อน

แหล่งที่มา

Google Blog — Kaggle is making AI benchmark creation effortless

Kaggle Benchmarks รองรับ Local Dev — สร้าง AI Evaluation ผ่าน VSCode, Cursor, Antigravity ได้แล้ว

Kaggle Benchmarks ย้ายลงเครื่อง — ครบจบในตัวแก้โค้ดประจำของนักพัฒนา

write-kaggle-benchmarks skill — สั่งงานด้วยภาษาธรรมชาติ ไม่ต้องเขียนโค้ดเอง

เบื้องหลังการลงทุนของ Google — เร่งการแข่งขันของ AI Lab ผ่าน community

ผลกระทบต่อนักพัฒนาและทีม AI ในไทย

แหล่งที่มา

บทความที่เกี่ยวข้อง

Claude Code เพิ่ม Auto Memory เรียนรู้ข้ามเซสชัน — ทำงานร่วมกับ CLAUDE.md อย่างไร

Gemini โผล่โหมด Troubleshooting ลับ — Google อาจเปิดใช้งานผิดพลาดในผู้ใช้บางกลุ่ม

Gemini เปิด "Extended Thinking" ให้ผู้ใช้ฟรีบน Web/Android/iOS — พร้อมเตือนระวังเครดิตหมดเร็ว

Google เปิดให้เว็บไซต์ Opt-Out จาก AI Overviews — แต่พยายามโน้มน้าวไม่ให้เลือกออก