Experiment: Self-hosting an LLM on AWS Inf2/Trn3

Fri, 06 Feb 2026 00:00:00 +0000

ฉันต้องการวิธีที่ง่ายและทำซ้ำได้เพื่อตอบคำถามเชิงปฏิบัติ:

“หากเราต้องรันโมเดลส่วนตัวบน AWS ความเป็นจริงในการดำเนินงานบน Inf2 / Trn3 จะเป็นอย่างไร?”

โพสต์นี้บันทึกการทดลอง ภาคปฏิบัติ เล็กๆ หนึ่งครั้ง (Inf2) พร้อมกับการตรวจสอบติดตามผลที่ฉันจะดำเนินการกับ Trn3 อย่างละเอียด

การตั้งค่าการทดลอง (Inf2) ลิงก์ไปยังหัวข้อ

นี่เป็นการทดสอบแบบรวดเร็วว่า “เราสามารถทำให้มันทำงานได้ตั้งแต่ต้นจนจบหรือไม่” ไม่ใช่ชุดการวัดประสิทธิภาพที่สมบูรณ์

วันที่ดำเนินการ: 2026-02-01
อินสแตนซ์ที่ทดสอบ: inf2.xlarge
ภูมิภาค: us-east-2
โมเดล: meta-llama/Llama-4-Maverick-17B-128E-Instruct
Serving layer: vLLM บน Neuron
API surface: OpenAI-compatible endpoints (/v1/chat/completions, /v1/completions)
พอร์ต: 8080

ผลลัพธ์หลัก: vLLM บน Neuron ทำงานได้ และ API ที่เข้ากันได้กับ OpenAI ทำให้ง่ายต่อการเชื่อมต่อกับเครื่องมือโดยไม่ต้องเขียนไคลเอนต์ที่กำหนดเอง

อย่างไรก็ตาม มีบทเรียนการดำเนินงานที่ “เป็นจริง” ไม่กี่อย่างที่สำคัญกว่า tokens/sec ดิบๆ

ครั้งแรกที่คุณรันการกำหนดค่าโมเดลเฉพาะ การคอมไพล์ Neuron อาจใช้เวลา ~15–30 นาที