<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LLM on Vladimir Samoylov</title><link>https://cageyv.dev/th/series/llm/</link><description>Recent content in LLM on Vladimir Samoylov</description><generator>Hugo</generator><language>th</language><lastBuildDate>Fri, 06 Feb 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://cageyv.dev/th/series/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>Experiment: Self-hosting an LLM on AWS Inf2/Trn3</title><link>https://cageyv.dev/th/posts/inf2-trn3-vllm-neuron-experiment/</link><pubDate>Fri, 06 Feb 2026 00:00:00 +0000</pubDate><guid>https://cageyv.dev/th/posts/inf2-trn3-vllm-neuron-experiment/</guid><description>&lt;p>ฉันต้องการวิธีที่ง่ายและทำซ้ำได้เพื่อตอบคำถามเชิงปฏิบัติ:&lt;/p>
&lt;blockquote>
&lt;p>“หากเราต้องรันโมเดลส่วนตัวบน AWS ความเป็นจริงในการดำเนินงานบน Inf2 / Trn3 จะเป็นอย่างไร?”&lt;/p>&lt;/blockquote>
&lt;p>โพสต์นี้บันทึกการทดลอง &lt;strong>ภาคปฏิบัติ&lt;/strong> เล็กๆ หนึ่งครั้ง (Inf2) พร้อมกับการตรวจสอบติดตามผลที่ฉันจะดำเนินการกับ &lt;strong>Trn3&lt;/strong> อย่างละเอียด&lt;/p>
&lt;h2 id="การตงคาการทดลอง-inf2">
 การตั้งค่าการทดลอง (Inf2)
 &lt;a class="heading-link" href="#%e0%b8%81%e0%b8%b2%e0%b8%a3%e0%b8%95%e0%b8%87%e0%b8%84%e0%b8%b2%e0%b8%81%e0%b8%b2%e0%b8%a3%e0%b8%97%e0%b8%94%e0%b8%a5%e0%b8%ad%e0%b8%87-inf2">
 &lt;i class="fa-solid fa-link" aria-hidden="true" title="ลิงก์ไปยังหัวข้อ">&lt;/i>
 &lt;span class="sr-only">ลิงก์ไปยังหัวข้อ&lt;/span>
 &lt;/a>
&lt;/h2>
&lt;p>นี่เป็นการทดสอบแบบรวดเร็วว่า &amp;ldquo;เราสามารถทำให้มันทำงานได้ตั้งแต่ต้นจนจบหรือไม่&amp;rdquo; ไม่ใช่ชุดการวัดประสิทธิภาพที่สมบูรณ์&lt;/p>
&lt;ul>
&lt;li>&lt;strong>วันที่ดำเนินการ:&lt;/strong> 2026-02-01&lt;/li>
&lt;li>&lt;strong>อินสแตนซ์ที่ทดสอบ:&lt;/strong> &lt;code>inf2.xlarge&lt;/code>&lt;/li>
&lt;li>&lt;strong>ภูมิภาค:&lt;/strong> &lt;code>us-east-2&lt;/code>&lt;/li>
&lt;li>&lt;strong>โมเดล:&lt;/strong> &lt;code>meta-llama/Llama-4-Maverick-17B-128E-Instruct&lt;/code>&lt;/li>
&lt;li>&lt;strong>Serving layer:&lt;/strong> vLLM บน Neuron&lt;/li>
&lt;li>&lt;strong>API surface:&lt;/strong> OpenAI-compatible endpoints (&lt;code>/v1/chat/completions&lt;/code>, &lt;code>/v1/completions&lt;/code>)&lt;/li>
&lt;li>&lt;strong>พอร์ต:&lt;/strong> &lt;code>8080&lt;/code>&lt;/li>
&lt;/ul>
&lt;h2 id="สงทไดผล-และทำไมจงสำคญ">
 สิ่งที่ได้ผล (และทำไมจึงสำคัญ)
 &lt;a class="heading-link" href="#%e0%b8%aa%e0%b8%87%e0%b8%97%e0%b9%84%e0%b8%94%e0%b8%9c%e0%b8%a5-%e0%b9%81%e0%b8%a5%e0%b8%b0%e0%b8%97%e0%b8%b3%e0%b9%84%e0%b8%a1%e0%b8%88%e0%b8%87%e0%b8%aa%e0%b8%b3%e0%b8%84%e0%b8%8d">
 &lt;i class="fa-solid fa-link" aria-hidden="true" title="ลิงก์ไปยังหัวข้อ">&lt;/i>
 &lt;span class="sr-only">ลิงก์ไปยังหัวข้อ&lt;/span>
 &lt;/a>
&lt;/h2>
&lt;p>ผลลัพธ์หลัก: &lt;strong>vLLM บน Neuron ทำงานได้&lt;/strong> และ API ที่เข้ากันได้กับ OpenAI ทำให้ง่ายต่อการเชื่อมต่อกับเครื่องมือโดยไม่ต้องเขียนไคลเอนต์ที่กำหนดเอง&lt;/p>
&lt;p>อย่างไรก็ตาม มีบทเรียนการดำเนินงานที่ &amp;ldquo;เป็นจริง&amp;rdquo; ไม่กี่อย่างที่สำคัญกว่า tokens/sec ดิบๆ&lt;/p>
&lt;h3 id="1-การคอมไพล-neuron-ครงแรกมคาใชจายสง">
 1) การคอมไพล์ Neuron ครั้งแรกมีค่าใช้จ่ายสูง
 &lt;a class="heading-link" href="#1-%e0%b8%81%e0%b8%b2%e0%b8%a3%e0%b8%84%e0%b8%ad%e0%b8%a1%e0%b9%84%e0%b8%9e%e0%b8%a5-neuron-%e0%b8%84%e0%b8%a3%e0%b8%87%e0%b9%81%e0%b8%a3%e0%b8%81%e0%b8%a1%e0%b8%84%e0%b8%b2%e0%b9%83%e0%b8%8a%e0%b8%88%e0%b8%b2%e0%b8%a2%e0%b8%aa%e0%b8%87">
 &lt;i class="fa-solid fa-link" aria-hidden="true" title="ลิงก์ไปยังหัวข้อ">&lt;/i>
 &lt;span class="sr-only">ลิงก์ไปยังหัวข้อ&lt;/span>
 &lt;/a>
&lt;/h3>
&lt;p>ครั้งแรกที่คุณรันการกำหนดค่าโมเดลเฉพาะ การคอมไพล์ Neuron อาจใช้เวลา &lt;strong>~15–30 นาที&lt;/strong>&lt;/p></description></item></channel></rss>