Хэрэв та туршилтын туршилтын жижиг ачааллыг няцалж, дараа нь бодит хэрэглэгчид гарч ирэх тэр агшинд царцаах загвар өмсөгчийг харж байсан бол та муу санаатантай уулзсан байна: scaling. AI нь өгөгдөл, тооцоолол, санах ой, зурвасын өргөн, бас хачирхалтай нь анхааралд шунадаг. Тэгэхээр AI Scalability гэж юу вэ, долоо хоног бүр бүх зүйлийг дахин бичихгүйгээр яаж үүнийг олж авах вэ?
Үүний дараа унших дуртай нийтлэлүүд:
🔗 AI хэвийх гэж юу болохыг энгийнээр тайлбарлав
Нууцлагдмал хандлага нь хиймэл оюун ухааны шийдвэр, үр дүнг загварчлахад хэрхэн нөлөөлдөг талаар олж мэдээрэй.
🔗 Эхлэгчдэд зориулсан гарын авлага: хиймэл оюун ухаан гэж юу вэ
AI, үндсэн ойлголт, төрөл, өдөр тутмын хэрэглээний талаархи тойм.
🔗 Тайлбарлах боломжтой AI гэж юу вэ, яагаад чухал вэ?
Тайлбар болохуйц хиймэл оюун ухаан нь ил тод байдал, итгэлцэл, зохицуулалтын нийцлийг хэрхэн нэмэгдүүлж байгааг олж мэдээрэй.
🔗 Урьдчилан таамаглах хиймэл оюун ухаан гэж юу вэ, энэ нь хэрхэн ажилладаг
Урьдчилан таамагласан хиймэл оюун ухаан, нийтлэг хэрэглээний тохиолдол, ашиг тус, хязгаарлалтыг ойлгох.
AI-ийн өргөтгөх чадвар гэж юу вэ? 📈
AI өргөтгөх чадвар нь AI систем нь гүйцэтгэл, найдвартай байдал, зардлыг зөвшөөрөгдөх хэмжээнд байлгахын зэрэгцээ илүү олон өгөгдөл, хүсэлт, хэрэглэгчид, хэрэглээний тохиолдлуудыг зохицуулах чадвар юм. Зөвхөн том серверүүд биш, хоцролтыг бага, дамжуулах чадвар өндөр, муруй өгсөх тусам чанарыг тогтвортой байлгадаг илүү ухаалаг архитектурууд. Уян дэд бүтэц, оновчтой загварууд, танд яг юу шатаж байгааг хэлж өгдөг ажиглалт зэргийг бодоорой.

AI-г сайн өргөжүүлэх чадвар юу вэ ✅
AI-ийн өргөтгөх чадвар сайн хийгдсэн тохиолдолд та дараахь зүйлийг авна.
-
Хурц эсвэл удаан ачаалалтай үед урьдчилан таамаглах боломжтой хоцрогдол
-
Нэмэгдсэн техник хангамж эсвэл хуулбартай харьцуулахад ойролцоогоор өсөх чадвар
-
Хүсэлт болгонд хөөрдөггүй зардлын үр ашиг
-
Орц төрөлжиж, хэмжээ нэмэгдэхийн хэрээр чанарын тогтвортой байдал
-
Автомат масштаб, мөшгих, эрүүл саруул SLO-ийн ачаар үйл ажиллагааны тайван байдал
Энэ нь ихэвчлэн хэвтээ масштаблах, багцлах, кэшлэх, тоо хэмжээ тогтоох, найдвартай үйлчилгээ болон алдааны төсөвтэй холбоотой бодлоготой хувилбаруудыг нэгтгэдэг [5].
AI-ийн өргөтгөх чадвар, гүйцэтгэл ба хүчин чадал 🧠
-
Гүйцэтгэл гэдэг нь нэг хүсэлтийг тусад нь хэр хурдан гүйцээж байгааг хэлнэ.
-
Чадавхи гэдэг нь эдгээр хүсэлтүүдийн хэд нь нэг дор ажиллах боломжтой юм.
-
AI-ийн өргөтгөх чадвар гэдэг нь нөөцийг нэмэх эсвэл илүү ухаалаг техник ашиглах нь хүчин чадлыг нэмэгдүүлж, гүйцэтгэлийг тогтвортой байлгах эсэх нь таны төлбөрийг эсвэл пейжерийг үлээлгэх явдал юм.
Өчүүхэн ялгаа, асар том үр дагавар.
Яагаад масштаб нь хиймэл оюун ухаанд ажилладаг вэ: масштабын хуулиудын санаа 📚
загварын хэмжээ, өгөгдөл, тооцоолол хийх үед алдагдал нь урьдчилан таамаглах боломжтой байдлаар сайжирдаг явдал юм . Загварын хэмжээ болон сургалтын токенуудын хооронд тооцоолох оновчтой тэнцвэр байдаг аль алиныг нь хамтад нь масштаблах нь зөвхөн нэгийг нь томруулахаас давдаг. Практикт эдгээр санаанууд нь сургалтын төсөв, өгөгдлийн багц төлөвлөлт, харилцан үйлчлэлийн талаар мэдээлэл өгдөг [4].
Шуурхай орчуулга: том бол илүү сайн байх болно, гэхдээ та оролтыг томруулж, пропорциональ байдлаар тооцоолоход л болно, үгүй бол энэ нь унадаг дугуй дээр тракторын дугуй тавихтай адил юм. Энэ нь хүчтэй харагдаж байна, хаашаа ч явдаггүй.
Хэвтээ ба босоо: масштабын хоёр хөшүүрэг 🔩
-
Босоо масштаб : том хайрцаг, илүү нягт GPU, илүү их санах ой. Энгийн, заримдаа үнэтэй. Нэг зангилаатай сургалт, хоцрогдол багатай дүгнэлт гаргах, эсвэл таны загвар сайн таслахаас татгалзсан үед тохиромжтой.
-
Хэвтээ масштаб : илүү олон хуулбар. CPU/GPU эсвэл захиалгат програмын хэмжигдэхүүн дээр тулгуурлан подкуудыг нэмж, устгадаг автомат масштаблагчтай хамгийн сайн ажилладаг Kubernetes-д HorizontalPodAutoscaler нь эрэлт хэрэгцээнд нийцүүлэн хонхорцог хэмжүүрийг хэмждэг. Энэ нь замын хөдөлгөөний огцом өсөлтийг [1] хянах үндсэн хэрэгсэл юм.
Анекдот (нийлмэл): Өндөр түвшний нээлтийн үеэр сервер талын багцыг идэвхжүүлж, автомат тохируулагчийг дарааллын гүнд тогтворжсон p95-д үйлчлүүлэгчийн өөрчлөлтгүйгээр хариу үйлдэл үзүүлэх боломжийг олгоно. Гэнэтийн ялалтууд ялалт хэвээр байна.
AI өргөтгөх чадварын бүрэн багц 🥞
-
Өгөгдлийн давхарга : хурдан объектын хадгалалт, вектор индекс, дамжуулалтын дамжуулалт нь таны сургагчдад саад болохгүй.
-
Сургалтын давхарга : өгөгдөл/загварын параллелизм, шалгах цэг, дахин оролдлого хийх боломжтой хуваарилагдсан хүрээ ба хуваарьлагч.
-
Үйлчилгээний давхарга : оновчтой ажиллах хугацаа, динамик багцлах , хуудасны анхаарал , кэш, токен дамжуулалт. Тритон ба vLLM бол энд байнга баатрууд байдаг [2][3].
-
Зохион байгуулалт : HPA эсвэл захиалгат автомат масштабаар дамжуулан уян хатан болгох Kubernetes [1].
-
Ажиглах боломжтой байдал : хэрэглэгчийн аялал, бүтээгдэхүүн дэх зан төлөвийг дагаж мөрддөг ул мөр, хэмжүүр, бүртгэл; тэдгээрийг SLO-нхоо эргэн тойронд зохион бүтээгээрэй [5].
-
Засаглал ба зардал : нэг хүсэлтийн эдийн засаг, төсөв, ажлын ачааллыг бууруулах унтраалга.
Харьцуулалтын хүснэгт: AI-г өргөжүүлэх арга хэрэгсэл, загвар 🧰
Зорилгодоо бага зэрэг тэгш бус байдаг - учир нь бодит амьдрал.
| Хэрэгсэл / Загвар | Үзэгчид | Үнэтэй | Яагаад ажилладаг вэ | Тэмдэглэл |
|---|---|---|---|---|
| Kubernetes + HPA | Платформ багууд | Нээлттэй эх + дэд | Хэмжилтийн хэмжээ нэмэгдэхийн хэрээр хонхорцог хэвтээ байдлаар масштаблана | Захиалгат хэмжүүр нь алт [1] |
| NVIDIA Triton | Дүгнэлт SRE | Үнэгүй сервер; GPU $ | Динамик багцлах нь дамжуулах чадварыг нэмэгдүүлдэг | config.pbtxt [2] -аар тохируулна уу |
| vLLM (Хуудасны анхаарал) | LLM багууд | Нээлттэй эх сурвалж | Үр ашигтай KV-кэш пейжинг ашиглан өндөр дамжуулах чадвар | Удаан сануулга өгөхөд тохиромжтой [3] |
| ONNX Runtime / TensorRT | Гайхалтай тэнэгүүд | Үнэгүй / борлуулагч хэрэгсэл | Цөмийн түвшний оновчлол нь хоцролтыг бууруулдаг | Экспортын замууд нь төвөгтэй байж болно |
| RAG загвар | Аппликешн багууд | Инфра + индекс | Мэдлэгийг сэргээхэд хүргэдэг; индексийг хэмждэг | Шинэлэг байдлын хувьд маш сайн |
Гүн шумбах 1: Зүүг хөдөлгөх арга 🚀
-
Динамик багцлах нь жижиг дүгнэлтийн дуудлагуудыг сервер дээр илүү том багц болгон хувааж, үйлчлүүлэгчийн өөрчлөлтгүйгээр GPU ашиглалтыг эрс нэмэгдүүлдэг [2].
-
Хуудсан анхаарал нь KV кэшийг пейжинг хийснээр илүү олон харилцан яриаг санах ойд хадгалдаг бөгөөд энэ нь зэрэгцүүлэн дамжуулах чадварыг сайжруулдаг [3].
-
Давхардсан ажил хийхээс сэргийлж, ижил сануулгууд эсвэл шигтгээг нэгтгэх, кэш хийхийг хүсэх
-
Таамаглалын код тайлах болон токен дамжуулалт нь ханын цаг бараг л хөдөлдөггүй байсан ч хүлээгдэж буй хоцролтыг бууруулдаг.
Гүн шумбах 2: Загварын түвшний үр ашиг - хэмжигдэхүүн, нэрэх, тайрах 🧪
-
Санах ойг багасгаж, дүгнэлтийг хурдасгахын тулд тоон тооцоолол нь өөрчлөлтийн дараа ажлын чанарыг үргэлж дахин үнэл.
-
Нэрэлт нь том багшийн мэдлэгийг таны техник хангамжид таалагддаг жижиг сурагч руу дамжуулдаг.
-
Бүтцийн тайралт нь хамгийн бага хувь нэмэр оруулдаг жин/толгойг тайрдаг.
Үнэнийг хэлэхэд, энэ нь чемоданаа цомхотгочихоод бүх гутлаа таарсан хэвээрээ гэж шаардахтай адил юм. Ямар нэгэн байдлаар энэ нь ихэвчлэн тохиолддог.
Гүн шумбах 3: Дата болон сургалтын хэмжээг нулимсгүйгээр хийх 🧵
-
Туршилтыг илүү хурдан явуулахын тулд параллелизмын бүдүүлэг хэсгүүдийг нуусан тархсан сургалтыг ашигла.
-
масштабын хуулиудыг санаарай : төсвийг загварын хэмжээ болон жетон дээр сайтар хуваарилах; хоёуланг нь хамтад нь масштаблах нь тооцоолоход үр ашигтай [4].
-
Хичээлийн хөтөлбөр болон өгөгдлийн чанар нь хүмүүсийн хүлээн зөвшөөрснөөс илүү үр дүнд хүргэдэг. Та илүү том кластер захиалсан байсан ч илүү сайн өгөгдөл заримдаа илүү их өгөгдлийг давдаг.
Гүн шумбах 4: RAG нь мэдлэгийг нэмэгдүүлэх стратеги юм
Өөрчлөгдөж буй баримтуудыг дагаж мөрдөхийн тулд загварыг дахин сургахын оронд RAG дүгнэлт хийхдээ сэргээх алхамыг нэмдэг. Та загвараа тогтвортой байлгаж, корпус тань өсөхийн хэрээр индекс болон ретриверийн Мэдлэг ихтэй аппликейшнуудыг бүрэн дахин сургахаас илүү гоёмсог бөгөөд ихэвчлэн хямд.
Ажиглагдах чадвар нь зардлаа нөхдөг 🕵️♀️
Та харж чадахгүй байгаа зүйлээ томруулж чадахгүй. Хоёр чухал зүйл:
-
Хүчин чадлын төлөвлөлт болон автомат масштабын хэмжүүрүүд
-
Гарц → хайлт → загвар → боловсруулалтын дараах нэг хүсэлтийг дагаж мөрддөг . Хэмж буй зүйлээ SLO-той холбоно уу, ингэснээр хяналтын самбар асуултуудад минутын дотор хариулна [5].
Хяналтын самбар нь асуултанд минутын дотор хариулахад хүмүүс үүнийг ашигладаг. Үгүй бол яахав, хийсэн юм шиг дүр эсгэдэг.
Найдвартай байдлын хамгаалалт: SLO, алдааны төсөв, эрүүл саруул 🧯
-
SLO-г тодорхойлж , найдвартай байдлыг суллах хурдтай тэнцвэржүүлэхийн тулд алдааны төсвийг
-
Замын хөдөлгөөний хуваагдлын ард байрлуулж, канарей хийж, дэлхийн зах зээлээс өмнө сүүдрийн туршилт явуулаарай. Таны ирээдүйн хүн хөнгөн зууш илгээх болно.
Жүжиггүйгээр зардлын хяналт 💸
Масштабтай болгох нь зөвхөн техникийн зүйл биш; энэ бол санхүүгийн. GPU цаг болон жетоныг нэгжийн эдийн засагтай нэгдүгээр зэрэглэлийн нөөц болгон авч үзэх (1к жетон, нэг оруулах, вектор хайлт бүрийн зардал). Төсөв нэмэх, сэрэмжлүүлэх; зүйлсийг устгасан баяраа тэмдэглэ.
AI-г өргөжүүлэх энгийн замын зураг 🗺️
-
p95-ийн хоцролт, бэлэн байдал, даалгаврын нарийвчлалын хувьд SLO-аас эхлэх утас хэмжигдэхүүн/мөр эхний өдөр [5].
-
үйлчилгээний стекийг сонгоно уу : Triton, vLLM эсвэл түүнтэй адилтгах [2][3].
-
Загварыг оновчтой болгох : хаана тусалж байгааг тоолж, илүү хурдан цөмүүдийг идэвхжүүлж эсвэл тодорхой ажлуудад нэрэх; чанарыг бодит үнэлгээгээр баталгаажуулах.
-
Уян хатан байдлын архитектор : Зөв дохио, тусдаа унших/бичих зам, харьяалалгүй дүгнэлтийн хуулбар бүхий Kubernetes HPA [1].
-
Долоо хоног бүр давтан сургах биш харин индексээ нэмэгдүүлэхийн тулд шинэлэг байдал чухал үед сэргээх аргыг хэрэгжүүлээрэй
-
Өртөгтэй холбоотой гогцоог хаах : нэгжийн эдийн засаг, долоо хоног тутмын тоймыг бий болгох.
Алдаа гарах нийтлэг горимууд ба хурдан засварууд 🧨
-
Хоцролт муу байхад GPU 30%-ийн ашиглалттай
-
Динамик багцлах горимыг асааж , багцын хязгаарыг анхааралтай дээшлүүлж, серверийн давхцлыг дахин шалгана уу [2].
-
-
Урт сануулгуудаар дамжуулалт унадаг
-
Хуудсан анхаарлыг дэмждэг үйлчилгээ ашиглах ба хамгийн их зэрэгцэх дарааллыг тааруулах [3].
-
-
Автоматаар хэмжигч хавтас
-
Цонхтой жигд хэмжүүр; цэвэр CPU-ийн оронд дарааллын гүн эсвэл секунд тутамд тусгай токен дээр масштаблах [1].
-
-
Өртөг хөөргөсний дараа зардал нь тэсрэх болно
-
Хүсэлтийн түвшний зардлын хэмжигдэхүүнүүдийг нэмж, аюулгүй газар тоон тогтоох, дээд зэргийн асуулгад кэш хийх, хамгийн муу зөрчигчдийг үнэлэмжийг хязгаарлах.
-
AI өргөтгөх чадварын тоглоомын дэвтэр: хурдан шалгах хуудас ✅
-
SLO болон алдааны төсөв байгаа бөгөөд харагдах болно
-
Хэмжигдэхүүн: хоцролт, tps, GPU санах ой, багцын хэмжээ, токен/с, кэшийн цохилт
-
Загвар руу орохоос эхлээд процессын дараах хүртэлх ул мөр
-
Үйлчлэх: багцлах, зэрэгцүүлэн тохируулах, дулаан кэш
-
Загвар: энэ нь тусалдаг газарт тоо хэмжээ эсвэл нэрмэл
-
Infra: HPA-г зөв дохиогоор тохируулсан
-
Мэдлэгийн шинэлэг байдлыг олж авах зам
-
Нэгжийн эдийн засгийг байнга хянаж байдаг
Хэт удаан уншаагүй ба эцсийн тайлбар 🧩
AI-ийн өргөтгөх чадвар нь ганц функц эсвэл нууц шилжүүлэгч биш юм. Энэ бол хэв маягийн хэл юм: автомат масштабаар хэвтээ масштаблах, ашиглахад зориулж сервер талдаа багцлах, загварын түвшний үр ашиг, ачааллыг арилгахын тулд олж авах мэдлэг, гүйлгээг уйтгартай болгодог ажиглалт. Хүн бүрийг жигд байлгахын тулд SLO-д цацаж, эрүүл ахуйн зардлаа хадгалаарай. Эхний удаад та төгс төгөлдөр болж чадахгүй - хэн ч хийхгүй - гэхдээ зөв эргэх холбоогоор таны систем шөнийн 2 цагт хүйтэн хөлс асгарахгүйгээр хөгжих болно 😅
Лавлагаа
[1] Kubernetes Docs - Хэвтээ Pod автоматаар масштаблах - дэлгэрэнгүй унших
[2] NVIDIA Triton - Dynamic Batcher - дэлгэрэнгүй унших
[3] vLLM Docs - Paged Attention - дэлгэрэнгүй унших
[4] Hoffmann et al. (2022) - Тооцооллын оновчтой том хэлний загваруудыг сургах - дэлгэрэнгүй унших
[5] Google SRE Workbook - SLO-г хэрэгжүүлэх - дэлгэрэнгүй унших