AI-ийн өргөтгөх чадвар гэж юу вэ?

AI-ийн өргөтгөх чадвар гэж юу вэ?

Хэрэв та туршилтын туршилтын жижиг ачааллыг няцалж, дараа нь бодит хэрэглэгчид гарч ирэх тэр агшинд царцаах загвар өмсөгчийг харж байсан бол та муу санаатантай уулзсан байна: scaling. AI нь өгөгдөл, тооцоолол, санах ой, зурвасын өргөн, бас хачирхалтай нь анхааралд шунадаг. Тэгэхээр AI Scalability гэж юу вэ, долоо хоног бүр бүх зүйлийг дахин бичихгүйгээр яаж үүнийг олж авах вэ?

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 AI хэвийх гэж юу болохыг энгийнээр тайлбарлав
Нууцлагдмал хандлага нь хиймэл оюун ухааны шийдвэр, үр дүнг загварчлахад хэрхэн нөлөөлдөг талаар олж мэдээрэй.

🔗 Эхлэгчдэд зориулсан гарын авлага: хиймэл оюун ухаан гэж юу вэ
AI, үндсэн ойлголт, төрөл, өдөр тутмын хэрэглээний талаархи тойм.

🔗 Тайлбарлах боломжтой AI гэж юу вэ, яагаад чухал вэ?
Тайлбар болохуйц хиймэл оюун ухаан нь ил тод байдал, итгэлцэл, зохицуулалтын нийцлийг хэрхэн нэмэгдүүлж байгааг олж мэдээрэй.

🔗 Урьдчилан таамаглах хиймэл оюун ухаан гэж юу вэ, энэ нь хэрхэн ажилладаг
Урьдчилан таамагласан хиймэл оюун ухаан, нийтлэг хэрэглээний тохиолдол, ашиг тус, хязгаарлалтыг ойлгох.


AI-ийн өргөтгөх чадвар гэж юу вэ? 📈

Хиймэл оюун ухааны өргөтгөл гэдэг нь хиймэл оюун ухааны системийн гүйцэтгэл, найдвартай байдал, зардлыг хүлээн зөвшөөрөгдөх хязгаарт байлгахын зэрэгцээ илүү их өгөгдөл, хүсэлт, хэрэглэгчид болон хэрэглээний тохиолдлуудыг боловсруулах чадвар юм. Зөвхөн том серверүүд биш - муруй өсөхийн хэрээр хоцрогдолыг бага, нэвтрүүлэх чадварыг өндөр, чанарыг тогтвортой байлгадаг илүү ухаалаг архитектурууд. Уян хатан дэд бүтэц, оновчтой загварууд, юу нь гал дээр байгааг танд үнэндээ хэлж өгдөг ажиглалттай байдлыг бодоорой.

 

Хиймэл оюун ухааны өргөтгөх чадвар

AI-г сайн өргөжүүлэх чадвар юу вэ ✅

AI-ийн өргөтгөх чадвар сайн хийгдсэн тохиолдолд та дараахь зүйлийг авна.

  • Хурц эсвэл удаан үргэлжилсэн ачааллын үед урьдчилан таамаглах боломжтой хоцрогдол 🙂

  • Нэмэгдсэн техник хангамж эсвэл хуулбартай харьцуулахад ойролцоогоор өсөх чадвар

  • Хүсэлт бүрт өсдөггүй зардлын үр ашиг

  • Орц төрөлжиж, хэмжээ нэмэгдэхийн хэрээр чанарын тогтвортой байдал

  • Автомат масштаб, мөшгих, эрүүл саруул SLO-ийн ачаар үйл ажиллагааны тайван байдал

Энэ нь ихэвчлэн хэвтээ масштаблах, багцлах, кэшлэх, тоо хэмжээ тогтоох, найдвартай үйлчилгээ болон алдааны төсөвтэй холбоотой бодлоготой хувилбаруудыг нэгтгэдэг [5].


AI-ийн өргөтгөх чадвар, гүйцэтгэл ба хүчин чадал 🧠

  • Гүйцэтгэл гэдэг нь нэг хүсэлтийг тусад нь хэр хурдан гүйцээж байгааг хэлнэ.

  • Чадавхи гэдэг нь эдгээр хүсэлтүүдийн хэд нь нэг дор ажиллах боломжтой юм.

  • AI-ийн өргөтгөх чадвар гэдэг нь нөөцийг нэмэх эсвэл илүү ухаалаг техник ашиглах нь хүчин чадлыг нэмэгдүүлж, гүйцэтгэлийг тогтвортой байлгах эсэх нь таны төлбөрийг эсвэл пейжерийг үлээлгэх явдал юм.

Өчүүхэн ялгаа, асар том үр дагавар.


Яагаад масштаб нь хиймэл оюун ухаанд ажилладаг вэ: масштабын хуулиудын санаа 📚

Орчин үеийн ML-д өргөн хэрэглэгддэг ойлголт бол загварын хэмжээ, өгөгдлийг өргөжүүлж, үндэслэлтэйгээр тооцоолох үед алдагдал урьдчилан таамаглах боломжтой байдлаар сайжирдаг явдал юм . Мөн загварын хэмжээ болон сургалтын токенуудын хооронд тооцооллын оновчтой тэнцвэр байдаг ; хоёуланг нь хамтад нь өргөжүүлэх нь зөвхөн нэгийг нь өргөжүүлэхээс илүү юм. Практикт эдгээр санаанууд нь сургалтын төсөв, өгөгдлийн багц төлөвлөлт, үйлчилгээний буулт хийхэд нөлөөлдөг [4].

Шуурхай орчуулга: том бол илүү сайн байх болно, гэхдээ та оролтыг томруулж, пропорциональ байдлаар тооцоолоход л болно, үгүй ​​бол энэ нь унадаг дугуй дээр тракторын дугуй тавихтай адил юм. Энэ нь хүчтэй харагдаж байна, хаашаа ч явдаггүй.


Хэвтээ ба босоо: масштабын хоёр хөшүүрэг 🔩

  • Босоо масштаб: том хайрцаг, илүү нягт GPU, илүү их санах ой. Энгийн, заримдаа үнэтэй. Нэг зангилаатай сургалт, хоцрогдол багатай дүгнэлт гаргах, эсвэл таны загвар сайн таслахаас татгалзсан үед тохиромжтой.

  • Хэвтээ масштаб : илүү олон хуулбар.хамгийн сайн ажилладаг CPU/GPU эсвэл захиалгат програмын хэмжигдэхүүн дээр тулгуурлан подкуудыг нэмж, устгадагKubernetes-д HorizontalPodAutoscaler нь эрэлт хэрэгцээнд нийцүүлэн хонхорцог хэмжүүрийг хэмждэг. Энэ нь замын хөдөлгөөний огцом өсөлтийг [1] хянах үндсэн хэрэгсэл юм. автомат масштаблагчтай .

Анекдот (нийлмэл): Өндөр түвшний нээлтийн үеэр сервер талын багцыг идэвхжүүлж, автомат тохируулагчийг дарааллын гүнд тогтворжсон p95-д үйлчлүүлэгчийн өөрчлөлтгүйгээр хариу үйлдэл үзүүлэх боломжийг олгоно. Гэнэтийн ялалтууд ялалт хэвээр байна.


AI өргөтгөх чадварын бүрэн багц 🥞

  1. Өгөгдлийн давхарга: хурдан объект хадгалах, вектор индексүүд болон таны сургагч багш нарыг шахахгүй урсгал дамжуулалт.

  2. Сургалтын давхарга: өгөгдөл/загварын параллелизм, шалгах цэг, дахин оролдлого хийх боломжтой хуваарилагдсан хүрээ ба хуваарьлагч.

  3. Үйлчилгээний давхарга: оновчтой ажиллах хугацаа, динамик багцлах, хуудасны анхаарал , кэш, токен дамжуулалт. Тритон ба vLLM бол энд байнга баатрууд байдаг [2][3].

  4. Зохион байгуулалт: HPA эсвэл захиалгат автомат масштабаар дамжуулан уян хатан болгох Kubernetes [1].

  5. Ажиглах боломжтой байдал: хэрэглэгчийн аялал, бүтээгдэхүүн дэх зан төлөвийг дагаж мөрддөг ул мөр, хэмжүүр, бүртгэл; тэдгээрийг SLO-нхоо эргэн тойронд зохион бүтээгээрэй [5].

  6. Засаглал ба зардал: хүсэлт бүрийн эдийн засаг, төсөв, хэт ачааллын үед унтраах унтраалга.


Харьцуулалтын хүснэгт: AI-г өргөжүүлэх арга хэрэгсэл, загвар 🧰

Зорилгодоо бага зэрэг тэгш бус байдаг - учир нь бодит амьдрал.

Хэрэгсэл / Загвар Үзэгчид Үнэтэй Яагаад ажилладаг вэ Тэмдэглэл
Kubernetes + HPA Платформ багууд Нээлттэй эх + дэд Хэмжилтийн хэмжээ нэмэгдэхийн хэрээр хонхорцог хэвтээ байдлаар масштаблана Захиалгат хэмжүүр нь алт [1]
NVIDIA Triton Дүгнэлт SRE Үнэгүй сервер; GPU $ Динамик багцлах нь дамжуулах чадварыг нэмэгдүүлдэг config.pbtxt [2] -аар тохируулна уу
vLLM (Хуудасны анхаарал) LLM багууд Нээлттэй эх сурвалж Үр ашигтай KV-кэш пейжинг ашиглан өндөр дамжуулах чадвар Удаан сануулга өгөхөд тохиромжтой [3]
ONNX Runtime / TensorRT Гайхалтай тэнэгүүд Үнэгүй / борлуулагч хэрэгсэл Цөмийн түвшний оновчлол нь хоцролтыг бууруулдаг Экспортын замууд нь төвөгтэй байж болно
RAG загвар Аппликешн багууд Инфра + индекс Мэдлэгийг сэргээхэд хүргэдэг; индексийг хэмждэг Шинэлэг байдлын хувьд маш сайн

Гүн шумбах 1: Зүүг хөдөлгөх арга 🚀

  • Динамик багцлах нь жижиг дүгнэлтийн дуудлагуудыг сервер дээр илүү том багц болгон хувааж, үйлчлүүлэгчийн өөрчлөлтгүйгээр GPU ашиглалтыг эрс нэмэгдүүлдэг [2].

  • Хуудсан анхаарал нь KV кэшийг пейжинг хийснээр илүү олон харилцан яриаг санах ойд хадгалдаг бөгөөд энэ нь зэрэгцүүлэн дамжуулах чадварыг сайжруулдаг [3].

  • нэгтгэх болон кэшлэх хүсэлт гаргах нь давхардсан ажлаас зайлсхийдэг.

  • Таамаглалын код тайлах болон токен дамжуулалт нь ханын цаг бараг л хөдөлдөггүй байсан ч хүлээгдэж буй хоцролтыг бууруулдаг.


Гүн шумбах 2: Загварын түвшний үр ашиг - хэмжигдэхүүн, нэрэх, тайрах 🧪

  • Санах ойг багасгаж, дүгнэлтийг хурдасгахын тулдөөрчлөлтийн дараа ажлын чанарыг үргэлж дахин үнэл. тоон тооцоолол нь параметрийн нарийвчлалыг (жишээ нь: 8-бит/4-бит) бууруулдаг;

  • Нэрэлт нь том багшийн мэдлэгийг таны техник хангамжид таалагддаг жижиг сурагч руу дамжуулдаг.

  • Бүтцийн тайралт нь хамгийн бага хувь нэмэр оруулдаг жин/толгойг тайрдаг.

Үнэнийг хэлэхэд, энэ нь чемоданаа цомхотгочихоод бүх гутлаа таарсан хэвээрээ гэж шаардахтай адил юм. Ямар нэгэн байдлаар энэ нь ихэвчлэн тохиолддог.


Гүн шумбах 3: Дата болон сургалтын хэмжээг нулимсгүйгээр хийх 🧵

  • Туршилтыг илүү хурдан явуулахын тулд параллелизмын бүдүүлэг хэсгүүдийг нуусан тархсан сургалтыг ашигла.

  • Эдгээр масштабын хуулиудыг санаарай : төсвийг загварын хэмжээ болон жетон дээр сайтар хуваарилах; хоёуланг нь хамтад нь масштаблах нь тооцоолоход үр ашигтай [4].

  • Сургалтын хөтөлбөр болон өгөгдлийн чанар нь хүмүүсийн хүлээн зөвшөөрснөөс илүү үр дүнд нөлөөлдөг. Илүү сайн өгөгдөл нь заримдаа илүү их өгөгдлөөс илүү байдаг - хэдийгээр та аль хэдийн том кластер захиалсан байсан ч гэсэн.


Гүн шумбах 4: RAG нь мэдлэгийг нэмэгдүүлэх стратеги юм

Өөрчлөгдөж буй баримтуудыг дагаж мөрдөхийн тулд загварыг дахин сургахын оронд RAG дүгнэлт хийхдээ сэргээх алхамыг нэмдэг. Та загвараа тогтвортой байлгаж, корпус тань өсөхийн хэрээрМэдлэг ихтэй аппликейшнуудыг бүрэн дахин сургахаас илүү гоёмсог бөгөөд ихэвчлэн хямд. индекс болон ретриверийн хэмжээг нэмэгдүүлэх боломжтой.


Ажиглагдах чадвар нь зардлаа нөхдөг 🕵️♀️

Та харж чадахгүй байгаа зүйлээ томруулж чадахгүй. Хоёр чухал зүйл:

  • Хүчин чадлын төлөвлөлт болон автомат масштабын хэмжүүрүүд : хоцролтын хувь, дарааллын гүн, GPU санах ой, багцын хэмжээ, токен дамжуулах чадвар, кэшийн цохилтын хувь.

  • мөрүүд . Хэмжсэн зүйлээ SLO-той холбож, хяналтын самбарууд асуултанд нэг минутын дотор хариулдаг [5].

Хяналтын самбар нь асуултанд минутын дотор хариулахад хүмүүс үүнийг ашигладаг. Үгүй бол яахав, хийсэн юм шиг дүр эсгэдэг.


Найдвартай байдлын хамгаалалт: SLO, алдааны төсөв, эрүүл саруул 🧯

  • Хоцролт, хүртээмж, үр дүнгийн чанарын хувьд SLO-г тодорхойлж , найдвартай байдлыг суллах хурдтай тэнцвэржүүлэхийн тулд алдааны төсвийг ашигла [5].

  • Замын хөдөлгөөний хуваагдлын ард байрлуулж, канарей хийж, дэлхийн зах зээлээс өмнө сүүдрийн туршилт явуулаарай. Таны ирээдүйн хүн хөнгөн зууш илгээх болно.


Жүжиггүйгээр зардлын хяналт 💸

Масштабтай болгох нь зөвхөн техникийн зүйл биш; энэ бол санхүүгийн. GPU цаг болон жетоныг нэгжийн эдийн засагтай нэгдүгээр зэрэглэлийн нөөц болгон авч үзэх (1к жетон, нэг оруулах, вектор хайлт бүрийн зардал). Төсөв нэмэх, сэрэмжлүүлэх; зүйлсийг устгасан баяраа тэмдэглэ.


AI-г өргөжүүлэх энгийн замын зураг 🗺️

  1. p95-ийн хоцролт, бэлэн байдал, даалгаврын нарийвчлалын хувьдутас хэмжигдэхүүн/мөр эхний өдөр [5]. SLO-аас эхлэх ;

  2. үйлчилгээний стекийг сонгоно уу : Triton, vLLM эсвэл түүнтэй адилтгах [2][3].

  3. Загварыг оновчтой болгох: хаана тусалж байгааг тоолж, илүү хурдан цөмүүдийг идэвхжүүлж эсвэл тодорхой ажлуудад нэрэх; чанарыг бодит үнэлгээгээр баталгаажуулах.

  4. Уян хатан байдлын архитектор: Зөв дохио, тусдаа унших/бичих зам, харьяалалгүй дүгнэлтийн хуулбар бүхий Kubernetes HPA [1].

  5. Долоо хоног бүр давтан сургах биш харин индексээ нэмэгдүүлэхийн тулд шинэлэг байдал чухал үед сэргээх аргыг хэрэгжүүлээрэй .

  6. Өртөгтэй холбоотой гогцоог хаах: нэгжийн эдийн засаг, долоо хоног тутмын тоймыг бий болгох.


Алдаа гарах нийтлэг горимууд ба хурдан засварууд 🧨

  • Хоцролт муу байхад GPU 30%-ийн ашиглалттай

    • Динамик багцлах горимыг асааж , багцын хязгаарыг анхааралтай дээшлүүлж, серверийн давхцлыг дахин шалгана уу [2].

  • Урт сануулгуудаар дамжуулалт унадаг

    • Хуудсан анхаарлыг дэмждэг үйлчилгээ ашиглах ба хамгийн их зэрэгцэх дарааллыг тааруулах [3].

  • Автоматаар хэмжигч хавтас

    • Цонхтой жигд хэмжүүр; цэвэр CPU-ийн оронд дарааллын гүн эсвэл секунд тутамд тусгай токен дээр масштаблах [1].

  • Өртөг хөөргөсний дараа зардал нь тэсрэх болно

    • Хүсэлтийн түвшний зардлын хэмжигдэхүүнүүдийг нэмж, аюулгүй газар тоон тогтоох, дээд зэргийн асуулгад кэш хийх, хамгийн муу зөрчигчдийг үнэлэмжийг хязгаарлах.


AI өргөтгөх чадварын тоглоомын дэвтэр: хурдан шалгах хуудас ✅

  • SLO болон алдааны төсөв байгаа бөгөөд харагдах болно

  • Хэмжигдэхүүн: хоцролт, tps, GPU санах ой, багцын хэмжээ, токен/с, кэшийн цохилт

  • Загвар руу орохоос эхлээд процессын дараах хүртэлх ул мөр

  • Үйлчлэх: багцлах, зэрэгцүүлэн тохируулах, дулаан кэш

  • Загвар: энэ нь тусалдаг газарт тоо хэмжээ эсвэл нэрмэл

  • Infra: HPA-г зөв дохиогоор тохируулсан

  • Мэдлэгийн шинэлэг байдлыг олж авах зам

  • Нэгжийн эдийн засгийг байнга хянаж байдаг


Хэт удаан уншаагүй ба эцсийн тайлбар 🧩

Хиймэл оюун ухааны өргөтгөл нь ганц функц эсвэл нууц шилжүүлэгч биш юм. Энэ бол хэв маягийн хэл юм: автомат масштаблагчтай хэвтээ өргөтгөл, ашиглалтын сервер талын багц, загвар түвшний үр ашиг, мэдлэгийг буулгахын тулд сэргээх, мөн нэвтрүүлгийг уйтгартай болгодог ажиглалт. SLO-г нэмж, хүн бүрийг уялдаа холбоотой байлгахын тулд эрүүл ахуйн зардлыг нэмэгдүүлээрэй. Та үүнийг анх удаа төгс болгож чадахгүй - хэн ч чадахгүй - гэхдээ зөв санал хүсэлтийн давталттай бол таны систем шөнийн 2 цагт хүйтэн хөлс мэдрэхгүйгээр өсөх болно 😅


Лавлагаа

[1] Kubernetes Docs - Хэвтээ Pod автоматаар масштаблах - дэлгэрэнгүй унших
[2] NVIDIA Triton - Dynamic Batcher - дэлгэрэнгүй унших
[3] vLLM Docs - Paged Attention - дэлгэрэнгүй унших
[4] Hoffmann et al. (2022) - Тооцооллын оновчтой том хэлний загваруудыг сургах - дэлгэрэнгүй унших
[5] Google SRE Workbook - SLO-г хэрэгжүүлэх - дэлгэрэнгүй унших

Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах