Товчхондоо: Хиймэл оюун ухааны загварыг байршуулна гэдэг нь үйлчилгээний загварыг (бодит цагийн, багц, урсгал эсвэл ирмэг) сонгож, дараа нь бүх замыг хуулбарлах боломжтой, ажиглагдахуйц, аюулгүй, буцаах боломжтой болгоно гэсэн үг юм. Та бүх зүйлийг хувилбарчилж, үйлдвэрлэлийн төстэй ачаалал дээр p95/p99 хоцрогдолыг хэмжихдээ "миний зөөврийн компьютер дээрх ажил"-ын ихэнх алдааг тойрч гарах болно.
Гол дүгнэлтүүд:
Байршуулалтын хэв маяг: Хэрэгслүүдэд даатгахаасаа өмнө бодит цагийн, багц, урсгал эсвэл захын горимыг сонгоно уу.
Давтах чадвар: Загвар, онцлог, код болон орчныг хувилбараар нь өөрчилж, алдаанаас сэргийлнэ.
Ажиглагдах байдал: Хоцрогдлын сүүл, алдаа, ханалт, өгөгдөл эсвэл гаралтын тархалтыг тасралтгүй хянах.
Аюулгүй нэвтрүүлэлт: Автомат буцаах босго бүхий канарын, хөх-ногоон эсвэл сүүдрийн туршилтыг ашиглаарай.
Аюулгүй байдал ба нууцлал: Баталгаажуулалт, хурдны хязгаар, нууцлалын менежментийг хэрэгжүүлж, бүртгэл дэх PII-г багасгах.

Үүний дараа таны унших дуртай нийтлэлүүд:
🔗 AI гүйцэтгэлийг хэрхэн хэмжих вэ
Найдвартай хиймэл оюун ухааны үр дүнгийн хэмжүүр, жишиг үзүүлэлт болон бодит ертөнцийн шалгалтыг сур.
🔗 Хиймэл оюун ухаанаар даалгавруудыг хэрхэн автоматжуулах вэ
Давтагдах ажлыг заавар, хэрэгсэл, интеграцийг ашиглан ажлын урсгал болгон хувирга.
🔗 Хиймэл оюун ухааны загваруудыг хэрхэн турших вэ
Загваруудыг бодитойгоор харьцуулахын тулд үнэлгээ, өгөгдлийн багц, оноог зохион бүтээх.
🔗 AI-тай хэрхэн ярих вэ
Илүү сайн асуулт асууж, нөхцөл байдлыг тодорхойлж, илүү тодорхой хариултыг хурдан аваарай.
1) "Байршуулалт" гэж юу гэсэн үг вэ (мөн яагаад энэ нь зөвхөн API биш вэ) 🧩
Хүмүүс "загварыг байршуулах" гэж хэлэхдээ дараах зүйлсийг хэлж магадгүй юм:
-
Апп нь бодит цаг хугацаанд дүгнэлтийг дуудаж чадахын тулд төгсгөлийн цэгийг ил гаргана уу Vertex AI: Загварыг төгсгөлийн цэгт байршуулах , Amazon SageMaker: Бодит цагийн дүгнэлт )
-
Өгөгдлийн сан дахь таамаглалыг шинэчлэхийн тулд багц оноог шөнө бүр ажиллуулна уу Amazon SageMaker Batch Transform )
-
Урсгалын дүгнэлт (үйл явдлууд байнга ирж, таамаглал байнга гардаг) ( Cloud Dataflow: яг нэг удаа эсвэл дор хаяж нэг удаа , Cloud Dataflow урсгалын горимууд )
-
Ирмэгийн байршуулалт (утас, хөтөч, суулгагдсан төхөөрөмж, эсвэл "үйлдвэрт байгаа жижиг хайрцаг") ( LiteRT төхөөрөмж дээрх дүгнэлт , LiteRT тойм )
-
Дотоод хэрэгслийн байршуулалт (шинжээчид чиглэсэн хэрэглэгчийн интерфэйс, тэмдэглэлийн дэвтэр эсвэл хуваарьт скриптүүд)
Тиймээс байршуулалт нь "загварыг хүртээмжтэй болгох"-оос илүүтэйгээр дараахтай төстэй юм:
-
сав баглаа боодол + үйлчилгээ + өргөтгөл + хяналт + засаглал + буцаан олголт ( Цэнхэр-Ногоон Байршуулалт )
Энэ нь ресторан нээхтэй адил юм. Амттай хоол хийх нь чухал, мэдээж. Гэхдээ танд барилга байгууламж, ажилчид, хөргөгч, цэс, хангамжийн сүлжээ, мөн хөлдөөгчинд уйлахгүйгээр оройн хоолны ачааллыг даван туулах арга зам хэрэгтэй хэвээр байна. Төгс зүйрлэл биш... гэхдээ та ойлгож байна. 🍝
2) “Хиймэл оюун ухааны загваруудыг хэрхэн байршуулах вэ” номын сайн хувилбарыг юу бүрдүүлдэг вэ? ✅
"Сайн байршуулалт" нь хамгийн сайн утгаараа уйтгартай байдаг. Энэ нь дарамт шахалтын үед урьдчилан таамаглахуйц байдлаар ажилладаг бөгөөд хэрэв тийм биш бол та үүнийг хурдан оношлох боломжтой.
"Сайн" гэдэг нь ихэвчлэн дараах байдлаар харагддаг
-
Дахин хуулбарлах боломжтой бүтээлтүүд
Ижил код + ижил хамаарал = ижил зан төлөв. Аймшигтай "миний зөөврийн компьютер дээр ажилладаг" мэдрэмж байхгүй 👻 ( Docker: Контейнер гэж юу вэ? ) -
Интерфэйсийн тодорхой гэрээ
Оролт, гаралт, схем болон ирмэгийн тохиолдлуудыг тодорхойлсон. Өглөөний 2 цагт гэнэтийн төрлүүд байхгүй. ( OpenAPI: OpenAPI гэж юу вэ?, JSON схем ) -
Бодит байдалтай нийцсэн гүйцэтгэл.
Үйлдвэрлэлтэй төстэй техник хангамж болон бодит ачаалал дээр хэмжигддэг хоцрогдол болон нэвтрүүлэх чадварыг. -
Шүдээр хянах.
Үйлдлийг өдөөдөг хэмжүүр, бүртгэл, ул мөр, шилжилтийн шалгалт (зөвхөн хяналтын самбарыг хэн ч нээдэггүй). ( SRE ном: Тархсан системийн хяналт ) -
Аюулгүй нэвтрүүлэх стратеги
Канари эсвэл цэнхэр-ногоон, хялбар буцаах, залбирал шаарддаггүй хувилбар. ( Канарын хувилбар , цэнхэр-ногоон байршуулалт ) -
Төлбөр тооцоо нь утасны дугаар шиг харагдах хүртэл "Хурдан" зардлын талаарх мэдлэг -
Нууцлалын удирдлага, хандалтын хяналт, PII харьцах, аудит хийх чадварт тусгасан болно Kubernetes Secrets , NIST SP 800-122 )
Хэрэв та эдгээрийг тогтмол хийж чадвал ихэнх багуудаас аль хэдийн түрүүлж байна. Үнэнийг хэлэхэд.
3) Зөв байршуулалтын загварыг сонгоно уу (хэрэгсэл сонгохоосоо өмнө) 🧠
Бодит цагийн API дүгнэлт⚡
Хамгийн тохиромжтой үед:
-
хэрэглэгчид шуурхай үр дүн хэрэгтэй (зөвлөмж, залилангийн шалгалт, чат, хувийн тохиргоо)
-
шийдвэрүүд хүсэлтийн үеэр гарах ёстой
Анхааруулга:
-
p99 хоцрогдол нь дунджаас илүү чухал ( The Tail at Scale , SRE Book: Monitoring Distributed Systems )
-
Автомат масштабжуулалтыг болгоомжтой тохируулах шаардлагатай ( Kubernetes Horizontal Pod Autoscaling )
-
Хүйтэн эхлэл нь зальтай байж болно... муур ширээн дээрээс шил түлхэж байгаа мэт ( AWS Lambda гүйцэтгэх орчны амьдралын мөчлөг )
Багцаар оноо авах 📦
Хамгийн тохиромжтой үед:
-
Урьдчилан таамаглалыг хойшлуулж болно (шөнийн эрсдэлийн оноо, алдагдал таамаглал, ETL баяжуулалт) ( Amazon SageMaker Batch Transform )
-
Та зардлын хэмнэлт болон илүү хялбар ажиллагааг хүсч байна
Анхааруулга:
-
өгөгдлийн шинэлэг байдал болон нөөцлөлт
-
онцлог шинж чанарын логикийг сургалттай уялдуулах
Стриминг дүгнэлт 🌊
Хамгийн тохиромжтой үед:
-
та үйл явдлуудыг тасралтгүй боловсруулдаг (IoT, clickstreams, хяналтын системүүд)
-
Та хатуу хүсэлтийн хариу үйлдэлгүйгээр бараг бодит цагийн шийдвэрийг хүсч байна
Анхааруулга:
-
яг нэг удаагийн болон хамгийн багадаа нэг удаагийн семантик ( Cloud Dataflow: яг нэг удаагийн болон хамгийн багадаа нэг удаагийн )
-
төлөвийн удирдлага, дахин оролдлого, хачин давхардсан хувилбарууд
Ирмэгийн байршуулалт 📱
Хамгийн тохиромжтой үед:
-
Сүлжээний хамааралгүйгээр бага хоцрогдол ( LiteRT төхөөрөмж дээрх дүгнэлт )
-
нууцлалын хязгаарлалт
-
офлайн орчин
Анхааруулга:
-
загварын хэмжээ, батерей, квантжуулалт, техник хангамжийн хуваагдал ( Сургалтын дараах квантжуулалт (TensorFlow загварын оновчлол) )
-
Шинэчлэлтүүд илүү хэцүү (та зэрлэг байгальд 30 хувилбарыг хүсэхгүй байна ...)
Эхлээд загвараа сонгоод дараа нь стекийг нь сонгоно уу. Үгүй бол та дөрвөлжин загварыг дугуй хэлбэртэй болгоход хүргэнэ. Эсвэл үүнтэй төстэй зүйл. 😬
4) Загварыг үйлдвэрлэлтэй харьцахаас сэргийлж савлах 📦🧯
Энэ бол ихэнх "хялбар байршуулалтууд" чимээгүйхэн үхдэг газар юм.
Бүх хувилбар (тийм ээ, бүх зүйл)
-
Загварын олдвор (жин, график, токенайзер, шошгоны газрын зураг)
-
Онцлог логик (хувиргалт, хэвийн болгох, кодлогч)
-
Боловсруулалтын өмнөх/дараагийн дүгнэлтийн код
-
Орчин (Python, CUDA, системийн номын сангууд)
Үр дүнтэй энгийн арга:
-
загварыг суллах эд өлгийн зүйл мэтээр харьцах
-
үүнийг хувилбарын шошготой хамт хадгалах
-
загвар карт шиг мета өгөгдлийн файл шаардлагатай: схем, хэмжүүр, сургалтын өгөгдлийн агшин зургийн тэмдэглэл, мэдэгдэж буй хязгаарлалтууд ( Загвар тайлагнах загвар картууд )
Савнууд тусалдаг ч тэднийг шүтэж болохгүй 🐳
Контейнерууд нь дараах шалтгаанаар маш сайн байдаг:
-
хамаарлуудыг хөлдөөх ( Docker: Контейнер гэж юу вэ? )
-
барилгуудыг стандартчилах
-
байршуулалтын зорилтуудыг хялбарчлах
Гэхдээ та одоо ч гэсэн дараах зүйлсийг зохицуулах хэрэгтэй:
-
үндсэн зургийн шинэчлэлтүүд
-
GPU драйверуудын нийцтэй байдал
-
аюулгүй байдлын сканнердах
-
зургийн хэмжээ (хэн ч 9GB “сайн уу дэлхий”-д дургүй) ( Docker бүтээх шилдэг туршлагууд )
Интерфэйсийг стандартчилах
Оролт/гаралтын форматаа эрт шийдээрэй:
-
Энгийн байдлын JSON (удаан боловч ээлтэй) ( JSON схем )
-
Гүйцэтгэлийн Protobuf ( Протоколын буферуудын тойм )
-
зураг/аудио файлд суурилсан ачаалал (мета өгөгдөл нэмэх)
Мөн оролтыг баталгаажуулна уу. Буруу оролтууд нь "яагаад утгагүй тасалбар буцаагаад байгаа юм бэ" гэсэн гол шалтгаан юм. ( OpenAPI: OpenAPI гэж юу вэ?, JSON Schema )
5) Үйлчилгээний сонголтууд - "энгийн API"-аас бүрэн загварын серверүүд хүртэл 🧰
Хоёр нийтлэг зам байдаг:
А сонголт: Апп сервер + дүгнэлт код (FastAPI маягийн арга) 🧪
Та загварыг ачаалж, таамаглалыг буцаадаг API бичдэг. ( FastAPI )
Давуу талууд:
-
өөрчлөхөд хялбар
-
энгийн загварууд эсвэл эрт үеийн бүтээгдэхүүнүүдэд маш сайн
-
энгийн баталгаажуулалт, чиглүүлэлт болон интеграцчилал
Сул талууд:
-
та гүйцэтгэлийн тохируулга (багцлах, урсгалт, GPU ашиглалт) эзэмшдэг
-
Чи зарим дугуйг дахин зохион бүтээх болно, магадгүй эхэндээ муухай байж магадгүй
Сонголт B: Загвар сервер (TorchServe / Triton маягийн арга) 🏎️
Дараахь зүйлсийг хариуцдаг тусгай серверүүд:
-
багцлах ( Тритон: Динамик багцлах ба зэрэгцээ загварын гүйцэтгэл )
-
зэрэгцээ байдал ( Тритон: Зэрэгцээ загварын гүйцэтгэл )
-
олон загвар
-
GPU-ийн үр ашиг
-
стандартчилагдсан төгсгөлийн цэгүүд ( TorchServe баримт бичиг , Triton Inference Server баримт бичиг )
Давуу талууд:
-
хайрцагнаас нь илүү сайн гүйцэтгэлийн загварууд
-
Үйлчилгээ болон бизнесийн логикийн хоорондох цэвэр ялгаа
Сул талууд:
-
үйл ажиллагааны нэмэлт нарийн төвөгтэй байдал
-
Тохиргоо нь шүршүүрийн температурыг тохируулахтай адил төвөгтэй мэдрэмж төрүүлж болно
Холимог хэв маяг нь маш түгээмэл байдаг:
-
дүгнэлт хийх загвар сервер ( Triton: Динамик багцлах )
-
Баталгаажуулах, хүсэлтийг бүрдүүлэх, бизнесийн дүрэм журам, хурдыг хязгаарлах нимгэн API гарц ( API Gateway throttling )
6) Харьцуулсан хүснэгт - байршуулах түгээмэл аргууд (үнэн сэтгэл хөдлөлөөр) 📊😌
Хиймэл оюун ухааны загваруудыг хэрхэн ашиглах талаар олж мэдэхдээ хүмүүсийн ашигладаг сонголтуудын практик тоймыг доор харуулав .
| Хэрэгсэл / Хандлага | Үзэгчид | Үнэ | Яагаад ажилладаг вэ |
|---|---|---|---|
| Docker + FastAPI (эсвэл үүнтэй төстэй) | Жижиг багууд, стартапууд | Чөлөөт маягийн | Энгийн, уян хатан, хурдан хүргэлттэй - та масштабын бүх асуудлыг "мэдрэх" болно ( Docker , FastAPI ) |
| Кубернетес (өөрөө хийх) | Платформ багууд | Хэт улаан туяанаас хамааралтай | Хяналт + өргөтгөх боломжтой... мөн олон товчлуурууд байгаа бөгөөд зарим нь хараал идсэн ( Kubernetes HPA ) |
| Удирдлагатай машин механизмын платформ (үүл машин механизмын үйлчилгээ) | Бага ажиллагаа хүсдэг багууд | Хэрэглэх үедээ төлбөрөө төлнө үү | Суурилуулсан байршуулалтын ажлын урсгал, хяналтын дэгээ - заримдаа үргэлж асаалттай төгсгөлийн цэгүүдэд үнэтэй байдаг ( Vertex AI байршуулалт , SageMaker бодит цагийн дүгнэлт ) |
| Сервергүй функцууд (гэрлийн дүгнэлтэд) | Үйл явдалд суурилсан аппликейшнууд | Хэрэглээний төлбөр | Хурц ачаалалд маш сайн - гэхдээ хүйтэн асаалт болон загварын хэмжээ таны өдрийг сүйтгэж болзошгүй 😬 ( AWS Lambda хүйтэн асаалт ) |
| NVIDIA Triton Inference Server | Гүйцэтгэлд чиглэсэн багууд | Үнэгүй програм хангамж, дэд бүтцийн зардал | Маш сайн GPU ашиглалт, багцлах, олон загвар - тохиргоо нь тэвчээр шаарддаг ( Triton: Динамик багцлах ) |
| TorchServe | PyTorch-ын хүнд багууд | Үнэгүй програм хангамж | Тохиромжтой анхдагч үйлчлэх хэв маяг - өндөр хэмжээний хувьд тохируулах шаардлагатай байж магадгүй ( TorchServe баримт бичиг ) |
| BentoML (сав баглаа боодол + үйлчлэл) | Машины сургалтын инженерүүд | Чөлөөт цөм, нэмэлтүүд өөр өөр байдаг | Зөөлөн сав баглаа боодол, хөгжүүлэгчийн сайхан туршлага - танд дэд бүтцийн сонголтууд хэрэгтэй хэвээр байна ( байршуулалтад зориулсан BentoML сав баглаа боодол ) |
| Рэй Серв | Тархсан системийн хүмүүс | Хэт улаан туяанаас хамааралтай | Хэвтээ чиглэлд масштабтай, дамжуулах хоолойд тохиромжтой - жижиг төслүүдэд "том" мэт санагддаг ( Рэй Сервийн баримт бичиг ) |
Хүснэгтийн тэмдэглэл: “Үнэгүй мэт” гэдэг нь бодит амьдрал дээрх нэр томьёо юм. Учир нь энэ хэзээ ч үнэгүй байдаггүй. Таны нойр байсан ч хаа нэгтээ үргэлж төлбөрийн хуудас байдаг. 😴
7) Гүйцэтгэл ба өргөтгөл - хоцрогдол, нэвтрүүлэх чадвар болон үнэн 🏁
Гүйцэтгэлийн тохируулга нь байршуулалт нь ур чадвар болдог газар юм. Зорилго нь "хурдан" биш. Зорилго нь тогтмол хангалттай хурдан .
Чухал гол үзүүлэлтүүд
-
p50 хоцрогдол : хэрэглэгчийн ердийн туршлага
-
p95 / p99 хоцрогдол : уур хилэнг өдөөдөг сүүл ( Хэмжээний сүүл , SRE ном: Тархсан системийн хяналт )
-
нэвтрүүлэх чадвар : секундэд ногдох хүсэлтүүд (эсвэл үүсгэгч загваруудын хувьд секундэд ногдох жетонууд)
-
Алдааны түвшин : илэрхий боловч заримдаа үл тоомсорлодог
-
Нөөцийн ашиглалт : CPU, GPU, санах ой, VRAM ( SRE ном: Тархсан системийн хяналт )
Татах нийтлэг хөшүүргүүд
-
нэгтгэх
. Гүйцэтгэлийн хувьд маш сайн, хэтрүүлбэл хоцролтыг бууруулж болзошгүй. ( Тритон: Динамик багцлах ) -
Квантжуулалт
Бага нарийвчлалтай байх нь (INT8 шиг) дүгнэлтийг хурдасгаж, ой санамжийг бууруулдаг. Нарийвчлалыг бага зэрэг бууруулж болзошгүй. Заримдаа гайхмаар зүйл биш. ( Сургалтын дараах квантжуулалт ) -
Эмхэтгэх / оновчлох
ONNX экспорт, график оновчлогчид, TensorRT төст урсгалууд. Хүчирхэг боловч дибаг хийх нь хурц болж магадгүй 🌶️ ( ONNX , ONNX Runtime загварын оновчлолууд ) -
Кэш хийх
Хэрэв оролтууд давтагдсан бол (эсвэл та оруулгуудыг кэш хийж болно) та маш их хэмнэлт гаргаж чадна. -
Автоматаар
хэмжилт хийх нь CPU/GPU ашиглалт, дарааллын гүн эсвэл хүсэлтийн хурдыг хэмждэг. Дарааллын гүнийг дутуу үнэлдэг. ( Kubernetes HPA )
Хачирхалтай боловч үнэн зөвлөгөө: үйлдвэрлэлийн хэмжээтэй төстэй ачааны хэмжээгээр хэмж. Жижиг туршилтын ачаа танд худал хэлдэг. Тэд эелдэгээр инээмсэглээд дараа нь таныг урвадаг.
8) Хяналт болон ажиглалт - сохор нисэх хэрэггүй 👀📈
Загварын хяналт нь зөвхөн ажиллах хугацааны хяналт биш юм. Хэрэв та дараах зүйлсийг мэдэхийг хүсвэл:
-
үйлчилгээ нь эрүүл байна
-
загвар өмсөгч аашилж байна
-
өгөгдөл зөрж байна
-
таамаглалууд итгэл үнэмшил багатай болж байна ( Vertex AI Model Monitoring тойм , Amazon SageMaker Model Monitor )
Юуг хянах вэ (хамгийн бага боломжтой багц)
Үйлчилгээний эрүүл мэнд
-
хүсэлтийн тоо, алдааны түвшин, хоцрогдлын тархалт ( SRE ном: Тархсан системийн хяналт )
-
ханалт (CPU/GPU/санах ой)
-
дарааллын урт ба дараалалд байх хугацаа
Загварын зан байдал
-
оролтын функцийн тархалт (үндсэн статистик)
-
оруулах норм (оруулах загваруудын хувьд)
-
гаралтын тархалт (итгэл үнэмшил, ангийн холимог, онооны хүрээ)
-
Оролт дээрх гажиг илрүүлэх (хог хаягдал орох, хог хаягдал гарах)
Өгөгдлийн шилжилт ба ойлголтын шилжилт
-
Дрифтийн сэрэмжлүүлэг нь үйлдэл хийх боломжтой байх ёстой ( Vertex AI: Хяналтын функц, skew and drift , Amazon SageMaker Model Monitor )
-
Спам сэрэмжлүүлэгээс зайлсхий - энэ нь хүмүүст бүх зүйлийг үл тоомсорлохыг заадаг
Бүртгэл хийх, гэхдээ "бүх зүйлийг үүрд бүртгэх" арга биш 🪵
Лог:
-
хүсэлтийн дугаарууд
-
загвар хувилбар
-
схемийн баталгаажуулалтын үр дүн ( OpenAPI: OpenAPI гэж юу вэ? )
-
Хамгийн бага бүтэцлэгдсэн ачааллын мета өгөгдөл (түүхий PII биш) ( NIST SP 800-122 )
Нууцлалдаа болгоомжтой хандаарай. Та бүртгэлүүдээ өгөгдөл алдагдахыг хүсэхгүй байна. ( NIST SP 800-122 )
9) CI/CD болон нэвтрүүлэх стратегиуд - загваруудыг жинхэнэ хувилбарууд шиг харьцах 🧱🚦
Хэрэв та найдвартай байршуулалт хийхийг хүсч байвал дамжуулах хоолой барь. Энгийн ч гэсэн.
Хатуу урсгал
-
Урьдчилан боловсруулалт болон дараах боловсруулалтын нэгжийн туршилтууд
-
Мэдэгдэж буй оролт-гаралтын "алтан багц"-тай интеграцийн тест
-
Ачааллын туршилтын суурь шугам (хөнгөн жинтэй ч гэсэн)
-
Артефакт бүтээх (контейнер + загвар) ( Docker бүтээх шилдэг туршлагууд )
-
Тайзны үе шатанд байршуулах
-
Канари хөлгийг замын хөдөлгөөний жижиг хэсэгт суллах ( Канари хөлгийг суллах )
-
Аажмаар нэмэгдүүлэх
-
Түлхүүр босго дээр автоматаар буцаах ( Цэнхэр-Ногоон Байршуулалт )
Таны эрүүл ухааныг аврах дэлгэлтийн загварууд
-
Канари : эхлээд урсгалыг 1-5% хүртэл суллана ( Канари хувилбар )
-
Цэнхэр-ногоон : шинэ хувилбарыг хуучин хувилбарын хажууд ажиллуулж, бэлэн болмогц эргүүлнэ ( Цэнхэр-ногоон байрлуулалт )
-
Сүүдрийн туршилт : шинэ загвар руу бодит урсгалыг илгээх боловч үр дүнг нь ашиглахгүй (үнэлгээнд маш сайн) ( Microsoft: Сүүдрийн туршилт )
Мөн төгсгөлийн цэгүүд эсвэл маршрутаа загвар хувилбараар нь хувилбарлана уу. Ирээдүйд та танд талархах болно. Одоогийнхоо хувьд та бас танд талархах болно, гэхдээ чимээгүйхэн.
10) Аюулгүй байдал, нууцлал, мөн "зүйл битгий задруул" 🔐🙃
Хамгаалалтынхан урилгагүй зочин шиг оройтож ирэх хандлагатай байдаг. Эртхэн урьсан нь дээр.
Практик шалгах хуудас
-
Баталгаажуулалт ба эрхжүүлэлт (загварыг хэн дуудаж болох вэ?)
-
Хурдны хязгаарлалт (зохисгүй хэрэглээ болон санамсаргүй шуурганаас хамгаалах) ( API Gateway-ийн хязгаарлалт )
-
Нууцын менежмент (кодонд түлхүүр байхгүй, тохиргооны файлуудад түлхүүр байхгүй...) ( AWS Нууцын Менежер , Kubernetes Нууцууд )
-
Сүлжээний хяналт (хувийн дэд сүлжээ, үйлчилгээнээс үйлчилгээнд шилжих бодлого)
-
Аудитын бүртгэлүүд (ялангуяа мэдрэмтгий таамаглалын хувьд)
-
Өгөгдлийг багасгах (зөвхөн шаардлагатай зүйлсийг хадгалах) ( NIST SP 800-122 )
Хэрэв загвар нь хувийн мэдээлэлд хүрвэл:
-
засварлах эсвэл хэш танигч
-
Түүхий ачааг бүртгэхээс зайлсхий ( NIST SP 800-122 )
-
хадгалах дүрмийг тодорхойлох
-
баримт бичгийн өгөгдлийн урсгал (уйтгартай боловч хамгаалалттай)
Түүнчлэн, шуурхай тарилга болон гаралтын буруу хэрэглээ нь үүсгэгч загваруудад чухал ач холбогдолтой байж болно. Нэмэх: ( LLM програмуудын OWASP шилдэг 10 , OWASP: Шуурхай тарилга )
-
оролтын ариутгалын дүрэм
-
шаардлагатай үед гаралтын шүүлтүүр
-
багаж хэрэгслийг дуудах эсвэл мэдээллийн сангийн үйлдлүүдэд зориулсан хашлага
Төгс систем гэж байдаггүй ч та үүнийг эмзэг болгож чадна.
11) Нийтлэг алдаанууд (ердийн занга гэх мэт) 🪤
Сонгодог бүтээлүүд энд байна:
-
Сургалт-үйлчилгээний гажуудал
Урьдчилан боловсруулалт нь сургалт болон үйлдвэрлэлийн хооронд ялгаатай байдаг. Гэнэт нарийвчлал буурч, хэн ч яагаад гэдгийг нь мэдэхгүй. ( TensorFlow өгөгдлийн баталгаажуулалт: сургалт-үйлчилгээний гажуудлыг илрүүлэх ) -
Схемийн баталгаажуулалт хийгдээгүй.
Нэг дээд урсгалын өөрчлөлт бүх зүйлийг эвддэг. Үргэлж чанга биш ч гэсэн... ( JSON Schema , OpenAPI: OpenAPI гэж юу вэ? ) -
Хэрэглэгчид уурласан үедээ сүүлний хоцрогдолыг үл тоомсорлох нь The Tail at Scale ) -
Зардлын
GPU төгсгөлийн цэгүүдийг сул зогсолтгүй ажиллуулахаа мартах нь гэрт чинь байгаа бүх гэрэл асаалттай үлдээхтэй адил боловч гэрлийн чийдэнгүүд нь мөнгөөр хийгдсэн байдаг. -
Буцаах төлөвлөгөө байхгүй.
“Бид зүгээр л дахин байршуулна” гэдэг нь төлөвлөгөө биш. Энэ бол нөмрөг өмссөн найдвар юм. ( Цэнхэр-Ногоон Байршуулалт ) -
Зөвхөн ажиллах хугацааг хянах.
Загвар буруу байх үед үйлчилгээ ажиллах боломжтой. Энэ нь маргаангүй муу юм. ( Vertex AI: Хяналтын функц skew and drift , Amazon SageMaker Model Monitor )
Хэрэв та үүнийг уншаад "тийм ээ, бид эдгээрээс хоёрыг нь хийдэг" гэж бодож байгаа бол клубт тавтай морил. Клубт хөнгөн зууш, бага зэргийн стресс байдаг. 🍪
12) Дүгнэлт - Оюун ухаанаа алдалгүйгээр хиймэл оюун ухааны загваруудыг хэрхэн ашиглах вэ 😄✅
Хиймэл оюун ухааныг ашиглах нь жинхэнэ бүтээгдэхүүн болдог. Энэ нь тансаг биш ч итгэлийг олж авдаг газар юм.
Товч тойм
-
Эхлээд байршуулалтын загвараа шийдээрэй (бодит цагийн, багц, урсгал, зах) 🧭 ( Amazon SageMaker багц хувиргалт , Cloud Dataflow урсгалын горимууд , LiteRT төхөөрөмж дээрх дүгнэлт )
-
Дахин үйлдвэрлэх боломжтой багц (бүх хувилбарыг хувилбар болгоно, хариуцлагатайгаар савлана) 📦 ( Docker контейнерууд )
-
Гүйцэтгэлийн хэрэгцээнд үндэслэн үйлчилгээний стратеги сонгох (энгийн API болон загвар сервер) 🧰 ( FastAPI , Triton: Динамик багцлах )
-
Зөвхөн дундаж утгыг биш, харин p95/p99 хоцрогдолыг хэмжинэ үү 🏁 ( Хэмжээний сүүл )
-
Үйлчилгээний эрүүл мэнд болон загварын зан төлөвийн хяналтыг нэмэх 👀 ( SRE ном: Тархсан системийн хяналт , Vertex хиймэл оюун ухааны загварын хяналт )
-
Канари эсвэл хөх-ногоон өнгөөр аюулгүй өнхрүүлж, буцааж хялбархан өнхрүүлээрэй 🚦 ( Канари суллах , Хөх-ногоон байрлуулалт )
-
Эхний өдрөөс эхлэн аюулгүй байдал, нууцлалын дор хоол хий 🔐 ( AWS Нууцын Менежер , NIST SP 800-122 )
-
Уйтгартай, урьдчилан таамаглаж болохуйц, баримтжуулсан хэвээр байлгаарай - уйтгартай нь үзэсгэлэнтэй 😌
Тийм ээ, хиймэл оюун ухааны загваруудыг хэрхэн ашиглах вэ гэдэг нь эхэндээ галтай боулингийн бөмбөгийг жонглёрдохтой адил санагдаж магадгүй юм. Гэхдээ таны дамжуулах хоолой тогтвортой болсны дараа энэ нь хачин жигтэй сэтгэл ханамжтай болдог. Яг л эмх замбараагүй шургуулга зохион байгуулахтай адил... зөвхөн шургуулга нь үйлдвэрлэлийн урсгал юм. 🔥🎳
Түгээмэл асуултууд
Хиймэл оюун ухааны загварыг үйлдвэрлэлд нэвтрүүлнэ гэдэг нь юу гэсэн үг вэ
Хиймэл оюун ухааны загварыг байршуулах нь ихэвчлэн урьдчилан таамаглах API-г ил гаргахаас хамаагүй илүү ихийг шаарддаг. Практикт энэ нь загвар болон түүний хамаарлыг савлах, үйлчилгээний загварыг (бодит цагийн, багц, урсгал эсвэл зах) сонгох, найдвартай байдлыг хангах, эрүүл мэнд болон шилжилтийг хянах, аюулгүй нэвтрүүлэх болон буцаах замыг тохируулах зэрэг орно. Бат бөх байршуулалт нь ачааллын дор урьдчилан таамаглахуйц тогтвортой хэвээр байх бөгөөд ямар нэгэн зүйл буруу болоход оношлогдох боломжтой хэвээр байна.
Бодит цагийн, багц, урсгал эсвэл захын байршуулалтын хооронд хэрхэн сонгох вэ
Урьдчилан таамаглал хэзээ шаардлагатай байгаа болон таны ажиллаж буй хязгаарлалтууд дээр үндэслэн байршуулалтын загварыг сонгоно уу. Бодит цагийн API нь хоцрогдол чухал үед интерактив туршлагуудад тохирно. Багцын оноо нь хоцрогдол хүлээн зөвшөөрөгдөхүйц бөгөөд зардлын үр ашгийг дээшлүүлэхэд хамгийн сайн ажилладаг. Ялангуяа хүргэлтийн семантик асуудалтай болсон үед урсгал нь тасралтгүй үйл явдлын боловсруулалтад тохирно. Захын байршуулалт нь офлайн ажиллагаа, нууцлал эсвэл хэт бага хоцрогдлын шаардлагад тохиромжтой боловч шинэчлэлт болон техник хангамжийн өөрчлөлтийг удирдахад хэцүү болдог.
"Миний зөөврийн компьютер дээр ажилладаг" байршуулалтын алдаанаас зайлсхийхийн тулд ямар хувилбарыг сонгох вэ
Зөвхөн загварын жингээс илүү хувилбар. Ерөнхийдөө танд хувилбартай загварын артефакт (токенизатор эсвэл шошгоны газрын зургийг оруулаад), урьдчилсан боловсруулалт болон функцын логик, дүгнэлтийн код, бүрэн ажиллах үеийн орчин (Python/CUDA/системийн сангууд) хэрэгтэй болно. Загварыг шошготой хувилбарууд болон схемийн хүлээлт, үнэлгээний тэмдэглэл, мэдэгдэж буй хязгаарлалтуудыг тайлбарласан хөнгөн мета өгөгдөл бүхий хувилбарын артефакт гэж үзэх.
Энгийн FastAPI маягийн үйлчилгээ эсвэл зориулалтын загвар сервер ашиглан байршуулах эсэх
Энгийн апп сервер (FastAPI маягийн арга) нь анхны бүтээгдэхүүнүүд эсвэл энгийн загваруудад сайн тохирдог, учир нь та чиглүүлэлт, баталгаажуулалт болон интеграцийг хянах боломжтой. Загвар сервер (TorchServe эсвэл NVIDIA Triton маягийн) нь илүү хүчтэй багцжуулалт, параллель байдал болон GPU үр ашгийг шууд хангаж чадна. Олон багууд эрлийз хувилбарыг ашигладаг: дүгнэлт хийх загвар сервер болон баталгаажуулалт, хүсэлтийг хэлбэржүүлэх, хурдны хязгаарын нимгэн API давхарга.
Нарийвчлалыг алдагдуулахгүйгээр хоцрогдол болон нэвтрүүлэх хурдыг хэрхэн сайжруулах вэ
Жижиг туршилтууд нь төөрөгдүүлж болзошгүй тул бодит ачаалалтай үйлдвэрлэлийн төст техник хангамж дээр p95/p99 хоцрогдолыг хэмжихээс эхэл. Нийтлэг хөшүүргүүдэд багцлах (илүү сайн нэвтрүүлэх чадвар, хоцрогдол муу байх магадлалтай), квантжуулалт (жижиг бөгөөд хурдан, заримдаа бага нарийвчлалтайгаар солилцох), эмхэтгэх болон оновчлолын урсгал (ONNX/TensorRT-тэй төстэй), давтагдсан оролт эсвэл оруулгыг кэшлэх зэрэг орно. Дарааллын гүнд суурилсан автомат масштабжуулалт нь сүүлний хоцрогдол дээшлэхээс сэргийлж чадна.
"Эцсийн цэг дээшээ"-нээс гадна ямар хяналт шаардлагатай вэ?
Ажиллах хугацаа хангалтгүй, учир нь үйлчилгээ эрүүл харагдаж байхад таамаглалын чанар муудаж болно. Хамгийн багадаа хүсэлтийн хэмжээ, алдааны түвшин, хоцрогдлын тархалт, түүнчлэн CPU/GPU/санах ой болон дарааллын хугацаа зэрэг ханалтын дохионуудыг хянана. Загварын зан төлөвийн хувьд оролт болон гаралтын тархалтыг үндсэн аномалийн дохионуудын хамт хянана. Шуугиантай сэрэмжлүүлгийн оронд үйлдэл өдөөдөг дрифт шалгалт, хүсэлтийн ID, загварын хувилбар, схемийн баталгаажуулалтын үр дүнг нэмнэ үү.
Шинэ загварын хувилбаруудыг хэрхэн аюулгүйгээр нэвтрүүлж, хурдан сэргээх вэ
Бүрэн хувилбарууд гэх мэт загваруудыг урьдчилсан болон дараах боловсруулалтыг туршдаг, интеграцийн шалгалтыг "алтан багц"-ын эсрэг явуулдаг, ачааллын суурь түвшинг тогтоодог CI/CD дамжуулах хоолойгоор харьц. Хэрэглээний хувьд canary нь хурдасгуурын урсгалыг аажмаар сулладаг бол цэнхэр-ногоон өнгө нь хуучин хувилбарыг шууд нөөцлөх зорилгоор ажиллуулдаг. Сүүдрийн туршилт нь хэрэглэгчдэд нөлөөлөхгүйгээр шинэ загварыг бодит урсгал дээр үнэлэхэд тусалдаг. Буцаан олголт нь дараа нь бодож олсон зүйл биш, харин нэгдүгээр зэрэглэлийн механизм байх ёстой.
Хиймэл оюун ухааны загваруудыг хэрхэн байршуулахыг сурахад хамгийн түгээмэл тохиолддог алдаанууд
Сургалт-үйлчилгээний гажуудал нь сонгодог тохиолдол юм: урьдчилсан боловсруулалт нь сургалт болон үйлдвэрлэлийн хооронд ялгаатай бөгөөд гүйцэтгэл чимээгүйхэн буурдаг. Өөр нэг түгээмэл асуудал бол схемийн баталгаажуулалт дутмаг байдаг бөгөөд дээд урсгалын өөрчлөлт нь оролтыг нарийн аргаар эвддэг. Багууд мөн сүүлний хоцрогдолыг дутуу үнэлж, дундаж дээр хэт анхаарлаа төвлөрүүлж, зардлыг үл тоомсорлодог (сул зогсолтын GPU хурдан нэмэгддэг), буцаах төлөвлөлтийг алгасдаг. Зөвхөн ажиллах хугацааг хянах нь ялангуяа эрсдэлтэй байдаг, учир нь "дээшээ гэхдээ буруу" нь доошоо байснаас дор байж болно.
Лавлагаа
-
Амазоны Вэб Үйлчилгээ (AWS) - Амазоны SageMaker: Бодит цагийн дүгнэлт - docs.aws.amazon.com
-
Амазоны Вэб Үйлчилгээ (AWS) - Амазоны SageMaker Багц Хувиргалт - docs.aws.amazon.com
-
Амазоны Вэб Үйлчилгээ (AWS) - Амазоны SageMaker Загварын Хяналт - docs.aws.amazon.com
-
Amazon Web Services (AWS) - API Gateway хүсэлтийг хязгаарлах - docs.aws.amazon.com
-
Амазоны Вэб Үйлчилгээ (AWS) - AWS Нууцын Менежер: Танилцуулга - docs.aws.amazon.com
-
Amazon Web Services (AWS) - AWS Lambda гүйцэтгэлийн орчны амьдралын мөчлөг - docs.aws.amazon.com
-
Google Cloud - Vertex хиймэл оюун ухаан: Загварыг төгсгөлийн цэгт байршуулах - docs.cloud.google.com
-
Google Cloud - Vertex хиймэл оюун ухааны загварын хяналтын тойм - docs.cloud.google.com
-
Google Cloud - Vertex AI: Хазайлт болон шилжилтийг хянах функц - docs.cloud.google.com
-
Google Cloud Блог - Өгөгдлийн урсгал: яг нэг удаагийн болон дор хаяж нэг удаагийн урсгалын горимууд - cloud.google.com
-
Google Cloud - Cloud Dataflow урсгалын горимууд - docs.cloud.google.com
-
Google SRE Book - Тархсан системийн хяналт - sre.google
-
Google Research - Хэмжээний сүүл - research.google
-
LiteRT (Google AI) - LiteRT тойм - ai.google.dev
-
LiteRT (Google AI) - LiteRT төхөөрөмж дээрх дүгнэлт - ai.google.dev
-
Docker - Контейнер гэж юу вэ? - docs.docker.com
-
Docker - Docker бүтээх шилдэг туршлагууд - docs.docker.com
-
Kubernetes - Kubernetes нууцууд - kubernetes.io
-
Kubernetes - Хэвтээ Pod автоматаар масштаблах - kubernetes.io
-
Мартин Фаулер - Канарын чөлөөлөлт - martinfowler.com
-
Мартин Фаулер - Цэнхэр-Ногоон Байршуулалт - martinfowler.com
-
OpenAPI Санаачилга - OpenAPI гэж юу вэ? - openapis.org
-
JSON схем - (сайтын лавлагаа) - json-schema.org
-
Протоколын буферууд - Протоколын буферуудын тойм - protobuf.dev
-
FastAPI - (сайтын лавлагаа) - fastapi.tiangolo.com
-
NVIDIA - Triton: Динамик багцжуулалт ба зэрэгцээ загварын гүйцэтгэл - docs.nvidia.com
-
NVIDIA - Triton: Зэрэгцээ загварын гүйцэтгэл - docs.nvidia.com
-
NVIDIA - Triton Inference Server баримт бичиг - docs.nvidia.com
-
PyTorch - TorchServe баримт бичиг - docs.pytorch.org
-
BentoML - Байршуулалтад зориулсан сав баглаа боодол - docs.bentoml.com
-
Рэй - Рэй Үйлчлэх баримт бичиг - docs.ray.io
-
TensorFlow - Сургалтын дараах квантжуулалт (TensorFlow загварын оновчлол) - tensorflow.org
-
TensorFlow - TensorFlow өгөгдлийн баталгаажуулалт: сургалтын үйлчлэлийн гажуудлыг илрүүлэх - tensorflow.org
-
ONNX - (сайтын лавлагаа) - onnx.ai
-
ONNX Runtime - Загвар оновчлол - onnxruntime.ai
-
NIST (Үндэсний Стандарт ба Технологийн Хүрээлэн) - NIST SP 800-122 - csrc.nist.gov
-
arXiv - Загварын тайлангийн загвар картууд - arxiv.org
-
Microsoft - Сүүдрийн туршилт - microsoft.github.io
-
OWASP - LLM өргөдөл гаргагчдын шилдэг 10 OWASP - owasp.org
-
OWASP GenAI аюулгүй байдлын төсөл - OWASP: Шуурхай тарилга - genai.owasp.org