Хиймэл оюун ухаантай загвар хийх нь яг л нэг удаа хийх хүртэл кинон дээр гардаг эрдэмтэн өвөрмөц байдлын талаар бувтнаж байгаа мэт гайхалтай сонсогддог. Дараа нь та энэ нь хагас өгөгдөл цэвэрлэх ажил, хагас хуурмаг сантехник, хачирхалтай донтуулагч гэдгийг ойлгох болно. Энэхүү гарын авлагад хиймэл оюун ухааны загварыг хэрхэн яаж хийх вэ: өгөгдөл бэлтгэх, сургалт, туршилт, байршуулалт, тийм ээ - уйтгартай боловч амин чухал аюулгүй байдлын шалгалтууд. Бид энгийн өнгө аястай, нарийвчилсан байдлаар, эможинуудыг хооронд нь үлдээх болно, учир нь үнэнийг хэлэхэд, техникийн бичвэр яагаад татвар төлөх шиг санагдах ёстой вэ?
Үүний дараа унших дуртай нийтлэлүүд:
🔗 AI арбитраж гэж юу вэ: Энэ алдартай үгийн цаад үнэн
AI-ийн арбитраж, түүний эрсдэл, боломж, бодит үр дагаврыг тайлбарладаг.
🔗 AI дасгалжуулагч гэж юу вэ
AI-ийн сургагч багшийн үүрэг, ур чадвар, хариуцлагыг тусгасан болно.
🔗 Билэгдлийн хиймэл оюун ухаан гэж юу вэ: Таны мэдэх ёстой бүх зүйл
AI-ийн бэлгэдлийн ойлголт, түүх, практик хэрэглээг задалдаг.
AI загварыг юу болгодог вэ - Үндсэн ойлголт ✅
"Сайн" загвар нь таны дэвтэрийн дэвтэрт 99% нарийвчлалтай хүрч, дараа нь үйлдвэрлэлд таныг эвгүй байдалд оруулдаг загвар биш юм. Энэ нь нэг юм:
-
Сайн хүрээтэй → асуудал тодорхой, оролт/гаралт нь тодорхой, хэмжүүр дээр тохиролцсон.
-
Өгөгдөл-шударга → өгөгдлийн багц нь шүүгдсэн мөрөөдлийн хувилбар биш харин замбараагүй бодит ертөнцийг тусгадаг. Хуваарилалт нь мэдэгдэж байгаа, алдагдлыг битүүмжилсэн, шошго нь ул мөртэй.
-
Бат бөх → баганын эрэмбэ солигдох эсвэл оролт бага зэрэг хазайсан тохиолдолд загвар унадаггүй.
-
Мэдрэмжээр үнэлэгдсэн → бодит байдалтай нийцсэн хэмжүүр, тэргүүлэгчдийн самбарын дэмий хоосон зүйл биш. ROC AUC гайхалтай харагддаг боловч заримдаа F1 эсвэл шалгалт тохируулга нь бизнест чухал ач холбогдолтой байдаг.
-
Байршуулах боломжтой → таамаглах боломжтой цаг хугацаа, эрүүл саруул нөөц, байршуулсны дараах хяналт зэргийг багтаасан болно.
-
Хариуцлагатай → шударга байдлын шалгалт, тайлбарлах чадвар, буруу ашиглахаас хамгаалах хашлага [1].
Эдгээрийг дарж, та аль хэдийн тийшээ явж байна. Үлдсэн хэсэг нь зүгээр л давталт ... мөн "гэдэсний мэдрэмж" гэсэн зураас юм. 🙂
Мини дайны түүх: Луйврын загвар дээр F1 ерөнхийдөө гайхалтай харагдаж байсан. Дараа нь бид газарзүйн байршлаар + "карт одоо байгаа ба үгүй" гэж хуваана. Гайхалтай нь: нэг зүсмэл дотор хуурамч сөрөг үр дүнд хүрсэн. Хичээл шатсан - эрт зүсэж, олон удаа зүснэ.
Хурдан эхлэл: AI загвар гаргах хамгийн богино зам ⏱️
-
Даалгаврыг тодорхойлох : ангилал, регресс, зэрэглэл, дарааллын шошго, үүсгэх, зөвлөмж өгөх.
-
Өгөгдлийг цуглуулах : цуглуулах, хасах, зөв хуваах (цаг хугацаа/актив), үүнийг баримтжуулах [1].
-
Суурь үзүүлэлт : үргэлж жижиг зүйлээс эхэлдэг - логистик регресс, жижиг мод [3].
-
Гэр бүлийн загвар сонгох : хүснэгт → градиент нэмэгдүүлэх; текст → жижиг трансформатор; алсын хараа → урьдчилан бэлтгэгдсэн CNN эсвэл нуруу [3][5].
-
Сургалтын давталт : оновчтой болгох + эрт зогсоох; алдагдал болон баталгаажуулалтыг хоёуланг нь хянах [4].
-
Үнэлгээ : хөндлөн баталгаажуулах, алдааг шинжлэх, ээлжээр шалгах.
-
Багц : жин, урьдчилсан боловсруулагч, API боодол [2] хадгалах.
-
Монитор : цагны шилжилт, хоцролт, нарийвчлалын бууралт [2].
Энэ нь цаасан дээр цэвэрхэн харагдаж байна. Практик дээр замбараагүй. Тэгээд ч яахав.
Харьцуулалтын хүснэгт: AI загвар хэрхэн хийх хэрэгсэл 🛠️
| Хэрэгсэл / Номын сан | Хамгийн тохиромжтой | Үнэ | Энэ яагаад ажилладаг вэ (тэмдэглэл) |
|---|---|---|---|
| scikit-сур | Хүснэгт, үндсэн үзүүлэлт | Үнэгүй - OSS | Цэвэр API, хурдан туршилт; сонгодог бүтээлүүдэд түрүүлсэн хэвээр байна [3]. |
| PyTorch | Гүнзгий суралцах | Үнэгүй - OSS | Динамик, уншигдахуйц, асар том нийгэмлэг [4]. |
| TensorFlow + Керас | Үйлдвэрлэлийн DL | Үнэгүй - OSS | Керас ээлтэй; TF Serving нь суулгалтыг жигдрүүлдэг. |
| JAX + Маалинга | Судалгаа + хурд | Үнэгүй - OSS | Autodiff + XLA = гүйцэтгэлийг нэмэгдүүлэх. |
| Тэврэлдсэн царайтай трансформерууд | NLP, CV, аудио | Үнэгүй - OSS | Урьдчилан бэлтгэгдсэн загварууд + дамжуулах хоолой ... тогоочийн үнсэлт [5]. |
| XGBoost/LightGBM | Хүснэгтийн давамгайлал | Үнэгүй - OSS | Даруухан өгөгдлийн багц дээр ихэвчлэн DL-г давдаг. |
| FastAI | Найрсаг DL | Үнэгүй - OSS | Өндөр түвшний, өршөөнгүй алдаа. |
| Cloud AutoML (янз бүрийн) | Үгүй/бага код | Хэрэглээнд суурилсан $ | Чирэх, буулгах, байрлуулах; гайхалтай хатуу. |
| ONNX ажиллах цаг | Дүгнэлтийн хурд | Үнэгүй - OSS | Үйлчилгээг оновчтой, зах зээлд ээлтэй. |
Таны дахин нээх баримтууд: scikit-learn [3], PyTorch [4], Тэвэрсэн царай [5].
Алхам 1 - Асуудлыг баатар шиг биш, эрдэмтэн хүн шиг хүрээлээрэй 🎯
Код бичихээсээ өмнө үүнийг чангаар хэлээрэй: Энэ загвар нь ямар шийдвэр гаргах вэ? Хэрэв энэ нь бүдэг байвал өгөгдлийн багц улам дордох болно.
-
Урьдчилан таамаглах зорилт → нэг багана, нэг тодорхойлолт. Жишээ нь: 30 хоногийн дотор хаах уу?
-
Нарийвчлал → нэг хэрэглэгч, нэг сесс, нэг зүйл болгон - бүү холь. Нэвчилт алдагдах эрсдэл огцом нэмэгддэг.
-
Хязгаарлалтууд → хоцролт, санах ой, нууцлал, зах болон сервер.
-
Амжилтын хэмжүүр → нэг үндсэн + хэд хэдэн хамгаалагч. Тэнцвэргүй ангиуд уу? AUPRC + F1 ашиглана уу. Регресс үү? Медианууд чухал үед MAE RMSE-ийг ялж чадна.
Тулааны зөвлөгөө: Эдгээр хязгаарлалт + хэмжигдэхүүнийг README-ийн нэг хуудсанд бичнэ үү. Гүйцэтгэл болон хоцрогдолтой зөрчилдөх үед ирээдүйн аргументуудыг хадгална.
Алхам 2 - Өгөгдөл цуглуулах, цэвэрлэх, хуваах нь үнэн хэрэгтээ 🧹📦
Өгөгдөл бол загвар юм. Чи мэдэж байгаа. Гэсэн хэдий ч бэрхшээлүүд:
-
Гарал үүсэлтэй → хаанаас ирсэн, хэн эзэмшдэг, ямар бодлогын дагуу [1].
-
Шошго → хатуу удирдамж, аннотатор хоорондын шалгалт, аудит.
-
Хувилбарыг арилгах → далд хуулбар нь хэмжигдэхүүнийг хөөрөгддөг.
-
Хуваах → санамсаргүй нь үргэлж зөв байдаггүй. Хэрэглэгчийн алдагдлаас зайлсхийхийн тулд аж ахуйн нэгжид тулгуурлан урьдчилан таамаглахад цаг хугацаа дээр тулгуурласан ашигла.
-
Нэвчилт → Сургалтын үеэр ирээдүй рүү харах боломжгүй.
-
Docs → схем, цуглуулга, хэвийсэн утга бүхий хурдан дата карт [1].
Ёс заншил: зорилтот хуваарилалт + шилдэг шинж чанаруудыг төсөөлөх. хэзээ ч хүрдэггүй барина уу .
3-р алхам - Эхлээд үндсэн үзүүлэлтүүд: хэдэн сар хэмнэдэг даруухан загвар 🧪
Суурь үзүүлэлтүүд нь дур булаам биш боловч хүлээлтийг үндэслэдэг.
-
Хүснэгт → LogisticRegression эсвэл RandomForest-ийг scikit-learn, дараа нь XGBoost/LightGBM [3].
-
Текст → TF-IDF + шугаман ангилагч. Transformers-ийн өмнөх эрүүл мэндийн үзлэг.
-
Алсын хараа → жижигхэн CNN эсвэл урьдчилан бэлтгэгдсэн нуруу, хөлдөөсөн давхаргууд.
Хэрэв таны гүн тор үндсэн шугамыг арай ядан цохиж байвал амьсгалаа аваарай. Заримдаа дохио нь тийм ч хүчтэй биш байдаг.
Алхам 4 - Өгөгдөлтэй тохирох загварчлалын аргыг сонго 🍱
Хүснэгт
Эхлээд градиентийг нэмэгдүүлэх нь маш үр дүнтэй байдаг. Онцлогийн инженерчлэл (харилцан үйлчлэл, кодчилол) чухал хэвээр байна.
Текст
Урьдчилан бэлтгэсэн трансформаторууд нь хөнгөн жинтэй. Хоцролт чухал бол нэрмэл загвар [5]. Токенизаторууд бас чухал. Хурдан ялалтын хувьд: HF дамжуулах хоолой.
Зураг
Урьдчилан бэлтгэсэн нуруу + нарийн тааруулах толгойноос эхэл. Бодит байдлаар нэмэгдүүлэх (эрвээх, үр тариа, чичиргээ). Жижиг өгөгдлийн хувьд цөөн тооны эсвэл шугаман датчик.
Цагийн цуврал
Суурь үзүүлэлтүүд: хоцрогдолтой, хөдөлж буй дундаж үзүүлэлтүүд. Хуучин сургуулийн ARIMA ба орчин үеийн өргөгдсөн мод. Баталгаажуулахдаа цагийн дарааллыг үргэлж хүндэтгэ.
Үндсэн дүрэм: жижиг, тогтвортой загвар > хэт их биетэй мангас.
Алхам 5 - Сургалтын гогцоо, гэхдээ хэт төвөгтэй болгож болохгүй 🔁
Танд хэрэгтэй бүх зүйл: өгөгдөл ачаалагч, загвар, алдагдал, оновчтой болгох, төлөвлөгч, бүртгэл хөтлөх. Дууслаа.
-
Оновчлогч : Адам эсвэл SGD эрч хүчтэй. Хэт их өөрчлөлт хийх хэрэггүй.
-
Багцын хэмжээ : төхөөрөмжийн санах ойг дарахгүйгээр хамгийн дээд хэмжээнд хүргэх.
-
Зохицуулалт : сургууль завсардах, жин хасах, эрт зогсоох.
-
Холимог нарийвчлал : асар их хурдыг нэмэгдүүлэх; орчин үеийн хүрээ нь үүнийг хялбар болгодог [4].
-
Дахин үржих чадвар : суулгац үр. Энэ нь эргэлдэх болно. Энэ бол хэвийн зүйл.
Каноник хэв маягийг PyTorch хичээлээс үзнэ үү [4].
Алхам 6 - Тэргүүлэгчдийн самбарын оноо биш бодит байдлыг тусгасан үнэлгээ 🧭
Зөвхөн дундаж биш харин зүсмэлүүдийг шалгана уу:
-
Шалгалт тохируулга → магадлал нь ямар нэг зүйлийг илэрхийлэх ёстой. Найдвартай байдлын графикууд нь тусалдаг.
-
Төөрөгдөлтэй ойлголт → босго муруй, тохирол харагдана.
-
Алдааны хувин → бүс нутаг, төхөөрөмж, хэл, цаг хугацаагаар хуваана. Сул талуудыг илрүүлэх.
-
Бат бөх байдал → ээлжээр турших, оролтод саад учруулах.
-
Human-in-loop → хэрэв хүмүүс үүнийг ашигладаг бол ашиглах чадварыг шалгана уу.
Шуурхай анекдот: Юникодын нормчилол нь сургалт ба үйлдвэрлэлийн хооронд таарахгүй байснаас нэг удаа эргэн санахад хүргэсэн. Зардал? 4 бүтэн оноо.
Алхам 7 - Нулимсгүй савлах, үйлчлэх, MLOps хийх 🚚
Энд төслүүд ихэвчлэн аялдаг.
-
Олдворууд : загвар жин, урьдчилсан боловсруулагч, хэш хийх.
-
Env : зүү хувилбарууд, савлах lean.
-
Интерфэйс : REST/gRPC
/health+/prodict. -
Хоцролт/дамжуулах чадвар : багц хүсэлт, халаах загварууд.
-
Техник хангамж : CPU-ийн хувьд сонгодог хувилбаруудад тохиромжтой; DL-д зориулсан GPU. ONNX Runtime нь хурд/зөөврийн чадварыг нэмэгдүүлдэг.
Бүрэн дамжуулах хоолойн хувьд (CI/CD/CT, хяналт, буцаалт) Google-ийн MLOps баримтууд нь бат бөх [2].
Алхам 8 - Хяналт хийх, дрифт хийх, сандрахгүйгээр давтан сургах 📈🧭
Загварууд муудаж байна. Хэрэглэгчид хөгжиж байна. Өгөгдлийн дамжуулах хоолой буруу ажиллаж байна.
-
Өгөгдлийн шалгалт : схем, муж, null.
-
Урьдчилан таамаглал : тархалт, зөрөх хэмжигдэхүүн, хэтийн үзүүлэлт.
-
Гүйцэтгэл : шошго ирсний дараа хэмжигдэхүүнийг тооцоол.
-
Анхааруулга : хоцролт, алдаа, шилжилт хөдөлгөөн.
-
Дахин сургах хэмнэлийг : гох дээр суурилсан > хуанли дээр суурилсан.
Гогцоог баримтжуулах. Вики нь "овгийн ой санамж"-ыг давдаг. Google CT тоглоомын номуудыг үзнэ үү [2].
Хариуцлагатай AI: шударга байдал, нууцлал, тайлбарлах чадвар 🧩🧠
Хэрэв хүмүүс өртсөн бол хариуцлага хүлээх нь сонголт биш юм.
-
Шударга байдлын тестүүд → эмзэг бүлгүүдэд үнэлэлт дүгнэлт өгч, зөрүүг багасгана [1].
-
Тайлбарлах чадвар → Хүснэгтийн хувьд SHAP, гүний хувьд аттрибут. Болгоомжтой харьц.
-
Нууцлал/аюулгүй байдал → PII-г багасгах, нэрээ нууцлах, функцуудыг хаах.
-
Бодлого → зориулалтын эсрэг хориглосон хэрэглээг бичнэ үү. Дараа нь өвдөлтийг арилгадаг [1].
Шуурхай бяцхан танилцуулга 🧑🍳
Бид шүүмжийг эерэг ба сөрөг гэж ангилж байна гэж хэлээрэй.
-
Өгөгдөл → тойм цуглуулах, хасах, цаг хугацаагаар хуваах [1].
-
Суурь → TF-IDF + логистик регресс (scikit-learn) [3].
-
Шинэчлэх → Урьдчилан бэлтгэгдсэн жижиг трансформатортай / Тэврэх нүүр [5].
-
Галт тэрэг → хэдэн үе, эрт зогсолт, F1 зам [4].
-
Үнэлгээ → төөрөгдлийн матриц, нарийвчлал @ санах, шалгалт тохируулга.
-
Багц → токенизатор + загвар, FastAPI боодол [2].
-
Хяналт → категориудад шилжих хөдөлгөөнийг үзэх [2].
-
Хариуцлагатай өөрчлөлтүүд → PII шүүлтүүр, эмзэг өгөгдлийг хүндэтгэдэг [1].
Хатуу саатал? Загвар нэрэх эсвэл ONNX руу экспортлох.
Загвар өмсөгчдийг ухаалаг харагдуулдаг ч тэнэг мэт болгодог нийтлэг алдаанууд 🙃
-
Гэмтсэн шинж чанарууд (галт тэрэгний үйл явдлын дараах өгөгдөл).
-
Буруу хэмжигдэхүүн (баг эргүүлэн татах талаар санаа тавих үед AUC).
-
Бяцхан валь багц (шуугиантай "ололтууд").
-
Ангийн тэнцвэргүй байдлыг үл тоомсорлов.
-
Урьдчилсан боловсруулалт таарахгүй байна (галт тэрэг болон үйлчлэх).
-
Хэтэрхий эрт тохируулж байна.
-
Хязгаарлалтуудыг мартах (гар утасны програм дахь аварга загвар).
Оновчлолын заль мэх 🔧
-
Илүү ухаалаг нэмнэ үү : хатуу сөрөг, бодитой өсгөлт.
-
Илүү хатуу зохицуулалт хийх: сургууль завсардалт, жижиг загварууд.
-
Сурах хурдны хуваарь (косинус/алхам).
-
Багц шүүрдэг - том нь үргэлж сайн байдаггүй.
-
Холимог нарийвчлал + хурдны векторжуулалт [4].
-
Тоо хэмжээ, нарийхан загваруудыг тайрах.
-
Кэш оруулах/хүнд үйлдлүүдийг урьдчилан тооцоолох.
Хагардаггүй мэдээллийн шошго 🏷️
-
Удирдамж: нарийвчилсан, захын хавтастай.
-
Галт тэрэгний шошгологч: шалгалт тохируулгын даалгавар, гэрээний шалгалт.
-
Чанар: алтан багц, спот чек.
-
Хэрэгсэл: хувилбарт өгөгдлийн багц, экспортлох схем.
-
Ёс зүй: шударга цалин, хариуцлагатай эх үүсвэр. Бүтэн цэг [1].
Байршуулах загварууд 🚀
-
Багц оноо → шөнийн ажил, агуулах.
-
Бодит цагийн бичил үйлчилгээ → API-г синк хийх, кэш нэмэх.
-
Урсгал → үйл явдалд тулгуурласан, жишээ нь, залилан.
-
Edge → шахалт, туршилтын төхөөрөмж, ONNX/TensorRT.
Runbook хөтлөх: буцаах алхмууд, олдворыг сэргээх [2].
Таны цаг заваа зориулах нөөцүүд 📚
-
Үндсэн ойлголт: scikit-learn хэрэглэгчийн гарын авлага [3]
-
DL загвар: PyTorch заавар [4]
-
Сурах шилжүүлэх: Тэврэх нүүрийг хурдан эхлүүлэх [5]
-
Засаглал/эрсдэл: NIST AI RMF [1]
-
MLOps: Google Cloud тоглоомын номууд [2]
Түгээмэл асуултууд 💡
-
GPU хэрэгтэй юу? Хүснэгтийн хувьд биш. DL-ийн хувьд тийм (үүл түрээсийн ажил).
-
Дата хангалттай юу? Шошго дуу чимээ гарах хүртэл илүү сайн. Бага багаар эхэл, давт.
-
Метрийн сонголт? Тохиромжтой шийдвэрийн зардал. Матрицыг бичнэ үү.
-
Үндсэн шугамыг алгасах уу? Та өглөөний цайгаа алгасч, харамсахтай адилаар чадна.
-
AutoML? Ачаалахад тохиромжтой. Өөрөө аудит хий [2].
Бага зэрэг замбараагүй үнэн 🎬
AI загварыг хэрхэн хийх нь чамин математикийн тухай биш, гар урлалын талаар илүү ихийг хэлнэ: хурц хүрээ, цэвэр өгөгдөл, эрүүл мэндийн суурь шалгалт, хатуу үнэлгээ, давтагдах давталт. Ирээдүйд та урьдчилан сэргийлэх боломжтой эмх замбараагүй байдлыг арилгахгүйн тулд хариуцлага нэмээрэй [1][2].
Үнэнийг хэлэхэд, "уйтгартай" хувилбар нь хатуу бөгөөд аргачлалтай бөгөөд Баасан гарагийн 2 цагт яаран гүйсэн гялалзсан загвараас ихэвчлэн ялдаг. Хэрэв таны анхны оролдлого болхи мэт санагдвал? Энэ бол хэвийн зүйл. Загварууд нь исгэлэн зуурмагийн эхлэлтэй адил байдаг: тэжээх, ажиглах, заримдаа дахин эхлүүлэх. 🥖🤷
TL; DR
-
Хүрээний асуудал + хэмжүүр; алдагдлыг устгах.
-
Эхлээд суурь; энгийн багаж хэрэгсэл чулуу.
-
Урьдчилан бэлтгэгдсэн загварууд тусалдаг - тэднийг бүү шүтэ.
-
Зүсмэлээр үнэлэх; тохируулга хийх.
-
MLOps-ийн үндсэн ойлголтууд: хувилбар гаргах, хянах, буцаах.
-
Хариуцлагатай хиймэл оюун ухаан нь боолттой биш, шатаасан.
-
Дахин давт, инээмсэглэ - та AI загвар бүтээжээ. 😄
Лавлагаа
-
NIST — Хиймэл оюун ухааны эрсдэлийн удирдлагын тогтолцоо (AI RMF 1.0) . Холбоос
-
Google Cloud — MLOps: Машины сургалтын тасралтгүй хүргэлт ба автоматжуулалтын шугам хоолой . Холбоос
-
scikit-learn — Хэрэглэгчийн гарын авлага . Холбоос
-
PyTorch - Албан ёсны заавар . Холбоос
-
Тэврэх нүүр — Transformers-ийн хурдан эхлэл . Холбоос