Хиймэл оюун ухааны загварыг хэрхэн хийх вэ

Хиймэл оюун ухааны загварыг хэрхэн хийх вэ. Бүрэн алхамуудыг тайлбарласан.

Хиймэл оюун ухааны загвар бүтээх нь кинонд гардаг эрдэмтэн онцгой байдлын талаар бувтнаж байгаа мэт гайхалтай сонсогдож байна - яг л нэг удаа хийх хүртлээ. Дараа нь та үүнийг хагас өгөгдөл цэвэрлэх ажил, хагас нь сантехникийн ажил, хачин жигтэй донтуулагч гэдгийг ойлгодог. Энэхүү гарын авлагад Хиймэл оюун ухааны загварыг хэрхэн эхнээс нь дуустал нь хийх талаар тайлбарласан болно: өгөгдөл бэлтгэх, сургалт, туршилт, байршуулалт, тийм ээ - уйтгартай ч чухал аюулгүй байдлын шалгалтууд. Бид өнгө аясыг энгийнээр, гүнзгий нарийвчлан тайлбарлаж, эможи зэргийг холих болно, учир нь үнэнийг хэлэхэд техникийн бичих нь яагаад татвар төлөхтэй адил санагдах ёстой гэж?

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 Хиймэл оюун ухааны арбитраж гэж юу вэ: Энэ үгийн цаана байгаа үнэн
Хиймэл оюун ухааны арбитраж, түүний эрсдэл, боломжууд болон бодит ертөнцийн үр дагаврыг тайлбарладаг.

🔗 Хиймэл оюун ухааны сургагч гэж юу вэ
Хиймэл оюун ухааны сургагчийн үүрэг, ур чадвар, хариуцлагыг хамардаг.

🔗 Симбол хиймэл оюун ухаан гэж юу вэ: Таны мэдэх ёстой бүх зүйл
Хиймэл оюун ухааны бэлгэдлийн ойлголтууд, түүх болон практик хэрэглээг задлан шинжилдэг.


Хиймэл оюун ухааны загварыг юу бүрдүүлдэг вэ - Үндсэн ойлголтууд ✅

"Сайн" загвар гэдэг нь таны хөгжүүлэлтийн тэмдэглэлийн дэвтэрт 99%-ийн нарийвчлалтайгаар оруулаад үйлдвэрлэлд таныг ичээдэг загвар биш юм. Энэ нь:

  • Сайн боловсруулсан → асуудал тодорхой, оролт/гаралт нь тодорхой, үзүүлэлтүүд нь тохиролцсон.

  • Өгөгдөлд үнэнч байх → өгөгдлийн багц нь үнэндээ шүүгдсэн мөрөөдлийн хувилбар биш, харин замбараагүй бодит ертөнцийг тусгасан байдаг. Тархалт нь мэдэгдэж байгаа, алдагдал битүүмжилсэн, шошгыг мөрдөх боломжтой.

  • бат бөх → загвар нурахгүй.

  • Ухаантайгаар үнэлэгдсэн → хэмжүүрүүд нь бодит байдалтай нийцсэн, тэргүүлэгчдийн самбарын бардамналтай биш. ROC AUC нь гоё харагдаж байгаа ч заримдаа бизнесийн анхаардаг зүйл бол F1 эсвэл тохируулга юм.

  • Байршуулж болно → дүгнэлт хийх хугацааг урьдчилан таамаглах боломжтой, нөөц нь боломжийн, байршуулсны дараах хяналтыг багтаасан.

  • Хариуцлагатай → шударга ёсны шалгалт, тайлбарлах чадвар, буруу ашиглалтын хамгаалалт [1].

Эдгээрийг дарахад та аль хэдийн ихэнх замыг туулсан байна. Бусад нь зүгээр л давталт... бас бага зэрэг "зүрх сэтгэлийн мэдрэмж" юм 🙂

Жижиг дайны түүх: Луйврын загвар дээр ерөнхийдөө F1 гайхалтай харагдаж байсан. Дараа нь бид газарзүй + "карт байгаа эсэх" гэсэн үзүүлэлтээр хуваагдсан. Гайхах зүйл: нэг хэсэгт хуурамч сөрөг үр дүн гарсан. Хичээл нь шатсан - эрт зүсэж, байнга зүсэж.


Хурдан эхлэх: хиймэл оюун ухааны загвар бүтээх хамгийн богино зам ⏱️

  1. Даалгаврыг тодорхойлно уу : ангилал, регресс, эрэмбэлэлт, дарааллын шошгололт, үе, зөвлөмж.

  2. Өгөгдөл цуглуулах : цуглуулах, хуулбарлах, зохих ёсоор хуваах (цаг хугацаа/нэгж), баримтжуулах [1].

  3. Суурь : үргэлж багаас эхлэх - логистик регресс, жижиг мод [3].

  4. Загварын бүлгийг сонгоно уу : хүснэгт → градиент нэмэгдүүлэх; текст → жижиг трансформатор; хараа → урьдчилан сургагдсан CNN эсвэл нуруу [3][5].

  5. Сургалтын давталт : оновчлогч + эрт зогсоох; алдагдал болон баталгаажуулалтыг хоёуланг нь хянах [4].

  6. Үнэлгээ : хөндлөн баталгаажуулалт хийх, алдааг шинжлэх, ээлжийн үед шалгах.

  7. Багц : хадгалах жин, урьдчилсан боловсруулагч, API ороогч [2].

  8. Хяналт : цагны хэлбэлзэл, хоцрогдол, нарийвчлалын бууралт [2].

Цаасан дээр цэвэрхэн харагдаж байна. Практик дээр замбараагүй. Зүгээр дээ.


Харьцуулсан хүснэгт: Хиймэл оюун ухааны загвар хэрхэн хийх хэрэгслүүд 🛠️

Хэрэгсэл / Номын сан Хамгийн сайн нь Үнэ Энэ яагаад ажилладаг вэ (тэмдэглэл)
scikit-learn Хүснэгт, суурь шугамууд Үнэгүй - OSS Цэвэр API, хурдан туршилтууд; сонгодог бүтээлүүдэд ялалт байгуулсаар байна [3].
PyTorch Гүнзгий суралцах Үнэгүй - OSS Динамик, уншигдахуйц, асар том нийгэмлэг [4].
TensorFlow + Keras Продакшны DL Үнэгүй - OSS Кераст ээлтэй; TF үйлчилгээ нь байршуулалтыг жигд болгодог.
JAX + Маалинга Судалгаа + хурд Үнэгүй - OSS Автомат ялгаа + XLA = гүйцэтгэлийн өсөлт.
Тэврэлдсэн царайтай трансформерууд NLP, CV, аудио Үнэгүй - OSS Урьдчилан бэлтгэгдсэн загварууд + дамжуулах хоолойнууд... тогоочийн үнсэлт [5].
XGBoost/LightGBM Хүснэгтийн давамгайлал Үнэгүй - OSS Бага зэргийн өгөгдлийн багц дээр DL-ээс ихэвчлэн илүү байдаг.
Хурдан хиймэл оюун ухаан Эелдэг DL Үнэгүй - OSS Өндөр түвшний, өршөөлтэй алдаанууд.
Үүлэн АвтоML (төрөл бүрийн) Бага кодгүй Хэрэглээнд суурилсан $ Чирэх, буулгах, байрлуулах; гайхалтай сайн.
ONNX ажиллах хугацаа Дүгнэлтийн хурд Үнэгүй - OSS Оновчтой үйлчилгээтэй, зах хязгаарт ээлтэй.

Таны дахин нээж байх баримтууд: scikit-learn [3], PyTorch [4], тэврэх царай [5].


Алхам 1 - Асуудлыг баатар биш, эрдэмтэн шиг томъёол 🎯

Код бичихээсээ өмнө үүнийг чангаар хэлээрэй: Энэ загвар ямар шийдвэр гаргах вэ? Хэрэв энэ нь тодорхойгүй байвал өгөгдлийн багц улам дордох болно.

  • Таамаглалын зорилт → ганц багана, ганц тодорхойлолт. Жишээ нь: 30 хоногийн дотор шилжих үү?

  • Масштаб → хэрэглэгч тутамд, сесс тутамд, зүйл тутамд - хольж болохгүй. Алдагдлын эрсдэл огцом өснө.

  • Хязгаарлалтууд → хоцрогдол, санах ой, нууцлал, зах болон сервер.

  • Амжилтын хэмжүүр → нэг үндсэн + хэдэн хамгаалагч. Тэнцвэргүй ангиуд уу? AUPRC + F1 ашиглах уу. Регресс? Медианууд чухал үед MAE нь RMSE-г ялж чадна.

Тулааны зөвлөгөө: Эдгээр хязгаарлалтууд болон хэмжүүрийг README-ийн нэгдүгээр хуудсанд бичнэ үү. Гүйцэтгэл болон хоцрогдол мөргөлдөх үед ирээдүйн аргументуудыг хадгалдаг.


2-р алхам - Өгөгдөл цуглуулах, цэвэрлэх, үнэндээ тогтвортой байгаа хуваалтууд 🧹📦

Өгөгдөл бол загвар юм. Та үүнийг мэдэж байгаа. Гэсэн хэдий ч сул талууд:

  • Гарал үүсэл → хаанаас ирсэн, хэн эзэмшдэг, ямар бодлогын дагуу [1].

  • Шошго → хатуу удирдамж, тайлбар бичээч хоорондын шалгалт, аудит.

  • Давхардлыг арилгах → зальжин хуулбарууд нь үзүүлэлтийг нэмэгдүүлдэг.

  • Хуваалт → санамсаргүй нь үргэлж зөв байдаггүй. Хэрэглэгчийн алдагдлаас зайлсхийхийн тулд урьдчилсан мэдээнд цаг хугацаанд суурилсан, аж ахуйн нэгжид суурилсан аргыг ашиглана уу.

  • Нэвчилт → бэлтгэлийн үеэр ирээдүй рүү харах боломжгүй.

  • Баримт бичиг → схем, цуглуулга, алдаатай мэдээлэл бүхий хурдан өгөгдлийн карт [1].

Зан үйл: эцсийнх хүртэл хэзээ ч хүрч болохгүй хойшлуул


3-р алхам - Эхлээд суурь үзүүлэлтүүд: хэдэн сар хэмнэдэг даруухан загвар 🧪

Суурь үзүүлэлтүүд тийм ч гоё биш ч хүлээлтийг хангаж байна.

  • Хүснэгт → scikit-learn LogisticRegression эсвэл RandomForest, дараа нь XGBoost/LightGBM [3].

  • Текст → TF-IDF + шугаман ангилагч. Трансформаторын өмнө эрүүл ахуйн шалгалт.

  • Хараа → жижиг CNN эсвэл урьдчилан сургагдсан нуруу нугас, хөлдөөсөн давхаргууд.

Хэрэв таны гүн тор суурь шугамаас арай ядан давж байвал амьсгалаарай. Заримдаа дохио тийм ч хүчтэй биш байдаг.


Алхам 4 - Өгөгдөлд тохирсон загварчлалын аргыг сонгоно уу 🍱

Хүснэгт

Эхлээд градиент нэмэгдүүлэх нь маш үр дүнтэй. Онцлог инженерчлэл (харилцан үйлчлэл, кодчилол) чухал хэвээр байна.

Текст

Хөнгөн тохируулгатай урьдчилан бэлтгэсэн трансформаторууд. Хэрэв хоцрогдол чухал бол нэрмэл загвар [5]. Токенизаторууд бас чухал. Хурдан ялалтын төлөө: HF дамжуулах хоолойнууд.

Зураг

Урьдчилан сургасан нуруу + нарийн тохируулгатай толгойгоор эхэл. Бодитойгоор нэмэгдүүл (эргэлт, тайралт, чичиргээ). Жижиг өгөгдлийн хувьд цөөн удаагийн эсвэл шугаман датчик ашиглана.

Цагийн цуваа

Суурь үзүүлэлтүүд: хоцрогдлын онцлог, хөдөлгөөнт дундаж. Хуучны ARIMA болон орчин үеийн сайжруулсан моднууд. Баталгаажуулалтад цагийн дарааллыг үргэлж хүндэтгэ.

Үндсэн дүрэм: жижигхэн, тогтвортой загвар өмсөгч > хэт бие галбиртай мангас.


5-р алхам - Сургалтын давталт, гэхдээ хэт төвөгтэй болгож болохгүй 🔁

Танд хэрэгтэй бүх зүйл: өгөгдөл ачаалагч, загвар, алдагдал, оновчлогч, хуваарь гаргагч, бүртгэл. Дууслаа.

  • Оновчлогчид : Адам эсвэл импульстэй SGD. Хэт их тохируулж болохгүй.

  • Багцын хэмжээ : төхөөрөмжийн санах ойг хагалахгүйгээр хамгийн их хэмжээгээр ашиглах.

  • Тогтмол байдал : хичээлээ таслах, жин хасах, эрт зогсоох.

  • Холимог нарийвчлал : хурдыг асар ихээр нэмэгдүүлдэг; орчин үеийн хүрээ нь үүнийг хялбар болгодог [4].

  • Давтах чадвар : үр тогтсон. Энэ нь хөдөлсөөр л байх болно. Энэ бол хэвийн үзэгдэл.

Каноник хэв маягийн талаар PyTorch хичээлээс үзнэ үү [4].


Алхам 6 - Тэргүүлэгчдийн самбарын оноог бус, бодит байдлыг тусгасан үнэлгээ 🧭

Зөвхөн дундаж үзүүлэлтүүдийг биш, харин зүсмэлүүдийг шалгана уу:

  • Тохируулга → магадлал нь ямар нэгэн утгатай байх ёстой. Найдвартай байдлын графикууд тусалдаг.

  • Төөрөгдлийн ойлголт → босго муруй, буултууд харагдаж байна.

  • Алдааны багцууд → бүс нутаг, төхөөрөмж, хэл, цаг хугацаагаар хуваагдана. Сул талуудыг тодорхойлно уу.

  • Бат бөх чанар → ээлжийн туршилт, оролтыг өөрчлөх.

  • Хүний давталт → хэрэв хүмүүс үүнийг ашиглаж байгаа бол ашиглах чадварыг шалгана уу.

Түргэн түүх: Нэг удаагийн эргүүлэн татах алдаа нь сургалт болон үйлдвэрлэлийн хоорондох Юникодын хэвийн бус байдлаас үүдэлтэй. Үнэ? 4 бүтэн оноо.


7-р алхам - Урагдахгүйгээр савлах, үйлчлэх, MLOps хийх 🚚

Энэ үед төслүүд ихэвчлэн гацдаг.

  • Артефактууд : загварын жин, урьдчилсан боловсруулагч, коммит хэш.

  • Env : pin versions, containerize lean.

  • Интерфэйс : REST/gRPC нь /health + /predict-тэй .

  • Саатал/давтамж : багц хүсэлт, халаалтын загварууд.

  • Техник хангамж : Сонгодог тоглоомуудад зориулсан CPU сайн; DL-д зориулсан GPU. ONNX Runtime нь хурд/зөөврийн байдлыг нэмэгдүүлдэг.

Бүрэн дамжуулах хоолойн хувьд (CI/CD/CT, хяналт, буцаах) Google-ийн MLOps баримт бичиг нь найдвартай [2].


8-р алхам - Сандарч сандралгүйгээр хяналт тавих, дасан зохицох, давтан сургах 📈🧭

Загварууд ялзарч, хэрэглэгчид хөгжиж, өгөгдлийн дамжуулах хоолойнууд буруу ажилладаг.

  • Өгөгдлийн шалгалт : схем, мужууд, хоосон утга.

  • Таамаглал : тархалт, хэлбэлзлийн үзүүлэлт, гадуурх утга.

  • Гүйцэтгэл : шошго ирсний дараа үзүүлэлтүүдийг тооцоол.

  • Анхааруулга : хоцрогдол, алдаа, хэлбэлзэл.

  • Каденсыг дахин сургах : триггер дээр суурилсан > хуанли дээр суурилсан.

Давталтыг баримтжуул. Вики нь "овгийн ой санамж"-ыг давж гардаг. Google CT тоглоомын номыг үзнэ үү [2].


Хариуцлагатай хиймэл оюун ухаан: шударга ёс, нууцлал, тайлбарлах чадвар 🧩🧠

Хэрэв хүмүүс нөлөөлөлд өртвөл хариуцлага хүлээх нь заавал байх албагүй.

  • Шударга ёсны тест → мэдрэмтгий бүлгүүдийг үнэлэх, хэрэв зөрүү гарвал арилгах [1].

  • Тайлбарлах чадвар → SHAP нь хүснэгтийн утга, хамаарал нь гүнзгий утга юм. Болгоомжтой харьцана уу.

  • Нууцлал/аюулгүй байдал → PII-г багасгах, нэрээ нууцлах, функцуудыг түгжих.

  • Бодлого → зориулалтын болон хориглосон хэрэглээг бичих. Хожим нь өвдөлтөөс сэргийлнэ [1].


Товчхон товч танилцуулга 🧑🍳

Бид шүүмжийг эерэг ба сөрөг гэж ангилж байна гэж бодъё.

  1. Өгөгдөл → тойм цуглуулах, хуулбарыг хасах, цаг хугацаагаар хуваах [1].

  2. Суурь түвшин → TF-IDF + логистик регресс (scikit-learn) [3].

  3. Сайжруулах → тэврэлттэй царайтай жижиг урьдчилан бэлтгэгдсэн трансформатор [5].

  4. Галт тэрэг → хэдэн эрин, эрт зогсох, F1 зам [4].

  5. Үнэлгээ → төөрөгдлийн матриц, нарийвчлал@дахин санах, тохируулга.

  6. Багц → токенизатор + загвар, FastAPI ороогч [2].

  7. Хяналт → ангилал хоорондын зөрүүг хянах [2].

  8. Хариуцлагатай тохируулга → PII шүүлтүүр, нууц мэдээллийг хүндэтгэх [1].

Хоцрогдол бага байна уу? Загварыг нэрэх эсвэл ONNX руу экспортлох.


Моделуудыг ухаантай харагдуулдаг ч тэнэг авирладаг нийтлэг алдаанууд 🙃

  • Алдагдалтай функцууд (галт тэрэгний үйл явдлын дараах мэдээлэл).

  • Буруу хэмжүүр (баг эргүүлэн татахад анхаарах үед AUC).

  • Жижигхэн val багц (шуугиантай "нээлтүүд").

  • Ангийн тэнцвэргүй байдлыг үл тоомсорлов.

  • Урьдчилан боловсруулалт таарахгүй байна (сургах эсвэл үйлчлэх).

  • Хэтэрхий эрт тохируулж байна.

  • Хязгаарлалтыг мартах (гар утасны аппликейшн дахь аварга том загвар).


Оновчлолын аргууд 🔧

  • Ухаалаг нэмэх : хатуу сөрөг, бодитой нэмэгдэл.

  • Илүү хатуу зохицуулалт хийх: сургууль завсардах, жижиг загварууд.

  • Суралцах хурдны хуваарь (косинус/алхам).

  • Багцаар нь шүүрдэх - том байх нь үргэлж сайн байдаггүй.

  • Хурдны холимог нарийвчлал + векторжуулалт [4].

  • Загваруудыг тоон үзүүлэлтээр тодорхойлох, нарийсгах хүртэл тайрах.

  • Кэш оруулах/урьдчилан тооцоолох хүнд ажиллагаа.


Тэсрэхгүй өгөгдлийн шошгололт 🏷️

  • Зааварчилгаа: дэлгэрэнгүй, ирмэгийн хайрцагтай.

  • Галт тэрэгний шошго: тохируулгын даалгавар, гэрээний шалгалт.

  • Чанар: алтан багц, цэгэн шалгалт.

  • Хэрэгслүүд: хувилбартай өгөгдлийн багц, экспортлох боломжтой схемүүд.

  • Ёс зүй: шударга цалин хөлс, хариуцлагатай эх үүсвэр. Цэг [1].


Байршуулалтын хэв маяг 🚀

  • Багцаар оноо өгөх → шөнийн ажил, агуулах.

  • Бодит цагийн микросервис → синк API, кэш нэмэх.

  • Стриминг → үйл явдалд суурилсан, жишээлбэл, луйвар.

  • Ирмэг → шахалт, туршилтын төхөөрөмжүүд, ONNX/TensorRT.

Ажиллах дэвтэр хөтлөх: буцаах алхамууд, эд өлгийн зүйлсийг сэргээх [2].


Цаг заваа үрэхүйц нөөцүүд 📚

  • Үндсэн ойлголтууд: scikit-learn хэрэглэгчийн гарын авлага [3]

  • DL загварууд: PyTorch зааварчилгаа [4]

  • Шилжүүлэх сургалт: Тэврэх царай хурдан эхлүүлэх [5]

  • Засаглал/эрсдэл: NIST AI RMF [1]

  • MLOps: Google Cloud тоглоомын номууд [2]


Түгээмэл асуултуудтай төстэй мэдээлэл 💡

  • GPU хэрэгтэй байна уу? Хүснэгтийн хувьд биш. DL-ийн хувьд тийм (үүл түрээс ажилладаг).

  • Хангалттай өгөгдөл үү? Шошго чимээ шуугиантай болтол илүү их байх нь сайн хэрэг. Багаас эхэлж, давталт хий.

  • Метрийн сонголт уу? Нэг тохирох шийдвэрийн үнэ. Матрицыг бичнэ үү.

  • Суурь үзүүлэлтийг алгасах уу? Та өглөөний цайгаа алгасаад харамсаж болохтой адил... чадна.

  • AutoML? Bootstrapping хийхэд маш сайн. Өөрийн аудитыг хийсээр л байна [2].


Бага зэрэг эмх замбараагүй үнэн 🎬

Хиймэл оюун ухааны загварыг хэрхэн хийх нь чамин математикийн тухай биш харин ур чадварын тухай юм: тодорхой хүрээ, цэвэр өгөгдөл, суурь эрүүл ахуйн шалгалт, бат бөх үнэлгээ, давтагдах боломжтой давталт. Урьдчилан сэргийлэх боломжтой замбараагүй байдлыг арилгахгүйн тулд ирээдүйд хариуцлага нэмнэ үү [1][2].

Үнэндээ "уйтгартай" хувилбар - нягт бөгөөд арга зүйн хувьд - Баасан гарагийн өглөөний 2 цагт яаран ирсэн гял цал загвар өмсөгчдийг ихэвчлэн давдаг. Хэрэв таны анхны оролдлого болхи санагдвал энэ нь хэвийн үзэгдэл. Моделууд бол исгэлэн гурилан бүтээгдэхүүн шиг: хооллож, ажиглаж, заримдаа дахин эхлүүлдэг. 🥖🤷


TL;DR

  • Хүрээний асуудал + метрик; алдагдлыг арилгах.

  • Эхлээд суурь; энгийн хэрэгслүүд.

  • Урьдчилан бэлтгэгдсэн загварууд тусалдаг - тэднийг шүтэх хэрэггүй.

  • Зүсмэлүүдийг үнэлэх; тохируулга хийх.

  • MLOps-ийн үндэс: хувилбаржуулах, хяналт тавих, буцаах.

  • Хариуцлагатай хиймэл оюун ухаан нь идэвхжсэн биш, харин өөртөө шингэсэн.

  • Дахин хэлээд инээмсэглээрэй - чи хиймэл оюун ухааны загвар бүтээчихлээ. 😄


Лавлагаа

  1. NIST — Хиймэл оюун ухааны эрсдэлийн удирдлагын хүрээ (AI RMF 1.0) . Холбоос

  2. Google Cloud — MLOps: Машин сургалтын тасралтгүй хүргэлт ба автоматжуулалтын шугам хоолой . Холбоос

  3. scikit-learn — Хэрэглэгчийн гарын авлага . Холбоос

  4. PyTorch — Албан ёсны зааварчилгаа . Холбоос

  5. Тэврэлт царай — Трансформеруудын хурдан эхлэл . Холбоос


Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах