AI-ийн гүйцэтгэлийг хэрхэн хэмжих нь шидэт хэмжүүр биш гэсэн нууцыг аль хэдийн мэддэг болсон Энэ бол бодит зорилгод нийцсэн шалгалтын систем юм. Нарийвчлал нь хөөрхөн юм. Найдвартай байдал, аюулгүй байдал, бизнесийн нөлөөлөл илүү сайн.
Үүний дараа унших дуртай нийтлэлүүд:
🔗 AI-тай хэрхэн ярих вэ
Тогтвортой сайн үр дүнд хүрэхийн тулд хиймэл оюун ухаантай үр дүнтэй харилцах гарын авлага.
🔗 AI гэж юу вэ
Сануулгууд нь AI-ийн хариу үйлдэл болон гаралтын чанарыг хэрхэн тодорхойлдог болохыг тайлбарладаг.
🔗 AI мэдээллийн шошго гэж юу вэ
Сургалтын загварт зориулсан өгөгдөлд үнэн зөв шошго олгох тойм.
🔗 AI ёс зүй гэж юу вэ
Хариуцлагатай хиймэл оюун ухааныг хөгжүүлэх, ашиглахад чиглүүлдэг ёс зүйн зарчмуудын танилцуулга.
AI-ийн сайн гүйцэтгэлийг юу болгодог вэ? ✅
Богино хувилбар: AI-ийн сайн гүйцэтгэл нь таны систем эмх замбараагүй, өөрчлөгдөж буй нөхцөлд ашигтай, найдвартай, давтагдах боломжтой Тодорхой:
-
Даалгаврын чанар - энэ нь зөв шалтгааны улмаас зөв хариултыг авдаг.
-
Тохируулга - итгэлийн оноо нь бодит байдалтай нийцэж байгаа тул та ухаалаг арга хэмжээ авах боломжтой.
-
Бат бөх байдал - энэ нь шилжилт хөдөлгөөн, захын нөхцөл байдал, дайсагнасан бүдүүлэг зэрэгт тэсвэртэй.
-
Аюулгүй байдал ба шударга байдал - энэ нь хортой, өрөөсгөл, үл нийцэх зан үйлээс зайлсхийдэг.
-
Үр ашиг - энэ нь хангалттай хурдан, хангалттай хямд, тогтвортой ажиллах чадвартай.
-
Бизнесийн нөлөөлөл - энэ нь таны сонирхож буй KPI-ийг хөдөлгөдөг.
Хэрэв та хэмжигдэхүүн, эрсдэлийг уялдуулах албан ёсны лавлах цэгийг хүсч байвал NIST AI эрсдэлийн удирдлагын тогтолцоо нь найдвартай системийн үнэлгээний хойд од юм. [1]

AI-ийн гүйцэтгэлийг хэрхэн хэмжих өндөр түвшний жор 🍳
Гурван давхаргаар бодоорой :
-
Даалгаврын хэмжүүр - даалгаврын төрлийн зөв байдал: ангилал, регресс, зэрэглэл, үүсгэх, хянах гэх мэт.
-
Системийн хэмжигдэхүүнүүд - хоцролт, дамжуулах чадвар, нэг дуудлагын зардал, бүтэлгүйтлийн түвшин, шилжилтийн дохиолол, ажиллах хугацааны SLA.
-
Үр дүнгийн хэмжүүр - таны үнэхээр хүсч буй бизнес болон хэрэглэгчийн үр дүн: хөрвүүлэлт, хадгалалт, аюулгүй байдлын осол, гарын авлагын хяналтын ачаалал, тасалбарын хэмжээ.
Хэмжилтийн гайхалтай төлөвлөгөө нь гурвыг санаатайгаар хольсон. Үгүй бол та хөөргөх тавцангаас хэзээ ч гарахгүй пуужин авах болно.
Асуудлын төрлөөр нь үндсэн хэмжүүрүүд - аль 🎯 хэзээ ашиглах вэ
1) ангилал
-
Precision, Recall, F1 - нэг өдрийн гурвал. F1 нь нарийвчлал ба санах ойн гармоник дундаж; Ангиудын тэнцвэргүй байдал эсвэл зардал тэгш хэмтэй бус үед ашигтай. [2]
-
ROC-AUC - ангилагчдын босго-агностик зэрэглэл; эерэг үр дүн ховор тохиолдолд PR-AUC-ийг . [2]
-
Тэнцвэртэй нарийвчлал - ангиудад эргүүлэн татах дундаж; хазайсан шошгон дээр хэрэглэхэд тохиромжтой. [2]
Pitfall цаг: нарийвчлал нь дангаараа тэнцвэргүй байдлыг төөрөлдүүлж болно. Хэрэглэгчдийн 99% нь хууль ёсны бол дүлий үргэлж хууль ёсны загвар нь 99% оноо авч, өдрийн хоолны өмнө залилангийн багийг бүтэлгүйтдэг.
2) Регресс
-
Хүний унших боломжтой алдааны MAE Та том алдалтыг шийтгэхийг хүссэн үедээ RMSE дисперсийн хувьд
R² Дараа нь эрүүл саруул - хуваарилалт болон үлдэгдэл талбайг шалгана уу. [2] (Дэмэйнд ээлтэй нэгжийг ашигласнаар оролцогч талууд алдааг бодитоор мэдрэх болно.)
3) Эрэмбэлэх, хайх, зөвлөмж өгөх
-
nDCG - албан тушаал, зэрэглэлийн хамааралд санаа тавьдаг; хайлтын чанарын стандарт.
-
MRR - эхний холбогдох зүйл хэр хурдан гарч ирэхэд анхаарлаа хандуулдаг ("нэг сайн хариулт олох" даалгаварт тохиромжтой).
(Хэрэгжүүлэлтийн лавлагаа болон ажилласан жишээнүүд нь хэмжүүрийн үндсэн сангуудад байдаг.) [2]
4) Текст үүсгэх, нэгтгэн дүгнэх
-
BLEU болон ROUGE - сонгодог давхцлын хэмжүүр; суурь болгон ашиглахад тустай.
-
Суулгахад суурилсан хэмжигдэхүүн (жишээ нь, BERTScore ) нь хүний дүгнэлттэй илүү сайн уялддаг; Загвар, үнэнч байдал, аюулгүй байдлын хувьд хүний үнэлгээтэй үргэлж хослуул. [4]
5) Асуултанд хариулах
-
Exact Match болон жетон түвшний F1 нь олборлох QA-д түгээмэл байдаг; газардуулга (хариулт-дэмжих шалгалт) хэмжинэ
Шалгалт тохируулга, өөртөө итгэх итгэл, Brier линз 🎚️
Итгэлийн оноо нь олон систем чимээгүйхэн оршдог газар юм. Та бодит байдлыг тусгасан магадлалыг хүсч байгаа тул үйл ажиллагаа нь босго, хүмүүст хүрэх зам эсвэл үнийн эрсдэлийг тогтоох боломжтой.
-
Шалгалт тохируулгын муруй - таамагласан магадлал ба эмпирик давтамжийг дүрслэн харуулах.
-
Brier оноо - магадлалын нарийвчлалын оновчтой онооны дүрэм; бага байх нь дээр. Зөвхөн зэрэглэлд төдийгүй магадлалын чанарт санаа тавихад энэ нь ялангуяа ашигтай байдаг [3]
Талбарын тэмдэглэл: бага зэрэг "муу" F1, гэхдээ илүү сайн тохируулга нь ихээхэн сайжруулж чадна - учир нь хүмүүс эцэст нь оноонд итгэж болно.
Аюулгүй байдал, өрөөсгөл байдал, шударга байдал - чухал зүйлийг хэмжээрэй 🛡️⚖️
Систем нь ерөнхийдөө үнэн зөв байж, тодорхой бүлэгт хор хөнөөл учруулдаг. Бүлэглэсэн хэмжигдэхүүн болон шударга байдлын шалгуурыг хянах
-
Хүн ам зүйн паритет - бүлгүүдэд ижил эерэг хувь хэмжээ.
-
Тэнцүүлсэн магадлал / Тэгш боломж - бүлгүүдийн дунд алдааны хувь тэнцүү буюу үнэн эерэг хувь; Эдгээрийг нэг удаагийн дамжлага болгон бус, солилцоог илрүүлэх, удирдахад ашиглаарай. [5]
Практик зөвлөгөө: үндсэн хэмжигдэхүүнийг үндсэн шинж чанаруудаар нь хуваасан хяналтын самбараас эхэлж, дараа нь өөрийн бодлого шаардлагын дагуу шударга байдлын тодорхой хэмжүүрүүдийг нэмнэ үү. Энэ нь ээдрээтэй сонсогдож байгаа ч энэ нь тохиолдлоос хямд юм.
LLMs болон RAG - хэмжилтийн тоглоомын дэвтэр үнэхээр ажилладаг 📚🔍
Генератив системийг хэмжих нь... эргэлздэг. Үүнийг хий:
-
үр дүнг тодорхойл : зөв, тустай, хор хөнөөлгүй, хэв маягийг дагаж мөрдөх, брэндийн өнгө аяс, ишлэлийг үндэслэлтэй болгох, татгалзах чанар.
-
Суурь үнэлгээг найдвартай хүрээгээр (жишээ нь, стек дэх үнэлгээний хэрэгсэл) автоматжуулж, тэдгээрийг өгөгдлийн багцтайгаа хувилбартай байлгаарай.
-
семантик хэмжигдэхүүнийг (суулгахад суурилсан) нэмээд давхардсан хэмжигдэхүүнийг (BLEU/ROUGE) нэмнэ үү. [4]
-
багажийн газардуулга : олж авах цохилтын хурд, контекстийн нарийвчлал/санах, хариултыг дэмжих давхцал.
-
Зөвшилцлийн дагуу хүний хяналт - үнэлгээний тогтвортой байдлыг хэмжинэ (жишээ нь, Коэнийн κ эсвэл Флейсийн κ) таны шошго нь чичиргээгүй байх болно.
Бонус: бүртгэлийн хоцрогдлын хувь, токен эсвэл нэг даалгаварт тооцоолох зардал. Ирэх мягмар гаригт ирэх яруу найргийн хариултанд хэн ч дургүй.
Харьцуулалтын хүснэгт - хиймэл оюун ухааны гүйцэтгэлийг хэмжих хэрэгсэл 🛠️📊
(Тийм ээ, энэ нь зориудаар бага зэрэг замбараагүй байна - жинхэнэ тэмдэглэлүүд нь замбараагүй байна.)
| Хэрэгсэл | Шилдэг үзэгчид | Үнэ | Энэ нь яагаад ажилладаг вэ - хурдан авах |
|---|---|---|---|
| scikit-learn хэмжигдэхүүн | ML-ийн эмч нар | Үнэгүй | Ангилал, регресс, зэрэглэлд зориулсан каноник хэрэгжилт; тест болгон жигнэхэд хялбар. [2] |
| MLflow үнэлгээ / GenAI | Мэдээллийн эрдэмтэд, MLOps | Үнэгүй + төлбөртэй | Төвлөрсөн гүйлт, автомат хэмжүүр, LLM шүүгчид, захиалгат оноо авагчид; олдворыг цэвэрхэн бүртгэдэг. |
| Мэдээжийн хэрэг | Хяналтын самбарыг хурдан авах хүсэлтэй багууд | OSS + үүл | 100+ хэмжигдэхүүн, шилжилтийн болон чанарын тайлан, хяналтын дэгээ - чимхлээр гоё дүрслэл. |
| Жин ба хазайлт | Туршилт ихтэй байгууллагууд | Үнэгүй давхарга | Хажуу талын харьцуулалт, үнэлгээний мэдээллийн багц, шүүгчид; ширээ, ул мөр нь эмх цэгцтэй. |
| ЛангСмит | LLM програм бүтээгчид | Төлбөртэй | Алхам бүрийг мөрдөж, хүний дүгнэлтийг дүрэм эсвэл LLM үнэлгээчидтэй холих; RAG-д маш сайн. |
| TruLens | Нээлттэй эхийн LLM-ийг үнэлдэг хүмүүс | OSS | Санал хүсэлтийн функцууд нь хоруу чанар, үндэслэлтэй байдал, хамаарлыг үнэлэх; хаана ч нэгтгэх. |
| Их хүлээлт | Өгөгдлийн чанар - нэгдүгээрт байгууллагууд | OSS | Өгөгдлийн хүлээлтийг албан ёсны болгох - учир нь муу өгөгдөл нь хэмжигдэхүүн бүрийг сүйтгэдэг. |
| Гүн шалгалт | ML-д зориулсан туршилт ба CI/CD | OSS + үүл | Өгөгдлийн шилжилт, загварын асуудал, хяналтыг шалгах батерейг багтаасан туршилт; сайн хашлага. |
Үнэ өөрчлөгдөх - баримт бичгийг шалгана уу. Тийм ээ, та багаж хэрэгслийг цагдаа харуулахгүйгээр эдгээрийг хольж болно.
Босго, зардал, шийдвэрийн муруй - нууц сумс 🧪
Хачирхалтай боловч үнэн зүйл: ижил ROC-AUC-тай хоёр загвар нь таны босго болон зардлын харьцаанаас .
Хурдан бүтээх хуудас:
-
Хуурамч эерэг ба худал сөрөг хоёрын үнийг мөнгө эсвэл цаг хугацаагаар тогтоо.
-
Босгыг шүүрдэж, 1к шийдвэр тутамд хүлээгдэж буй зардлыг тооцоол.
-
Хамгийн бага хүлээгдэж буй зардлын сонгоод дараа нь хяналтаар түгжих.
Эерэг нь ховор тохиолдолд PR муруйг, ерөнхий хэлбэрийн хувьд ROC муруйг, магадлалд тулгуурлан шийдвэр гаргах үед тохируулгын муруйг ашиглана уу. [2][3]
Жижиг кейс: даруухан F1, гэхдээ маш сайн тохируулгатай дэмжлэгийн тасалбарын гурвалсан загвар нь тохируулагдсан онооны зурваст холбогдсон хатуу босгоос шаталсан чиглүүлэлт (жишээ нь, "автоматаар шийдвэрлэх," "хүний хянан үзэх", "өсгөх") рүү шилжсэний дараа чиглүүлэлтийн гар аргаар дахин чиглүүлдэг.
Онлайн хяналт, шилжилт хөдөлгөөн, сэрэмжлүүлэг 🚨
Офлайн үнэлгээ нь төгсгөл биш харин эхлэл юм. Үйлдвэрлэлд:
-
Оролтын шилжилт , гаралтын шилжилт болон гүйцэтгэлийн бууралтыг сегментээр хянах
-
Хамгаалалтын хашлага шалгалтыг тохируулна уу - галлюцинацияны дээд хэмжээ, хордлогын босго, шударга байдлын дельта.
-
p95 хоцролт, завсарлага, хүсэлтийн зардлын хувьд канарын хяналтын самбар нэмнэ үү
-
Үүнийг хурдасгахын тулд тусгайлан бүтээсэн номын санг ашиглах; Тэд хайрцагнаас гарах дрифт, чанар, мониторингийн командуудыг санал болгодог.
Жижиг гажигтай зүйрлэл: загвараа исгэлэн зуурмагийн эхлэл гэж бодоорой - та зүгээр л нэг удаа жигнээд алхдаггүй; та хооллож, харж, үнэрлэж, заримдаа дахин эхлүүлдэг.
Бутардаггүй хүний үнэлгээ 🍪
Хүмүүс үр дүнг үнэлэхэд үйл явц нь таны бодож байгаагаас илүү чухал юм.
-
Дамжсан ба хилийн шугам, бүтэлгүйтсэн гэсэн жишээнүүдийн жишээн дээр хатуу рубрик бич
-
Боломжтой бол дээжийг санамсаргүй байдлаар хийж, сохор болго.
-
Үнэлгээчин хоорондын тохиролцоог хэмжинэ (жишээ нь, хоёр үнэлэгчийн хувьд Коэний κ, олон хүний хувьд Флейсийн κ) ба хэрэв гэрээ зөрчигдвөл хүснэгтийг шинэчилнэ үү.
Энэ нь таны хүний шошгыг сэтгэлийн байдал эсвэл кофены нийлүүлэлтээс шалтгаалахаас хамгаална.
Гүн шумбах: RAG 🧩 дахь LLM-ийн хиймэл оюун ухааны гүйцэтгэлийг хэрхэн хэмжих вэ
-
Татаж авах чанар - recall@k, precision@k, nDCG; алтны баримтуудын хамрах хүрээ. [2]
-
Үнэнч байдалд хариулах - иш татах, шалгах шалгалт, үндэслэлтэй байдлын оноо, өрсөлдөгчийн шалгалт.
-
Хэрэглэгчийн сэтгэл ханамж - эрхий хуруу, даалгаврын гүйцэтгэл, санал болгож буй ноорогоос засварлах зай.
-
Аюулгүй байдал - хоруу чанар, PII алдагдах, бодлогыг дагаж мөрдөх.
-
Зардал ба хоцролт - жетон, кэшийн цохилт, p95 ба p99 хоцролт.
Эдгээрийг бизнесийн үйлдлүүдтэй холбоно уу: хэрвээ газардуулга нь шугамаас доогуур байвал хатуу горим руу автоматаар чиглүүлэх эсвэл хүний үзлэгт оруулна.
Өнөөдөр эхлэх энгийн тоглоомын ном 🪄
-
Ажлаа тодорхойл - нэг өгүүлбэр бич: AI юу хийх ёстой, хэний төлөө.
-
2-3 даалгаврын хэмжигдэхүүнийг сонгоно уу - дээр нь шалгалт тохируулга болон дор хаяж нэг шударга байдлын зүсэлт. [2][3][5]
-
Өртөг ашиглан босго оноог шийдээрэй - тааварлах хэрэггүй.
-
Үйлдвэрлэлийн хольцыг тусгасан 100-500 шошготой жишээнүүдийн жижиг үнэлгээний багц үүсгэ
-
Өөрчлөлт бүр ижил шалгалтыг явуулахын тулд үнэлгээгээ автоматжуулж
-
Бүтээгдэхүүний хяналт - шилжилт, хоцролт, зардал, ослын туг.
-
Сар бүр хянан үзэх - хэн ч ашигладаггүй хэмжигдэхүүнийг тайрах; Бодит асуултуудад хариулдаг хүмүүсийг нэмнэ үү.
-
Шийдвэрийг баримтжуулах - танай багийн уншдаг амьд онооны карт.
Тийм ээ, энэ бол шууд утгаараа юм. Тэгээд ажилладаг.
Нийтлэг тохиолдлууд ба түүнээс хэрхэн зайлсхийх талаар 🕳️🐇
-
Нэг хэмжигдэхүүнд хэт тохирох - шийдвэрийн нөхцөл байдалд тохирсон хэмжүүрийн сагс [1][2]
-
Шалгалт тохируулгыг үл тоомсорлох - шалгалт тохируулгагүйгээр өөртөө итгэх итгэл нь зүгээр л хийрхэл юм. [3]
-
Хэсэгчлэхгүй - үргэлж хэрэглэгчийн бүлэг, газарзүй, төхөөрөмж, хэлээр зүснэ. [5]
-
Тодорхойгүй зардал - хэрэв та алдааг үнэлээгүй бол та буруу босго сонгох болно.
-
Human eval drift - тохиролцоог хэмжих, rubrics шинэчлэх, хянагчдыг дахин сургах.
-
Аюулгүй байдлын хэрэгсэл байхгүй - шударга байдал, хоруу чанар, бодлогын шалгалтыг дараа нь биш, одоо нэмээрэй. [1][5]
Таны хүссэн хэллэг: AI гүйцэтгэлийг хэрхэн хэмжих вэ - Хэтэрхий урт, би үүнийг уншаагүй 🧾
-
Тодорхой үр дүнгээс эхэлж , дараа нь даалгавар , систем болон бизнесийн хэмжүүрүүдийг стек болго. [1]
-
Ажлын хувьд зөв хэмжигдэхүүнийг ашиглах - ангиллын хувьд F1 ба ROC-AUC; зэрэглэл тогтоох nDCG/MRR; давхцах + үеийн семантик хэмжигдэхүүн (хүнтэй хослуулсан). [2][4]
-
Босгыг сонгохын тулд магадлалаа тохируулж алдаагаа үнэл [2][3]
-
Шударга байдлын нэмж , солилцоог тодорхой удирдаарай. [5]
-
Үнэлгээ, хяналтыг автоматжуулснаар та айдасгүйгээр давтах боломжтой.
Энэ нь ямар байгааг та мэднэ - юу чухал болохыг хэмжиж үзээрэй, эс тэгвээс та хэрэггүй зүйлээ сайжруулах болно.
Лавлагаа
[1] NIST. AI эрсдэлийн удирдлагын тогтолцоо (AI RMF). дэлгэрэнгүй
[2] scikit-learn. Загварын үнэлгээ: таамаглалын чанарыг тоогоор тодорхойлох (Хэрэглэгчийн гарын авлага). дэлгэрэнгүй
[3] scikit-learn. Магадлалын шалгалт тохируулга (шалгалт тохируулгын муруй, Бриерийн оноо). дэлгэрэнгүй
[4] Papineni et al. (2002). BLEU: Машины орчуулгыг автоматаар үнэлэх арга. ACL. дэлгэрэнгүй
[5] Hardt, Price, Srebro (2016). Хяналттай суралцах боломжийн тэгш байдал. NeurIPS. дэлгэрэнгүй уншина уу