AI гүйцэтгэлийг хэрхэн хэмжих вэ?

Хэрэв та зөөврийн компьютер дээрээ гялалзсан ч үйлдвэрлэлд бүдэрсэн загварыг худалдаанд гаргаж байсан бол нууцыг нь мэдэж байгаа байх: хиймэл оюун ухааны гүйцэтгэлийг хэрхэн хэмжих нь нэг шидэт хэмжүүр биш. Энэ бол бодит ертөнцийн зорилгод холбогдсон шалгалтын систем юм. Нарийвчлал нь хөөрхөн. Найдвартай байдал, аюулгүй байдал, бизнесийн нөлөөлөл нь илүү дээр.

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 AI-тай хэрхэн ярих вэ
Тогтвортой сайн үр дүнд хүрэхийн тулд хиймэл оюун ухаантай үр дүнтэй харилцах гарын авлага.

🔗 AI гэж юу вэ
Сануулгууд нь AI-ийн хариу үйлдэл болон гаралтын чанарыг хэрхэн тодорхойлдог болохыг тайлбарладаг.

🔗 AI мэдээллийн шошго гэж юу вэ
Сургалтын загварт зориулсан өгөгдөлд үнэн зөв шошго олгох тойм.

🔗 AI ёс зүй гэж юу вэ
Хариуцлагатай хиймэл оюун ухааныг хөгжүүлэх, ашиглахад чиглүүлдэг ёс зүйн зарчмуудын танилцуулга.

AI-ийн сайн гүйцэтгэлийг юу болгодог вэ? ✅

Богино хувилбар: AI-ийн сайн гүйцэтгэл нь таны систем эмх замбараагүй, өөрчлөгдөж буй нөхцөлд ашигтай, найдвартай, давтагдах боломжтой гэсэн үг юм. Тодорхой:

Даалгаврын чанар - энэ нь зөв шалтгааны улмаас зөв хариултыг авдаг.
Тохируулга - итгэлийн оноо нь бодит байдалтай нийцэж байгаа тул та ухаалаг арга хэмжээ авах боломжтой.
Бат бөх байдал - энэ нь шилжилт хөдөлгөөн, захын нөхцөл байдал, дайсагнасан бүдүүлэг зэрэгт тэсвэртэй.
Аюулгүй байдал ба шударга ёс - энэ нь хор хөнөөлтэй, нэг талыг барьсан эсвэл дуулгаваргүй зан авираас зайлсхийдэг.
Үр ашиг - энэ нь хангалттай хурдан, хангалттай хямд бөгөөд өргөн хүрээнд ажиллахад хангалттай тогтвортой.
Бизнесийн нөлөөлөл - энэ нь таны сонирхож буй KPI-ийг хөдөлгөдөг.

Хэрэв та хэмжигдэхүүн, эрсдэлийг уялдуулах албан ёсны лавлах цэгийг хүсч байвал NIST AI эрсдэлийн удирдлагын тогтолцоо нь найдвартай системийн үнэлгээний хойд од юм. [1]

AI-ийн гүйцэтгэлийг хэрхэн хэмжих өндөр түвшний жор 🍳

Гурван давхаргаар бодоорой :

Даалгаврын хэмжүүр - даалгаврын төрлийн зөв байдал: ангилал, регресс, зэрэглэл, үүсгэх, хянах гэх мэт.
Системийн хэмжигдэхүүнүүд - хоцролт, дамжуулах чадвар, нэг дуудлагын зардал, бүтэлгүйтлийн түвшин, шилжилтийн дохиолол, ажиллах хугацааны SLA.
Үр дүнгийн хэмжүүр - таны үнэхээр хүсч буй бизнес болон хэрэглэгчийн үр дүн: хөрвүүлэлт, хадгалалт, аюулгүй байдлын осол, гарын авлагын хяналтын ачаалал, тасалбарын хэмжээ.

Хэмжилтийн гайхалтай төлөвлөгөө нь гурвыг санаатайгаар хольсон. Үгүй бол та хөөргөх тавцангаас хэзээ ч гарахгүй пуужин авах болно.

Асуудлын төрлөөр нь үндсэн хэмжүүрүүд - аль 🎯 хэзээ ашиглах вэ

1) ангилал

Precision, Recall, F1 - нэг өдрийн гурвал. F1 нь нарийвчлал ба санах ойн гармоник дундаж; Ангиудын тэнцвэргүй байдал эсвэл зардал тэгш хэмтэй бус үед ашигтай. [2]
ROC-AUC - ангилагчдын босго-агностик зэрэглэл; эерэг үр дүн ховор тохиолдолд PR-AUC-ийг. [2]
Тэнцвэртэй нарийвчлал - ангиудад эргүүлэн татах дундаж; хазайсан шошгон дээр хэрэглэхэд тохиромжтой. [2]

Pitfall цаг: нарийвчлал нь дангаараа тэнцвэргүй байдлыг төөрөлдүүлж болно. Хэрэглэгчдийн 99% нь хууль ёсны бол дүлий үргэлж хууль ёсны загвар нь 99% оноо авч, өдрийн хоолны өмнө залилангийн багийг бүтэлгүйтдэг.

2) Регресс

Хүнд уншигдахуйц алдааны хувьд MAE ; том алдааг шийтгэхийг хүсвэл RMSE ; тайлбарласан дисперсийн хувьд R² . Дараа нь эрүүл ахуйн шалгалтын тархалт болон үлдэгдэл графикуудыг ашиглана уу. [2] (Оролцогч талууд алдааг үнэхээр мэдрэхийн тулд домэйнд ээлтэй нэгжүүдийг ашиглана уу.)

3) Эрэмбэлэх, хайх, зөвлөмж өгөх

nDCG - албан тушаал, зэрэглэлийн хамааралд санаа тавьдаг; хайлтын чанарын стандарт.
MRR - эхний холбогдох зүйл хэр хурдан гарч ирэхэд анхаарлаа төвлөрүүлдэг ("нэг сайн хариулт олох" даалгаварт маш сайн).
(Хэрэгжүүлэлтийн лавлагаа болон ажилласан жишээнүүд нь ердийн хэмжүүрийн сангуудад байдаг.) [2]

4) Текст үүсгэх, нэгтгэн дүгнэх

BLEU болон ROUGE - сонгодог давхцлын хэмжүүр; суурь болгон ашиглахад тустай.
Суулгахад суурилсан хэмжигдэхүүн (жишээ нь, BERTScore) нь хүний дүгнэлттэй илүү сайн уялддаг; Загвар, үнэнч байдал, аюулгүй байдлын хувьд хүний үнэлгээтэй үргэлж хослуул. [4]

5) Асуултанд хариулах

Exact Match болон жетон түвшний F1 нь олборлох QA-д түгээмэл байдаг; газардуулга (хариулт-дэмжих шалгалт)

Шалгалт тохируулга, өөртөө итгэх итгэл, Brier линз 🎚️

Итгэлийн оноо нь олон систем чимээгүйхэн оршдог газар юм. Та бодит байдлыг тусгасан магадлалыг хүсч байгаа тул үйл ажиллагаа нь босго, хүмүүст хүрэх зам эсвэл үнийн эрсдэлийг тогтоох боломжтой.

Шалгалт тохируулгын муруй - таамагласан магадлал ба эмпирик давтамжийг дүрслэн харуулах.
Бриер оноо - магадлалын нарийвчлалын зөв онооны дүрэм; бага байх тусмаа сайн. Энэ нь зөвхөн зэрэглэлд төдийгүй магадлалын чанарыг чухалчилдаг үед онцгой ач холбогдолтой юм . [3]

Талбарын тэмдэглэл: F1 арай "муу" боловч илүү сайн тохируулга нь эрс сайжруулж чадна - учир нь хүмүүс эцэст нь оноонд итгэж болно.

Аюулгүй байдал, өрөөсгөл байдал, шударга байдал - чухал зүйлийг хэмжээрэй 🛡️⚖️

Систем нь ерөнхийдөө үнэн зөв байж, тодорхой бүлэгт хор хөнөөл учруулдаг. Бүлэглэсэн хэмжигдэхүүн болон шударга байдлын шалгуурыг

Хүн ам зүйн паритет - бүлгүүдэд ижил эерэг хувь хэмжээ.
Тэнцүү магадлал / Тэгш боломж - бүлгүүдийн хооронд тэнцүү алдааны түвшин эсвэл үнэн эерэг түвшин; эдгээрийг нэг удаагийн дамжуулалт-алдаа гэсэн тамга биш харин буултуудыг илрүүлж, удирдахад ашиглаарай. [5]

Практик зөвлөгөө: үндсэн хэмжигдэхүүнийг үндсэн шинж чанаруудаар нь хуваасан хяналтын самбараас эхэлж, дараа нь өөрийн бодлого шаардлагын дагуу шударга байдлын тодорхой хэмжүүрүүдийг нэмнэ үү. Энэ нь ээдрээтэй сонсогдож байгаа ч энэ нь тохиолдлоос хямд юм.

LLMs болон RAG - хэмжилтийн тоглоомын дэвтэр үнэхээр ажилладаг 📚🔍

Генератив системийг хэмжих нь... эргэлздэг. Үүнийг хий:

үр дүнг тодорхойл : зөв, тустай, хор хөнөөлгүй, хэв маягийг дагаж мөрдөх, брэндийн өнгө аяс, ишлэлийг үндэслэлтэй болгох, татгалзах чанар.
Суурь үнэлгээг найдвартай хүрээгээр (жишээ нь, стек дэх үнэлгээний хэрэгсэл) автоматжуулж, тэдгээрийг өгөгдлийн багцтайгаа хувилбартай байлгаарай.
семантик хэмжигдэхүүнийг (суулгахад суурилсан) нэмээд давхардсан хэмжигдэхүүнийг (BLEU/ROUGE) нэмнэ үү. [4]
багажийн газардуулга : олж авах цохилтын хурд, контекстийн нарийвчлал/санах, хариултыг дэмжих давхцал.
Зөвшилцөлтэй хүний хяналт - үнэлгээний тогтвортой байдлыг (жишээ нь, Коэнийн κ эсвэл Флейссийн κ) хэмжиж, шошго чинь чичиргээтэй биш байх болно.

Бонус: бүртгэлийн хоцрогдлын хувь, токен эсвэл нэг даалгаварт тооцоолох зардал. Ирэх мягмар гаригт ирэх яруу найргийн хариултанд хэн ч дургүй.

Харьцуулалтын хүснэгт - хиймэл оюун ухааны гүйцэтгэлийг хэмжих хэрэгсэл 🛠️📊

(Тийм ээ, энэ нь зориудаар бага зэрэг замбараагүй байна - жинхэнэ тэмдэглэлүүд нь замбараагүй байна.)

Багаж хэрэгсэл	Шилдэг үзэгчид	Үнэ	Энэ нь яагаад ажилладаг вэ - хурдан авах
scikit-learn хэмжигдэхүүн	ML-ийн эмч нар	Үнэгүй	Ангилал, регресс, зэрэглэлд зориулсан каноник хэрэгжилт; тест болгон жигнэхэд хялбар. [2]
MLflow үнэлгээ / GenAI	Мэдээллийн эрдэмтэд, MLOps	Үнэгүй + төлбөртэй	Төвлөрсөн гүйлт, автомат хэмжүүр, LLM шүүгчид, захиалгат оноо авагчид; олдворыг цэвэрхэн бүртгэдэг.
Мэдээжийн хэрэг	Хяналтын самбарыг хурдан авах хүсэлтэй багууд	OSS + үүл	100+ хэмжигдэхүүн, шилжилтийн болон чанарын тайлан, хяналтын дэгээ - чимхлээр гоё дүрслэл.
Жин ба хэвийлт	Туршилт ихтэй байгууллагууд	Чөлөөт шат	Хажуу талын харьцуулалт, үнэлгээний мэдээллийн багц, шүүгчид; ширээ, ул мөр нь эмх цэгцтэй.
ЛангСмит	LLM програм бүтээгчид	Төлбөртэй	Алхам бүрийг мөрдөж, хүний дүгнэлтийг дүрэм эсвэл LLM үнэлгээчидтэй холих; RAG-д маш сайн.
TruLens	Нээлттэй эхийн LLM-ийг үнэлдэг хүмүүс	OSS	Санал хүсэлтийн функцууд нь хоруу чанар, үндэслэлтэй байдал, хамаарлыг үнэлэх; хаана ч нэгтгэх.
Их хүлээлт	Өгөгдлийн чанар - нэгдүгээрт байгууллагууд	OSS	Өгөгдлийн хүлээлтийг албан ёсны болгох - учир нь муу өгөгдөл нь хэмжигдэхүүн бүрийг сүйтгэдэг.
Гүн шалгалт	ML-д зориулсан туршилт ба CI/CD	OSS + үүл	Өгөгдлийн шилжилт, загварын асуудал, хяналтыг шалгах батерейг багтаасан туршилт; сайн хашлага.

Үнэ өөрчлөгдөх - баримт бичгийг шалгана уу. Тийм ээ, та багаж хэрэгслийг цагдаа харуулахгүйгээр эдгээрийг хольж болно.

Босго, зардал, шийдвэрийн муруй - нууц сумс 🧪

Хачирхалтай боловч үнэн зүйл: ижил ROC-AUC-тай хоёр загвар нь таны босго болон зардлын харьцаанаас.

Хурдан бүтээх хуудас:

Хуурамч эерэг ба худал сөрөг хоёрын үнийг мөнгө эсвэл цаг хугацаагаар тогтоо.
Босгыг шүүрдэж, 1к шийдвэр тутамд хүлээгдэж буй зардлыг тооцоол.
Хамгийн бага хүлээгдэж буй зардлын босгыг сонгоод дараа нь хяналтаар түгжих.

Эерэг нь ховор тохиолдолд PR муруйг, ерөнхий хэлбэрийн хувьд ROC муруйг, магадлалд тулгуурлан шийдвэр гаргах үед тохируулгын муруйг ашиглана уу. [2][3]

Мини-кейс: тохируулсан онооны зурвасуудтай холбогдсон хатуу босгоос шаталсан чиглүүлэлт рүү (жишээ нь, "автоматаар шийдвэрлэх", "хүний шинжилгээ", "өргөжүүлэх") шилжсэний дараа даруухан F1 боловч маш сайн тохируулгатай дэмжлэгийн тасалбарын ангиллын загвар.

Онлайн хяналт, шилжилт хөдөлгөөн, сэрэмжлүүлэг 🚨

Офлайн үнэлгээ нь төгсгөл биш харин эхлэл юм. Үйлдвэрлэлд:

Оролтын шилжилт , гаралтын шилжилт болон гүйцэтгэлийн бууралтыг сегментээр хянах .
Хамгаалалтын хашлага шалгалтыг тохируулна уу - галлюцинацияны дээд хэмжээ, хордлогын босго, шударга байдлын дельта.
p95 хоцролт, завсарлага, хүсэлтийн зардлын хувьд канарын хяналтын самбар нэмнэ үү .
Үүнийг хурдасгахын тулд тусгайлан бүтээсэн номын санг ашиглах; Тэд хайрцагнаас гарах дрифт, чанар, мониторингийн командуудыг санал болгодог.

Жижигхэн алдаатай зүйрлэл: загвараа исгэлэн зуурмаг шиг төсөөлөөд үз дээ - та нэг удаа жигнээд л яваад өгдөггүй; та хооллож, харж, үнэрлэж, заримдаа дахин эхлүүлдэг.

Бутардаггүй хүний үнэлгээ 🍪

Хүмүүс үр дүнг үнэлэхэд үйл явц нь таны бодож байгаагаас илүү чухал юм.

Дамжсан ба хилийн шугам, бүтэлгүйтсэн гэсэн жишээнүүдийн жишээн дээр хатуу рубрик бич .
Боломжтой бол дээжийг санамсаргүй байдлаар хийж, сохор болго.
Үнэлгээчид хоорондын тохиролцоог хэмжиж (жишээ нь, хоёр үнэлэгчийн хувьд Коэний κ, олон үнэлэгчийн хувьд Флейссийн κ), тохиролцоонд хүрээгүй тохиолдолд шалгуур үзүүлэлтийг шинэчилнэ үү.

Энэ нь таны хүний шошгыг сэтгэлийн байдал эсвэл кофены нийлүүлэлтээс шалтгаалахаас хамгаална.

Гүнзгий судлах: RAG дахь LLM-үүдийн хиймэл оюун ухааны гүйцэтгэлийг хэрхэн хэмжих вэ 🧩

Татаж авах чанар - recall@k, precision@k, nDCG; алтны баримтуудын хамрах хүрээ. [2]
Үнэнч байдалд хариулах - иш татах, шалгах шалгалт, үндэслэлтэй байдлын оноо, өрсөлдөгчийн шалгалт.
Хэрэглэгчийн сэтгэл ханамж - эрхий хуруу, даалгаврын гүйцэтгэл, санал болгож буй ноорогоос засварлах зай.
Аюулгүй байдал - хоруу чанар, PII алдагдах, бодлогыг дагаж мөрдөх.
Зардал ба хоцрогдол - жетон, кэшийн цохилт, p95 ба p99 хоцрогдол.

Эдгээрийг бизнесийн үйлдлүүдтэй холбоно уу: хэрвээ газардуулга нь шугамаас доогуур байвал хатуу горим руу автоматаар чиглүүлэх эсвэл хүний үзлэгт оруулна.

Өнөөдөр эхлэх энгийн тоглоомын ном 🪄

Ажлаа тодорхойл - нэг өгүүлбэр бич: AI юу хийх ёстой, хэний төлөө.
2–3 даалгаврын хэмжүүрийг сонгоно уу - дээр нь тохируулга болон дор хаяж нэг шударга ёсны зүсмэлийг нэмнэ үү. [2][3][5]
Өртгийг ашиглан босгыг тодорхойл - таамаглах хэрэггүй.
Үйлдвэрлэлийн холимогийг тусгасан 100–500 шошготой жишээ бүхий жижиг үнэлгээний багц үүсгэ
Өөрчлөлт бүр ижил шалгалтыг явуулахын тулд үнэлгээгээ автоматжуулж , CI-д оруулаарай.
Бүтээгдэхүүний хяналт - шилжилт, хоцролт, зардал, ослын туг.
Сар бүр хянан үзэх - хэн ч ашигладаггүй хэмжигдэхүүнийг тайрах; Бодит асуултуудад хариулдаг хүмүүсийг нэмнэ үү.
Шийдвэрийг баримтжуулах - танай багийн уншдаг амьд онооны карт.

Тийм ээ, энэ бол шууд утгаараа юм. Тэгээд ажилладаг.

Нийтлэг тохиолдлууд ба түүнээс хэрхэн зайлсхийх талаар 🕳️🐇

Нэг хэмжигдэхүүнд хэт тохирох - шийдвэрийн нөхцөл байдалд тохирсон хэмжүүрийн сагс ашиглана уу. [1][2]
Шалгалт тохируулгыг үл тоомсорлох - шалгалт тохируулгагүйгээр өөртөө итгэх итгэл нь зүгээр л хийрхэл юм. [3]
Хэсэгчлэхгүй - үргэлж хэрэглэгчийн бүлэг, газарзүй, төхөөрөмж, хэлээр зүснэ. [5]
Тодорхойгүй зардал - хэрэв та үнийн алдаа гаргахгүй бол та буруу босгыг сонгоно.
Human eval drift - тохиролцоог хэмжих, rubrics шинэчлэх, хянагчдыг дахин сургах.
Аюулгүй байдлын хэрэгсэл байхгүй - шударга байдал, хоруу чанар, бодлогын шалгалтыг дараа нь биш, одоо нэмээрэй. [1][5]

Таны хүссэн хэллэг: AI гүйцэтгэлийг хэрхэн хэмжих вэ - Хэтэрхий урт, би үүнийг уншаагүй 🧾

Тодорхой үр дүнгээс эхэлж , дараа нь даалгавар , систем болон бизнесийн хэмжүүрүүдийг стек болго. [1]
Ажлын хувьд зөв хэмжигдэхүүнийг ашиглах - ангиллын хувьд F1 ба ROC-AUC; зэрэглэл тогтоох nDCG/MRR; давхцах + үеийн семантик хэмжигдэхүүн (хүнтэй хослуулсан). [2][4]
Босгыг сонгохын тулд магадлалаа тохируулж , алдаагаа үнэл . [2][3]
Шударга байдлын шалгалтыг бүлгийн зүсмэлүүдээр нэмж , солилцоог тодорхой удирдаарай. [5]
Үнэлгээ, хяналтыг автоматжуулснаар та айдасгүйгээр давтах боломжтой.

Энэ нь ямар байгааг та мэднэ - юу чухал болохыг хэмжиж үзээрэй, эс тэгвээс та хэрэггүй зүйлээ сайжруулах болно.

Лавлагаа

[1] NIST. Хиймэл оюун ухааны эрсдэлийн удирдлагын хүрээ (Хиймэл оюун ухааны RMF). дэлгэрэнгүй унших
[2] scikit-learn. Загварын үнэлгээ: таамаглалын чанарыг тоон үзүүлэлтээр илэрхийлэх (Хэрэглэгчийн гарын авлага). дэлгэрэнгүй унших
[3] scikit-learn. Магадлалын тохируулга (тохируулгын муруй, Бриерийн оноо). дэлгэрэнгүй унших
[4] Папинени нар. (2002). BLEU: Машины орчуулгыг автоматаар үнэлэх арга. ACL. дэлгэрэнгүй унших
[5] Хардт, Прайс, Сребро (2016). Хяналттай сургалтын боломжийн тэгш байдал. NeurIPS. дэлгэрэнгүй унших

Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах