Хиймэл оюун ухааны загваруудыг хэрхэн үнэлэх вэ

Хиймэл оюун ухааны загваруудыг хэрхэн үнэлэх вэ

Товч хариулт: Хэрэглээний тохиолдолд "сайн" гэж юу болохыг тодорхойлж, дараа нь төлөөлөл, хувилбартай зааварчилгаа болон захын тохиолдлуудаар туршина уу. Автоматжуулсан хэмжигдэхүүнийг хүний ​​рубрик оноотой хослуулж, сөрөг аюулгүй байдал болон зааварчилгаа-шалгалтуудыг хийнэ үү. Хэрэв зардал эсвэл хоцрогдлын хязгаарлалт нь хүчин төгөлдөр болвол загваруудыг зарцуулсан фунт тутамд даалгаврын амжилт болон p95/p99 хариу өгөх хугацаагаар харьцуулна уу.

Гол дүгнэлтүүд:

Хариуцлага : Аливаа хүсэлт эсвэл загварын өөрчлөлтийн дараа эзэмшигчдийг тодорхой зааж өгөх, хувилбарын бүртгэлийг хөтлөх, үнэлгээг дахин ажиллуулах.

Ил тод байдал : Оноо цуглуулж эхлэхээсээ өмнө амжилтын шалгуур, хязгаарлалт, бүтэлгүйтлийн зардлыг бич.

Аудит хийх чадвар : Давтагдах боломжтой туршилтын багцууд, шошготой өгөгдлийн багцууд болон p95/p99 хоцрогдлын хэмжигдэхүүнүүдийг хянах.

Маргаантай үр дүнд хүрэхийн тулд хүний ​​хяналт шалгалтын шалгуур болон давж заалдах тодорхой замыг ашиглана уу.

Буруу хэрэглээний эсэргүүцэл : Улаан баг хэрэглэгчдийг хамгаалахын тулд мэдээлэл оруулах, эмзэг сэдвүүд болон хэт их татгалзах зэрэг үйлдлүүд.

Хэрэв та бүтээгдэхүүн, судалгааны төсөл эсвэл бүр дотоод хэрэгсэлд зориулж загвар сонгож байгаа бол зүгээр л "ухаалаг сонсогдож байна" гээд илгээж болохгүй ( OpenAI үнэлгээний гарын авлага болон NIST AI RMF 1.0-г ). Ингэснээр та сэрээг богино долгионы зууханд хэрхэн халаахыг итгэлтэйгээр тайлбарладаг чатботтой болно. 😬

Хиймэл оюун ухааны загваруудын инфографикийг хэрхэн үнэлэх вэ

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 Хиймэл оюун ухааны ирээдүй: дараагийн арван жилд нөлөөлөх чиг хандлага
Гол инноваци, ажлын байрны нөлөөлөл, цаашид анхаарах ёс зүй.

🔗 Анхан шатны хүмүүст зориулсан генератив хиймэл оюун ухааны суурь загваруудыг тайлбарлав.
Тэдгээр нь юу болох, хэр сайн сургагдсан, яагаад чухал болохыг мэдэж аваарай.

🔗 Хиймэл оюун ухаан хүрээлэн буй орчин болон эрчим хүчний хэрэглээнд хэрхэн нөлөөлдөг вэ?
Ялгаралт, цахилгаан эрчим хүчний эрэлт, ул мөрийг бууруулах аргуудыг судлаарай.

🔗 Өнөөдөр хиймэл оюун ухааныг нэмэгдүүлэх нь илүү тод дүрсний хувьд хэрхэн ажилладаг вэ?
Загварууд хэрхэн дэлгэрэнгүй мэдээлэл нэмж, чимээ шуугианыг арилгаж, цэвэрхэн томруулдаг болохыг хараарай.


1) “Сайн” гэдэг үгийг тодорхойлох (энэ нь цаг хугацаанаас хамаарна, энэ нь зүгээр) 🎯

Ямар нэгэн үнэлгээ хийхээсээ өмнө амжилт ямар байхыг шийдээрэй. Эс тэгвээс та бүх зүйлийг хэмжиж, юу ч сурахгүй. Энэ нь бялууны тэмцээнийг шүүхийн тулд хэмжүүр авчрахтай адил юм. Мэдээж тоонууд гарч ирнэ, гэхдээ тэдгээр нь танд тийм ч их зүйл хэлэхгүй 😅

Тодруулбал:

  • Хэрэглэгчийн зорилго : нэгтгэн дүгнэх, хайлт хийх, бичих, үндэслэл гаргах, баримт гаргаж авах

  • Бүтэлгүйтлийн зардал : киноны буруу санал инээдтэй; эмнэлгийн буруу зааварчилгаа ... инээдтэй биш (эрсдэлийн хүрээ: NIST AI RMF 1.0 ).

  • Ажиллах үеийн орчин : төхөөрөмж дээр, үүлэн дотор, галт ханын ард, зохицуулалттай орчинд

  • Үндсэн хязгаарлалтууд : хоцрогдол, хүсэлт тус бүрийн өртөг, нууцлал, тайлбарлах боломжтой байдал, олон хэлний дэмжлэг, ая хянах

Нэг ажилдаа "хамгийн сайн" загвар өмсөгч нөгөө ажилдаа гамшиг болж чадна. Энэ бол зөрчилдөөн биш, энэ бол бодит байдал. 🙂


2) Бат бөх хиймэл оюун ухааны загварын үнэлгээний хүрээ ямар харагддаг вэ 🧰

Тийм ээ, энэ бол хүмүүсийн алгасдаг хэсэг юм. Тэд жишиг үзүүлэлтийг аваад, нэг удаа ажиллуулаад, өдөр бүр хийдэг. Бат бөх үнэлгээний хүрээ нь хэд хэдэн тогтвортой шинж чанартай байдаг (практик хэрэгслийн жишээ: OpenAI Evals / OpenAI evals guide ):

  • Давтагдах боломжтой - та үүнийг дараа долоо хоногт дахин ажиллуулж, харьцуулалтад итгэж болно

  • Төлөөлөгч - энэ нь таны бодит хэрэглэгчид болон даалгавруудыг тусгадаг (зөвхөн жижиг асуултууд биш)

  • Олон давхаргат - автоматжуулсан хэмжүүр + хүний ​​хяналт + өрсөлдөгч тестийг хослуулсан

  • Үйлдэл хийх боломжтой - үр дүн нь зөвхөн "оноо буурсан" гэхээсээ илүү юуг засахыг хэлж өгдөг

  • Хуурамч зүйлд тэсвэртэй - "туршилтанд заах" эсвэл санамсаргүй гоожихоос зайлсхийдэг

  • Зардлын талаарх мэдлэгтэй - үнэлгээ өөрөө таныг дампууруулж болохгүй (хэрэв та өвдөлтийг мэдрэхгүй бол)

Хэрэв таны үнэлгээ эргэлзээтэй багийн гишүүний "За, гэхдээ үүнийг үйлдвэрлэлд оруулна уу" гэж хэлэхийг давж чадахгүй бол энэ нь хараахан дуусаагүй байна. Энэ бол уур амьсгалын шалгалт юм.


3) Хэрэглээний тохиолдлын зүсмэлүүдээс эхлэн хиймэл оюун ухааны загваруудыг хэрхэн үнэлэх вэ 🍰

Маш их цаг хэмнэх нэг арга байна: хэрэглээний тохиолдлыг хэсэг болгон хуваа .

"Загварыг үнэлэх"-ийн оронд дараах зүйлийг хий:

  • Зорилготой ойлголт (хэрэглэгчийн хүссэн зүйлийг авч чадах уу)

  • Нэвтрэх эсвэл контекст ашиглах (өгөгдсөн мэдээллийг зөв ашиглаж байгаа эсэх)

  • Ухаан ололтын / олон шатлалт даалгаварууд (алхам бүрт уялдаа холбоотой хэвээр байна уу)

  • Хэлбэржүүлэлт ба бүтэц (зааврыг дагаж мөрддөг үү)

  • Аюулгүй байдал болон бодлогын уялдаа холбоо (аюултай контентоос зайлсхийдэг үү; NIST AI RMF 1.0-г )

  • Өнгө аяс болон брэндийн дуу хоолой (таны хүссэнээр сонсогдож байна уу)

Энэ нь "Хиймэл оюун ухааны загваруудыг хэрхэн үнэлэх вэ" гэсэн асуултыг нэг том шалгалт биш, харин зорилтот асуулт хариултын багц мэт санагдуулж байна. Асуулт хариултууд нь залхмаар ч зохицуулж болдог. 😄


4) Офлайн үнэлгээний үндсэн ойлголтууд - тестийн багцууд, шошго, чухал ач холбогдолтой таагүй мэдээлэл 📦

Офлайн үнэлгээ гэдэг нь хэрэглэгчид ямар нэгэн зүйлд хүрэхээс өмнө хяналттай тестүүдийг хийдэг газар юм (ажлын урсгалын загварууд: OpenAI Evals ).

Үнэхээр өөрийнх нь тестийн багцыг бүтээх эсвэл цуглуулах

Сайн туршилтын багц нь ихэвчлэн дараахь зүйлийг агуулдаг

  • Алтан жишээнүүд : таны бахархалтайгаар хүргэх төгс үр дүн

  • Ирмэгийн тохиолдлууд : тодорхойгүй мөрүүд, эмх замбараагүй оролтууд, гэнэтийн форматлалт

  • Алдаатай горимын датчикууд : хий үзэгдэл эсвэл аюултай хариултыг өдөөдөг дохионууд (эрсдэлийн тестийн хүрээ: NIST AI RMF 1.0 )

  • Олон янз байдлын хамрах хүрээ : хэрэглэгчийн ур чадварын түвшин, аялга, хэл, домэйн

Хэрэв та зөвхөн "цэвэр" мөрүүд дээр туршиж үзвэл загвар гайхалтай харагдах болно. Дараа нь таны хэрэглэгчид алдаатай, хагас өгүүлбэртэй, уур хилэнгээр товших эрч хүчтэй гарч ирнэ. Бодит байдалд тавтай морил.

Шошгоны сонголтууд (өөрөөр хэлбэл: хатуу чанарын түвшин)

Та гаралтыг дараах байдлаар тэмдэглэж болно:

  • Хоёртын систем : давах/бүтэлгүйтэх (хурдан, хатуу ширүүн)

  • Дүрмийн тоо : 1-5 чанарын оноо (нарийн, субъектив)

  • Олон шинж чанар : нарийвчлал, бүрэн байдал, өнгө аяс, ишлэл ашиглах гэх мэт (хамгийн сайн, удаан)

Олон багийн хувьд олон шинж чанар нь хамгийн тохиромжтой цэг юм. Энэ нь хоол амталж, давслаг байдлыг бүтэцээс нь тусад нь үнэлэхтэй адил юм. Үгүй бол та зүгээр л "сайн" гэж хэлээд мөрөө хавчина.


5) Худлаа хэлдэггүй хэмжүүрүүд - мөн тийм хэмжүүрүүд 📊😅

Хэмжүүрүүд үнэ цэнэтэй... гэхдээ тэдгээр нь гялтганасан бөмбөг болж чаддаг. Хаа сайгүй гялалзсан, цэвэрлэхэд хэцүү.

Нийтлэг метрик гэр бүлүүд

  • Нарийвчлал / яг таарсан байдал : ялгах, ангилах, бүтэцлэгдсэн даалгаварт маш сайн

  • F1 / нарийвчлал / санах : ямар нэгэн зүйлийг алгасахад тохиромжтой нь нэмэлт чимээ шуугианаас муу (тодорхойлолт: scikit-learn precision/recall/F-score )

  • BLEU / ROUGE хэв маягийн давхцал : нэгтгэн дүгнэхтэй төстэй даалгавруудад зүгээр, ихэвчлэн төөрөгдүүлдэг (анхны хэмжүүрүүд: BLEU болон ROUGE )

  • Ижил төстэй байдлыг оруулах : утга зүйн тохиролцоонд тустай, буруу боловч төстэй хариултуудыг шагнаж болно

  • Даалгаврын амжилтын түвшин : сайн тодорхойлсон үед “хэрэглэгч хэрэгтэй зүйлээ авсан уу” гэсэн алтан стандарт

  • Хязгаарлалтын нийцэл : формат, урт, JSON хүчин төгөлдөр байдал, схемийн нийцлийг дагана

Гол санаа

Хэрэв таны даалгавар нээлттэй бол (бичих, эргэцүүлэн бодох, дэмжлэг үзүүлэх чат), ганц оронтой хэмжүүрүүд ... хэлбэлзэлтэй байж болно. Утгагүй биш, зүгээр л хэлбэлзэлтэй. Бүтээлч байдлыг шугамаар хэмжих боломжтой ч үүнийг хийх нь танд инээдтэй санагдах болно. (Мөн та нүдээ цоолчих байх.)

Тиймээс: үзүүлэлтүүдийг ашиглах боловч тэдгээрийг хүний ​​хяналт болон бодит даалгаврын үр дүнд тулгуурлах (LLM дээр суурилсан үнэлгээний хэлэлцүүлгийн нэг жишээ + анхааруулга: G-Eval ).


6) Харьцуулах хүснэгт - үнэлгээний шилдэг сонголтууд (өвөрмөц онцлогтой, учир нь амьдралд өвөрмөц онцлог байдаг) 🧾✨

Үнэлгээний аргуудын практик цэсийг энд оруулав. Холимог болон тохируулгатай. Ихэнх багууд тэгдэг.

Хэрэгсэл / Арга Үзэгчид Үнэ Яагаад ажилладаг вэ
Гараар угсарсан түр зуурын туршилтын багц Бүтээгдэхүүн + инженер $ Маш сайн чиглэсэн, регрессийг хурдан барьдаг - гэхдээ та үүнийг үүрд хадгалах ёстой 🙃 (эхлүүлэх хэрэгсэл: OpenAI Evals )
Хүний рубрикийн онооны самбар Шүүмжлэгчдийг чөлөөлж чадах багууд $$ Өнгө аяс, нарийн мэдрэмж, "хүн үүнийг хүлээн зөвшөөрөх үү" гэх мэт хамгийн сайн сонголт, шүүмжлэгчдээс хамааран бага зэрэг эмх замбараагүй байдал
Шүүгчээр ажиллах бакалаврын зэрэгтэй (шалгуур үзүүлэлттэй) Хурдан давталтын давталтууд $-$$ Хурдан бөгөөд өргөтгөх боломжтой боловч хэвийсэн байдлыг өвлөж авч, заримдаа баримт биш чичиргээг үнэлдэг (судалгаа + мэдэгдэж буй хэвийсэн байдлын асуудлууд: G-Eval )
Өрсөлдөгч улаан багийн спринт Аюулгүй байдал + нийцэл $$ Ялангуяа яаралтай тарилга хийх үед халуун ногоотой бүтэлгүйтлийн горимуудыг олдог - биеийн тамирын зааланд стрессийн тест шиг санагддаг (аюулын тойм: OWASP LLM01 яаралтай тарилга / LLM аппликейшнуудад зориулсан OWASP шилдэг 10 )
Синтетик туршилтын үе Өгөгдөл багатай багууд $ Хамрах хүрээ маш сайн боловч синтетик зааварчилгаа хэтэрхий цэвэрхэн, хэтэрхий эелдэг байж болно... хэрэглэгчид эелдэг биш байна
Бодит хэрэглэгчидтэй A/B тест хийх Насанд хүрэгчдийн бүтээгдэхүүн $$$ Хамгийн тодорхой дохио - мөн хэмжигдэхүүнүүд өөрчлөгдөх үед сэтгэл санааны хувьд хамгийн стресстэй байдаг (сонгодог практик гарын авлага: Кохави нар, “Вэб дээрх хяналттай туршилтууд” )
Сэргээн засварлахад суурилсан үнэлгээ (RAG шалгалт) Хайлт + Чанарын баталгааны аппликейшнууд $$ Хэмжилт нь "хамрыг зөв ашигладаг", хий үзэгдлийн онооны инфляцийг бууруулдаг (RAG үнэлгээний тойм: RAG-ийн үнэлгээ: Судалгаа )
Хяналт + шилжилтийн илрүүлэлт Үйлдвэрлэлийн системүүд $$-$$$ Цаг хугацаа өнгөрөх тусам доройтлыг барьдаг - таныг аврах өдөр хүртэл гайхалтай биш 😬 (дрифтийн тойм: Концепцийн дрифт судалгаа (PMC) )

Үнэ нь санаатайгаар хэт хямд байгааг анхаарна уу. Энэ нь цар хүрээ, багаж хэрэгсэл, санамсаргүйгээр хэдэн уулзалт зохион байгуулснаас хамаарна.


7) Хүний үнэлгээ - хүмүүсийн дутуу санхүүжүүлдэг нууц зэвсэг 👀🧑⚖️

Хэрэв та зөвхөн автомат үнэлгээ хийвэл дараах зүйлсийг алдах болно:

  • Өнгөний зөрүү ("яагаад ийм ёжтой байгаа юм бэ")

  • Хялбархан харагдах нарийн баримтын алдаанууд

  • Хор хөнөөлтэй үр дагавар, хэвшмэл ойлголт, эсвэл эвгүй хэллэг (эрсдэл + нэг талыг барьсан байдал: NIST AI RMF 1.0 )

  • Зааврыг дагаж мөрдөхөд "ухаалаг" сонсогдож байгаа алдаанууд

Рубрикийг тодорхой болго (эсвэл шүүмжлэгчид чөлөөт хэв маягаар ажиллана)

Муу ангилал: “Тустай байдал”
Илүү сайн ангилал:

  • Зөв байдал : нөхцөл байдал болон нөхцөл байдлыг харгалзан үзвэл бодит үнэн зөв

  • Бүрэн байдал : шаардлагатай цэгүүдийг холхихгүйгээр хамарна

  • Тодорхой байдал : уншигдахуйц, бүтэцлэгдсэн, төөрөгдөл хамгийн бага

  • Бодлого / аюулгүй байдал : хязгаарлагдмал контентоос зайлсхийж, татгалзлыг сайн зохицуулдаг (аюулгүй байдлын хүрээ: NIST AI RMF 1.0 )

  • Хэв маяг : дуу хоолой, өнгө аяс, унших түвшинтэй тохирч байна

  • Үнэнч байдал : дэмжигдээгүй эх сурвалж эсвэл нэхэмжлэлийг зохиодоггүй

Мөн заримдаа үнэлгээний хоорондын шалгалт хийдэг. Хэрэв хоёр шүүмжлэгч байнга санал зөрөлддөг бол энэ нь "хүмүүсийн асуудал" биш, харин шалгуур үзүүлэлтийн асуудал юм. Ихэвчлэн (үнэлгээний хоорондын найдвартай байдлын үндэс: МакХью Коэний каппагийн талаар ).


8) Хиймэл оюун ухааны загваруудыг аюулгүй байдал, бат бөх байдал, "өө, хэрэглэгчид" гэж хэрхэн үнэлэх вэ 🧯🧪

Энэ бол таны эхлүүлэхээсээ өмнө хийдэг хэсэг бөгөөд дараа нь үргэлжлүүлэн хийдэг хэсэг юм, учир нь интернет хэзээ ч унтдаггүй.

Бат бөх чанарын туршилтуудыг багтаана

  • Үг үсгийн алдаа, хэлц үг, дүрэм зөрчсөн

  • Маш урт сануулга болон маш богино сануулга

  • Зөрчилтэй зааварчилгаа ("товчхон байх боловч бүх нарийн ширийн зүйлийг багтаасан")

  • Хэрэглэгчид зорилгоо өөрчилдөг олон ээлжит харилцан яриа

  • Шуурхай тарилга хийх оролдлогууд (“өмнөх дүрмийг үл тоомсорлох…”) (заналхийллийн дэлгэрэнгүй мэдээлэл: OWASP LLM01 Шуурхай тарилга )

  • Болгоомжтой татгалзах шаардлагатай эмзэг сэдвүүд (эрсдэл/аюулгүй байдлын хүрээ: NIST AI RMF 1.0 )

Аюулгүй байдлын үнэлгээ нь зүгээр л "татгалзах уу" гэсэн үг биш юм

Сайн загвар нь дараахь зүйлийг хийх ёстой

  • Аюултай хүсэлтүүдийг тодорхой бөгөөд тайван байдлаар татгалз (удирдамж: NIST AI RMF 1.0 )

  • Шаардлагатай үед илүү аюулгүй хувилбаруудыг санал болго

  • Хор хөнөөлгүй асуултуудаас (худал эерэг) хэт татгалзахаас зайлсхий

  • Тодорхой бус хүсэлтийг тодруулах асуултаар шийдвэрлэх (зөвшөөрөгдсөн үед)

Хэт их татгалзах нь бүтээгдэхүүний жинхэнэ асуудал юм. Хэрэглэгчид сэжигтэй гоблин шиг харьцахыг хүсдэггүй. 🧌 (Хэдийгээр тэд сэжигтэй гоблин байсан ч гэсэн.)


9) Зардал, хоцрогдол, үйл ажиллагааны бодит байдал - хүн бүрийн мартдаг үнэлгээ 💸⏱️

Загвар нь удаан, үнэтэй эсвэл үйл ажиллагааны хувьд эмзэг байсан ч "гайхалтай" байж болох ч танд буруу байж болно.

Үнэлэх:

  • Саатлын тархалт (зөвхөн дундаж биш - p95 ба p99 чухал) (яагаад хувь чухал вэ: Хяналтын Google SRE ажлын ном )

  • Амжилттай даалгавар тус бүрийн өртөг (тусдаа нэг токен тус бүрийн өртөг биш)

  • Ачааллын доорх тогтвортой байдал (хугацаа дуусах, хурдны хязгаар, хэвийн бус огцом өсөлт)

  • Найдвартай байдлыг дууддаг хэрэгсэл (хэрэв функц ашигладаг бол ажиллах уу)

  • Гаралтын уртын хандлага (зарим загварууд нь хэлбэлздэг бөгөөд хэлбэлзэл нь мөнгө шаарддаг)

Арай муу, хоёр дахин хурдан загвар нь практик дээр ялж чадна. Энэ нь илэрхий сонсогдож байгаа ч хүмүүс үүнийг үл тоомсорлодог. Хүнсний дэлгүүрт явахаар спорт машин худалдаж аваад ачааны тээшний зайны талаар гомдоллохтой адил.


10) Хуулж (мөн өөрчилж) болох энгийн, бүрэн бүтэн ажлын урсгал 🔁✅

Төгсгөлгүй туршилтуудад баригдахгүйн тулд хиймэл оюун ухааны загваруудыг хэрхэн үнэлэх талаарх практик заавар энд байна

  1. Амжилтыг тодорхойлох : даалгавар, хязгаарлалт, бүтэлгүйтлийн зардал

  2. Бодит хэрэглээг тусгасан 50-200 жишээ бүхий жижиг "гол" туршилтын багц үүсгэ

  3. Ирмэг ба сөргөлдөөний багцуудыг нэмэх : тарилгын оролдлого, тодорхойгүй сануулга, аюулгүй байдлын датчик (шууд тарилгын ангилал: OWASP LLM01 )

  4. Автомат шалгалтуудыг ажиллуулна уу : форматлах, JSON хүчинтэй байх, боломжтой бол үндсэн зөв байдал

  5. Хүнээр хянаж үзэх : ангиллуудын дагуу түүврийн гаралтыг шалгах, шалгуур үзүүлэлтээр оноо авах

  6. Чанар ба өртөг, хоцрогдол ба аюулгүй байдал гэсэн хоёр давуу талыг харьцуулна уу

  7. Хязгаарлагдмал хувилбарт туршилт : A/B туршилт эсвэл үе шаттайгаар нэвтрүүлэх (A/B туршилтын гарын авлага: Кохави нар. )

  8. Үйлдвэрлэл дэх хяналт : шилжилт, регресс, хэрэглэгчийн санал хүсэлтийн гогцоо (шилжилтийн тойм: Концепцийн шилжилтийн судалгаа (PMC) )

  9. Давталт : шинэчлэх хүсэлт, сэргээх, нарийн тохируулах, хашлага, дараа нь eval-г дахин ажиллуулах (үнэлгээний давталтын загварууд: OpenAI evals гарын авлага )

Хувилбартай бүртгэлийг хөтлөөрэй. Хөгжилтэй учраас биш, харин ирээдүйд - та кофе бариад "юу өөрчлөгдсөн бэ ..." гэж бувтнах зуураа танд талархах болно ☕🙂


11) Нийтлэг алдаанууд (өөрөөр хэлбэл хүмүүс санамсаргүйгээр өөрсдийгөө хуурдаг аргууд) 🪤

  • Туршилтад бэлтгэх : та жишиг үзүүлэлт гайхалтай харагдах хүртэл заавруудыг оновчтой болгодог боловч хэрэглэгчид хохирдог

  • Алдагдалтай үнэлгээний өгөгдөл : туршилтын заавар нь сургалт эсвэл нарийн тохируулгын өгөгдөлд гарч ирдэг (уфф)

  • Ганц метрикийн шүтлэг : хэрэглэгчийн үнэ цэнийг тусгаагүй нэг оноог хөөцөлдөх

  • Тархалтын шилжилтийг үл тоомсорлох : хэрэглэгчийн зан төлөв өөрчлөгдөж, таны загвар чимээгүйхэн доройтдог (үйлдвэрлэлийн эрсдэлийн хүрээ: Концепцийн шилжилтийн судалгаа (PMC) )

  • "Ухаалаг байдал"-ыг хэт их индексжүүлэх : ухаалаг эргэцүүлэл нь форматыг эвдэх эсвэл баримт зохиохоос үл хамааран хамаагүй.

  • Татгалзах чанарыг шалгахгүй байна : "Үгүй" зөв байж болох ч UX нь аймшигтай хэвээр байна

Мөн демо бичлэгүүдээс болгоомжил. Демо бичлэгүүд нь киноны трейлер шиг юм. Тэд онцлох үйл явдлуудыг харуулж, удаан хэсгүүдийг нууж, заримдаа драмын хөгжимтэй хамт байдаг. 🎬


12) Хиймэл оюун ухааны загваруудыг хэрхэн үнэлэх тухай хаалтын хураангуй 🧠✨

Хиймэл оюун ухааны загваруудыг үнэлэх нь ганц оноо биш, харин тэнцвэртэй хооллолт юм. Танд уураг (зөв байдал), хүнсний ногоо (аюулгүй байдал), нүүрс ус (хурд ба өртөг), тийм ээ, заримдаа амттан (өнгө ба амттан) хэрэгтэй 🍲🍰 (эрсдэлийн хүрээ: NIST AI RMF 1.0 )

Хэрэв та өөр юу ч санахгүй байгаа бол:

  • Хэрэглээний тохиолдолд "сайн" гэдэг нь юу гэсэн үг болохыг тодорхойл

  • Зөвхөн алдартай жишиг үзүүлэлтүүдийг бус, төлөөлөх тестийн багцуудыг ашиглаарай

  • Автоматжуулсан хэмжигдэхүүнийг хүний ​​рубрикийн тоймтой хослуулах

  • Туршилтын бат бөх чанар болон аюулгүй байдал нь хэрэглэгчидтэй адил сөрөг байдаг (учир нь заримдаа ... тэд сөргөлдөөнтэй байдаг) (шууд тарилгын ангилал: OWASP LLM01 )

  • Үнэлгээнд өртөг болон хоцрогдолыг дараа нь бодож үзэхгүйгээр оруулна уу (яагаад хувь чухал вэ: Google SRE Workbook )

  • Хөөргөсний дараах хяналт - загварууд хөдөлж, аппликейшнууд хөгжиж, хүмүүс бүтээлч болдог (хөрөнгө оруулалтын тойм: Концепцийн хөдөлгөөний судалгаа (PMC) )

Бүтээгдэхүүн чинь гарч ирэхэд хүмүүс урьдчилан таамаглах аргагүй зүйл хийж эхлэхэд ч мөн адил ингэж үнэлэх хэрэгтэй

Түгээмэл асуултууд

Бодит бүтээгдэхүүний хувьд хиймэл оюун ухааны загваруудыг үнэлэх эхний алхам юу вэ?

Өөрийн хэрэглээний тодорхой тохиолдолд "сайн" гэдэг нь юу гэсэн үг болохыг тодорхойлж эхэл. Хэрэглэгчийн зорилго, ямар алдаа танд учирч болох (бага эрсдэлтэй эсвэл өндөр эрсдэлтэй), загвар хаана ажиллахыг (үүл, төхөөрөмж дээрх, зохицуулалттай орчин) тодорхойл. Дараа нь хоцрогдол, зардал, нууцлал, өнгө аясыг хянах зэрэг хатуу хязгаарлалтуудыг жагсаан бич. Энэ суурьгүйгээр та маш их зүйлийг хэмжиж байгаа ч гэсэн буруу шийдвэр гаргах болно.

Хэрэглэгчдээ үнэхээр тусгасан тестийн багцыг хэрхэн бүтээх вэ?

Зөвхөн олон нийтийн жишиг биш, харин жинхэнэ өөрийн гэсэн тестийн багц бүтээгээрэй. Бахархалтайгаар илгээх алтан жишээнүүд, мөн алдаатай, хагас өгүүлбэртэй, тодорхойгүй хүсэлт бүхий чимээ шуугиантай, зэрлэг асуултуудыг оруулаарай. Хий үзэгдэл эсвэл аюултай хариултыг өдөөдөг захын тохиолдлууд болон алдааны горимын шалгалтуудыг нэмээрэй. Үр дүн нь үйлдвэрлэлд нурахгүйн тулд ур чадварын түвшин, аялга, хэл, салбарын олон янз байдлыг хамарна.

Аль хэмжүүрийг ашиглах ёстой вэ, аль нь төөрөгдүүлж болох вэ?

Даалгаврын төрөлтэй хэмжигдэхүүнийг тохируулна уу. Яг тохирсон байдал болон нарийвчлал нь задлах болон бүтэцлэгдсэн гаралтад сайн ажилладаг бол нарийвчлал/санах ой болон F1 нь ямар нэгэн зүйлийг дутуу орхигдуулсан үед нэмэлт шуугианаас ч дор тусалдаг. BLEU/ROUGE гэх мэт давхцсан хэмжигдэхүүнүүд нь нээлттэй даалгавруудад төөрөгдүүлж болзошгүй бөгөөд ижил төстэй байдлыг оруулах нь "буруу боловч төстэй" хариултыг шагнаж болно. Бичих, дэмжих эсвэл үндэслэл гаргахын тулд хэмжигдэхүүнийг хүний ​​хяналт болон даалгаврын амжилтын түвшинтэй хослуул.

Үнэлгээг давтагдах боломжтой, үйлдвэрлэлийн түвшинд нийцүүлэхийн тулд би хэрхэн бүтэцжүүлэх ёстой вэ?

Бат бөх үнэлгээний хүрээ нь давтагдах боломжтой, төлөөлөх чадвартай, олон давхаргат, үйл ажиллагаа явуулах боломжтой. Автомат шалгалтыг (формат, JSON хүчинтэй байдал, үндсэн зөв байдал) хүний ​​рубрикийн оноо болон өрсөлдөөнт тестүүдтэй хослуул. Алдагдал болон "туршилтад заах"-аас зайлсхийж, өөрчлөлтөөс хамгаалаарай. Үнэлгээний зардлыг анхаарч үзээрэй, ингэснээр та үүнийг эхлүүлэхийн өмнө нэг удаа биш, харин байнга дахин хийж болно.

Эмх замбараагүй байдал үүсгэхгүйгээр хүний ​​үнэлгээг хийх хамгийн сайн арга юу вэ?

Шүүмжлэгчид чөлөөтэй ажиллахгүйн тулд тодорхой шалгуур ашиглаарай. Зөв байдал, бүрэн байдал, тодорхой байдал, аюулгүй байдал/бодлогын зохицуулалт, хэв маяг/дуу хоолойн тохирол, үнэнч байдал (нэхэмжлэл эсвэл эх сурвалжийг зохиохгүйгээр) зэрэг шинж чанаруудыг үнэлнэ үү. Үнэлгээчид хоорондын тохиролцоог үе үе шалгаж байгаарай; хэрэв шүүмжлэгчид байнга санал зөрөлдөж байвал шалгуурыг сайжруулах шаардлагатай байж магадгүй юм. Хүний хяналт нь өнгө аясын зөрүү, баримтын нарийн алдаа, зааврыг дагаж мөрдөхгүй байх зэрэгт онцгой ач холбогдолтой.

Аюулгүй байдал, бат бөх чанар, шуурхай шахах эрсдэлийг хэрхэн үнэлэх вэ?

"Өө, хэрэглэгчид" гэсэн оролтоор турших: үсгийн алдаа, хэлц үг, зөрчилтэй зааварчилгаа, маш урт эсвэл маш богино сануулга, олон эргэлттэй зорилгын өөрчлөлт. "Өмнөх дүрмийг үл тоомсорлох" гэх мэт сануулга оруулах оролдлогууд болон болгоомжтой татгалзах шаардлагатай эмзэг сэдвүүдийг оруулна уу. Аюулгүй байдлын сайн гүйцэтгэл гэдэг нь зөвхөн татгалзахаас гадна тодорхой татгалзах, тохиромжтой үед илүү аюулгүй хувилбаруудыг санал болгох, хэрэглэгчийн үнэлгээнд хор хөнөөл учруулдаг хор хөнөөлгүй асуултуудыг хэт татгалзахаас зайлсхийх явдал юм.

Бодит байдалтай нийцүүлэн өртөг болон хоцрогдолыг хэрхэн үнэлэх вэ?

Зөвхөн дундажийг хэмжих хэрэггүй - хоцрогдлын тархалтыг, ялангуяа p95 болон p99-ийг хяна. Дахин оролдох болон олон янзын гаралт нь хэмнэлтийг арилгаж болзошгүй тул тусад нь токен тус бүрийн өртгийг биш, амжилттай даалгавар тус бүрийн өртгийг үнэл. Ачааллын үед тогтвортой байдлыг (хугацаа дуусах, хурдны хязгаар, огцом өсөлт) болон хэрэгсэл/функц дуудлагын найдвартай байдлыг шалга. Хоёр дахин хурдан эсвэл илүү тогтвортой, арай муу загвар нь илүү сайн бүтээгдэхүүний сонголт байж болно.

Хиймэл оюун ухааны загваруудыг хэрхэн үнэлэх энгийн, цогц ажлын урсгал гэж юу вэ?

Амжилтын шалгуур болон хязгаарлалтыг тодорхойлж, дараа нь бодит хэрэглээг тусгасан жижиг гол туршилтын багц (ойролцоогоор 50-200 жишээ) үүсгэнэ үү. Аюулгүй байдал болон тарилгын оролдлогын хувьд давуу болон сөрөг багцуудыг нэмнэ үү. Автомат шалгалтуудыг ажиллуулж, дараа нь хүний ​​рубрикийн онооны гаралтын дээжийг гаргана уу. Чанар болон өртөг болон хоцрогдол болон аюулгүй байдлыг харьцуулж, хязгаарлагдмал нэвтрүүлэлт эсвэл A/B туршилтаар туршилт хийж, үйлдвэрлэлд шилжилт болон регрессийг хянана уу.

Загварын үнэлгээнд багууд санамсаргүйгээр өөрсдийгөө хуурдаг хамгийн түгээмэл аргууд юу вэ?

Нийтлэг урхинд хэрэглэгчид зовж байх үед жишиг үзүүлэлтийг давахын тулд өдөөлтийг оновчтой болгох, үнэлгээний өдөөлтийг сургалтад оруулах эсвэл өгөгдлийг нарийн тохируулах, хэрэглэгчийн үнэ цэнийг тусгаагүй ганц хэмжүүрийг шүтэх зэрэг орно. Багууд мөн тархалтын өөрчлөлтийг үл тоомсорлож, форматын нийцэл, үнэнч байдлын оронд "ухаалаг байдал"-ыг хэт их индексжүүлж, татгалзлын чанарын шалгалтыг алгасдаг. Демо хувилбарууд эдгээр асуудлыг нууж чаддаг тул онцлох хүрд биш харин бүтэцлэгдсэн үнэлгээнд найддаг.

Лавлагаа

  1. OpenAI - OpenAI үнэлгээний гарын авлага - platform.openai.com

  2. Үндэсний Стандарт, Технологийн Хүрээлэн (NIST) - Хиймэл Оюун Ухааны Эрсдэлийн Удирдлагын Хүрээлэн (Хиймэл Оюун Ухааны RMF 1.0) - nist.gov

  3. OpenAI - openai/evals (GitHub репозитор) - github.com

  4. scikit-learn - precision_recall_fscore_support - scikit-learn.org

  5. Тооцооллын Хэл шинжлэлийн Холбоо (ACL Антологи) - BLEU - aclanthology.org

  6. Тооцооллын Хэл шинжлэлийн Холбоо (ACL Тэмдэглэл) - ROUGE - aclanthology.org

  7. arXiv - G-Eval - arxiv.org

  8. OWASP - LLM01: Шуурхай тарилга - owasp.org

  9. OWASP - Том хэлний загварын хэрэглээний OWASP-ийн шилдэг 10 - owasp.org

  10. Стэнфордын Их Сургууль - Кохави нар, “Вэб дээрх хяналттай туршилтууд” - stanford.edu

  11. arXiv - RAG-ийн үнэлгээ: Судалгаа - arxiv.org

  12. PubMed Central (PMC) - Концепцийн шилжилтийн судалгаа (PMC) - nih.gov

  13. PubMed Central (PMC) - МакХью Коэний каппагийн талаар - nih.gov

  14. Google - Хяналтын талаарх SRE ажлын дэвтэр - google.workbook

Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах