Хиймэл оюун ухаан нь аномалийг хэрхэн илрүүлдэг вэ?

Аномали илрүүлэлт бол өгөгдлийн үйл ажиллагааны чимээгүй баатар бөгөөд аливаа зүйл галд автахаас өмнө шивнэдэг утааны дохиолол юм.

Энгийнээр хэлбэл: Хиймэл оюун ухаан нь "хэвийн" гэж юу болохыг сурч, шинэ үйл явдлуудад аномалийн оноо өгч, дараа нь босго дээр үндэслэн хүнийг хуудаслах (эсвэл тухайн зүйлийг автоматаар хаах) эсэхийг шийддэг . Таны өгөгдөл улирлын чанартай, замбараагүй, хэлбэлзэлтэй, хааяа танд худал хэлж байх үед "хэвийн" гэж юу болохыг тодорхойлох нь чөтгөр юм. [1]

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 Хиймэл оюун ухаан нийгэмд яагаад хор хөнөөл учруулж болох вэ?
Хиймэл оюун ухааныг өргөнөөр нэвтрүүлэх ёс зүй, эдийн засаг, нийгмийн эрсдэлийг судалдаг.

🔗 Хиймэл оюун ухааны системүүд хэр их ус ашигладаг вэ?
Өгөгдлийн төвийн хөргөлт, сургалтын шаардлага, хүрээлэн буй орчны усны нөлөөллийг тайлбарладаг.

🔗 Хиймэл оюун ухааны өгөгдлийн багц гэж юу вэ, яагаад чухал вэ?
Өгөгдлийн багц, шошгололт, эх сурвалж болон тэдгээрийн загварын гүйцэтгэлд гүйцэтгэх үүргийг тодорхойлдог.

🔗 Цогц өгөгдлөөс хиймэл оюун ухаан хэрхэн чиг хандлагыг урьдчилан таамагладаг вэ?
Хэв маяг таних, машин сургалтын загварууд болон бодит ертөнцийн урьдчилсан мэдээний хэрэглээг хамардаг.

"Хиймэл оюун ухаан аномалийг хэрхэн илрүүлдэг вэ?"

Сайн хариулт нь алгоритмуудыг жагсаахаас илүү ихийг хийх ёстой. Энэ нь механизм болон тэдгээрийг бодит, төгс бус өгөгдөлд хэрэглэхэд хэрхэн харагдахыг тайлбарлах ёстой. Хамгийн сайн тайлбарууд:

Үндсэн орцуудыг харуул: онцлог шинж чанарууд, суурь үзүүлэлтүүд, оноо, босго үзүүлэлтүүд. [1]
Практик гэр бүлүүдийг харьцуулах: зай, нягтрал, нэг анги, тусгаарлалт, магадлал, сэргээн босголт. [1]
Цагийн цувааны хачин жигтэй байдлыг зохицуулах: "хэвийн" гэдэг нь өдрийн цаг, долоо хоногийн өдөр, хувилбарууд болон баярын өдрүүдээс хамаарна. [1]
Үнэлгээг жинхэнэ хязгаарлалт мэтээр авч үз: хуурамч дохиолол нь зүгээр л ядаргаатай биш - тэд итгэлийг шатаадаг. [4]
"Хачин юм" гэдэг нь үндсэн шалтгаан биш тул тайлбарлах чадвар + хүний давталт зэргийг оруулна уу. [5]

Гол механикууд: Суурь үзүүлэлтүүд, оноо, босго 🧠

Ихэнх аномалийн системүүд - сонирхолтой эсэхээс үл хамааран - гурван хөдөлгөөнт хэсэгт хуваагддаг:

1) Дүрслэл (өөрөөр хэлбэл загвар юу харж байна вэ)

Түүхий дохионууд ховор тохиолдолд хангалттай байдаг. Та функцуудыг (өнхрөх статистик, харьцаа, хоцрогдол, улирлын дельта) зохион бүтээх эсвэл дүрслэлийг (оруулга, дэд орон зай, сэргээн босголт) сурах боломжтой. [1]

2) Оноо авах (өөрөөр хэлбэл энэ ямар "хачин" юм бэ?)

Нийтлэг онооны санаанууд нь дараахь зүйлийг агуулдаг

Зайнд суурилсан: хөршүүдээс хол = сэжигтэй. [1]
Нягтрал дээр суурилсан: орон нутгийн нягтрал бага = сэжигтэй (LOF нь дараах хүүхэд юм). [1]
Нэг ангиллын хил хязгаар: "хэвийн" зүйлийг сурч, гаднаас юу гарч байгааг тэмдэглэ. [1]
Магадлал: тохирсон загварын дор магадлал бага = сэжигтэй. [1]
Сэргээн босголтын алдаа: хэрэв хэвийн горимд сургагдсан загвар үүнийг дахин бүтээж чадахгүй бол энэ нь магадгүй идэвхгүй болсон байх. [1]

3) Босго (өөрөөр хэлбэл: хэзээ хонх дуугарах вэ)

Босго нь тогтмол, тоон үзүүлэлтэд суурилсан, сегмент тус бүрт эсвэл өртөгт мэдрэмтгий байж болох ч тэдгээрийг хэлбэлзэл биш харин анхааруулах төсөв болон дараагийн зардалтай харьцуулан тохируулах хэрэгтэй. [4]

Маш практик нэг нарийн ширийн зүйл: scikit-learn-ийн гадуурх/шинэлэг чанарыг илрүүлэгч нь түүхий оноог , дараа нь босгыг (ихэвчлэн бохирдлын хэв маягийн таамаглалаар хянагддаг) ашиглан оноог гадуурх/гадуурх шийдвэр болгон хувиргадаг. [2]

Хожим нь өвдөхөөс урьдчилан сэргийлэх хурдан тодорхойлолтууд 🧯

Таныг нарийн алдаанаас аврах хоёр ялгаа:

Гадны утгыг илрүүлэх: таны сургалтын өгөгдөлд аль хэдийн гадны утгыг оруулсан байж магадгүй; алгоритм нь ямар ч байсан "нягт хэвийн муж"-ыг загварчлахыг оролддог.
Шинэлэг зүйлийг илрүүлэх: сургалтын өгөгдлийг цэвэр гэж үзнэ; та шинэ ажиглалтууд сурсан хэвийн хэв маягтай тохирч байгаа эсэхийг шүүж байна. [2]

Мөн: шинэлэг зүйлийг илрүүлэх нь ихэвчлэн нэг ангиллын ангилал - хэвийн бус жишээнүүд ховор эсвэл тодорхойгүй байдаг тул хэвийн загварчлал хийх. [1]

Таны үнэхээр ашиглах хараа хяналтгүй ажлын морьд 🧰

Шошго ховор үед (үндсэндээ үргэлж байдаг) эдгээр нь бодит дамжуулах хоолойд гарч ирдэг хэрэгслүүд юм:

Тусгаарлах ой: олон хүснэгтийн тохиолдлуудад хүчтэй анхдагч бөгөөд практикт өргөн хэрэглэгддэг бөгөөд scikit-learn-д хэрэгждэг. [2]
Нэг ангиллын SVM: үр дүнтэй байж болох ч тохируулга болон таамаглалд мэдрэмтгий байдаг; scikit-learn нь гиперпараметрийн тохируулгыг болгоомжтой хийх шаардлагатайг тодорхой онцолж байна. [2]
Орон нутгийн гаднах хүчин зүйл (LOF): сонгодог нягтралд суурилсан оноо; "хэвийн" нь цэвэрхэн толбо биш үед маш сайн. [1]

Практик олж авсан багууд долоо хоног бүр дахин нээж илрүүлдэг: LOF нь та сургалтын багц дээр гажуудлыг илрүүлж байгаа эсэхээс болон шинэ өгөгдөл дээрх шинэлэг зүйлийг илрүүлж байгаагаас хамааран өөр өөрөөр ажилладаг - scikit-learn нь novelty=True . [2]

Өгөгдөл буруу байсан ч ажиллах бат бөх суурь мэдээлэл 🪓

Хэрэв та "бидэнд мартагдашгүй зүйл хэрэгтэй" гэсэн горимд байгаа бол найдвартай статистикийг дутуу үнэлдэг.

Өөрчлөгдсөн z-оноо нь хэт туйлшралын утгуудад мэдрэг чанарыг бууруулахын тулд медиан болон MAD (медиан абсолют хазайлт)-ыг ашигладаг . NIST-ийн EDA гарын авлагад өөрчилсөн z-онооны хэлбэрийг баримтжуулж, 3.5- аас дээш абсолют утгад түгээмэл хэрэглэгддэг "болзошгүй гадуурхалт" дүрмийг тэмдэглэсэн болно . [3]

Энэ нь бүх гажигийн асуудлыг шийдэхгүй - гэхдээ энэ нь ихэвчлэн хүчтэй хамгаалалтын эхний шугам болдог, ялангуяа чимээ шуугиантай хэмжүүр болон эрт үе шатны хяналт шинжилгээний хувьд. [3]

Цаг хугацааны цуваа Бодит байдал: "Хэвийн" нь хэзээнээс хамаарна ⏱️📈

Цагийн цувааны гажиг нь нөхцөл байдал нь гол санаа учраас төвөгтэй байдаг: үд дунд огцом өсөлт гарах төлөвтэй байж болно; өглөөний 3 цагт мөн адил өсөлт нь ямар нэгэн зүйл шатаж байгааг илтгэж болно. Тиймээс олон практик системүүд цаг хугацааны мэдрэмжтэй шинж чанаруудыг (хоцрогдол, улирлын дельта, өнхрөх цонх) ашиглан хэвийн байдлыг загварчилж, хүлээгдэж буй хэв маягтай харьцуулахад хазайлтыг оноодог. [1]

Хэрэв та зөвхөн нэг дүрмийг санаж байгаа бол: урсгалынхаа талыг "ер бусын" гэж зарлахаасаа өмнө суурь утгыг (цаг/өдөр/бүс/үйлчилгээний түвшин) сегментчил . [1]

Үнэлгээ: Ховор үйл явдлын урхи 🧪

Аномали илрүүлэх нь ихэвчлэн "өвсөнд зүү шиг" байдаг бөгөөд энэ нь үнэлгээг хачин болгодог:

Эерэг үр дүн ховор үед ROC муруйнууд хуурамчаар нарийн харагдаж болно.
Нарийвчлалтай санах үзэлтүүд нь тэнцвэргүй тохиргооны хувьд илүү мэдээлэл сайтай байдаг, учир нь тэдгээр нь эерэг ангиллын гүйцэтгэлд төвлөрдөг. [4]
Үйл ажиллагааны хувьд танд сэрэмжлүүлгийн төсөв: хүмүүс уур хилэнгээ зогсоохгүйгээр цагт хэдэн сэрэмжлүүлгийг ангилж чадах вэ? [4]

Эргэлдэж буй цонхнууд дээр буцаан турших нь танд сонгодог бүтэлгүйтлийн горимыг барихад тусалдаг: "энэ нь өнгөрсөн сарын тархалт дээр гайхалтай ажилладаг." [1]

Тайлбарлах чадвар ба үндсэн шалтгаан: Ажлаа харуул 🪄

Тайлбаргүйгээр сэрэмжлүүлэх нь нууцлаг ил захидал авахтай адил юм. Хэрэгтэй ч гэсэн бухимдмаар.

Тайлбарлах хэрэгслүүд нь аномалийн оноонд хамгийн их нөлөө үзүүлсэн шинж чанаруудыг зааж өгөх эсвэл "үүнийг хэвийн харагдуулахын тулд юуг өөрчлөх шаардлагатай вэ?" гэсэн хэв маягийн тайлбар өгөх замаар тусалж чадна . Тайлбарлах боломжтой машин сургалтын ном нь нийтлэг аргууд (SHAP хэв маягийн хамаарлыг оруулаад) болон тэдгээрийн хязгаарлалтын талаарх бат бөх, чухал гарын авлага юм. [5]

Зорилго нь зөвхөн оролцогч талуудын тав тухыг хангах биш - энэ нь илүү хурдан ангилах, давтагдах тохиолдлыг багасгах явдал юм.

Байршуулалт, Дрифт болон Санал хүсэлтийн давталтууд 🚀

Моделууд гулсуурт амьдардаггүй. Тэд хоолойд амьдардаг.

"Үйлдвэрлэлийн эхний сар" гэсэн нийтлэг түүх: илрүүлэгч нь ихэвчлэн байршуулалт, багц ажлууд болон дутуу өгөгдлийг тэмдэглэдэг... энэ нь таныг "өгөгдлийн чанарын ослууд"-ыг "бизнесийн гажиг"-аас ялгахад хүргэдэг тул одоо ч ашигтай хэвээр байна

Практикт:

Зан төлөв өөрчлөгдөхөд хөдөлгөөний өөрчлөлтийг хянаж , дахин сургах/дахин тохируулах. [1]
Лог онооны оролт + загварын хувилбар , ингэснээр та ямар нэгэн зүйлийг яагаад хуудасласан болохыг хуулбарлах боломжтой. [5]
Цаг хугацааны явцад босго болон сегментүүдийг тохируулахын тулд хүний санал хүсэлтийг (ашигтай эсвэл чимээ шуугиантай сэрэмжлүүлэг) авах . [4]

Аюулгүй байдлын өнцөг: IDS болон зан үйлийн аналитик 🛡️

Аюулгүй байдлын багууд ихэвчлэн аномалийн санаануудыг дүрэмд суурилсан илрүүлэлттэй хослуулдаг: "хэвийн хостын зан төлөв"-ийн суурь үзүүлэлтүүд, мөн мэдэгдэж буй муу хэв маягийн гарын үсэг, бодлогууд. NIST-ийн SP 800-94 (Эцсийн) нь халдлага илрүүлэх, урьдчилан сэргийлэх системийн талаарх өргөн хэрэглэгддэг хүрээ хэвээр байна; мөн 2012 оны "Хувиргасан хувилбар 1" хэзээ ч эцсийн байдлаар батлагдаагүй бөгөөд хожим нь хэрэгсэхгүй болгосон гэж тэмдэглэсэн. [3]

Орчуулга: ML-г тустай газар ашиглаарай, гэхдээ уйтгартай дүрмийг бүү хая - тэдгээр нь үр дүнтэй учраас уйтгартай байдаг.

Харьцуулсан хүснэгт: Алдартай аргуудыг товчхон авч үзье 📊

Хэрэгсэл / Арга	Хамгийн сайн нь	Энэ нь яагаад ажилладаг вэ (практик дээр)
Бат бөх / өөрчлөгдсөн z-оноо	Энгийн хэмжүүр, хурдан суурь үзүүлэлтүүд	"Хангалттай сайн" байх шаардлагатай үед хүчтэй эхний дамжуулалт, хуурамч дохиолол бага байх. [3]
Тусгаарлагдсан ой	Хүснэгт, холимог онцлогууд	Бат бөх анхдагч хэрэгжилт бөгөөд практикт өргөн хэрэглэгддэг. [2]
Нэг ангиллын SVM	Авсаархан "хэвийн" бүсүүд	Хил хязгаарт суурилсан шинэлэг зүйлийг илрүүлэх; тохируулга нь маш чухал. [2]
Орон нутгийн гадуурх хүчин зүйл	Олон талт хэвийн	Нягтын ялгаа нь хөршүүдтэй харьцуулахад орон нутгийн хачин байдлыг харуулдаг. [1]
Сэргээн босголтын алдаа (жишээ нь, автоэнкодер маягийн)	Өндөр хэмжээст хээ	Хэвийн горимд сургах; их хэмжээний сэргээн босголтын алдаа нь хазайлтыг тэмдэглэж болно. [1]

Хуурамч код: бат бөх суурь шугам + уйтгартай хяналтгүй аргаар эхэлж, дараа нь зөвхөн түрээсийн төлбөр төлдөг хэсэгт нарийн төвөгтэй байдлыг нэмнэ.

Жижиг тоглоомын ном: Тэгээс сэрэмжлүүлэг хүртэл 🧭

“Хачин” гэдэг үгийг үйл ажиллагааны хувьд тодорхойлох (хоцрогдол, залилангийн эрсдэл, CPU-ийн хаягдал, бараа материалын эрсдэл).
Суурь үзүүлэлтээс эхэл (бат бөх статистик эсвэл сегментчилсэн босго). [3]
Эхний ээлжинд хараа хяналтгүй нэг загварыг сонгоно уу (Тусгаарлах ой / LOF / Нэг ангиллын SVM). [2]
Босгыг сэрэмжтэй төсөвтэйгөөр тогтоож, эерэг үр дүн ховор байгаа эсэхийг олон нийттэй харилцах хэв маягийн сэтгэлгээгээр үнэл. [4]
Тайлбар + бүртгэл нэмэхийн тулд анхааруулга бүрийг хуулбарлах болон алдааг засах боломжтой. [5]
Буцах шалгалт, дамжуулалт, суралцах, дахин тохируулах - хазайлт хэвийн үзэгдэл. [1]

Та үүнийг долоо хоногийн дотор хийж чадна... цагийн тэмдэг чинь наалдамхай тууз болон найдвараар бэхлэгдээгүй гэж үзвэл. 😅

Эцсийн тайлбар - Хэтэрхий урт байна, би уншаагүй байна🧾

Хиймэл оюун ухаан нь "хэвийн" гэсэн практик дүр зургийг сурч, хазайлтыг оноож, босгыг давж байгааг тэмдэглэснээр гажигийг илрүүлдэг. Хамгийн сайн системүүд нь гял цал болсноор биш, харин тохируулагдсанаар ялдаг :сегментчилсэн суурь шугам, сэрэмжлүүлгийн төсөв, тайлбарлах боломжтой гаралт, дуу чимээтэй дохиоллыг найдвартай дохио болгон хувиргадаг эргэх холбооны давталт. [1]

Лавлагаа

Пиментел нар (2014) - Шинэлэг зүйлийг илрүүлэх тойм (PDF, Оксфордын Их Сургууль) дэлгэрэнгүй унших
scikit-learn баримтжуулалт - Шинэлэг байдал ба гажуудлыг илрүүлэх дэлгэрэнгүй унших
NIST/SEMATECH цахим гарын авлага - Гадны утгыг илрүүлэх талаар дэлгэрэнгүй унших болон NIST CSRC - SP 800-94 (Эцсийн): Халдлага илрүүлэх, урьдчилан сэргийлэх системийн (IDPS) гарын авлага
Сайто ба Ремсмейер (2015) - Тэнцвэргүй өгөгдлийн багцууд дээрх хоёртын ангилагчийг үнэлэхэд нарийвчлалтай санах график нь ROC графикаас илүү мэдээлэл сайтай байдаг (PLOS ONE) дэлгэрэнгүй унших
Молнар - Тайлбарлах боломжтой машин сургалт (вэб ном) дэлгэрэнгүй унших

Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах