Хиймэл оюун ухаанд компьютерын хараа гэж юу вэ

Хиймэл оюун ухаанд компьютерын хараа гэж юу вэ?

Хэрэв та утсаа нүүрээрээ онгойлгож, баримт уншуулж эсвэл өөрийгөө шалгах камер руу ширтэж, авокадог тань шүүж байгаа эсэхийг гайхаж байсан бол та компьютерийн хараанаас татгалзсан гэсэн үг. Товчхондоо, хиймэл оюун ухаан дахь компьютерийн хараа харж , ойлгож тусалдаг . Хэрэгтэй юу? Мэдээж. Заримдаа гайхмаар зүйл үү? Бас тийм. Үнэнийг хэлэхэд заримдаа жаахан аймшигтай байдаг. Хамгийн сайндаа замбараагүй пикселийг практик үйлдэл болгон хувиргадаг. Хамгийн муудаа тааж, гуйвдаг. Зөв ухаж үзье.

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 Хиймэл оюун ухааны гажуудал гэж юу вэ?
Хиймэл оюун ухааны системд гажуудал хэрхэн үүсдэг, түүнийг илрүүлж, бууруулах аргууд.

🔗 Урьдчилан таамаглах хиймэл оюун ухаан гэж юу вэ?
Урьдчилан таамаглах хиймэл оюун ухаан нь чиг хандлага, үр дүнг урьдчилан таамаглахын тулд өгөгдлийг хэрхэн ашигладаг.

🔗 Хиймэл оюун ухааны сургагч гэж юу вэ?
Хиймэл оюун ухааныг сургадаг мэргэжилтнүүдийн ашигладаг үүрэг хариуцлага, ур чадвар, хэрэгслүүд.

🔗 Google Vertex хиймэл оюун ухаан гэж юу вэ?
Загвар бүтээх, байршуулах зориулалттай Google-ийн нэгдсэн хиймэл оюун ухааны платформын тойм.


Хиймэл оюун ухаанд компьютерын хараа гэж яг юу вэ? 📸

Хиймэл оюун ухаан дахь компьютерийн хараа нь компьютерт харааны өгөгдлийг тайлбарлах, эргэцүүлэн бодохыг заадаг хиймэл оюун ухааны салбар юм. Энэ нь түүхий пикселээс бүтэцлэгдсэн утга руу шилжих суваг юм: "энэ бол зогсох тэмдэг", "эдгээр нь явган зорчигчид", "гагнуурын гажигтай", "нэхэмжлэхийн нийт дүн энд байна." Энэ нь ангилал, илрүүлэлт, сегментчилэл, мөрдөх, гүний тооцоолол, OCR гэх мэт ажлуудыг хамардаг бөгөөд загвар сургалтын загваруудаар оёдог. Албан ёсны салбар нь сонгодог геометрээс орчин үеийн гүнзгий сургалт хүртэлх практик тоглоомын номуудыг хуулж, өөрчилж болно. [1]

Түргэн түүх: даруухан 720p камертай сав баглаа боодлын шугамыг төсөөлөөд үз дээ. Хөнгөн мэдрэгч нь тагийг илрүүлж, энгийн трекер нь тэдгээрийг дараалсан таван кадрын турш тохируулсан эсэхийг баталгаажуулж, дараа нь лонхыг ногоон гэрлээр асаадаг. Тансаг биш ч хямд, хурдан бөгөөд дахин боловсруулалтыг багасгадаг.


Хиймэл оюун ухаан дахь компьютерийн харааг юу ашигтай болгодог вэ? ✅

  • Үйлдэл рүү чиглэсэн дохионы урсгал : Харааны оролт нь үйлдэл хийх боломжтой гаралт болдог. Хянах самбар бага, шийдвэр илүү их байдаг.

  • Ерөнхий дүгнэлт : Зөв өгөгдөлтэй бол нэг загвар нь маш олон төрлийн зургийг боловсруулдаг. Төгс биш, заримдаа цочирдом сайн.

  • Өгөгдлийн хөшүүрэг : Камерууд хямд бөгөөд хаа сайгүй байдаг. Хараа нь пикселийн далайг ойлголт болгон хувиргадаг.

  • Хурд : Загварууд нь даалгавар болон нягтралаас хамааран хүрээг бодит цаг хугацаанд эсвэл бараг бодит цаг хугацаанд боловсруулж чаддаг.

  • Нийлмэл байдал : Энгийн алхмуудыг найдвартай системд холбоно уу: илрүүлэлт → мөрдөх → чанарын хяналт.

  • Экосистем : Хэрэгслүүд, урьдчилан бэлтгэгдсэн загварууд, жишиг үзүүлэлтүүд болон олон нийтийн дэмжлэг - кодын өргөн хүрээтэй зах зээл.

Үнэнийг хэлэхэд, нууц амтлагч бол нууц биш: сайн өгөгдөл, сахилга баттай үнэлгээ, болгоомжтой байршуулалт. Үлдсэн хэсэг нь дадлага... магадгүй кофе. ☕


Хиймэл оюун ухаан дахь компьютерын хараа хэрхэн ажилладаг вэ, нэг ухаалаг шугамаар 🧪

  1. Зураг авах
    Камер, сканнер, дрон, утас. Мэдрэгчийн төрөл, гэрэл, линз болон кадрын хурдыг анхааралтай сонгоно уу. Хог хаягдал гэх мэт.

  2. Урьдчилан боловсруулалт
    Шаардлагатай бол хэмжээг өөрчлөх, тайрах, хэвийн болгох, бүдгэрүүлэхгүй байх эсвэл дуу чимээг багасгах. Заримдаа бага зэрэг ялгаатай байдлыг өөрчлөх нь уулыг хөдөлгөдөг. [4]

  3. Шошго ба өгөгдлийн багц
    Хил хязгаарлах хайрцаг, олон өнцөгт, гол цэгүүд, текстийн хүрээ. Тэнцвэртэй, төлөөллийн шошго - эсвэл таны загвар нь нэг талыг барьсан зуршлуудыг сурдаг.

  4. Загварчлал

    • Ангилал : “Аль ангилал?”

    • Илрүүлэлт : "Объектууд хаана байна?"

    • Сегментчилэл : “Аль пикселүүд аль зүйлд хамаарах вэ?”

    • Гол санаа ба байрлал : “Үе мөч эсвэл тэмдэглэгээ хаана байна?”

    • OCR : “Зураг дээр ямар текст байна вэ?”

    • Гүн ба 3D : “Бүх зүйл хэр хол вэ?”
      Архитектурууд нь харилцан адилгүй боловч мушгирсан тор болон трансформатор маягийн загварууд давамгайлдаг. [1]

  5. Сургалт
    Өгөгдлийг хуваах, гиперпараметрүүдийг тохируулах, тогтворжуулах, нэмэгдүүлэх. Ханын зургийг цээжлэхээсээ өмнө эрт зогсоох.

  6. Үнэлгээ
    OCR-д mAP, IoU, F1, CER/WER гэх мэт даалгаварт тохирсон хэмжүүрүүдийг ашиглана уу. Сонголт хийх хэрэггүй. Шударга харьцуул. [3]

  7. Байршуулалт
    Зорилтот түвшинд оновчтой болгох: үүлэн багцын ажлууд, төхөөрөмж дээрх дүгнэлт, захын серверүүд. Хүргэлтийн шилжилтийг хянах. Дэлхий ертөнц өөрчлөгдөхөд дахин сургах.

Том өгөгдлийн багц болон тооцоолол нь чухал масстай болсны дараа гүний сүлжээ нь чанарын үсрэлтийг хурдасгасан. ImageNet сорилт гэх мэт шалгуур үзүүлэлтүүд нь энэхүү ахиц дэвшлийг илэрхий бөгөөд тасралтгүй болгосон. [2]


Таны үнэхээр ашиглах гол ажлууд (мөн хэзээ) 🧩

  • Зургийн ангилал : Зураг бүрт нэг шошго. Хурдан шүүлтүүр, ангилах эсвэл чанарын хаалт хийхэд ашиглана уу.

  • Объект илрүүлэх : Эд зүйлсийг тойрсон хайрцагнууд. Жижиглэнгийн худалдааны алдагдлаас урьдчилан сэргийлэх, тээврийн хэрэгслийг илрүүлэх, зэрлэг ан амьтдыг тоолох.

  • Жишээ сегментчилэл : Объект бүрийн пикселийн нарийвчлалтай дүрсүүд. Үйлдвэрлэлийн согог, мэс заслын багаж хэрэгсэл, хөдөө аж ахуйн технологи.

  • Семантик сегментчилэл : Инстанцуудыг тусгаарлахгүйгээр пиксел тутамд ангилах. Хотын замын дүр зураг, газрын бүрхүүл.

  • Гол цэгүүдийг илрүүлэх ба байрлал : Үе мөч, газрын тэмдэглэгээ, нүүрний онцлог. Спортын аналитик, эргономик, AR.

  • Мөрдөх : Цаг хугацааны явцад объектуудыг дагаж мөрдөх. Логистик, замын хөдөлгөөн, аюулгүй байдал.

  • OCR & баримт бичгийн хиймэл оюун ухаан : Текстийг задлах болон байршлыг задлан шинжлэх. Нэхэмжлэх, баримт, маягт.

  • Гүн ба 3 хэмжээст : Олон үзэмж эсвэл монокуляр дохиогоор сэргээн босголт. Робот техник, AR, газрын зураг.

  • Дүрслэлийн тайлбар : Үзэгдлүүдийг байгалийн хэлээр нэгтгэн дүгнэх. Хүртээмжтэй байдал, хайлт.

  • Харааны хэлний загварууд : Олон горимт сэтгэлгээ, сэргээн засварлах замаар сайжруулсан хараа, үндэслэлтэй чанарын баталгаа.

Жижигхэн хайрцагны чимээ: дэлгүүрүүдэд илрүүлэгч нь лангууны гадна тал дутуу байгааг тэмдэглэдэг; ажилтнууд бараагаа дахин дүүргэх үед мөрдөгч нь давхар тоолохоос сэргийлдэг; энгийн дүрэм нь итгэл багатай кадруудыг хүний ​​хяналтад дамжуулдаг. Энэ бол ихэвчлэн аяыг нь хадгалдаг жижиг найрал хөгжим юм.


Харьцуулах хүснэгт: хурдан хүргэх хэрэгслүүд 🧰

Санаатайгаар бага зэрэг хачин юм. Тийм ээ, зай нь хачин юм - би мэдэж байна.

Хэрэгсэл / Хүрээ Хамгийн сайн нь Лиценз/Үнэ Энэ нь яагаад практик дээр ажилладаг вэ
OpenCV Урьдчилан боловсруулалт, сонгодог CV, хурдан POC Үнэгүй - нээлттэй эх сурвалж Асар том хэрэгслийн хайрцаг, тогтвортой API, тулалдаанд туршигдсан; заримдаа танд хэрэгтэй бүх зүйл. [4]
PyTorch Судалгаанд ээлтэй сургалт Үнэгүй Динамик график, асар том экосистем, олон хичээл.
ТензорФлоу/Керас Өргөн цар хүрээтэй үйлдвэрлэл Үнэгүй Насанд хүрсэн хүний ​​хувьд тохиромжтой, хөдөлгөөнт болон захтай хүмүүст ч тохиромжтой.
Хэт ягаан туяаны YOLO Объектыг хурдан илрүүлэх Үнэгүй + төлбөртэй нэмэлтүүд Хялбар бэлтгэлийн давталт, өрсөлдөхүйц хурдны нарийвчлал, өөрийн гэсэн үзэл бодолтой хэрнээ тухтай.
Detector2 / MMIDetection Хүчтэй суурь шугам, сегментчилэл Үнэгүй Давтагдах боломжтой үр дүнтэй лавлах зэрэглэлийн загварууд.
OpenVINO / ONNX ажиллах хугацаа Дүгнэлтийн оновчлол Үнэгүй Дахин бичихгүйгээр өргөн хүрээнд байршуулж, хоцрогдолыг шахаж гаргана уу.
Тессеракт Төсөвт суурилсан OCR Үнэгүй Зургийг цэвэрлэвэл дажгүй ажиллана... заримдаа үнэхээр цэвэрлэх хэрэгтэй.

Хиймэл оюун ухаан дахь компьютерийн харааны чанарыг юу тодорхойлдог вэ 🔧

  • Өгөгдлийн хамрах хүрээ : Гэрэлтүүлгийн өөрчлөлт, өнцөг, дэвсгэр, ирмэгийн хүрээ. Хэрэв тохиолдож болох бол үүнийг оруулна уу.

  • Шошгоны чанар : Тогтворгүй хайрцаг эсвэл замбараагүй олон өнцөгт нь mAP-г хорлон сүйтгэдэг. Бага зэрэг чанарын хяналт нь маш их зүйлийг шаарддаг.

  • Ухаалаг нэмэлтүүд : Тайрах, эргүүлэх, чичиргээг нэмэгдүүлэх, синтетик чимээ нэмэх. Санамсаргүй эмх замбараагүй биш, бодитой байгаарай.

  • Загвар сонгох тохиргоо : Илрүүлэлт шаардлагатай үед илрүүлэлтийг ашиглана уу - ангилагчийг байршлыг таахад албадаж болохгүй.

  • Нөлөөлөлд тохирсон үзүүлэлтүүд : Хэрэв худал сөрөг үр дүн илүү их өвтгөж байвал санах ойг оновчтой болго. Хэрэв худал эерэг үр дүн илүү их өвтгөж байвал нарийвчлалыг нэн тэргүүнд тавь.

  • Санал хүсэлтийн давталт чанга байна : Алдаагаа бүртгэх, дахин шошголох, дахин сургах. Угааж зайлах, давтах. Бага зэрэг уйтгартай - маш үр дүнтэй.

Илрүүлэлт/сегментчилэлийн хувьд, нийгэмлэгийн стандарт нь дундаж нарийвчлал буюу COCO маягийн mAP . IoU болон AP@{0.5:0.95}-г хэрхэн тооцоолдогийг мэдэх нь тэргүүлэгчдийн самбарт аравтын бутархайгаар гайхуулахаас сэргийлдэг. [3]


Таамаглал биш бодит хэрэглээний тохиолдлууд 🌍

  • Жижиглэн худалдаа : Тавиурын аналитик, алдагдлаас урьдчилан сэргийлэх, дарааллын хяналт, төлөвлөлтийн нийцэл.

  • Үйлдвэрлэл : Гадаргуугийн согогийг илрүүлэх, угсралтын баталгаажуулалт, роботын удирдлага.

  • Эрүүл мэндийн тусламж үйлчилгээ : Рентген шинжилгээний ангилалт, багажийн илрүүлэлт, эсийн сегментчилэл.

  • Хөдөлгөөнт байдал : ADAS, замын хөдөлгөөний камер, зогсоолын эзэлхүүн, микро хөдөлгөөний хяналт.

  • Хөдөө аж ахуй : Ургац тоолох, өвчин илрүүлэх, ургац хураалтын бэлэн байдал.

  • Даатгал ба санхүү : Хохирлын үнэлгээ, KYC шалгалт, залилангийн шинж тэмдэг.

  • Барилга ба эрчим хүч : Аюулгүй ажиллагааны шаардлага хангасан байдал, гоожиж илрүүлэх, зэврэлтийг хянах.

  • Агуулга ба хүртээмж : Автомат тайлбар, зохицуулалт, харааны хайлт.

Таны анзаарах загвар: гараар сканнердах аргыг автомат ангиллаар сольж, өөртөө итгэх итгэл буурах үед хүн рүү шилжих боломжтой. Гайхалтай биш ч гэсэн хэмжээ нь нэмэгдэнэ.


Өгөгдөл, шошго болон чухал үзүүлэлтүүд 📊

  • Ангилал : Нарийвчлал, тэнцвэргүй байдлын хувьд F1.

  • Илрүүлэлт : IoU босго дахь mAP; анги тус бүрийн AP болон хэмжээний хувингуудыг шалгана уу. [3]

  • Сегментчилэл : mIoU, Dice; мөн инстанцийн түвшний алдаануудыг шалгана уу.

  • Хяналт : MOTA, IDF1; дахин таних чанар бол чимээгүй баатар юм.

  • OCR : Тэмдэгтийн алдааны түвшин (CER) болон Үгийн алдааны түвшин (WER); зохион байгуулалтын алдаа ихэвчлэн давамгайлдаг.

  • Регрессийн даалгаварууд : Гүн эсвэл байрлал нь үнэмлэхүй/харьцангуй алдааг ашигладаг (ихэвчлэн лог масштаб дээр).

Бусад хүмүүс үүнийг давтаж болохын тулд үнэлгээний протоколоо баримтжуул. Энэ нь дургүйцлийг төрүүлдэг ч таныг шударга байлгадаг.


Барих эсвэл худалдаж авах - хаана ажиллуулах вэ 🏗️

  • Үүлэн технологи : Эхлэхэд хамгийн хялбар, багц ажлын ачаалалд тохиромжтой. Гарах зардлыг хянана уу.

  • Ирмэгийн төхөөрөмжүүд : Бага хоцрогдол, илүү сайн нууцлал. Та квантжуулалт, тайралт болон хурдасгууруудад санаа тавих болно.

  • Төхөөрөмж дээрх гар утас : Тохирох үедээ гайхалтай. Загвар болон цагны батерейг оновчтой болгоно.

  • Холимог : Ирмэг дээр урьдчилан шүүлтүүр хийж, үүлэн дээр хүнд зүйл өргөх. Сайхан буулт.

Уйтгартай найдвартай стек: PyTorch-той туршилтын загвар гаргах, стандарт илрүүлэгчийг сургах, ONNX руу экспортлох, OpenVINO/ONNX Runtime ашиглан хурдасгах, урьдчилан боловсруулах болон геометр (тохируулга, гомографи, морфологи)-д OpenCV ашиглах. [4]


Эрсдэл, ёс зүй болон ярихад хэцүү хэсгүүд ⚖️

Харааны системүүд нь өгөгдлийн багцын алдаа эсвэл үйл ажиллагааны сохор цэгүүдийг өвлөж авах боломжтой. Бие даасан үнэлгээнүүд (жишээ нь, NIST FRVT) нь алгоритм болон нөхцөлүүдийн хооронд нүүр царай таних алдааны түвшний хүн ам зүйн ялгааг хэмжсэн. Энэ нь сандрах шалтгаан биш боловч юм . Хэрэв та хувь хүний ​​​​шинж чанар эсвэл аюулгүй байдалтай холбоотой хэрэглээний тохиолдлуудыг хэрэгжүүлбэл хүний ​​​​хяналт болон давж заалдах механизмыг оруулна уу. Нууцлал, зөвшөөрөл, ил тод байдал нь нэмэлт сонголт биш юм. [5]


Таны дагаж мөрдөх боломжтой хурдан эхлэх замын зураг 🗺️

  1. Шийдвэрийг тодорхойлох
    Зургийг харсны дараа систем ямар арга хэмжээ авах ёстой вэ? Энэ нь таныг хоосон үзүүлэлтүүдийг оновчтой болгохоос сэргийлдэг.


  2. Бодит орчныг тусгасан хэдэн зуун зургаар эхэл. Та гурван наалттай тэмдэглэлтэй байсан ч болгоомжтой шошголоорой .

  3. Суурь загварыг сонгох
    Урьдчилан бэлтгэсэн жинтэй энгийн тулгуурыг сонгоорой. Экзотик архитектурыг хараахан хөөцөлдөх хэрэггүй. [1]

  4. Сургалт явуулах, тэмдэглэл хөтлөх, үнэлэх.
    Хэмжүүр, төөрөгдлийн цэгүүд болон алдааны горимуудыг хянах. Цас, гялбаа, тусгал, хачин фонтууд гэх мэт "хачин тохиолдлууд"-ын тэмдэглэлийн дэвтэр хөтлөх.

  5. Гогцоог чангал.
    Хатуу сөрөг зүйлсийг нэмж, шошгоны зөрүүг засаж, нэмэлтүүдийг тохируулж, босгыг дахин тохируул. Жижиг өөрчлөлтүүд нэмэгддэг. [3]

  6. Жижиг хувилбарыг байршуулах.
    Тоон үзүүлэлтийг гаргаж, экспортлох. Тоглоомын жишиг биш, харин бодит орчинд хоцрогдол/гарцыг хэмжих.

  7. Хяналт хийх ба давтах Буруу
    ажилласан тохиолдлуудыг цуглуулах, дахин шошголох, дахин сургах. Загвар чинь чулуужсан зүйлд орохгүйн тулд үечилсэн үнэлгээ хийх хуваарь гаргах.

Мэргэжлийн зөвлөгөө: хамгийн циник багийнхаа хийсэн жижигхэн эсэргүүцлийг тэмдэглэ. Хэрэв тэд нүх гаргаж чадахгүй бол та бэлэн байх магадлалтай.


Таны зайлсхийхийг хүсдэг нийтлэг тэнэг зүйлс 🧨

  • Цэвэр студийн зургуудыг сурч, линзэн дээр бороо тусгаж бодит ертөнцөд байршуулна.

  • Нэг чухал ангид үнэхээр анхаарал хандуулж байгаа үед нийт mAP-г оновчтой болгох. [3]

  • Ангийн тэнцвэргүй байдлыг үл тоомсорлож, дараа нь ховор тохиолддог үйл явдлууд яагаад алга болж байгааг гайхаж байна.

  • Загвар хиймэл эд зүйлсийг сурах хүртэл хэт их хэмжээгээр нэмэгдүүлэх.

  • Камерын тохируулгыг алгасаад дараа нь хэтийн төлөвийн алдаатай үүрд тэмцэх. [4]

  • Үнэлгээний тохиргоог яг таг давтахгүйгээр тэргүүлэгчдийн самбарын тоонд итгэх. [2][3]


Хавчуурга хийх хэрэгтэй эх сурвалжууд 🔗

Хэрэв та анхан шатны материал болон хичээлийн тэмдэглэлд дуртай бол эдгээр нь үндсэн ойлголт, дадлага, жишиг үзүүлэлтүүдийн хувьд алт юм. Лавлагааны хэсгээс үзнэ үү. [1][2][3][4][5]


Эцсийн тэмдэглэл - эсвэл Хэтэрхий урт, Уншаагүй 🍃

Хиймэл оюун ухаан дахь компьютерийн хараа нь пикселийг шийдвэр болгон хувиргадаг. Зөв даалгаврыг зөв өгөгдөлтэй хослуулж, зөв ​​зүйлсийг хэмжиж, ер бусын сахилга баттай давтахад энэ нь гэрэлтдэг. Хэрэгсэл нь өгөөмөр, жишиг үзүүлэлтүүд нь олон нийтэд нээлттэй бөгөөд эцсийн шийдвэрт анхаарлаа төвлөрүүлбэл туршилтын загвараас үйлдвэрлэл хүртэлх зам нь гайхалтай богино байдаг. Шошгонуудаа зөв тодорхойлж, нөлөөлөлтэй тохирох хэмжигдэхүүнүүдийг сонгож, загваруудад хүнд ажлыг даатга. Хэрэв зүйрлэл тусалдаг бол үүнийг маш хурдан боловч шууд утгаараа дадлагажигч хүнд юу чухал болохыг олж мэдэхийг заахтай адил гэж бодоорой. Та жишээ үзүүлж, алдаагаа засаж, аажмаар бодит ажлаар үүнийг даатгадаг. Төгс биш ч гэсэн хувиргахад хангалттай ойрхон. 🌟


Лавлагаа

  1. CS231n: Компьютерийн харааны гүнзгий сургалт (хичээлийн тэмдэглэл) - Стэнфордын Их Сургууль.
    дэлгэрэнгүй унших

  2. ImageNet-ийн Том хэмжээний Харааны Таних Сорилт (бичлэг) - Руссаковский болон бусад.
    дэлгэрэнгүй унших

  3. COCO өгөгдлийн сан ба үнэлгээ - Албан ёсны сайт (даалгаврын тодорхойлолт ба mAP/IoU конвенцууд).
    дэлгэрэнгүй унших

  4. OpenCV баримтжуулалт (v4.x) - Урьдчилан боловсруулалт, тохируулга, морфологи гэх мэт модулиуд.
    дэлгэрэнгүй унших

  5. NIST FRVT 3-р хэсэг: Хүн ам зүйн нөлөө (NISTIR 8280) - Хүн ам зүйн хувьд нүүр царай таних нарийвчлалын бие даасан үнэлгээ.
    дэлгэрэнгүй унших

Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах