AI дахь компьютерийн хараа гэж юу вэ

AI дахь компьютерийн хараа гэж юу вэ?

Хэрэв та хэзээ нэгэн цагт утасныхаа түгжээг нүүрээрээ тайлж, төлбөрийн баримт сканнердсан эсвэл авокадог шүүж байна уу гэж өөрийгөө шалгадаг камер руу ширтэж байсан бол та компьютерийн хараа муутай байна гэсэн үг. Энгийнээр хэлэхэд хиймэл оюун ухаан дахь компьютерийн хараа нь машинууд шийдвэр гаргахад хангалттай зураг, видеог харж , ойлгож сурах Хэрэгтэй юу? Мэдээжийн хэрэг. Заримдаа гайхдаг уу? Бас тийм. Хэрэв бид үнэнч байвал хааяа жаахан аймшигтай. Хамгийн сайн нь энэ нь замбараагүй пикселүүдийг практик үйлдэл болгон хувиргадаг. Хамгийн муу нь таамаглаж, ганхдаг. Зөв ухаж үзье.

Үүний дараа унших дуртай нийтлэлүүд:

🔗 AI-ийн хэвийх байдал гэж юу вэ?
Хиймэл оюун ухааны системд хазайлт хэрхэн үүсдэг ба түүнийг илрүүлэх, бууруулах арга замууд.

🔗 Урьдчилан таамаглах хиймэл оюун ухаан гэж юу вэ
Урьдчилан таамаглах хиймэл оюун ухаан нь чиг хандлага, үр дүнг урьдчилан таамаглахад өгөгдлийг хэрхэн ашигладаг вэ?

🔗 AI сургагч гэж юу вэ
Хиймэл оюун ухааныг сургадаг мэргэжилтнүүдийн ашигладаг үүрэг хариуцлага, ур чадвар, багаж хэрэгсэл.

🔗 Google Vertex AI гэж юу вэ?
Загвар бүтээх, ашиглах Google-ийн нэгдсэн хиймэл оюун ухааны платформын тойм.


AI дахь Компьютерийн хараа гэж юу вэ? 📸

AI дахь компьютерийн хараа нь компьютерт харааны өгөгдлийг тайлбарлах, тайлбарлахыг заадаг хиймэл оюун ухааны салбар юм. Энэ бол "энэ бол зогсох тэмдэг", "тэдгээр нь явган зорчигч", "гагнуур гэмтэлтэй", "нэхэмжлэлийн нийт дүн энд байна" гэсэн бүтэцтэй утгыг түүхий пикселээс дамжуулах хоолой юм. Энэ нь ангилах, илрүүлэх, сегментчлэх, хянах, гүнийг тооцоолох, OCR гэх мэт даалгавруудыг багтаасан бөгөөд загварт суралцах загваруудаар нэгтгэгддэг. Албан ёсны талбар нь сонгодог геометрийг орчин үеийн гүнзгийрүүлэх сургалтад хамрах бөгөөд практик тоглоомын номыг хуулж, өөрчлөх боломжтой. [1]

Шуурхай анекдот: даруухан 720p камертай сав баглаа боодлын шугамыг төсөөлөөд үз дээ. Хөнгөн мэдрэгч нь таглааг илрүүлж, энгийн ажиглагч нь лонхыг ногоон өнгөөр ​​гэрэлтүүлэхээс өмнө дараалсан таван фрэймийн дарааллыг баталгаажуулдаг. Гоёмсог биш, гэхдээ хямд, хурдан бөгөөд дахин боловсруулалтыг бууруулдаг.


AI дахь Компьютерийн алсын харааг юу ашигтай болгодог вэ? ✅

  • Үйлдлийн дохионы урсгал : Харааны оролт нь үйлдэл хийх боломжтой гаралт болдог. Хяналтын самбар бага, илүү шийдвэр.

  • Дүгнэлт : Зөв өгөгдлийн тусламжтайгаар нэг загвар нь олон янзын зургийг зохицуулдаг. Төгс биш - заримдаа гайхалтай сайн.

  • Мэдээллийн хөшүүрэг : Камерууд хямд бөгөөд хаа сайгүй байдаг. Алсын хараа нь пикселийн далайг ойлголт болгон хувиргадаг.

  • Хурд : Загварууд ажил, нягтрал зэргээс шалтгаалан энгийн техник хангамж дээр эсвэл бодит цаг хугацаанд фреймийг бодит цаг хугацаанд боловсруулах боломжтой.

  • Найдвартай байдал : Энгийн алхмуудыг найдвартай систем болгон гинжин хэлхээнд оруулаарай: илрүүлэх → мөрдөх → чанарын хяналт.

  • Экосистем : Хэрэгслүүд, урьдчилан бэлтгэсэн загварууд, жишиг үзүүлэлтүүд, олон нийтийн дэмжлэг - нэг өргөн хүрээтэй кодын зах зээл.

Шударга байцгаая, нууц сумс нь нууц биш: сайн өгөгдөл, сахилга баттай үнэлгээ, болгоомжтой байршуулалт. Үлдсэн хэсэг нь дасгал..., магадгүй кофе. ☕


AI дахь Компьютерийн хараа хэрхэн ажилладаг вэ, нэг ухаалаг шугамаар 🧪

  1. Зураг авах
    Камер, сканнер, дрон, утас. Мэдрэгчийн төрөл, өртөлт, линз, фрэймийн хурдыг анхааралтай сонгоно уу. Хог хаягдал гэх мэт.

  2. Урьдчилан боловсруулалт
    Хэмжээг өөрчлөх, тайрах, хэвийн болгох, шаардлагатай бол бүдгэрүүлэх, арилгах. Заримдаа жижиг ялгаа нь уулсыг хөдөлгөдөг. [4]

  3. Шошго ба өгөгдлийн багц
    Хязгаарлах хайрцаг, олон өнцөгт, гол цэг, текстийн хүрээ. Тэнцвэртэй, төлөөлөх шошго-эсвэл таны загвар буруу зуршилд суралцдаг.

  4. Загварчлал

    • Ангилал : "Ямар ангилалд хамаарах вэ?"

    • Илрүүлэх : "Объектууд хаана байна?"

    • Хэсэгчлэл : "Аль пикселүүд ямар зүйлд хамаарах вэ?"

    • Гол цэгүүд ба байрлал : "Үе мөч, тэмдэглэгээ хаана байдаг вэ?"

    • OCR : "Зураг дээр ямар текст байна?"

    • Гүн ба 3D : "Бүх зүйл хэр хол вэ?"
      Архитектур нь янз бүр байдаг ч эргэлтийн тор, трансформаторын загварууд давамгайлдаг. [1]

  5. Сургалт
    Өгөгдлийг хуваах, гиперпараметрийг тааруулах, хэвийн болгох, нэмэгдүүлэх. Дэлгэцийн зургийг цээжлэхээсээ өмнө эрт зогсох.

  6. Үнэлгээ
    OCR-д зориулсан mAP, IoU, F1, CER/WER зэрэг даалгаварт тохирсон хэмжүүрүүдийг ашиглана. Интоор бүү сонго. Шударга харьцуул. [3]


  7. Зорилтот зорилтот байршуулалтыг Дрифтийг хянах. Дэлхий өөрчлөгдөхөд дахин сургах.

Том өгөгдлийн багц болон тооцоолол чухал массыг цохиход гүн тор нь чанарын үсрэлтийг хурдасгасан. ImageNet сорилт зэрэг жишиг үзүүлэлтүүд энэ ахиц дэвшлийг харагдуулахгүй, цуцашгүй болгосон. [2]


Таны үнэхээр ашиглах (мөн хэзээ) үндсэн ажлууд 🧩

  • Зургийн ангилал : Зураг бүрт нэг шошго. Шуурхай шүүлтүүр, триаж эсвэл чанарын хаалганы зориулалтаар ашиглах.

  • Объект илрүүлэх : Юмны эргэн тойрон дахь хайрцагнууд. Жижиглэнгийн алдагдлаас урьдчилан сэргийлэх, тээврийн хэрэгслийг илрүүлэх, ан амьтдын тооллого.

  • Жишээ сегментчилэл : Объект тус бүрт пикселийн нарийвчлалтай дүрсүүд. Үйлдвэрлэлийн согог, мэс заслын багаж хэрэгсэл, agritech.

  • Семантик сегментчилэл : Инстанцуудыг салгахгүйгээр пиксел тутамд ангилдаг. Хотын замын үзэгдэл, газрын бүрхэвч.

  • Түлхүүр цэг илрүүлэх ба байрлал : Үе мөч, тэмдэглэгээ, нүүрний онцлог. Спортын аналитик, эргономик, AR.

  • Мөрдөх : Цаг хугацааны явцад объектуудыг дагаж мөрдөх. Логистик, замын хөдөлгөөн, аюулгүй байдал.

  • OCR ба баримт бичгийн хиймэл оюун ухаан : Текст задлах, байршлыг задлах. Нэхэмжлэх, баримт, маягтууд.

  • Гүн ба 3D : Олон үзэмж эсвэл монокуляр дохионоос сэргээн босгох. Робот техник, AR, зураглал.

  • Визуал тайлбар : Байгалийн хэлээр үзэгдлүүдийг нэгтгэн дүгнэ. Хүртээмж, хайлт.

  • Алсын хараа-хэлний загварууд : Мультимодал үндэслэл, дахин сэргээх алсын хараа, үндэслэлтэй QA.

Жижиг хайрцагны чичиргээ: дэлгүүрт детектор дутуу тавиурын нүүрийг тэмдэглэдэг; хянагч нь ажилтнуудыг нөөцлөх үед давхар тоолохоос сэргийлдэг; Энгийн дүрэм нь итгэл үнэмшил багатай фреймүүдийг хүний ​​дүгнэлт рүү чиглүүлдэг. Энэ нь ихэвчлэн аяыг нь хадгалж байдаг жижиг найрал хөгжим юм.


Харьцуулах хүснэгт: хурдан хүргэх хэрэгслүүд 🧰

Зориудаар бага зэрэг хачин. Тийм ээ, зай нь хачирхалтай - би мэднэ.

Хэрэгсэл / Хүрээ Хамгийн сайн нь Лиценз/Үнэ Энэ нь яагаад практик дээр ажилладаг
OpenCV Урьдчилсан боловсруулалт, сонгодог CV, хурдан POC Үнэгүй - нээлттэй эх сурвалж Асар том хэрэгслийн хайрцаг, тогтвортой API, тулалдаанд шалгагдсан; Заримдаа танд хэрэгтэй бүх зүйл. [4]
PyTorch Судалгаанд ээлтэй сургалт Үнэгүй Динамик графикууд, асар том экосистем, олон хичээлүүд.
TensorFlow/Keras Хэмжээтэй үйлдвэрлэл Үнэгүй Насанд хүрсэн үйлчилгээний сонголтууд нь гар утас болон зах зээлд тохиромжтой.
Ultralytics YOLO Хурдан объект илрүүлэх Үнэгүй + төлбөртэй нэмэлтүүд Сургалтын хялбар давталт, өрсөлдөхүйц хурдны нарийвчлал, үзэл бодолтой боловч тухтай.
Detectron2 / MMDtection Хүчтэй суурь, сегментчилэл Үнэгүй Дахин давтагдах үр дүн бүхий жишиг зэрэглэлийн загварууд.
OpenVINO / ONNX ажиллах цаг Дүгнэлт оновчлол Үнэгүй Хоцролтыг шахаж, дахин бичихгүйгээр өргөнөөр байрлуул.
Тессеракт Төсөвт OCR Үнэгүй Хэрэв та зургийг цэвэрлэж байвал сайн ажиллана ... заримдаа үнэхээр хийх хэрэгтэй.

AI дахь Computer Vision-ийн чанарыг юу дэмждэг вэ 🔧

  • Өгөгдлийн хамрах хүрээ : Гэрэлтүүлгийн өөрчлөлт, өнцөг, дэвсгэр, ирмэгийн гэр. Хэрэв ийм зүйл тохиолдвол үүнийг оруулаарай.

  • Шошгоны чанар : Тохиромжгүй хайрцагнууд эсвэл налуу олон өнцөгтүүд mAP-ыг хорлон сүйтгэдэг. Бага зэрэг QA нь урт замыг туулдаг.

  • Ухаалаг нэмэгдлүүд : Тайрах, эргүүлэх, гялалзах, нийлэг дуу чимээ нэмнэ. Санамсаргүй эмх замбараагүй байдал биш бодитой бай.

  • Загвар сонгох тохиромжтой : Илрүүлэх шаардлагатай газар илрүүлэлтийг ашиглана уу - ангилагчийг байршлыг таах гэж бүү албад.

  • Нөлөөлөлд тохирсон хэмжигдэхүүн : Хэрэв хуурамч сөрөг нөлөөлөл нь илүү их өвддөг бол санах ойг оновчтой болго. Хэрэв худал эерэг зүйл илүү их өвддөг бол эхлээд нарийвчлал.

  • Нягт санал хүсэлтийн гогцоо : Бүртгэлийн алдаа, дахин шошголох, дахин сургах. Угаах, давтах. Бага зэрэг уйтгартай-зэрлэг үр дүнтэй.

Илрүүлэх/хэсэгтлэхийн тулд олон нийтийн стандарт нь дундаж нарийвчлал буюу COCO загварын mAP . IoU болон AP@{0.5:0.95}-г хэрхэн тооцдогийг мэдэх нь аравтын бутархайн тоогоор тэргүүлэгчдийн самбарын заргад өртөхөөс сэргийлнэ. [3]


Бодит амьдрал дээр таамаглаагүй тохиолдлууд 🌍

  • Жижиглэн худалдаа : Тавиурын дүн шинжилгээ, алдагдлаас урьдчилан сэргийлэх, дарааллын хяналт, планограммыг дагаж мөрдөх.

  • Үйлдвэрлэл : Гадаргуугийн согогийг илрүүлэх, угсралтын баталгаажуулалт, роботын удирдамж.

  • Эрүүл мэнд : Рентген шинжилгээ, багаж илрүүлэх, эсийн сегментчилэл.

  • Хөдөлгөөн : ADAS, замын хөдөлгөөний камер, машины зогсоол, бичил хөдөлгөөнийг хянах.

  • Газар тариалан : Ургац тоолох, өвчин илрүүлэх, ургац хураах бэлэн байдал.

  • Даатгал, санхүү : Хохирлын үнэлгээ, KYC шалгалт, залилан мэхлэх.

  • Барилга ба эрчим хүч : Аюулгүй байдлын шаардлага, гоожиж илрүүлэх, зэврэлтийг хянах.

  • Агуулга, хүртээмж : Автомат тайлбар, зохицуулалт, харааны хайлт.

Таны анзаарах загвар: гар аргаар сканнердах ажиллагааг автомат гурвалжаар сольж, өөртөө итгэх итгэл буурах үед хүмүүс рүү шилжүүлээрэй. Дур булаам биш, гэхдээ энэ нь масштабтай.


Өгөгдөл, шошго болон чухал үзүүлэлтүүд 📊

  • Ангилал : Нарийвчлал, тэнцвэргүй байдлын хувьд F1.

  • Илрүүлэх : IoU-ийн босго давсан mAP; анги тус бүрийн AP болон хэмжээтэй хувиныг шалгана. [3]

  • Сегментчлэл : mIoU, Шоо; жишээний түвшний алдааг мөн шалгана уу.

  • Хяналт : MOTA, IDF1; дахин таних чанар бол чимээгүй баатар юм.

  • OCR : Тэмдэгтийн алдааны түвшин (CER) ба үгийн алдааны түвшин (WER); зохион байгуулалтын алдаа ихэвчлэн давамгайлдаг.

  • Регрессийн даалгавар : Гүн эсвэл поз ашиглах үнэмлэхүй/харьцангуй алдаа (ихэвчлэн бүртгэлийн масштаб дээр).

Бусад хүмүүс үүнийг хуулбарлахын тулд өөрийн үнэлгээний протоколыг баримтжуул. Энэ нь тачаангуй, гэхдээ энэ нь таныг үнэнч байлгадаг.


Барилга, худалдаж авах, хаана ажиллуулах вэ 🏗️

  • Үүлэн : Эхлүүлэхэд хамгийн хялбар, багц ажлын ачаалалд тохиромжтой. Гарах зардлыг ажигла.

  • Ирмэгийн төхөөрөмжүүд : Хоцролт бага, илүү сайн нууцлал. Та тоо хэмжээ, тайрах, хурдасгагчдад санаа тавих болно.

  • Төхөөрөмж дээрх гар утас : Энэ нь тохирох үед гайхалтай. Загвар болон цагны батарейг оновчтой болго.

  • Hybrid : Ирмэг дээр урьдчилан шүүлтүүр, үүлэн дотор хүнд ачаа өргөх. Сайхан буулт.

Уйтгартай найдвартай стек: PyTorch-ээр прототип хийх, стандарт илрүүлэгчийг сургах, ONNX руу экспортлох, OpenVINO/ONNX Runtime ашиглан хурдасгах, урьдчилсан боловсруулалт болон геометрийн (шалгалт тохируулга, гомограф, морфологи) OpenCV-г ашиглах. [4]


Эрсдэл, ёс зүй, ярихад хэцүү хэсгүүд ⚖️

Харааны системүүд өгөгдлийн багцын хазайлт эсвэл үйл ажиллагааны сохор цэгүүдийг өвлөн авах боломжтой. Бие даасан үнэлгээнүүд (жишээ нь, NIST FRVT) алгоритмууд болон нөхцлүүд дээр нүүр таних алдааны түвшинд хүн ам зүйн ялгааг хэмжсэн. Энэ нь сандрах шалтгаан биш, харин анхааралтай турших, хязгаарлалтыг баримтжуулах, үйлдвэрлэлд тасралтгүй хяналт тавих шалтгаан юм Хэрэв та хувийн мэдээлэл эсвэл аюулгүй байдалтай холбоотой хэрэглээний тохиолдлуудыг ашиглаж байгаа бол хүний ​​хяналт, давж заалдах механизмыг оруулаарай. Нууцлал, зөвшөөрөл, ил тод байдал нь нэмэлт зүйл биш юм. [5]


Таны дагаж мөрдөж болох хурдан эхлүүлэх замын зураг 🗺️

  1. Шийдвэрийг тодорхойл.
    Зургийг харсны дараа систем ямар арга хэмжээ авах ёстой вэ? Энэ нь таныг дэмий хоосон үзүүлэлтүүдийг оновчтой болгохоос сэргийлнэ.

  2. Хачирхалтай өгөгдлийн багц цуглуулах
    Таны бодит орчныг харуулсан хэдэн зуун зургаас эхэл. Та мөн гурван наалдамхай тэмдэглэл байсан ч гэсэн болгоомжтой шошго.

  3. Үндсэн загвар сонгох
    Урьдчилан бэлтгэсэн жинтэй энгийн нурууг сонго. Одоохондоо чамин архитектурын араас хөөцөлдөх хэрэггүй. [1]


  4. Track хэмжигдэхүүн, төөрөгдөл, алдааны горимыг сургах, бүртгэх, үнэлэх Цас, хурц гэрэл, тусгал, сондгой фонт зэрэг "хачирхалтай тохиолдлууд" гэсэн дэвтэр хөтөл.

  5. Гогцоог чангалах
    Хатуу сөрөг нэмэх, шошгоны шилжилтийг засах, өсгөлтийг тохируулах, босго оноог дахин тохируулах. Жижиг засварууд нэмэгддэг. [3]

  6. Нарийхан хувилбарыг байршуулах
    Тоо хэмжээ болон экспортлох. Тоглоомын жишиг биш, харин бодит орчинд хоцролт/дамжуулагчийг хэмжинэ.

  7. Хянаж, давтаарай
    Буруу алдааг цуглуулж, дахин тэмдэглэж, дахин сургах. Загвар тань чулуужихгүйн тулд үе үе үнэлгээ хийх хуваарь гарга.

Зөвлөмж: Таны хамгийн эелдэг багын андын тавьсан жижиг хэсгийг тэмдэглэ. Хэрэв тэд нүх гаргаж чадахгүй бол та бэлэн байна.


Та зайлсхийхийг хүсдэг нийтлэг бэрхшээлүүд 🧨

  • Цэвэрхэн студийн зураг дээр сургалт, линз дээр бороотой бодит ертөнцөд байршуулах.

  • Нэг чухал ангид үнэхээр санаа тавьдаг бол нийт mAP-ийг оновчтой болгох. [3]

  • Ангийн тэнцвэргүй байдлыг үл тоомсорлож, дараа нь ховор тохиолдлууд яагаад алга болдгийг гайхдаг.

  • Загвар өмсөгч хиймэл олдворуудыг сурах хүртэл хэт ихэсгэх.

  • Камерын тохируулгыг алгасаад дараа нь хэтийн төлөвийн алдаатай үүрд тэмцэнэ. [4]

  • Яг үнэлгээний тохиргоог хуулбарлахгүйгээр тэргүүлэгчдийн самбарын тоонд итгэх. [2][3]


Хавчуурга тэмдэглэх үнэ цэнэтэй эх сурвалжууд 🔗

Хэрэв та үндсэн материал, хичээлийн тэмдэглэлд дуртай бол эдгээр нь суурь, дадлага, жишиг үзүүлэлтүүдэд зориулсан алт юм. Лавлагаа үзнэ үү : CS231n тэмдэглэл, ImageNet сорилтын баримт бичиг, COCO мэдээллийн багц/үнэлгээний баримт бичиг, OpenCV баримтууд болон NIST FRVT тайлан. [1][2][3][4][5]


Эцсийн тайлбар - эсвэл хэтэрхий урт, уншаагүй 🍃

AI дахь компьютерийн хараа нь пикселийг шийдвэр болгон хувиргадаг. Зөв даалгаврыг зөв өгөгдөлтэй хослуулж, зөв ​​зүйлийг хэмжиж, ер бусын сахилга баттай давтах үед энэ нь гэрэлтдэг. Багаж хэрэгсэл нь өгөөмөр, жишиг үзүүлэлтүүд нь олон нийтэд нээлттэй бөгөөд хэрэв та эцсийн шийдвэрт анхаарлаа төвлөрүүлбэл прототипээс үйлдвэрлэл хүртэлх зам нь гайхалтай богино байх болно. Шошгогоо шулуун болгож, нөлөөлөлтэй тохирох хэмжигдэхүүнийг сонгон, загвар өмсөгчдөд хүнд ачааг үүрүүлэхийг зөвшөөр. Хэрэв зүйрлэл тустай бол маш хурдан боловч шууд утгаар нь дадлагажигч хүнд юу чухал болохыг олж мэдэхийн тулд үүнийг бодоорой. Та жишээ үзүүлж, алдаагаа засч, аажмаар бодит ажилдаа итгэ. Төгс биш, гэхдээ хувиргахад хангалттай ойрхон. 🌟


Лавлагаа

  1. CS231n: Компьютерийн харааны талаар гүнзгий суралцах (хичээлийн тэмдэглэл) - Стэнфордын их сургууль.
    дэлгэрэнгүй уншина уу

  2. ImageNet Large Scale Visual Recognition Challenge (цаасан) - Russakovsky et al.
    дэлгэрэнгүй уншина уу

  3. COCO Dataset & Evaluation - Албан ёсны сайт (даалгаврын тодорхойлолт ба mAP/IoU конвенци).
    дэлгэрэнгүй уншина уу

  4. OpenCV Documentation (v4.x) - Урьдчилсан боловсруулалт, тохируулга, морфологи гэх мэт модулиуд
    дэлгэрэнгүй унших

  5. NIST FRVT 3-р хэсэг: Хүн ам зүйн нөлөө (NISTIR 8280) - Хүн ам зүйд нүүр царай таних нарийвчлалын бие даасан үнэлгээ.
    дэлгэрэнгүй уншина уу

Албан ёсны AI Assistant дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах