Хиймэл оюун ухааныг дээшлүүлэх нь уламжлалт хэмжээг өөрчлөх аргуудаас юугаараа ялгаатай вэ?

Хиймэл оюун ухааныг дээшлүүлэх нь зургийн одоо байгаа хэв маягаас өндөр нягтралтай нарийн ширийн зүйлс дутуу байгааг урьдчилан таамагладаг бөгөөд энэ нь бикуб интерполяци гэх мэт уламжлалт аргууд шиг пикселийг сунгахаас илүүтэй юм. Энэ нь илүү тод, илүү нарийвчилсан зургийг бий болгодог.

Хиймэл оюун ухааныг дээшлүүлэх үед би юуг анхаарах ёстой вэ?

Нийтлэг олдворуудад ирмэгийн эргэн тойрон дахь гэрэлт цагираг, давтагдсан бүтэцтэй хээ, хэт гөлгөр эсвэл лав шиг хэлбэртэй нүүр, "бараг үсэг" болж хувирдаг текст орно. Байгалийн харагдах үр дүнг баталгаажуулахын тулд эдгээр асуудлыг хянах нь чухал юм.

Яагаад царайг томруулсны дараа заримдаа хэтэрхий гөлгөр эсвэл бодит бус харагддаг вэ?

Нүх сүв гэх мэт бүтцийг арилгаж болзошгүй хүчтэй дуу чимээг бууруулах болон хурцлах аргаас болж нүүр хэтэрхий толигор харагдаж болно. Илүү байгалийн харагдуулахын тулд дуу чимээг бууруулах болон хурцлах тохиргоог багасгах талаар бодож үзээрэй.

Хиймэл оюун ухааныг нэмэгдүүлсний дараа зургууд маань шаржигнуур эсвэл хэт их чимээтэй харагдаж байвал би яах ёстой вэ?

Хэрэв таны зургууд шаржигнуур харагдаж байвал шуугиан бууруулах болон нарийвчлал сайжруулах гулсагчийг тохируулж үзээрэй. Нарийн ширхэг нэмэх нь гэрэл зургийн мэдрэмжийг сэргээхэд тусалж магадгүй юм.

GAN болон CNN загварууд нь хиймэл оюун ухааныг дээшлүүлэх үр дүнг хэрхэн харьцуулдаг вэ?

CNN загварууд нь ерөнхийдөө тогтвортой бөгөөд урьдчилан таамаглах боломжтой байдаг бол GAN загварууд нь илүү тодорхой мэдээллийг өгдөг боловч бодит бус элементүүдийг оруулах эрсдэлтэй байдаг. Тэдгээрийн хооронд сонголт хийх нь таны бодит байдал эсвэл сайжруулсан бүтэцтэй байх хэрэгцээнээс хамаарна.

Видео контентод хиймэл оюун ухааныг нэмэгдүүлэх нь тохиромжтой юу, мөн энэ нь ямар бэрхшээл учруулж байна вэ?

Тийм ээ, хиймэл оюун ухааныг нэмэгдүүлэх нь видео бичлэгт тохиромжтой боловч кадр хоорондын тогтвортой байдал чухал тул энэ нь хэцүү байж болно. Анивчих эсвэл гялалзсан нарийн ширийн зүйлс нь үзэгчдийн анхаарлыг сарниулж болзошгүй тул видео бичлэгт чиглэсэн тусгай аргуудыг ашиглахыг зөвлөж байна.

Хиймэл оюун ухааныг сайжруулахад хэзээ найдах нь зохисгүй вэ?

Хиймэл оюун ухааныг дээшлүүлэх аргыг сэтгүүл зүй эсвэл шүүх эмнэлгийн шинжилгээ гэх мэт өндөр эрсдэлтэй нөхцөл байдалд болгоомжтой ашиглах хэрэгтэй бөгөөд нарийвчлал чухал байдаг. Үүнийг эцсийн нотолгоо гэхээсээ илүү сайжруулалт гэж үзэх нь зүйтэй бөгөөд хиймэл оюун ухааны үйл явцын талаарх ил тод байдал чухал юм.

Хэт их шахагдсан зургуудыг томруулахдаа юуг анхаарах ёстой вэ?

Хэт их шахагдсан зургуудын хувьд хүсээгүй бөглөрөлийг багасгахын тулд эд өлгийн зүйлсийг арилгахаас эхэл. Үүний дараа та шаардлагатай бол хэмжээг нь нэмэгдүүлж, шахалтын эд өлгийн зүйлсийг нэмэгдүүлэхгүйгээр нарийвчлалыг хадгалахын тулд хөнгөн тодотгол хийж болно.

Хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ? [Видео болон асуулт хариулт]

Товчхондоо: Хиймэл оюун ухааныг дээшлүүлэх нь загварыг бага болон өндөр нягтралтай хосолсон зургууд дээр сургаж, дараа нь дээшлүүлэх явцад итгэмээр нэмэлт пикселүүдийг урьдчилан таамаглахад ашиглах замаар ажилладаг. Хэрэв загвар нь сургалтын явцад ижил төстэй бүтэц эсвэл царай харсан бол энэ нь үнэмшилтэй дэлгэрэнгүй мэдээлэл нэмж болно; хэрэв үгүй бол энэ нь видеон дээр гэрэлт цагираг, лав арьс эсвэл анивчих зэрэг эд өлгийн зүйлсийг "хий үзэгдэл" болгож болзошгүй.

Гол дүгнэлтүүд:

Таамаглал: Загвар нь бодит байдлын баталгаатай сэргээн босголт биш харин үнэмшилтэй нарийн ширийн зүйлийг бий болгодог.

Загварын сонголт: CNN нь илүү тогтвортой байх хандлагатай байдаг; GAN нь илүү хурц харагдаж болох ч функцуудыг зохион бүтээх эрсдэлтэй.

Эд өлгийн зүйлсийг шалгах: Зураасан гэрэл, давтагдсан бүтэц, "бараг үсэг" болон хуванцар хэлбэртэй нүүр царайг ажиглаарай.

Видеоны тогтвортой байдал: Түр зуурын аргуудыг ашиглаарай, эс тэгвээс кадр бүр гялалзаж, хазайж байгааг харах болно.

Өндөр эрсдэлтэй хэрэглээ: Хэрэв нарийвчлал чухал бол боловсруулалтыг илчилж, үр дүнг жишээ болгон авч үзнэ үү.

Хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ? Инфографик.

Та үүнийг харсан байх: жижигхэн, шаржигнуур зураг нь хэвлэх, дамжуулах эсвэл илтгэл рүү оруулахад хангалттай тод зүйл болж хувирдаг бөгөөд энэ нь хуурч байгаа мэт санагддаг. Хамгийн сайн аргаар бол энэ нь 😅

Тиймээс, хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ гэдэг нь "компьютер нь нарийн ширийн зүйлийг сайжруулдаг" (гараар долгионтой) гэхээс илүү тодорхой зүйлд тулгуурладаг бөгөөд "загвар нь олон жишээнээс сурсан хэв маяг дээрээ үндэслэн үнэмшилтэй өндөр нягтралтай бүтцийг урьдчилан таамагладаг" (Зургийн супер нягтралын гүнзгий сургалт: Судалгаа)-тай илүү ойр байдаг. Энэхүү таамаглалын алхам бол бүхэл бүтэн тоглоом бөгөөд ийм учраас хиймэл оюун ухааныг дээшлүүлэх нь гайхалтай харагдаж болно... эсвэл бага зэрэг хуванцар... эсвэл муурны чинь нэмэлт сахал шиг өссөн мэт.

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 Хиймэл оюун ухаан хэрхэн ажилладаг вэ
Хиймэл оюун ухаан дахь загвар, өгөгдөл болон дүгнэлтийн үндсийг сур.

🔗 Хиймэл оюун ухаан хэрхэн суралцдаг вэ
Сургалтын өгөгдөл болон санал хүсэлт нь загварын гүйцэтгэлийг цаг хугацааны явцад хэрхэн сайжруулж байгааг хараарай.

🔗 Хиймэл оюун ухаан гажигийг хэрхэн илрүүлдэг вэ
Хэв маягийн суурь үзүүлэлтүүд болон хиймэл оюун ухаан ер бусын зан авирыг хэрхэн хурдан тэмдэглэж байгааг ойлгох.

🔗 Хиймэл оюун ухаан чиг хандлагыг хэрхэн урьдчилан таамагладаг вэ
Дохиог илрүүлж, ирээдүйн эрэлтийг урьдчилан таамаглах урьдчилсан мэдээний аргуудыг судал.

Хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ: гол санаа, өдөр тутмын үгээр 🧩

Илүү томруулах гэдэг нь нягтралыг нэмэгдүүлэх гэсэн үг: илүү олон пиксел, том зураг. Уламжлалт илүү томруулах (бикубик интерполяци гэх мэт) нь үндсэндээ пикселийг сунгаж, шилжилтийг жигд болгодог ( бикубик интерполяци ). Энэ нь зүгээр ч шинэ нарийн ширийн зүйлийг зохион бүтээж чадахгүй - зүгээр л интерполяци хийдэг.

Хиймэл оюун ухааныг дээшлүүлэх нь илүү зоримог зүйлийг (судалгааны ертөнцөд "супер нягтрал" гэж нэрлэдэг) туршиж байна (Зургийн супер нягтралын гүнзгий сургалт: Судалгаа):

Энэ нь бага нягтралтай оролтыг хардаг
Хээг таньдаг (ирмэг, бүтэц, нүүрний хэлбэр, текстийн зураас, даавууны нэхмэл гэх мэт)
Өндөр нягтралтай хувилбар ямар харагдахыг байна
Эдгээр хэв маягт тохирсон нэмэлт пикселийн өгөгдлийг үүсгэдэг

"Бодит байдлыг төгс сэргээх" биш, харин "маш үнэмшилтэй таамаглал дэвшүүлэх" гэх мэт (Deep Convolutional Networks Using Image Super-Resolution (SRCNN)). Хэрэв энэ нь бага зэрэг сэжигтэй сонсогдож байвал та буруу биш - гэхдээ энэ нь бас сайн ажилладаг шалтгаан юм 😄

Тийм ээ, энэ нь хиймэл оюун ухааныг нэмэгдүүлэх нь үндсэндээ хяналттай хий үзэгдэл гэсэн үг ... гэхдээ үр бүтээлтэй, пикселийг хүндэтгэсэн байдлаар.

Хиймэл оюун ухааныг дээшлүүлэх сайн хувилбарыг юу бүрдүүлдэг вэ? ✅🛠️

Хэрэв та хиймэл оюун ухааныг (эсвэл тохиргооны урьдчилсан тохиргоог) дүгнэж байгаа бол хамгийн чухал зүйл энд байна:

Хэт шарахгүйгээр нарийн ширийн зүйлийг сэргээх
Сайн өргөтгөл нь шаржигнуур чимээ эсвэл хуурамч нүх сүвийг биш, харин шаржигнуур байдал, бүтэцийг нэмэгдүүлдэг.
Ирмэгийн сахилга бат
Цэвэр шугамууд цэвэрхэн хэвээр байна. Муу загварууд нь ирмэгийг гуйвуулж эсвэл гэрэлтдэг.
Бүтцийн реализм
Үс нь бийрний зураас болж болохгүй, тоосго нь давтагдсан хээ шиг тамга болж болохгүй.
Дуу чимээ болон шахалтын зохицуулалт
Өдөр тутмын ихэнх зургууд JPEG форматаар үхдэг. Сайн өргөтгөгч нь уг хохирлыг нэмэгдүүлдэггүй (Real-ESRGAN).
Нүүр царай болон текстийн мэдрэмж
Нүүр царай болон текст бол алдааг олж харах хамгийн хялбар газар юм. Сайн загвар өмсөгчид алдааг зөөлөн харьцдаг (эсвэл тусгай горимтой байдаг).
Кадруудын хоорондын тогтвортой байдал (видео бичлэгийн хувьд)
Хэрэв кадраас кадр хүртэлх нарийвчлал анивчих юм бол таны нүд хашгирах болно. Видеог сайжруулах нь цаг хугацааны тогтвортой байдлаар амьдардаг эсвэл үхдэг (BasicVSR (CVPR 2021)).
Ухаалаг удирдлага.
Та бодит үр дүнд хүрэх гулсагчийг хүсэж байна: дуу чимээг бууруулах, бүдгэрүүлэх, эд өлгийн зүйлсийг арилгах, үр тариаг хадгалах, хурцлах гэх мэт практик зүйлс.

Нэг чимээгүй дүрэм хүчин төгөлдөр хэвээр байна: "хамгийн сайн" сайжруулалт нь таны бараг анзаардаггүй сайжруулалт байдаг. Зүгээр л та анхнаасаа илүү сайн камертай байсан юм шиг харагдаж байна 📷✨

Харьцуулсан хүснэгт: алдартай хиймэл оюун ухааныг дээшлүүлэх сонголтууд (мөн тэдгээр нь юунд тохиромжтой вэ) 📊🙂

Доор практик харьцуулалт байна. Үнэ нь зориудаар тодорхойгүй байгаа, учир нь хэрэгслүүд нь лиценз, багц, тооцооллын зардал болон бусад хөгжилтэй зүйлсээс хамааран өөр өөр байдаг.

Хэрэгсэл / Хандлага	Хамгийн сайн нь	Үнийн уур амьсгал	Энэ яагаад ажилладаг вэ (ойролцоогоор)
Топаз маягийн ширээний компьютерын өргөтгөгч (Топазын зураг, Топазын видео)	Зураг, видео, хялбар ажлын урсгал	Төлбөртэй	Хүчтэй ерөнхий загварууд + олон тохируулгатай, "зүгээр л ажиллах" хандлагатай байдаг... ихэвчлэн
Adobe-ийн “Super Resolution” төрлийн онцлогууд (Adobe Enhance > Super Resolution)	Гэрэл зурагчид аль хэдийн тэр экосистемд байна	Захиалгын дугаар	Нарийн нягт сэргээн засварлалт, ихэвчлэн консерватив (бага драматик)
Бодит-ESRGAN / ESRGAN хувилбарууд (Бодит-ESRGAN, ESRGAN)	Өөрөө хийх, хөгжүүлэгчид, багцаар хийх ажлууд	Үнэгүй (гэхдээ цаг хугацаа их шаарддаг)	Бүтцийн нарийн ширийн зүйлд маш сайн, болгоомжтой байхгүй бол нүүрэнд халуун ногоотой харагдуулж болзошгүй
Диффузид суурилсан өргөтгөх горимууд (SR3)	Бүтээлч ажил, хэв маягийн үр дүн	Холимог	Гайхалтай нарийн ширийн зүйлийг бүтээж чадна - мөн утгагүй зүйлийг зохиож ч чадна, тийм ээ... тийм ээ
Тоглоомын сайжруулагч (DLSS/FSR маягийн) (NVIDIA DLSS, AMD FSR 2)	Бодит цагийн тоглоом болон дүрслэл	Багцалсан	Хөдөлгөөний өгөгдөл болон сурсан урьдчилсан тооцоог ашигладаг - жигд гүйцэтгэлтэй ялалт 🕹️
Үүлэн технологийн өргөтгөлийн үйлчилгээ	Тохиромжтой байдал, хурдан ялалтууд	Төлбөртэй хэрэглээ	Хурдан + өргөтгөх боломжтой, гэхдээ та хяналтаа сольж, заримдаа нарийн мэдрэмжийг ашигладаг
Видео төвлөрсөн хиймэл оюун ухааны өргөтгөгч (BasicVSR, Topaz Video)	Хуучин бичлэг, анимэ, архив	Төлбөртэй	Анивчихыг багасгах түр зуурын аргууд + тусгай видео загварууд
"Ухаалаг" утас/галерейг өргөжүүлэх	Энгийн хэрэглээ	Багцлагдсан	Төгс төгөлдөр биш, харин тааламжтай гаралтад тохируулсан хөнгөн загварууд (хэрэгтэй хэвээрээ)

Хачин хүлээн зөвшөөрөлтийг форматлах нь: “Paid-ish” нь тэр хүснэгтэд маш их ажил хийж байна. Гэхдээ та ойлгож байна уу 😅

Том нууц: загвар өмсөгчид бага нягтралаас өндөр нягтрал руу зураг зурах аргыг сурдаг 🧠➡️🖼️

Ихэнх хиймэл оюун ухааныг дээшлүүлэх үйл явцын гол цөм нь хяналттай сургалтын тохиргоо юм (Deep Convolutional Networks Using Image Super-Resolution (SRCNN)):

Өндөр нягтралтай зургуудаас эхэл ("үнэн")
Тэдгээрийг бага нягтралтай хувилбарууд ("оролт") руу буулгах
Бага нягтралтайгаас анхны өндөр нягтралыг дахин бүтээх загварыг сургах

Цаг хугацаа өнгөрөхөд загвар нь дараахь корреляцийг сурдаг

"Нүдний эргэн тойрон дахь энэ төрлийн бүдгэрэлт нь ихэвчлэн сормуустай холбоотой байдаг"
"Энэ пикселийн кластер нь ихэвчлэн serif текстийг заадаг"
"Энэ ирмэгийн градиент нь санамсаргүй чимээ биш дээврийн шугам шиг харагдаж байна"

Энэ нь тодорхой зургийг цээжлэх биш (энгийн утгаараа), статистик бүтцийг сурах явдал юм (Deep Learning for Image Super-resolution: A Survey). Үүнийг бүтэц болон ирмэгийн дүрмийг сурахтай адил гэж бодоорой. Яруу найргийн дүрэм биш, харин ... IKEA гарын авлагын дүрэм 🪑📦 (болхи зүйрлэл боловч хангалттай ойрхон).

Боолт ба боолт: дүгнэлт хийх үед юу болдог вэ (дээшлэх үед) ⚙️✨

Та хиймэл оюун ухааны өргөтгөгч рүү зураг оруулах үед ихэвчлэн иймэрхүү дамжуулах хоолой байдаг:

Урьдчилан боловсруулалт
- Өнгөний орон зайг хөрвүүлэх (заримдаа)
- Пикселийн утгыг хэвийн болгох
- Хэрэв зураг том бол түүнийг хэсэг хэсгээр нь хавтаслаарай (VRAM бодит байдлыг шалгах 😭) (Real-ESRGAN репозитор (хавтангийн сонголтууд))
Онцлог шинж чанарыг гаргаж авах
- Эрт үеийн давхаргууд нь ирмэг, булан, градиентийг илрүүлдэг
- Илүү гүн давхаргууд нь хэв маягийг илрүүлдэг: бүтэц, хэлбэр, нүүрний бүрэлдэхүүн хэсгүүд
Сэргээн босголт
- Энэ загвар нь илүү өндөр нягтралтай функцын газрын зургийг үүсгэдэг
- Дараа нь үүнийг бодит пикселийн гаралт болгон хувиргадаг
Дараах боловсруулалт
- Заавал биш ирлэх
- Нэмэлт дуу чимээг бууруулах
- Нэмэлт олдворыг дарах (дуугаралт, гэрэлт цагираг, бөглөрөл)

Нэг нарийн ширийн зүйл: олон багаж нь хавтанцарыг өндөр түвшинд хийж, дараа нь оёдлыг нь холино. Маш сайн багаж нь хавтангийн хил хязгаарыг нуудаг. Хэрэв та нүдээ онийлговол маш сайн багаж нь бүдэг торон тэмдэг үлдээдэг. Тийм ээ, та нүдээ онийлгох болно, учир нь хүмүүс жижигхэн гремлин шиг 300% томруулалтаар жижиг төгс бус байдлыг шалгах дуртай байдаг 🧌

Хиймэл оюун ухааныг дээшлүүлэхэд ашигласан гол загвар гэр бүлүүд (мөн яагаад тэд өөр санагддаг вэ) 🤖📚

1) CNN дээр суурилсан супер нягтралтай (сонгодог ажлын морь)

Эргэлт мэдрэлийн сүлжээ нь орон нутгийн хэв маягт маш сайн: ирмэг, бүтэц, жижиг бүтэц (Deep Convolutional Networks Using Image Super-Resolution (SRCNN)).

Давуу талууд: хурдан, тогтвортой, гэнэтийн зүйл цөөн
Сул талууд: Хүчтэй түлхвэл бага зэрэг "боловсруулсан" харагдаж болно

2) GAN дээр суурилсан өргөтгөл (ESRGAN маягийн) 🎭

GAN (Үүсгэн байгуулагч өрсөлдөгч сүлжээ) нь ялгаварлагч бодит дүрснээс ялгаж чадахгүй өндөр нягтралтай дүрсийг үүсгэхийн тулд генераторыг сургадаг (Үүсгэн байгуулагч өрсөлдөгч сүлжээ).

Давуу талууд: хурц тод нарийн ширийн зүйлс, гайхалтай бүтэцтэй
Сул талууд: Байхгүй нарийн ширийн зүйлийг зохион бүтээж болно - заримдаа буруу, заримдаа хачин (SRGAN, ESRGAN)

GAN нь танд гайхалтай хурц тод байдлыг өгч чадна. Энэ нь таны хөрөг зураг дээрх объектод нэмэлт хөмсөг өгч чадна. Тиймээс... тулаанаа сонгоорой 😬

3) Диффузид суурилсан өргөтгөл (бүтээлч зэрлэг тэмдэгт) 🌫️➡️🖼️

Диффузийн загварууд нь алхам алхмаар чимээ шуугианыг бууруулдаг бөгөөд өндөр нягтралтай нарийвчлалтай зураг авахад чиглүүлж болно (SR3).

Давуу талууд: Ялангуяа бүтээлч ажилд үнэмшилтэй нарийн ширийн зүйлийг гайхалтай сайн хийж чаддаг
Сул талууд: Хэрэв тохиргоо түрэмгий байвал анхны шинж чанар/бүтцээсээ холдож болзошгүй (SR3)

Энэ бол "дээш өргөжүүлэх" нь "дахин төсөөлөл"-тэй холилдон эхэлдэг газар юм. Заримдаа та яг үүнийг хүсдэг. Заримдаа тийм биш байдаг.

4) Видеог цаг хугацааны тогтвортой байдалтайгаар нэмэгдүүлэх 🎞️

Видеог нэмэгдүүлэх нь ихэвчлэн хөдөлгөөний мэдрэмжтэй логикийг нэмдэг:

Дэлгэрэнгүй мэдээллийг тогтворжуулахын тулд зэргэлдээх хүрээг ашигладаг (BasicVSR (CVPR 2021))
Анивчих болон мөлхөж буй эд өлгийн зүйлсээс зайлсхийхийг хичээдэг
Ихэнхдээ хэт нягтралыг дуу чимээг бууруулах болон интерлейсингтэй хослуулдаг (Topaz Video)

Хэрэв зургийн хэмжээг нэмэгдүүлэх нь нэг зургийг сэргээхтэй адил бол видеоны хэмжээг нэмэгдүүлэх нь дүрийн хамар хуудас бүрийг өөрчлөхгүйгээр флипбукийг сэргээхтэй адил юм. Энэ нь ... сонсогдож байгаагаас ч хэцүү юм.

Хиймэл оюун ухааныг дээшлүүлэх нь яагаад заримдаа хуурамч харагддаг вэ (мөн үүнийг хэрхэн таних вэ) 👀🚩

Хиймэл оюун ухааныг дээшлүүлэх нь танигдахуйц байдлаар бүтэлгүйтдэг. Та хэв маягийг сурсны дараа тэдгээрийг хаа сайгүй харах болно, жишээ нь шинэ машин худалдаж аваад гудамж бүрээс гэнэт тэр загварыг нь анзаарах болно 😵💫

Нийтлэг хэлдэг:

арьсыг ваксаар будах (хэт их чимээ шуугиангүйжүүлэх + толигор болгох)
хэт хурц үзүүртэй гэрэлт цагираг (сонгодог "хэт том" нутаг дэвсгэр) (Бикубын интерполяци)
Давтагдсан бүтэц (тоосгон хана нь хуулбарлах-наах хэв маяг болдог)
"Алгоритм" гэж хашгирах шаржигнуур бичил контраст
Үсэг бараг үсэг болж хувирдаг текстийн алдаа (хамгийн муу төрөл)
Жижиг шинж чанарууд, ялангуяа диффузийн ажлын урсгалд бага багаар өөрчлөгддөг нарийвчилсан шилжилт ( SR3 )

Хамгийн төвөгтэй хэсэг нь: заримдаа эдгээр эд өлгийн зүйлс нэг харахад "илүү сайн" харагддаг. Таны тархи хурц тод байдалд дуртай. Гэхдээ хэсэг хугацааны дараа энэ нь ... таагүй мэдрэмж төрдөг.

Зүгээр л нэг сайн тактик бол жижигрүүлж, ердийн харах зайд байгалийн харагдаж байгаа эсэхийг шалгах явдал юм. Хэрэв зөвхөн 400% томруулалтаар сайн харагдаж байвал энэ бол ялалт биш, энэ бол хобби 😅

Хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ: математикийн толгой өвдөхгүйгээр сургалтын тал 📉🙂

Супер нягтралтай загваруудыг сургах нь ихэвчлэн дараахь зүйлийг агуулдаг

Хосолсон өгөгдлийн багцууд (бага нягтралтай оролт, өндөр нягтралтай зорилтот) (Гүн конвейцийн сүлжээг ашиглан зургийн хэт нягтралтай зураг (SRCNN))
Буруу сэргээн босголтыг шийтгэдэг алдагдлын функцууд ( SRGAN )

Ердийн алдагдлын төрлүүд:

Пикселийн алдагдал (L1/L2)
Нарийвчлалыг дэмждэг. Бага зэрэг зөөлөн үр дүн гаргаж болзошгүй.
Ойлголтын алдагдал нь яг нарийн пикселүүдээс илүү гүнзгий шинж чанаруудыг (жишээлбэл, "энэ төстэй харагдаж байна уу") харьцуулдаг ( Ойлголтын алдагдал (Жонсон нар, 2016) ).
Өрсөлдөөний алдагдал (GAN) нь
заримдаа үгчилсэн нарийвчлалын зардлаар бодит байдлыг дэмждэг (SRGAN, Үүсгэн байгуулагч Өрсөлдөөний Сүлжээ).

Байнга л таталт тэмцэл байдаг:

Үүнийг анхны хувилбарт үнэнч болго vs
Үүнийг харааны хувьд тааламжтай болго

Энэ спектрийн өөр өөр газарт өөр өөр хэрэгслүүд байдаг. Та гэр бүлийн зургуудыг сэргээж байгаа эсвэл зурагт хуудас бэлдэж байгаа эсэхээс хамааран "сайхан харагдах байдал" нь шүүх эмнэлгийн нарийвчлалаас илүү чухал байдаг тул нэгийг нь илүүд үзэж магадгүй юм.

Практик ажлын урсгалууд: зураг, хуучин сканнердсан зураг, аниме болон видео 📸🧾🎥

Зураг (хөрөг зураг, байгалийн зураг, бүтээгдэхүүний зураг)

Хамгийн сайн туршлага нь ихэвчлэн:

Эхлээд бага зэргийн чимээ шуугианыг бууруулна (шаардлагатай бол)
Консерватив орчинтой дээд зэрэглэлийн
Хэрэв бүх зүйл хэтэрхий жигд санагдвал үр тариа нэмнэ үү (тийм ээ, үнэхээр)

Үр тариа давс шиг. Хэт их нь оройн хоолыг сүйтгэдэг ч огт амт нь бага зэрэг хавтгай болдоггүй 🍟

Хуучин сканнердсан болон хэт их шахсан зургууд

Эдгээр нь илүү хэцүү, учир нь загвар нь шахалтын блокуудыг "бүтэц" гэж үзэж магадгүй юм.
Дараахыг туршаад үзээрэй:

Олдворыг зайлуулах эсвэл хаалтыг арилгах
Дараа нь дээд зэрэглэлийн
Дараа нь хөнгөн хурцлах (хэтэрхий их биш... Би мэднэ ээ, хүн бүр тэгж хэлдэг ч гэсэн)

Анимэ болон шугаман урлаг

Шугаман урлаг нь дараахь давуу талуудтай:

Цэвэр ирмэгийг хадгалдаг загварууд
Бүтэц багассан хий үзэгдэл
Анимегийн масштабыг нэмэгдүүлэх нь ихэвчлэн хэлбэрүүд нь илүү энгийн бөгөөд тогтвортой байдаг тул гайхалтай харагддаг. (Азтай.)

Видео

Видеонд нэмэлт алхамууд нэмэгдсэн:

Дуу чимээг бууруулах
Deinterlace (тодорхой эх сурвалжуудын хувьд)
Дээд зэрэглэлийн
Түр зуурын тэгшитгэх буюу тогтворжуулах (BasicVSR (CVPR 2021))
Нэгдмэл байдлыг хангахын тулд үр тариа дахин тарих сонголт

Хэрэв та түр зуурын тогтвортой байдлыг алгасвал гялалзсан нарийн ширийн зүйлийг анивчих болно. Нэг анзаарсан л бол анзаарагдахаа больж чадахгүй. Чимээгүй өрөөнд байгаа чихрах сандал шиг 😖

Таамаглалгүйгээр тохиргоог сонгох (жижигхэн луйвар хуудас) 🎛️😵💫

Энд зохистой эхлэх сэтгэлгээ байна:

Хэрэв нүүр царай хуванцар мэт харагдаж байвал
дуу чимээг багасгаж, хурцлах байдлыг багасгаж, нүүр хамгаалах загвар эсвэл горимыг туршаад үзээрэй.
Хэрэв бүтэц хэтэрхий тод харагдаж байвал
"Дэлгэрэнгүй сайжруулах" эсвэл "дэлгэрэнгүй мэдээллийг сэргээх" гулсагчийг багасгаж, дараа нь нарийн ширхэг нэмнэ үү.
Хэрэв ирмэгүүд гэрэлтэж байвал
хурцлахыг багасгаж, гэрэлт цахиурын даралтын сонголтуудыг шалгана уу.
Хэрэв зураг хэтэрхий "хиймэл оюун ухаан" харагдаж байвал
илүү консерватив ханд. Заримдаа хамгийн сайн алхам бол зүгээр л ... бага байх явдал юм.

Мөн: зүгээр л чадна гээд 8 дахин томруулж болохгүй. Цэвэрхэн 2 эсвэл 4 дахин томруулах нь ихэвчлэн хамгийн тохиромжтой цэг байдаг. Үүнээс гадна та загвар өмсөгчөөс пикселийнхээ талаар фанфик бичихийг хүсэж байна 📖😂

Ёс зүй, жинхэнэ байдал, мөн "үнэн"-ий эвгүй асуулт 🧭😬

Хиймэл оюун ухааныг дээшлүүлэх нь шугамыг бүдгэрүүлж байна:

Сэргээн босголт гэдэг нь тэнд байсан зүйлийг сэргээхийг хэлнэ
Сайжруулалт гэдэг нь байхгүй зүйлийг нэмэхийг хэлнэ

Хувийн зургуудын хувьд энэ нь ихэвчлэн зүгээр (бас сайхан) байдаг. Сэтгүүл зүй, хууль эрх зүйн нотлох баримт, эмнэлгийн дүрслэл эсвэл үнэнч байх нь чухал бусад зүйлсийн хувьд та болгоомжтой байх хэрэгтэй (OSAC/NIST: Шүүхийн дижитал зургийн менежментийн стандарт гарын авлага, Шүүхийн зургийн шинжилгээний SWGDE удирдамж).

Энгийн дүрэм:

Хэрэв эрсдэл өндөр байвал хиймэл оюун ухааныг дээшлүүлэхийг эцсийн бус, харин жишээ болгон авч үзэх хэрэгтэй.

Түүнчлэн, мэргэжлийн орчинд мэдээлэл илчлэх нь чухал юм. Хиймэл оюун ухаан хорон учраас биш, харин үзэгчид дэлгэрэнгүй мэдээллийг сэргээсэн эсвэл авсан эсэхийг мэдэх эрхтэй учраас. Энэ бол зүгээр л... хүндэтгэлтэй байдал юм.

Хаалтын тэмдэглэл болон товч тойм 🧡✅

Тэгэхээр, хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ гэдэг нь: загварууд өндөр нягтралтай нарийн ширийн зүйлс нь бага нягтралтай хэв маягтай хэрхэн холбогддогийг сурч, дараа нь дээшлүүлэх явцад итгэмээр нэмэлт пикселүүдийг урьдчилан таамагладаг ( Зургийн хэт нягтралын гүнзгий сургалт: Судалгаа ). Загварын бүлээс (CNN, GAN, тархалт, видео-цаг хугацааны) хамааран энэ таамаглал нь консерватив бөгөөд үнэнч байж болно... эсвэл зоримог, заримдаа утгагүй байж болно 😅

Товч тойм

Уламжлалт томруулах пикселийг сунгах (Бикуб интерполяци)
Хиймэл оюун ухааныг дээшлүүлэх нь сурсан хэв маягийг ашиглан дутуу байгаа нарийн ширийн зүйлийг урьдчилан таамагладаг (Deep Convolutional Networks (SRCNN) ашиглан зургийн супер нягтрал)
Зөв загвар + хязгаарлалтаас маш сайн үр дүн гардаг
Видео бичлэг дээр гэрэлт цагираг, лав хэлбэртэй царай, давтагдсан бүтэц болон анивчихыг ажиглаарай (BasicVSR (CVPR 2021))
Дээд зэрэглэл тогтоох нь ихэвчлэн төгс үнэн биш, харин "үнэхээр боломжтой сэргээн босголт" байдаг (SRGAN, ESRGAN)

Хэрэв та хүсвэл юуг сайжруулж байгаагаа (царай, хуучин зураг, видео, аниме, текст сканнердах) надад хэлээрэй, тэгвэл би "хиймэл оюун ухааны харагдах байдал"-ын нийтлэг алдаанаас зайлсхийх хандлагатай тохиргооны стратеги санал болгоё 🎯🙂

Бодит жишээ: Хуучин зах зээлийн бүтээгдэхүүний зургуудыг томруулах 📸

Хувилбар

Жижиг хуучин камерын дэлгүүрт хуучин вэбсайтаас экспортолсон 40 бүтээгдэхүүний зураг 800 пикселийн өргөнтэй байна. Эзэмшигч нь тэдгээрийг шинэ цахим худалдааны хуудсан дээр дахин ашиглахыг хүсч байгаа бөгөөд санал болгож буй зургийн хэмжээ нь 1600 пикселийн өргөнтэй байна.

Асуудал нь: ердийн хэмжээг өөрчлөх нь камерыг зөөлөн харагдуулдаг бол хиймэл оюун ухааныг эрчимтэй нэмэгдүүлэх нь резинэн бариул, серийн дугаар, линзний тэмдэглэгээг сэжигтэй хуурамч харагдуулж болзошгүй юм. Энэ нь чухал, учир нь худалдан авагчид худалдан авахаасаа өмнө эдгээр мэдээлэлд найддаг.

Зорилго нь дутуу мэдээллийг төгс "сэргээх" биш юм. Энэ нь анхны файлуудыг ашиглах боломжтой байлгахын зэрэгцээ илүү цэвэр жагсаалтын зургуудыг үүсгэх явдал юм, учир нь хиймэл оюун ухааныг нэмэгдүүлэх нь баталгаатай үнэнээс илүү үнэмшилтэй дэлгэрэнгүй мэдээллийг урьдчилан таамагладаг.

Ажлын урсгалд юу хэрэгтэй вэ

Бүтээгдэхүүний анхны зургууд, хамгийн бага шахагдсан хувилбарууд хамгийн тохиромжтой

800 пикселээс 1600 пиксел хүртэлх 2 дахин өндөр хэмжээтэй гэх мэт зорилтот гаралтын хэмжээ

Дуу чимээг бууруулах, хурцлах, эд өлгийн зүйлийг арилгах тусдаа удирдлагатай багаж эсвэл загвар

Текст, ирмэг, лого, эрэг, товчлуур, арьсан ширхэг болон тусгалыг хянах энгийн шалгах хуудас

Эх файлуудад зориулсан хавтас болон засварласан экспортуудад зориулсан тусдаа хавтас тул юу ч дарж бичихгүй

Жишээ заавар

Хиймэл оюун ухааныг дээшлүүлэгчийг туршихдаа энэ төрлийн зааврыг ашиглаарай:

Цахим худалдааны жагсаалтад оруулахын тулд энэ бүтээгдэхүүний зургийг 2 дахин томруулна уу. Объектын хэлбэр, логоны байршил, линзний тэмдэглэгээ, товчлуурын ирмэг, гадаргуугийн бүтцийг аль болох эх хувьтай нь ойр байлгаарай. Бага зэрэг шахалтын цэвэрлэгээ, бага хурцлалт ашиглан нэмэлт текст, зураас, шошго, серийн дугаар эсвэл гоёл чимэглэлийн нарийн ширийн зүйлийг зохиохоос зайлсхий. Эцсийн зураг нь бүтээгдэхүүний хуудасны хэвийн хэмжээтэй үед байгалийн харагдах ёстой бөгөөд 400% томруулах үед хиймэл хурц биш байх ёстой.

Үүнийг хэрхэн шалгах вэ

Бүрэн багцыг боловсруулахаасаа өмнө таван холимог зургаар эхэл:

Сайн гэрэлтүүлэгтэй нэг цэвэрхэн бүтээгдэхүүний зураг

Блок хэлбэртэй нэг JPEG-ээр шахсан зураг

Жижиг хэвлэсэн текст эсвэл линзний тэмдэглэгээтэй нэг зураг

Сүүдэрт чимээ шуугиантай нэг харанхуй дүрс

Гэрэл ойлгууртай металл эсвэл шилэн нэг зураг

Илүү өндөр түвшинд тохируулсны дараа үр дүн бүрийг анхныхтай нь 100% ба 200% харьцуулна. Брэндийн нэр, залгуур, эрэг, порт болон бүтэц нь тохирч байгаа эсэхийг шалгана уу. Хэрэв загвар нь "бараг үсэг" эсвэл хуурамч гадаргуугийн тэмдэг үүсгэсэн бол хурцлах эсвэл нарийн ширийн зүйлийг сэргээх тохиргоог бууруулна уу.

Үр дүн

Жишээ үр дүн: энэхүү ажлын урсгалыг ашиглахаас өмнө болон дараа таван зургийн туршилтын хугацааг үндэслэнэ.

Гараар цэвэрлэх болон хэмжээг өөрчлөхөд зураг тус бүр 9 орчим минут буюу таван зургийн хувьд 45 минут зарцуулсан.

Хиймэл оюун ухааны тусламжтайгаар хийгдсэн ажлын урсгал нь зураг тус бүрт ойролцоогоор 3 минут буюу таван зурагт 15 минут зарцуулсан.

Энэ нь таван зураг дээр ойролцоогоор 30 минут буюу 40 зурагтай багцад 4 цаг орчим хэмнэсэн гэсэн үг юм.

Чанарын шалгалтын үр дүн: 5 зургийн 4 нь эхний хяналтыг давсан. Нэг зураг нь жижиг линзний текстийг гажуудуулсан тул амжилтгүй болсон тул текстийг бага тодотголтой, сайжруулалтгүйгээр дахин боловсруулсан.

Энд үнэ цэнэтэй хэмжүүр нь зүгээр л "илүү тод харагддаг" биш, харин зохиомол нарийн ширийн зүйлгүйгээр хэдэн зураг зэрэгцүүлэн хянаж үзсэн бэ гэдэг юм

Юу буруу болж болох вэ

Энэ загвар нь тоос шороо, JPEG блок эсвэл зураасыг "жинхэнэ" бүтэц болгон хувиргаж болзошгүй.

Жижиг текст нь томруулах хүртэл итгэмээр харагдаж болох хуурамч текст болж хувирч болно.

Хэт их дуу чимээ намдаах нь резин, арьс шир эсвэл өнгөлсөн металлыг лав шиг харагдуулж болзошгүй.

Хүчтэй хурцлах нь бүтээгдэхүүний ирмэгийн эргэн тойронд гэрэлт цагираг үүсгэж болно.

Багцаар боловсруулах нь алдааг нууж чаддаг тул бүх зүйлийг экспортлохоос өмнө дээжийг хянаж үзээрэй.

Цахим худалдааны хувьд хамгийн аюулгүй дүрэм бол энгийн: эвдрэлийг нуух, нөхцөл байдлыг өөрчлөх эсвэл бүтээгдэхүүнийг байгаагаас нь шинэ харагдуулахын тулд хиймэл оюун ухааныг нэмэгдүүлэхийг хэзээ ч бүү ашиглаарай.

Практик хоол

Хиймэл оюун ухааныг сайжруулах нь ид шидийн засварын товчлуур биш, харин хяналттай дуусгах алхам гэж үзвэл хамгийн сайн үр дүнтэй байдаг. 2× тохиргоог ашиглан, худалдан авагчдын анхаардаг нарийн ширийн зүйлийг шалгаж, засварласан хувилбар нь найдвартай хэвээр байхын тулд анхны зургийг хадгал.

Бодит жишээ: Хуучин сургалтын видеог гялалзуулахгүйгээр томруулах

Хувилбар

Жижиг сургалтын компани 2014 онд 720p нягтралтайгаар 7 минутын аюулгүй байдлын үзүүлэнгийн видео бичлэг хийжээ. Агуулга нь үнэ цэнэтэй хэвээр байгаа ч бичлэг нь компанийн шинэ вэбсайт дээр, ялангуяа том зөөврийн компьютерын дэлгэц дээр сул харагдаж байна.

Тус баг дахин зураг авалт хийлгүйгээр илүү цэвэр 1080p хувилбарыг экспортлохыг хүсч байна. Эрсдэл нь хиймэл оюун ухааныг түрэмгий өргөтгөх нь нүүр царайг лав шиг харагдуулж, тэмдэг дээрх текстийг "бараг үгс" болгон хувиргаж, эсвэл хүрээнээс хүрээ рүү анивчих бүтэц үүсгэж болзошгүй юм.

Зорилго нь видеог цоо шинэ мэт харагдуулах биш. Энэ нь багшийн царай, анхааруулах шошго, гарын хөдөлгөөн, тоног төхөөрөмжийн дэлгэрэнгүй мэдээллийг анхны хувилбартай нь адил байлгахын зэрэгцээ илүү тодорхой, тогтвортой, шахалт багатай болгох явдал юм.

Ажлын урсгалд юу хэрэгтэй вэ

Боломжтой бол шахагдсан сошиал медиа татаж авах биш, харин анхны видео файл

4K руу шууд үсрэхийн оронд 720p-ээс 1080p хүртэл экспортын хэмжээг зорилтот болгох

Дуу чимээг бууруулах, хурцлах, шахалтын засварлах болон түр зуурын тогтвортой байдлын сонголттой видео сайжруулагч

Нүүр царай, хөдөлгөөн, текст болон нарийвчилсан гадаргуу бүхий богино туршилтын клип

Анивчих, гэрэлт цагираг, гажуудсан текст, нүүрний бүтэц болон хөдөлж буй ирмэгүүдийн хяналтын жагсаалт

Шаардлагатай бол харьцуулах болон тодруулах зорилгоор анхны видеоны хадгалсан хуулбар

Жишээ заавар

Бүрэн видеог боловсруулахаасаа өмнө энэ төрлийн зааврыг ашиглана уу:

Энэхүү 720p сургалтын видеог 1080p болгон сайжруул. Байгалийн хөдөлгөөн, тогтвортой ирмэг, уншигдахуйц байгаа текст, бодит арьсны бүтцийг нэн тэргүүнд тавь. Бага зэргийн шахалтын засвар болон бага хурцлалт ашиглана уу. Алга болсон текст, лого, шошго, зураас, нүүрний нарийн ширийн зүйл эсвэл тоног төхөөрөмжийн тэмдэглэгээг бүү зохио. Хүрээ хоорондын гялалзалтаас зайлсхий. Эцсийн үр дүн нь хэвийн үзэлтийн хэмжээнд илүү тод харагдах ёстой бөгөөд түр зогсоож, томруулах үед хиймэл хурц биш байх ёстой.

Үүнийг хэрхэн шалгах вэ

7 минутын файлыг бүрэн боловсруулахаасаа өмнө дараах зүйлсийг агуулсан 20 секундын дээжийг экспортлоно уу:

Багшийн ярьж байх үеийн царай

Хүрээгээр хөдөлж буй гар

Анхааруулгын шошго эсвэл жижиг хэвлэмэл текст

Даавуу, бетон, сойзтой металл эсвэл хуванцар гэх мэт бүтэцтэй гадаргуу

Камерын самбар эсвэл ямар нэгэн чичирхийлсэн хөдөлгөөн

Дээжийг хоёр удаа үзээрэй: нэг удаа хэвийн хурдаар, нэг удаа кадраар түр зогсооно. Хэвийн хурдаар анивчих, мөлхөж буй бүтэц эсвэл ирмэгийн эргэн тойронд хиймэл бус хөдөлгөөн байгааг хайна уу. Түр зогсоосон үед текст, товчлуур, хэрэгсэл болон нүүрний хэлбэрүүд тохирч байгаа эсэхийг шалгахын тулд анхны болон сайжруулсан хувилбаруудыг харьцуулна уу.

Үр дүн

Жишээ үр дүн: 20 секундын нэг туршилтын клипийн хугацааг тооцоолж, дараа нь 7 минутын видеонд ижил тохиргоог хийхэд үндэслэсэн.

Гараар хийсэн "хэмжээг өөрчлөх, хурцлах" ажлын урсгал нь экспортлох, хянах зэрэгт 35 орчим минут зарцуулсан боловч үр дүнд нь багшийн үс дээр гялалзсан байдал, аюулгүй байдлын тэмдгүүдийн эргэн тойронд гэрэлтсэн гэрэл харагдаж байв.

Хиймэл оюун ухааны тусламжтайгаар хийгдсэн ажлын урсгал нь туршилтын экспортыг оруулаад ойролцоогоор 55 минут үргэлжилсэн боловч эхний экспортод гарч болзошгүй 8 асуудлаас эцсийн экспортод гарч болзошгүй 2 жижиг асуудал болж хянан үзэх асуудлыг бууруулсан.

Эцсийн хувилбар нь хяналтын жагсаалтад байгаа 12 шалгалтаас 10-ыг нь давсан. Үлдсэн хоёр асуудал нь дэвсгэр текст дээр бага зэрэг зөөлөн байдал болон харанхуй буланд бага зэрэг чимээ шуугиан байв. Зааварлагч, тоног төхөөрөмж, аюулгүй байдлын алхамууд нь харагдахуйц тогтвортой байсан тул хоёуланг нь хүлээн зөвшөөрсөн.

Энд утга учиртай хэмжүүр нь "1080p хүрсэн" биш, харин видеоны хэдэн секунд хэвийн тоглуулах үед анхаарал сарниулах зүйлсийг харуулж байна вэ?

Юу буруу болж болох вэ

Энэ загвар нь шахалтын блокуудыг хурцалж, жинхэнэ бүтэцтэй харагдуулж магадгүй юм.

Нарийн текст илүү итгэлтэй харагдаж болох ч нарийвчлал багатай байж болно.

Хэрэв шуугиан хэт өндөр байвал нүүрэн тал хэтэрхий гөлгөр болж магадгүй.

Хэрэв хэрэгсэл хүрээ бүрийг хэт бие даан боловсруулбал хөдөлж буй ирмэгүүд гялалзаж болно.

4K экспорт нь хязгаарлагдмал 1080p экспортоос муу харагдаж магадгүй, учир нь загвар нь хэт их нарийн ширийн зүйлийг зохион бүтээх шаардлагатай болдог.

Хамгийн том алдаа бол зөвхөн түр зогссон кадрыг дүгнэх явдал юм. Видеог өргөжүүлэх нь зүгээр л хөдөлгөөнгүй зураг шиг гайхалтай биш, харин хөдөлгөөнтэй үед байгалийн харагдах ёстой.

Практик хоол

Видео бичлэгийн хувьд хиймэл оюун ухааныг дээшлүүлэх нь богино хэсгийг эхлээд туршиж, дээд түвшинг дунд зэрэг байлгаж, хурц тод байдлыг нь тогтоохоос өмнө хөдөлгөөнийг үнэлэхэд хамгийн сайн ажилладаг. Арай зөөлөн боловч тогтвортой үр дүн нь хэн нэгэн хөдлөх бүрт анивчих тод хувилбараас илүү сайн байдаг.

Түгээмэл асуултууд

Хиймэл оюун ухааныг дээшлүүлэх болон энэ нь хэрхэн ажилладаг вэ

Хиймэл оюун ухааныг дээшлүүлэх (ихэвчлэн "супер нягтрал" гэж нэрлэдэг) нь сургалтын явцад сурсан хэв маягаас өндөр нягтралтай нарийн ширийн зүйлийг дутуу байгааг урьдчилан таамаглах замаар зургийн нягтралыг нэмэгдүүлдэг. Загвар нь бикуб интерполяци гэх мэт пикселийг зүгээр л сунгахын оронд ирмэг, бүтэц, царай, тексттэй төстэй зураасыг судалж, дараа нь сурсан хэв маягтай уялдаатай шинэ пикселийн өгөгдлийг үүсгэдэг. Энэ нь "бодит байдлыг сэргээх"-ээс илүү байгалийн мэт сонсогддог "итгэмжтэй таамаглал дэвшүүлэх" явдал юм.

Хиймэл оюун ухааныг дээшлүүлэх болон хоёр куб метрийн хэмжээтэй болгох нь

Уламжлалт дээш өргөлтийн аргууд (бикубик гэх мэт) нь голчлон одоо байгаа пикселүүдийн хооронд интерполяци хийж, жинхэнэ шинэ нарийн ширийн зүйлийг үүсгэхгүйгээр шилжилтийг жигд болгодог. Хиймэл оюун ухааны дээш өргөлтийн зорилго нь харааны дохиог таньж, эдгээр дохионы өндөр нягтралтай хувилбарууд ямар харагдахыг урьдчилан таамаглах замаар боломжит бүтцийг сэргээн босгох явдал юм. Тийм ч учраас хиймэл оюун ухааны үр дүн илүү тод мэдрэгдэж, мөн эх сурвалжид байхгүй байсан эд өлгийн зүйлсийг нэвтрүүлэх эсвэл нарийн ширийн зүйлийг "зохион бүтээх" боломжтой юм.

Яагаад нүүр лав шиг эсвэл хэт гөлгөр харагдаж болох вэ

Лавтай нүүр нь ихэвчлэн дуу чимээг багасгах, толигор болгох, арьсны байгалийн бүтцийг арилгадаг хурцлахтай хослуулан үүсдэг. Олон хэрэгсэл дуу чимээ болон нарийн бүтэцтэй ижил төстэй байдлаар харьцдаг тул зургийг "цэвэрлэх" нь нүх сүв болон нарийн ширийн зүйлийг арилгаж чадна. Нийтлэг арга бол дуу чимээг бууруулах, хурцлахыг багасгах, боломжтой бол нүүрийг хамгаалах горимыг ашиглах, дараа нь үр дүн нь хуванцар биш, гэрэл зураг шиг мэдрэгдэхийн тулд бага зэрэг үрчлээг дахин оруулах явдал юм.

Анхаарах ёстой нийтлэг хиймэл оюун ухааныг дээшлүүлэх олдворууд

Ердийн шинж чанаруудад ирмэгийн эргэн тойрон дахь гэрэлт цагираг, давтагдсан бүтэцтэй хээ (хуулбарлах-буулгах тоосго гэх мэт), шаржигнуур бичил контраст, "бараг үсэг" болж хувирдаг текст орно. Диффузийн үндсэн дээр хийгдсэн ажлын урсгалд жижиг шинж чанарууд бага зэрэг өөрчлөгдөж буй нарийн ширийн зүйлсийн хэлбэлзлийг харж болно. Видеоны хувьд анивчих болон хүрээн дээрх дэлгэрэнгүй мэдээлэл мөлхөх нь том улаан туг юм. Хэрэв энэ нь зөвхөн хэт томруулах үед сайн харагдаж байвал тохиргоо нь хэтэрхий түрэмгий байх магадлалтай.

GAN, CNN болон диффузийн сайжруулагч төхөөрөмжүүдийн үр дүн хэрхэн ялгаатай байдаг вэ?

CNN дээр суурилсан супер нягтрал нь илүү тогтвортой, илүү урьдчилан таамаглах боломжтой байх хандлагатай байдаг ч хүчтэй түлхвэл "боловсруулсан" харагдаж болно. GAN дээр суурилсан сонголтууд (ESRGAN хэв маяг) нь ихэвчлэн илүү хурц бүтэцтэй, хурц тод байдлыг бий болгодог боловч тэдгээр нь буруу нарийн ширийн зүйлийг, ялангуяа нүүрэн дээр хий үзэгдэл мэт санагдаж болно. Диффузид суурилсан өргөтгөл нь үзэсгэлэнтэй, үнэмшилтэй нарийн ширийн зүйлийг бий болгож чаддаг боловч чиглүүлэгч эсвэл хүчний тохиргоо хэт хүчтэй байвал анхны бүтцээс хазайж болзошгүй.

"Хэт хиймэл оюун ухаан" харагдахаас зайлсхийх практик тохиргооны стратеги

Хэт их хүчин зүйлд хүрэхээсээ өмнө 2 эсвэл 4 дахин өндөр нягтралтайгаар эхэл. Хэрэв нүүр царай нь хуванцар мэт харагдаж байвал дуу чимээг багасгах болон хурцлах горимыг багасгаж, нүүр царайг мэдрэх горимыг туршаад үзээрэй. Хэрэв бүтэц нь хэт хүчтэй болвол нарийвчлалын сайжруулалтыг багасгаж, дараа нь нарийн ширхэг нэмэх талаар бодож үзээрэй. Хэрэв ирмэгүүд нь гэрэлтсэн бол хурцлахыг багасгаж, гэрэлт цагираг эсвэл эд өлгийн даралтыг шалгана уу. Олон хувилбарт "бага" нь ялдаг, учир нь энэ нь итгэмээр бодит байдлыг хадгалдаг.

Томруулахаас өмнө хуучин сканнердсан эсвэл JPEG-ээр шахагдсан зургуудыг боловсруулах

Шахагдсан зургууд нь төвөгтэй байдаг, учир нь загварууд нь блокийн эд өлгийн зүйлсийг жинхэнэ бүтэц гэж үзэж, тэдгээрийг томруулж чаддаг. Нийтлэг ажлын урсгал нь эхлээд эд өлгийн зүйлсийг арилгах эсвэл блокоос гаргах, дараа нь масштабыг нэмэгдүүлэх, дараа нь шаардлагатай бол зөвхөн гэрлийн хурц байдлыг нэмэгдүүлэх явдал юм. Сканнердахын тулд зөөлөн цэвэрлэгээ нь загварыг гэмтлээс илүү бодит бүтэц дээр төвлөрүүлэхэд тусалдаг. Зорилго нь "хуурамч бүтэцтэй дохио"-г багасгах явдал юм, ингэснээр масштабыг нэмэгдүүлэх төхөөрөмж нь чимээ шуугиантай оролтоос итгэлтэй таамаглал гаргахаас өөр аргагүй болно.

Видеоны хэмжээг нэмэгдүүлэх нь яагаад зургийн хэмжээг нэмэгдүүлэхээс илүү хэцүү байдаг вэ

Видеоны масштабжуулалт нь зөвхөн нэг хөдөлгөөнгүй зураг дээр сайн биш, харин кадр бүрт тогтвортой байх ёстой. Хэрэв кадр хоорондын дэлгэрэнгүй мэдээлэл анивчих юм бол үр дүн нь хурдан сатаардаг. Видеонд чиглэсэн аргууд нь сэргээн босголтыг тогтворжуулж, гялалзсан гажуудлаас зайлсхийхийн тулд хөрш зэргэлдээ кадруудаас авсан түр зуурын мэдээллийг ашигладаг. Олон ажлын урсгалд дуу чимээг бууруулах, тодорхой эх үүсвэрийн хувьд деинтерлейс, нэмэлт үр тарианы дахин нэвтрүүлэх зэрэг орно, ингэснээр бүхэл бүтэн дараалал нь хиймэл хурц биш харин нэгдмэл мэдрэмж төрүүлдэг.

Хиймэл оюун ухааныг нэмэгдүүлэх нь тохиромжгүй эсвэл найдах эрсдэлтэй үед

Хиймэл оюун ухааныг дээшлүүлэхийг нотолгоо биш, харин сайжруулалт гэж үзэх нь хамгийн сайн арга юм. Сэтгүүл зүй, хууль эрх зүйн нотлох баримт, эмнэлгийн дүрслэл, шүүх эмнэлгийн ажил гэх мэт өндөр эрсдэлтэй нөхцөлд "итгэмээр" пиксел үүсгэх нь аваагүй дэлгэрэнгүй мэдээллийг нэмж оруулж болзошгүй тул төөрөгдүүлж болзошгүй юм. Илүү аюулгүй хүрээг жишээ болгон ашиглаж, хиймэл оюун ухааны үйл явц нь нарийн ширийн зүйлийг сэргээн босгосон гэдгийг илчлэх явдал юм. Хэрэв үнэн зөв байдал чухал бол эх хувийг хадгалж, боловсруулалтын алхам бүр болон тохиргоог баримтжуулна уу.

Лавлагаа

arXiv - Зургийн супер нягтралын гүнзгий сургалт: Судалгаа - arxiv.org
arXiv - Гүн Convolutional Networks (SRCNN) ашиглан зургийн хэт нягтралтай байдал - arxiv.org
arXiv - Real-ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
NVIDIA Хөгжүүлэгч - NVIDIA DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
Компьютерийн харааны сан (CVF) Нээлттэй хандалт - BasicVSR: Видеоны супер нягтралын чухал бүрэлдэхүүн хэсгүүдийн хайлт (CVPR 2021) - openaccess.thecvf.com
arXiv - Үүсгэн байгуулагч өрсөлдөгч сүлжээнүүд - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - Ойлголтын алдагдал (Жонсон нар, 2016) - arxiv.org
GitHub - Real-ESRGAN репозитор (плита сонголтууд) - github.com
Википедиа - Бикубик интерполяци - wikipedia.org
Топаз Лаборатори - Топазын зураг - topazlabs.com
Топаз Лабораториуд - Топаз Видео - topazlabs.com
Adobe Тусламжийн Төв - Adobe Enhance > Супер нягтрал - helpx.adobe.com
NIST / OSAC - Шүүхийн шинжилгээний дижитал дүрслэлийн менежментийн стандарт гарын авлага (1.0 хувилбар) - nist.gov
SWGDE - Шүүхийн шинжилгээний дүрсний шинжилгээний удирдамж - swgde.org

Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах

Нэмэлт Түгээмэл Асуултууд

Хиймэл оюун ухааныг дээшлүүлэх нь уламжлалт хэмжээг өөрчлөх аргуудаас юугаараа ялгаатай вэ?

Хиймэл оюун ухааныг дээшлүүлэх нь зургийн одоо байгаа хэв маягаас өндөр нягтралтай нарийн ширийн зүйлс дутуу байгааг урьдчилан таамагладаг бөгөөд энэ нь бикуб интерполяци гэх мэт уламжлалт аргууд шиг пикселийг сунгахаас илүүтэй юм. Энэ нь илүү тод, илүү нарийвчилсан зургийг бий болгодог.
Хиймэл оюун ухааныг дээшлүүлэх үед би юуг анхаарах ёстой вэ?

Нийтлэг олдворуудад ирмэгийн эргэн тойрон дахь гэрэлт цагираг, давтагдсан бүтэцтэй хээ, хэт гөлгөр эсвэл лав шиг хэлбэртэй нүүр, "бараг үсэг" болж хувирдаг текст орно. Байгалийн харагдах үр дүнг баталгаажуулахын тулд эдгээр асуудлыг хянах нь чухал юм.
Яагаад царайг томруулсны дараа заримдаа хэтэрхий гөлгөр эсвэл бодит бус харагддаг вэ?

Нүх сүв гэх мэт бүтцийг арилгаж болзошгүй хүчтэй дуу чимээг бууруулах болон хурцлах аргаас болж нүүр хэтэрхий толигор харагдаж болно. Илүү байгалийн харагдуулахын тулд дуу чимээг бууруулах болон хурцлах тохиргоог багасгах талаар бодож үзээрэй.
Хиймэл оюун ухааныг нэмэгдүүлсний дараа зургууд маань шаржигнуур эсвэл хэт их чимээтэй харагдаж байвал би яах ёстой вэ?

Хэрэв таны зургууд шаржигнуур харагдаж байвал шуугиан бууруулах болон нарийвчлал сайжруулах гулсагчийг тохируулж үзээрэй. Нарийн ширхэг нэмэх нь гэрэл зургийн мэдрэмжийг сэргээхэд тусалж магадгүй юм.
GAN болон CNN загварууд нь хиймэл оюун ухааныг дээшлүүлэх үр дүнг хэрхэн харьцуулдаг вэ?

CNN загварууд нь ерөнхийдөө тогтвортой бөгөөд урьдчилан таамаглах боломжтой байдаг бол GAN загварууд нь илүү тодорхой мэдээллийг өгдөг боловч бодит бус элементүүдийг оруулах эрсдэлтэй байдаг. Тэдгээрийн хооронд сонголт хийх нь таны бодит байдал эсвэл сайжруулсан бүтэцтэй байх хэрэгцээнээс хамаарна.
Видео контентод хиймэл оюун ухааныг нэмэгдүүлэх нь тохиромжтой юу, мөн энэ нь ямар бэрхшээл учруулж байна вэ?

Тийм ээ, хиймэл оюун ухааныг нэмэгдүүлэх нь видео бичлэгт тохиромжтой боловч кадр хоорондын тогтвортой байдал чухал тул энэ нь хэцүү байж болно. Анивчих эсвэл гялалзсан нарийн ширийн зүйлс нь үзэгчдийн анхаарлыг сарниулж болзошгүй тул видео бичлэгт чиглэсэн тусгай аргуудыг ашиглахыг зөвлөж байна.
Хиймэл оюун ухааныг сайжруулахад хэзээ найдах нь зохисгүй вэ?

Хиймэл оюун ухааныг дээшлүүлэх аргыг сэтгүүл зүй эсвэл шүүх эмнэлгийн шинжилгээ гэх мэт өндөр эрсдэлтэй нөхцөл байдалд болгоомжтой ашиглах хэрэгтэй бөгөөд нарийвчлал чухал байдаг. Үүнийг эцсийн нотолгоо гэхээсээ илүү сайжруулалт гэж үзэх нь зүйтэй бөгөөд хиймэл оюун ухааны үйл явцын талаарх ил тод байдал чухал юм.
Хэт их шахагдсан зургуудыг томруулахдаа юуг анхаарах ёстой вэ?

Хэт их шахагдсан зургуудын хувьд хүсээгүй бөглөрөлийг багасгахын тулд эд өлгийн зүйлсийг арилгахаас эхэл. Үүний дараа та шаардлагатай бол хэмжээг нь нэмэгдүүлж, шахалтын эд өлгийн зүйлсийг нэмэгдүүлэхгүйгээр нарийвчлалыг хадгалахын тулд хөнгөн тодотгол хийж болно.