Хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ?

Хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ?

Товчхондоо: Хиймэл оюун ухааныг дээшлүүлэх нь загварыг бага болон өндөр нягтралтай хосолсон зургууд дээр сургаж, дараа нь дээшлүүлэх явцад итгэмээр нэмэлт пикселүүдийг урьдчилан таамаглахад ашиглах замаар ажилладаг. Хэрэв загвар нь сургалтын явцад ижил төстэй бүтэц эсвэл царай харсан бол энэ нь үнэмшилтэй дэлгэрэнгүй мэдээлэл нэмж болно; хэрэв үгүй ​​бол энэ нь видеон дээр гэрэлт цагираг, лав арьс эсвэл анивчих зэрэг эд өлгийн зүйлсийг "хий үзэгдэл" болгож болзошгүй.

Гол дүгнэлтүүд:

Таамаглал : Загвар нь бодит байдлын баталгаатай сэргээн босголт биш харин үнэмшилтэй нарийн ширийн зүйлийг бий болгодог.

Загварын сонголт : CNN нь илүү тогтвортой байх хандлагатай байдаг; GAN нь илүү хурц харагдаж болох ч функцуудыг зохион бүтээх эрсдэлтэй.

Эд өлгийн зүйлсийг шалгах : Зураасан гэрэл, давтагдсан бүтэц, "бараг үсэг" болон хуванцар хэлбэртэй нүүр царайг ажиглаарай.

Видеоны тогтвортой байдал : Түр зуурын аргуудыг ашиглаарай, эс тэгвээс кадр бүр гялалзаж, хазайж байгааг харах болно.

Өндөр эрсдэлтэй хэрэглээ : Хэрэв нарийвчлал чухал бол боловсруулалтыг илчилж, үр дүнг жишээ болгон авч үзнэ үү.

Хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ? Инфографик.

Та үүнийг харсан байх: жижигхэн, шаржигнуур зураг нь хэвлэх, дамжуулах эсвэл илтгэл рүү оруулахад хангалттай тод зүйл болж хувирдаг бөгөөд энэ нь хуурч байгаа мэт санагддаг. Хамгийн сайн аргаар бол энэ нь 😅

Тиймээс, хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ гэдэг нь "компьютер нь нарийн ширийн зүйлийг сайжруулдаг" (гараар долгионтой) гэхээс илүү тодорхой зүйлд тулгуурладаг бөгөөд "загвар нь олон жишээнээс сурсан хэв маяг дээрээ үндэслэн үнэмшилтэй өндөр нягтралтай бүтцийг урьдчилан таамагладаг" ( Зургийн супер нягтралын гүнзгий сургалт: Судалгаа )-тай илүү ойр байдаг. Энэхүү таамаглалын алхам бол бүхэл бүтэн тоглоом бөгөөд ийм учраас хиймэл оюун ухааныг дээшлүүлэх нь гайхалтай харагдаж болно... эсвэл бага зэрэг хуванцар... эсвэл муурны чинь нэмэлт сахал шиг өссөн мэт.

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 Хиймэл оюун ухаан хэрхэн ажилладаг вэ
Хиймэл оюун ухаан дахь загвар, өгөгдөл болон дүгнэлтийн үндсийг сур.

🔗 Хиймэл оюун ухаан хэрхэн суралцдаг вэ
Сургалтын өгөгдөл болон санал хүсэлт нь загварын гүйцэтгэлийг цаг хугацааны явцад хэрхэн сайжруулж байгааг хараарай.

🔗 Хиймэл оюун ухаан гажигийг хэрхэн илрүүлдэг вэ
Хэв маягийн суурь үзүүлэлтүүд болон хиймэл оюун ухаан ер бусын зан авирыг хэрхэн хурдан тэмдэглэж байгааг ойлгох.

🔗 Хиймэл оюун ухаан чиг хандлагыг хэрхэн урьдчилан таамагладаг вэ
Дохиог илрүүлж, ирээдүйн эрэлтийг урьдчилан таамаглах урьдчилсан мэдээний аргуудыг судал.


Хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ: гол санаа, өдөр тутмын үгээр 🧩

Илүү томруулах гэдэг нь нягтралыг нэмэгдүүлэх гэсэн үг: илүү олон пиксел, том зураг. Уламжлалт илүү томруулах (бикубик интерполяци гэх мэт) нь үндсэндээ пикселийг сунгаж, шилжилтийг жигд болгодог ( бикубик интерполяци шинэ зохион бүтээж чадахгүй - зүгээр л интерполяци хийдэг.

Хиймэл оюун ухааныг дээшлүүлэх нь илүү зоримог зүйлийг (судалгааны ертөнцөд "супер нягтрал" гэж нэрлэдэг) туршиж байна ( Зургийн супер нягтралын гүнзгий сургалт: Судалгаа ):

  • Энэ нь бага нягтралтай оролтыг хардаг

  • Хээг таньдаг (ирмэг, бүтэц, нүүрний хэлбэр, текстийн зураас, даавууны нэхмэл гэх мэт)

  • Өндөр нягтралтай хувилбар ямар харагдахыг байна

  • Эдгээр хэв маягт тохирсон нэмэлт пикселийн өгөгдлийг үүсгэдэг

"Бодит байдлыг төгс сэргээх" биш, харин "маш үнэмшилтэй таамаглал дэвшүүлэх" гэх мэт ( Deep Convolutional Networks Using Image Super-Resolution (SRCNN) ). Хэрэв энэ нь бага зэрэг сэжигтэй сонсогдож байвал та буруу биш - гэхдээ энэ нь бас сайн ажилладаг шалтгаан юм 😄

Тийм ээ, энэ нь хиймэл оюун ухааныг нэмэгдүүлэх нь үндсэндээ хяналттай хий үзэгдэл гэсэн үг ... гэхдээ үр бүтээлтэй, пикселийг хүндэтгэсэн байдлаар.


Хиймэл оюун ухааныг дээшлүүлэх сайн хувилбарыг юу бүрдүүлдэг вэ? ✅🛠️

Хэрэв та хиймэл оюун ухааныг (эсвэл тохиргооны урьдчилсан тохиргоог) дүгнэж байгаа бол хамгийн чухал зүйл энд байна:

  • Хэт шарахгүйгээр нарийн ширийн зүйлийг сэргээх
    Сайн өргөтгөл нь шаржигнуур чимээ эсвэл хуурамч нүх сүвийг биш, харин шаржигнуур байдал, бүтэцийг нэмэгдүүлдэг.

  • Ирмэгийн сахилга бат
    Цэвэр шугамууд цэвэрхэн хэвээр байна. Муу загварууд нь ирмэгийг гуйвуулж эсвэл гэрэлтдэг.

  • Бүтцийн реализм
    Үс нь бийрний зураас болж болохгүй, тоосго нь давтагдсан хээ шиг тамга болж болохгүй.

  • Дуу чимээ болон шахалтын зохицуулалт
    Өдөр тутмын ихэнх зургууд JPEG форматаар үхдэг. Сайн өргөтгөгч нь уг хохирлыг нэмэгдүүлдэггүй ( Real-ESRGAN ).

  • Нүүр царай болон текстийн мэдрэмж
    Нүүр царай болон текст бол алдааг олж харах хамгийн хялбар газар юм. Сайн загвар өмсөгчид алдааг зөөлөн харьцдаг (эсвэл тусгай горимтой байдаг).

  • Кадруудын хоорондын тогтвортой байдал (видео бичлэгийн хувьд)
    Хэрэв кадраас кадр хүртэлх нарийвчлал анивчих юм бол таны нүд хашгирах болно. Видеог сайжруулах нь цаг хугацааны тогтвортой байдлаар амьдардаг эсвэл үхдэг ( BasicVSR (CVPR 2021) ).

  • Ухаалаг удирдлага.
    Та бодит үр дүнд хүрэх гулсагчийг хүсэж байна: дуу чимээг бууруулах, бүдгэрүүлэх, эд өлгийн зүйлсийг арилгах, үр тариаг хадгалах, хурцлах гэх мэт практик зүйлс.

Нэг чимээгүй дүрэм хүчин төгөлдөр хэвээр байна: "хамгийн сайн" сайжруулалт нь таны бараг анзаардаггүй сайжруулалт байдаг. Зүгээр л та анхнаасаа илүү сайн камертай байсан юм шиг харагдаж байна 📷✨


Харьцуулсан хүснэгт: алдартай хиймэл оюун ухааныг дээшлүүлэх сонголтууд (мөн тэдгээр нь юунд тохиромжтой вэ) 📊🙂

Доор практик харьцуулалт байна. Үнэ нь зориудаар тодорхойгүй байгаа, учир нь хэрэгслүүд нь лиценз, багц, тооцооллын зардал болон бусад хөгжилтэй зүйлсээс хамааран өөр өөр байдаг.

Хэрэгсэл / Хандлага Хамгийн сайн нь Үнийн уур амьсгал Энэ яагаад ажилладаг вэ (ойролцоогоор)
Топаз маягийн ширээний компьютерын өргөтгөгч ( Топазын зураг , Топазын видео ) Зураг, видео, хялбар ажлын урсгал Төлбөртэй Хүчтэй ерөнхий загварууд + олон тохируулгатай, "зүгээр л ажиллах" хандлагатай байдаг... ихэвчлэн
Adobe-ийн “Super Resolution” төрлийн онцлогууд ( Adobe Enhance > Super Resolution ) Гэрэл зурагчид аль хэдийн тэр экосистемд байна Захиалгын дугаар Нарийн нягт сэргээн засварлалт, ихэвчлэн консерватив (бага драматик)
Бодит-ESRGAN / ESRGAN хувилбарууд ( Бодит-ESRGAN , ESRGAN ) Өөрөө хийх, хөгжүүлэгчид, багцаар хийх ажлууд Үнэгүй (гэхдээ цаг хугацаа их шаарддаг) Бүтцийн нарийн ширийн зүйлд маш сайн, болгоомжтой байхгүй бол нүүрэнд халуун ногоотой харагдуулж болзошгүй
Диффузид суурилсан өргөтгөх горимууд ( SR3 ) Бүтээлч ажил, хэв маягийн үр дүн Холимог Гайхалтай нарийн ширийн зүйлийг бүтээж чадна - мөн утгагүй зүйлийг зохиож ч чадна, тийм ээ... тийм ээ
Тоглоомын сайжруулагч (DLSS/FSR маягийн) ( NVIDIA DLSS , AMD FSR 2 ) Бодит цагийн тоглоом болон дүрслэл Багцалсан Хөдөлгөөний өгөгдөл болон сурсан урьдчилсан тооцоог ашигладаг - жигд гүйцэтгэлтэй ялалт 🕹️
Үүлэн технологийн өргөтгөлийн үйлчилгээ Тохиромжтой байдал, хурдан ялалтууд Төлбөртэй хэрэглээ Хурдан + өргөтгөх боломжтой, гэхдээ та хяналтаа сольж, заримдаа нарийн мэдрэмжийг ашигладаг
Видео төвлөрсөн хиймэл оюун ухааны өргөтгөгч ( BasicVSR , Topaz Video ) Хуучин бичлэг, анимэ, архив Төлбөртэй Анивчихыг багасгах түр зуурын аргууд + тусгай видео загварууд
"Ухаалаг" утас/галерейг өргөжүүлэх Энгийн хэрэглээ Багцлагдсан Төгс төгөлдөр биш, харин тааламжтай гаралтад тохируулсан хөнгөн загварууд (хэрэгтэй хэвээрээ)

Хачин хүлээн зөвшөөрөлтийг форматлах нь: “Paid-ish” нь тэр хүснэгтэд маш их ажил хийж байна. Гэхдээ та ойлгож байна уу 😅


Том нууц: загвар өмсөгчид бага нягтралаас өндөр нягтрал руу зураг зурах аргыг сурдаг 🧠➡️🖼️

Ихэнх хиймэл оюун ухааныг дээшлүүлэх үйл явцын гол цөм нь хяналттай сургалтын тохиргоо юм ( Deep Convolutional Networks Using Image Super-Resolution (SRCNN) ):

  1. Өндөр нягтралтай зургуудаас эхэл ("үнэн")

  2. Тэдгээрийг бага нягтралтай хувилбарууд ("оролт") руу буулгах

  3. Бага нягтралтайгаас анхны өндөр нягтралыг дахин бүтээх загварыг сургах

Цаг хугацаа өнгөрөхөд загвар нь дараахь корреляцийг сурдаг

  • "Нүдний эргэн тойрон дахь энэ төрлийн бүдгэрэлт нь ихэвчлэн сормуустай холбоотой байдаг"

  • "Энэ пикселийн кластер нь ихэвчлэн serif текстийг заадаг"

  • "Энэ ирмэгийн градиент нь санамсаргүй чимээ биш дээврийн шугам шиг харагдаж байна"

Энэ нь тодорхой зургийг цээжлэх биш (энгийн утгаараа), статистик бүтцийг сурах явдал юм ( Deep Learning for Image Super-resolution: A Survey ). Үүнийг бүтэц болон ирмэгийн дүрмийг сурахтай адил гэж бодоорой. Яруу найргийн дүрэм биш, харин ... IKEA гарын авлагын дүрэм 🪑📦 (болхи зүйрлэл боловч хангалттай ойрхон).


Боолт ба боолт: дүгнэлт хийх үед юу болдог вэ (дээшлэх үед) ⚙️✨

Та хиймэл оюун ухааны өргөтгөгч рүү зураг оруулах үед ихэвчлэн иймэрхүү дамжуулах хоолой байдаг:

  • Урьдчилан боловсруулалт

  • Онцлог шинж чанарыг гаргаж авах

    • Эрт үеийн давхаргууд нь ирмэг, булан, градиентийг илрүүлдэг

    • Илүү гүн давхаргууд нь хэв маягийг илрүүлдэг: бүтэц, хэлбэр, нүүрний бүрэлдэхүүн хэсгүүд

  • Сэргээн босголт

    • Энэ загвар нь илүү өндөр нягтралтай функцын газрын зургийг үүсгэдэг

    • Дараа нь үүнийг бодит пикселийн гаралт болгон хувиргадаг

  • Дараах боловсруулалт

    • Заавал биш ирлэх

    • Нэмэлт дуу чимээг бууруулах

    • Нэмэлт олдворыг дарах (дуугаралт, гэрэлт цагираг, бөглөрөл)

Нэг нарийн ширийн зүйл: олон багаж нь хавтанцарыг өндөр түвшинд хийж, дараа нь оёдлыг нь холино. Маш сайн багаж нь хавтангийн хил хязгаарыг нуудаг. Хэрэв та нүдээ онийлговол маш сайн багаж нь бүдэг торон тэмдэг үлдээдэг. Тийм ээ, та нүдээ онийлгох болно, учир нь хүмүүс жижигхэн гремлин шиг 300% томруулалтаар жижиг төгс бус байдлыг шалгах дуртай байдаг 🧌


Хиймэл оюун ухааныг дээшлүүлэхэд ашигласан гол загвар гэр бүлүүд (мөн яагаад тэд өөр санагддаг вэ) 🤖📚

1) CNN дээр суурилсан супер нягтралтай (сонгодог ажлын морь)

Эргэлт мэдрэлийн сүлжээ нь орон нутгийн хэв маягт маш сайн: ирмэг, бүтэц, жижиг бүтэц ( Deep Convolutional Networks Using Image Super-Resolution (SRCNN) ).

  • Давуу талууд: хурдан, тогтвортой, гэнэтийн зүйл цөөн

  • Сул талууд: Хүчтэй түлхвэл бага зэрэг "боловсруулсан" харагдаж болно

2) GAN дээр суурилсан өргөтгөл (ESRGAN маягийн) 🎭

GAN (Үүсгэн байгуулагч өрсөлдөгч сүлжээ) нь ялгаварлагч бодит дүрснээс ялгаж чадахгүй өндөр нягтралтай дүрсийг үүсгэхийн тулд генераторыг сургадаг ( Үүсгэн байгуулагч өрсөлдөгч сүлжээ ).

  • Давуу талууд: хурц тод нарийн ширийн зүйлс, гайхалтай бүтэцтэй

  • Сул талууд: Байхгүй нарийн ширийн зүйлийг зохион бүтээж болно - заримдаа буруу, заримдаа хачин ( SRGAN , ESRGAN )

GAN нь танд гайхалтай хурц тод байдлыг өгч чадна. Энэ нь таны хөрөг зураг дээрх объектод нэмэлт хөмсөг өгч чадна. Тиймээс... тулаанаа сонгоорой 😬

3) Диффузид суурилсан өргөтгөл (бүтээлч зэрлэг тэмдэгт) 🌫️➡️🖼️

Диффузийн загварууд нь алхам алхмаар чимээ шуугианыг бууруулдаг бөгөөд өндөр нягтралтай нарийвчлалтай зураг авахад чиглүүлж болно ( SR3 ).

  • Давуу талууд: Ялангуяа бүтээлч ажилд үнэмшилтэй нарийн ширийн зүйлийг гайхалтай сайн хийж чаддаг

  • Сул талууд: Хэрэв тохиргоо түрэмгий байвал анхны шинж чанар/бүтцээсээ холдож болзошгүй ( SR3 )

Энэ бол "дээш өргөжүүлэх" нь "дахин төсөөлөл"-тэй холилдон эхэлдэг газар юм. Заримдаа та яг үүнийг хүсдэг. Заримдаа тийм биш байдаг.

4) Видеог цаг хугацааны тогтвортой байдалтайгаар нэмэгдүүлэх 🎞️

Видеог нэмэгдүүлэх нь ихэвчлэн хөдөлгөөний мэдрэмжтэй логикийг нэмдэг:

  • Дэлгэрэнгүй мэдээллийг тогтворжуулахын тулд зэргэлдээх хүрээг ашигладаг ( BasicVSR (CVPR 2021) )

  • Анивчих болон мөлхөж буй эд өлгийн зүйлсээс зайлсхийхийг хичээдэг

  • Ихэнхдээ хэт нягтралыг дуу чимээг бууруулах болон интерлейсингтэй хослуулдаг ( Topaz Video )

Хэрэв зургийн хэмжээг нэмэгдүүлэх нь нэг зургийг сэргээхтэй адил бол видеоны хэмжээг нэмэгдүүлэх нь дүрийн хамар хуудас бүрийг өөрчлөхгүйгээр флипбукийг сэргээхтэй адил юм. Энэ нь ... сонсогдож байгаагаас ч хэцүү юм.


Хиймэл оюун ухааныг дээшлүүлэх нь яагаад заримдаа хуурамч харагддаг вэ (мөн үүнийг хэрхэн таних вэ) 👀🚩

Хиймэл оюун ухааныг дээшлүүлэх нь танигдахуйц байдлаар бүтэлгүйтдэг. Та хэв маягийг сурсны дараа тэдгээрийг хаа сайгүй харах болно, жишээ нь шинэ машин худалдаж аваад гудамж бүрээс гэнэт тэр загварыг нь анзаарах болно 😵💫

Нийтлэг хэлдэг:

  • арьсыг ваксаар будах (хэт их чимээ шуугиангүйжүүлэх + толигор болгох)

  • хэт хурц үзүүртэй гэрэлт цагираг (сонгодог "хэт том" нутаг дэвсгэр) ( Бикубын интерполяци )

  • Давтагдсан бүтэц (тоосгон хана нь хуулбарлах-наах хэв маяг болдог)

  • "Алгоритм" гэж хашгирах шаржигнуур бичил контраст

  • Үсэг бараг үсэг болж хувирдаг текстийн алдаа

  • Жижиг шинж чанарууд, ялангуяа диффузийн ажлын урсгалд бага багаар өөрчлөгддөг нарийвчилсан шилжилт SR3 )

Хамгийн төвөгтэй хэсэг нь: заримдаа эдгээр эд өлгийн зүйлс нэг харахад "илүү сайн" харагддаг. Таны тархи хурц тод байдалд дуртай. Гэхдээ хэсэг хугацааны дараа энэ нь ... таагүй мэдрэмж төрдөг.

Зүгээр л нэг сайн тактик бол жижигрүүлж, ердийн харах зайд байгалийн харагдаж байгаа эсэхийг шалгах явдал юм. Хэрэв зөвхөн 400% томруулалтаар сайн харагдаж байвал энэ бол ялалт биш, энэ бол хобби 😅


Хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ: математикийн толгой өвдөхгүйгээр сургалтын тал 📉🙂

Супер нягтралтай загваруудыг сургах нь ихэвчлэн дараахь зүйлийг агуулдаг

Ердийн алдагдлын төрлүүд:

Байнга л таталт тэмцэл байдаг:

  • Үүнийг анхны хувилбарт
    үнэнч vs

  • харааны хувьд тааламжтай болго

Энэ спектрийн өөр өөр газарт өөр өөр хэрэгслүүд байдаг. Та гэр бүлийн зургуудыг сэргээж байгаа эсвэл зурагт хуудас бэлдэж байгаа эсэхээс хамааран "сайхан харагдах байдал" нь шүүх эмнэлгийн нарийвчлалаас илүү чухал байдаг тул нэгийг нь илүүд үзэж магадгүй юм.


Практик ажлын урсгалууд: зураг, хуучин сканнердсан зураг, аниме болон видео 📸🧾🎥

Зураг (хөрөг зураг, байгалийн зураг, бүтээгдэхүүний зураг)

Хамгийн сайн туршлага нь ихэвчлэн:

  • Эхлээд бага зэргийн чимээ шуугианыг бууруулна (шаардлагатай бол)

  • Консерватив орчинтой дээд зэрэглэлийн

  • Хэрэв бүх зүйл хэтэрхий жигд санагдвал үр тариа нэмнэ үү (тийм ээ, үнэхээр)

Үр тариа давс шиг. Хэт их нь оройн хоолыг сүйтгэдэг ч огт амт нь бага зэрэг хавтгай болдоггүй 🍟

Хуучин сканнердсан болон хэт их шахсан зургууд

Эдгээр нь илүү хэцүү, учир нь загвар нь шахалтын блокуудыг "бүтэц" гэж үзэж магадгүй юм.
Дараахыг туршаад үзээрэй:

  • Олдворыг зайлуулах эсвэл хаалтыг арилгах

  • Дараа нь дээд зэрэглэлийн

  • Дараа нь хөнгөн хурцлах (хэтэрхий их биш... Би мэднэ ээ, хүн бүр тэгж хэлдэг ч гэсэн)

Анимэ болон шугаман урлаг

Шугаман урлаг нь дараахь давуу талуудтай:

  • Цэвэр ирмэгийг хадгалдаг загварууд

  • Бүтэц багассан хий үзэгдэл
    Анимегийн масштабыг нэмэгдүүлэх нь ихэвчлэн хэлбэрүүд нь илүү энгийн бөгөөд тогтвортой байдаг тул гайхалтай харагддаг. (Азтай.)

Видео

Видеонд нэмэлт алхамууд нэмэгдсэн:

  • Дуу чимээг бууруулах

  • Deinterlace (тодорхой эх сурвалжуудын хувьд)

  • Дээд зэрэглэлийн

  • Түр зуурын тэгшитгэх буюу тогтворжуулах ( BasicVSR (CVPR 2021) )

  • Нэгдмэл байдлыг хангахын тулд үр тариа дахин тарих сонголт

Хэрэв та түр зуурын тогтвортой байдлыг алгасвал гялалзсан нарийн ширийн зүйлийг анивчих болно. Нэг анзаарсан л бол анзаарагдахаа больж чадахгүй. Чимээгүй өрөөнд байгаа чихрах сандал шиг 😖


Таамаглалгүйгээр тохиргоог сонгох (жижигхэн луйвар хуудас) 🎛️😵💫

Энд зохистой эхлэх сэтгэлгээ байна:

  • Хэрэв нүүр царай хуванцар мэт харагдаж байвал
    дуу чимээг багасгаж, хурцлах байдлыг багасгаж, нүүр хамгаалах загвар эсвэл горимыг туршаад үзээрэй.

  • Хэрэв бүтэц хэтэрхий тод харагдаж байвал
    "Дэлгэрэнгүй сайжруулах" эсвэл "дэлгэрэнгүй мэдээллийг сэргээх" гулсагчийг багасгаж, дараа нь нарийн ширхэг нэмнэ үү.

  • Хэрэв ирмэгүүд гэрэлтэж байвал
    хурцлахыг багасгаж, гэрэлт цахиурын даралтын сонголтуудыг шалгана уу.

  • Хэрэв зураг хэтэрхий "хиймэл оюун ухаан" харагдаж байвал
    илүү консерватив ханд. Заримдаа хамгийн сайн алхам бол зүгээр л ... бага байх явдал юм.

Мөн: зүгээр л чадна гээд 8 дахин томруулж болохгүй. Цэвэрхэн 2 эсвэл 4 дахин томруулах нь ихэвчлэн хамгийн тохиромжтой цэг байдаг. Үүнээс гадна та загвар өмсөгчөөс пикселийнхээ талаар фанфик бичихийг хүсэж байна 📖😂


Ёс зүй, жинхэнэ байдал, мөн "үнэн"-ий эвгүй асуулт 🧭😬

Хиймэл оюун ухааныг дээшлүүлэх нь шугамыг бүдгэрүүлж байна:

  • Сэргээн босголт гэдэг нь тэнд байсан зүйлийг сэргээхийг хэлнэ

  • Сайжруулалт гэдэг нь байхгүй зүйлийг нэмэхийг хэлнэ

Хувийн зургуудын хувьд энэ нь ихэвчлэн зүгээр (бас сайхан) байдаг. Сэтгүүл зүй, хууль эрх зүйн нотлох баримт, эмнэлгийн дүрслэл эсвэл үнэнч байх нь чухал бусад зүйлсийн хувьд та болгоомжтой байх хэрэгтэй ( OSAC/NIST: Шүүхийн дижитал зургийн менежментийн стандарт гарын авлага , Шүүхийн зургийн шинжилгээний SWGDE удирдамж ).

Энгийн дүрэм:

  • Хэрэв эрсдэл өндөр байвал хиймэл оюун ухааныг дээшлүүлэхийг эцсийн бус, харин жишээ болгон авч үзэх хэрэгтэй .

Түүнчлэн, мэргэжлийн орчинд мэдээлэл илчлэх нь чухал юм. Хиймэл оюун ухаан хорон учраас биш, харин үзэгчид дэлгэрэнгүй мэдээллийг сэргээсэн эсвэл авсан эсэхийг мэдэх эрхтэй учраас. Энэ бол зүгээр л... хүндэтгэлтэй байдал юм.


Хаалтын тэмдэглэл болон товч тойм 🧡✅

Тэгэхээр, хиймэл оюун ухааныг дээшлүүлэх нь хэрхэн ажилладаг вэ гэдэг нь: загварууд өндөр нягтралтай нарийн ширийн зүйлс нь бага нягтралтай хэв маягтай хэрхэн холбогддогийг сурч, дараа нь дээшлүүлэх явцад итгэмээр нэмэлт пикселүүдийг урьдчилан таамагладаг ( Зургийн хэт нягтралын гүнзгий сургалт: Судалгаа ). Загварын бүлээс (CNN, GAN, тархалт, видео-цаг хугацааны) хамааран энэ таамаглал нь консерватив бөгөөд үнэнч байж болно... эсвэл зоримог, заримдаа утгагүй байж болно 😅

Товч тойм

  • Уламжлалт томруулах пикселийг сунгах ( Бикуб интерполяци )

  • Хиймэл оюун ухааныг дээшлүүлэх нь сурсан хэв маягийг ашиглан дутуу байгаа нарийн ширийн зүйлийг урьдчилан таамагладаг ( Deep Convolutional Networks (SRCNN) ашиглан зургийн супер нягтрал )

  • Зөв загвар + хязгаарлалтаас маш сайн үр дүн гардаг

  • Видео бичлэг дээр гэрэлт цагираг, лав хэлбэртэй царай, давтагдсан бүтэц болон анивчихыг ажиглаарай ( BasicVSR (CVPR 2021) )

  • Дээд зэрэглэл тогтоох нь ихэвчлэн төгс үнэн биш, харин "үнэхээр боломжтой сэргээн босголт" байдаг ( SRGAN , ESRGAN )

Хэрэв та хүсвэл юуг сайжруулж байгаагаа (царай, хуучин зураг, видео, аниме, текст сканнердах) надад хэлээрэй, тэгвэл би "хиймэл оюун ухааны харагдах байдал"-ын нийтлэг алдаанаас зайлсхийх хандлагатай тохиргооны стратеги санал болгоё 🎯🙂


Түгээмэл асуултууд

Хиймэл оюун ухааныг дээшлүүлэх болон энэ нь хэрхэн ажилладаг вэ

Хиймэл оюун ухааныг дээшлүүлэх (ихэвчлэн "супер нягтрал" гэж нэрлэдэг) нь сургалтын явцад сурсан хэв маягаас өндөр нягтралтай нарийн ширийн зүйлийг дутуу байгааг урьдчилан таамаглах замаар зургийн нягтралыг нэмэгдүүлдэг. Загвар нь бикуб интерполяци гэх мэт пикселийг зүгээр л сунгахын оронд ирмэг, бүтэц, царай, тексттэй төстэй зураасыг судалж, дараа нь сурсан хэв маягтай уялдаатай шинэ пикселийн өгөгдлийг үүсгэдэг. Энэ нь "бодит байдлыг сэргээх"-ээс илүү байгалийн мэт сонсогддог "итгэмжтэй таамаглал дэвшүүлэх" явдал юм.

Хиймэл оюун ухааныг дээшлүүлэх болон хоёр куб метрийн хэмжээтэй болгох нь

Уламжлалт дээш өргөлтийн аргууд (бикубик гэх мэт) нь голчлон одоо байгаа пикселүүдийн хооронд интерполяци хийж, жинхэнэ шинэ нарийн ширийн зүйлийг үүсгэхгүйгээр шилжилтийг жигд болгодог. Хиймэл оюун ухааны дээш өргөлтийн зорилго нь харааны дохиог таньж, эдгээр дохионы өндөр нягтралтай хувилбарууд ямар харагдахыг урьдчилан таамаглах замаар боломжит бүтцийг сэргээн босгох явдал юм. Тийм ч учраас хиймэл оюун ухааны үр дүн илүү тод мэдрэгдэж, мөн эх сурвалжид байхгүй байсан эд өлгийн зүйлсийг нэвтрүүлэх эсвэл нарийн ширийн зүйлийг "зохион бүтээх" боломжтой юм.

Яагаад нүүр лав шиг эсвэл хэт гөлгөр харагдаж болох вэ

Лавтай нүүр нь ихэвчлэн дуу чимээг багасгах, толигор болгох, арьсны байгалийн бүтцийг арилгадаг хурцлахтай хослуулан үүсдэг. Олон хэрэгсэл дуу чимээ болон нарийн бүтэцтэй ижил төстэй байдлаар харьцдаг тул зургийг "цэвэрлэх" нь нүх сүв болон нарийн ширийн зүйлийг арилгаж чадна. Нийтлэг арга бол дуу чимээг бууруулах, хурцлахыг багасгах, боломжтой бол нүүрийг хамгаалах горимыг ашиглах, дараа нь үр дүн нь хуванцар биш, гэрэл зураг шиг мэдрэгдэхийн тулд бага зэрэг үрчлээг дахин оруулах явдал юм.

Анхаарах ёстой нийтлэг хиймэл оюун ухааныг дээшлүүлэх олдворууд

Ердийн шинж чанаруудад ирмэгийн эргэн тойрон дахь гэрэлт цагираг, давтагдсан бүтэцтэй хээ (хуулбарлах-буулгах тоосго гэх мэт), шаржигнуур бичил контраст, "бараг үсэг" болж хувирдаг текст орно. Диффузийн үндсэн дээр хийгдсэн ажлын урсгалд жижиг шинж чанарууд бага зэрэг өөрчлөгдөж буй нарийн ширийн зүйлсийн хэлбэлзлийг харж болно. Видеоны хувьд анивчих болон хүрээн дээрх дэлгэрэнгүй мэдээлэл мөлхөх нь том улаан туг юм. Хэрэв энэ нь зөвхөн хэт томруулах үед сайн харагдаж байвал тохиргоо нь хэтэрхий түрэмгий байх магадлалтай.

GAN, CNN болон диффузийн сайжруулагч төхөөрөмжүүдийн үр дүн хэрхэн ялгаатай байдаг вэ?

CNN дээр суурилсан супер нягтрал нь илүү тогтвортой, илүү урьдчилан таамаглах боломжтой байх хандлагатай байдаг ч хүчтэй түлхвэл "боловсруулсан" харагдаж болно. GAN дээр суурилсан сонголтууд (ESRGAN хэв маяг) нь ихэвчлэн илүү хурц бүтэцтэй, хурц тод байдлыг бий болгодог боловч тэдгээр нь буруу нарийн ширийн зүйлийг, ялангуяа нүүрэн дээр хий үзэгдэл мэт санагдаж болно. Диффузид суурилсан өргөтгөл нь үзэсгэлэнтэй, үнэмшилтэй нарийн ширийн зүйлийг бий болгож чаддаг боловч чиглүүлэгч эсвэл хүчний тохиргоо хэт хүчтэй байвал анхны бүтцээс хазайж болзошгүй.

"Хэт хиймэл оюун ухаан" харагдахаас зайлсхийх практик тохиргооны стратеги

Хэт их хүчин зүйлд хүрэхээсээ өмнө 2 эсвэл 4 дахин өндөр нягтралтайгаар эхэл. Хэрэв нүүр царай нь хуванцар мэт харагдаж байвал дуу чимээг багасгах болон хурцлах горимыг багасгаж, нүүр царайг мэдрэх горимыг туршаад үзээрэй. Хэрэв бүтэц нь хэт хүчтэй болвол нарийвчлалын сайжруулалтыг багасгаж, дараа нь нарийн ширхэг нэмэх талаар бодож үзээрэй. Хэрэв ирмэгүүд нь гэрэлтсэн бол хурцлахыг багасгаж, гэрэлт цагираг эсвэл эд өлгийн даралтыг шалгана уу. Олон хувилбарт "бага" нь ялдаг, учир нь энэ нь итгэмээр бодит байдлыг хадгалдаг.

Томруулахаас өмнө хуучин сканнердсан эсвэл JPEG-ээр шахагдсан зургуудыг боловсруулах

Шахагдсан зургууд нь төвөгтэй байдаг, учир нь загварууд нь блокийн эд өлгийн зүйлсийг жинхэнэ бүтэц гэж үзэж, тэдгээрийг томруулж чаддаг. Нийтлэг ажлын урсгал нь эхлээд эд өлгийн зүйлсийг арилгах эсвэл блокоос гаргах, дараа нь масштабыг нэмэгдүүлэх, дараа нь шаардлагатай бол зөвхөн гэрлийн хурц байдлыг нэмэгдүүлэх явдал юм. Сканнердахын тулд зөөлөн цэвэрлэгээ нь загварыг гэмтлээс илүү бодит бүтэц дээр төвлөрүүлэхэд тусалдаг. Зорилго нь "хуурамч бүтэцтэй дохио"-г багасгах явдал юм, ингэснээр масштабыг нэмэгдүүлэх төхөөрөмж нь чимээ шуугиантай оролтоос итгэлтэй таамаглал гаргахаас өөр аргагүй болно.

Видеоны хэмжээг нэмэгдүүлэх нь яагаад зургийн хэмжээг нэмэгдүүлэхээс илүү хэцүү байдаг вэ

Видеоны масштабжуулалт нь зөвхөн нэг хөдөлгөөнгүй зураг дээр сайн биш, харин кадр бүрт тогтвортой байх ёстой. Хэрэв кадр хоорондын дэлгэрэнгүй мэдээлэл анивчих юм бол үр дүн нь хурдан сатаардаг. Видеонд чиглэсэн аргууд нь сэргээн босголтыг тогтворжуулж, гялалзсан гажуудлаас зайлсхийхийн тулд хөрш зэргэлдээ кадруудаас авсан түр зуурын мэдээллийг ашигладаг. Олон ажлын урсгалд дуу чимээг бууруулах, тодорхой эх үүсвэрийн хувьд деинтерлейс, нэмэлт үр тарианы дахин нэвтрүүлэх зэрэг орно, ингэснээр бүхэл бүтэн дараалал нь хиймэл хурц биш харин нэгдмэл мэдрэмж төрүүлдэг.

Хиймэл оюун ухааныг нэмэгдүүлэх нь тохиромжгүй эсвэл найдах эрсдэлтэй үед

Хиймэл оюун ухааныг дээшлүүлэхийг нотолгоо биш, харин сайжруулалт гэж үзэх нь хамгийн сайн арга юм. Сэтгүүл зүй, хууль эрх зүйн нотлох баримт, эмнэлгийн дүрслэл, шүүх эмнэлгийн ажил гэх мэт өндөр эрсдэлтэй нөхцөлд "итгэмээр" пиксел үүсгэх нь аваагүй дэлгэрэнгүй мэдээллийг нэмж оруулж болзошгүй тул төөрөгдүүлж болзошгүй юм. Илүү аюулгүй хүрээг жишээ болгон ашиглаж, хиймэл оюун ухааны үйл явц нь нарийн ширийн зүйлийг сэргээн босгосон гэдгийг илчлэх явдал юм. Хэрэв үнэн зөв байдал чухал бол эх хувийг хадгалж, боловсруулалтын алхам бүр болон тохиргоог баримтжуулна уу.

Лавлагаа

  1. arXiv - Зургийн супер нягтралын гүнзгий сургалт: Судалгаа - arxiv.org

  2. arXiv - Гүн Convolutional Networks (SRCNN) ашиглан зургийн хэт нягтралтай байдал - arxiv.org

  3. arXiv - Real-ESRGAN - arxiv.org

  4. arXiv - ESRGAN - arxiv.org

  5. arXiv - SR3 - arxiv.org

  6. NVIDIA Хөгжүүлэгч - NVIDIA DLSS - developer.nvidia.com

  7. AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com

  8. Компьютерийн харааны сан (CVF) Нээлттэй хандалт - BasicVSR: Видеоны супер нягтралын чухал бүрэлдэхүүн хэсгүүдийн хайлт (CVPR 2021) - openaccess.thecvf.com

  9. arXiv - Үүсгэн байгуулагч өрсөлдөгч сүлжээнүүд - arxiv.org

  10. arXiv - SRGAN - arxiv.org

  11. arXiv - Ойлголтын алдагдал (Жонсон нар, 2016) - arxiv.org

  12. GitHub - Real-ESRGAN репозитор (плита сонголтууд) - github.com

  13. Википедиа - Бикубик интерполяци - wikipedia.org

  14. Топаз Лаборатори - Топазын зураг - topazlabs.com

  15. Топаз Лабораториуд - Топаз Видео - topazlabs.com

  16. Adobe Тусламжийн Төв - Adobe Enhance > Супер нягтрал - helpx.adobe.com

  17. NIST / OSAC - Шүүхийн шинжилгээний дижитал дүрслэлийн менежментийн стандарт гарын авлага (1.0 хувилбар) - nist.gov

  18. SWGDE - Шүүхийн шинжилгээний дүрсний шинжилгээний удирдамж - swgde.org

Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах