Qısa cavab: Süni intellekt səviyyəsinin artırılması modeli aşağı və yüksək qətnaməli şəkillər üzərində məşq etdirməklə, sonra isə miqyaslandırma zamanı inandırıcı əlavə pikselləri proqnozlaşdırmaq üçün istifadə etməklə işləyir. Əgər model təlimdə oxşar teksturalar və ya üzlər görübsə, inandırıcı detallar əlavə edə bilər; əks halda, halo, mumlu dəri və ya videoda titrəmə kimi artefaktları "hallüsinasiya edə" bilər.
Əsas nəticələr:
Proqnoz: Model reallığın zəmanətli yenidən qurulması deyil, ağlabatan detallar yaradır.
Model seçimi: CNN-lər daha sabit olmağa meyllidir; GAN-lar daha kəskin görünə bilər, lakin xüsusiyyətlər icad etmək riski daşıyır.
Artefakt yoxlamaları: Halolara, təkrarlanan teksturalara, "demək olar ki, hərflərə" və plastik üzlərə diqqət yetirin.
Video sabitliyi: Zaman metodlarından istifadə edin, əks halda kadrdan kadr parıltısı və sürüşmə görəcəksiniz.
Yüksək riskli istifadə: Dəqiqlik vacibdirsə, emalı açıqlayın və nəticələri illüstrativ kimi qəbul edin.

Yəqin ki, görmüsünüz: kiçik, xırtıldayan bir şəkil çap etmək, yayımlamaq və ya təqdimata qatmaq üçün kifayət qədər aydın bir şeyə çevrilir, heç bir narahatlıq keçirmədən. Bu, fırıldaqçılıq kimi hiss olunur. Və - ən yaxşı şəkildə - bu, bir növ belədir 😅
Beləliklə, Süni İntellekt (Sİ)-in necə işlədiyi, "kompüter detalları artırır" (əl dalğası) və "model bir çox nümunədən öyrəndiyi nümunələrə əsaslanaraq mümkün yüksək qətnaməli strukturu proqnozlaşdırır" (Şəkil Super qətnaməsi üçün Dərin Öyrənmə: Sorğu) anlayışından daha spesifik bir şeyə əsaslanır. Bu proqnozlaşdırma addımı bütün oyunu təşkil edir - və süni intellekt (Sİ)-in artırılmasının təəccüblü görünməsinin səbəbi də budur... və ya bir az plastik... və ya pişiyinizin böyüdüyü bonus bığlar kimi.
Bundan sonra oxumaq istəyə biləcəyiniz məqalələr:
🔗 Süni intellekt necə işləyir
Süni intellektdə modellərin, məlumatların və nəticəçıxarmanın əsaslarını öyrənin.
🔗 Süni intellekt necə öyrənir
Təlim məlumatlarının və rəylərin zamanla model performansını necə yaxşılaşdırdığına baxın.
🔗 Süni intellekt anomaliyaları necə aşkarlayır
Əsas modelləri və süni intellektdən qeyri-adi davranışları necə tez bir zamanda işarələdiyini anlayın.
🔗 AI tendensiyaları necə proqnozlaşdırır
Siqnalları aşkar edən və gələcək tələbi təxmin edən proqnozlaşdırma metodlarını araşdırın.
Süni intellekt (AI)-ın genişləndirilməsi necə işləyir: əsas ideya, gündəlik sözlərlə 🧩
Miqyaslandırma qətnamənin artırılması deməkdir: daha çox piksel, daha böyük şəkil. Ənənəvi miqyaslandırma (bikubik interpolasiyası kimi) əsasən pikselləri uzadır və keçidləri hamarlaşdırır ( bikubik interpolasiyası ). Bu normaldır, amma yeni detallar icad edə bilməz - sadəcə interpolasiya edir.
Süni intellekt səviyyəsinin yüksəldilməsi daha cəsarətli bir şey sınayır (tədqiqat dünyasında "super qətnamə" də adlanır) (Təsvir Super qətnaməsi üçün Dərin Öyrənmə: Sorğu):
-
Aşağı qətnaməli girişə baxır
-
Naxışları (kənarları, teksturaları, üz cizgilərini, mətn cizgilərini, parça toxunuşunu...) tanıyır
-
Daha yüksək keyfiyyətli versiyanın necə görünəcəyini proqnozlaşdırır
-
Həmin nümunələrə uyğun əlavə piksel məlumatları yaradır
"Reallığı mükəmməl şəkildə bərpa etmək" yox, daha çox "çox inandırıcı bir təxmin etmək" kimidir (Dərin Konvolyusiya Şəbəkələrindən İstifadə Edərək Şəkil Super Çözünürlüyü (SRCNN)). Əgər bu, bir az şübhəli səslənirsə, yanılmırsınız - amma həm də bunun bu qədər yaxşı işləməsinin səbəbi budur 😄
Bəli, bu o deməkdir ki, süni intellekt səviyyəsinin artırılması əsasən nəzarət altında olan halüsinasiyadır... amma məhsuldar, pikselə hörmətlə yanaşan şəkildə.
Süni intellekt səviyyəsinin yüksəldilməsinin yaxşı bir versiyasını nə təşkil edir? ✅🛠️
Əgər süni intellekt səviyyəsini (və ya əvvəlcədən qurulmuş parametrləri) qiymətləndirirsinizsə, ən çox nəyin vacib olduğunu bilməlisiniz:
-
Həddindən artıq bişirmədən detalların bərpası
Yaxşı miqyaslandırma xırtıldayan səs-küy və ya saxta məsamələr deyil, xırtıldayanlıq və quruluş əlavə edir. -
Kənarların nizam-intizamı
Təmiz xətlər təmiz qalır. Pis modellər kənarları yellədir və ya halqalar əmələ gətirir. -
Tekstura realizmi
Saç fırça zərbəsinə, kərpic isə təkrarlanan naxış möhürünə çevrilməməlidir. -
Səs-küy və sıxılmanın idarə olunması
Gündəlik şəkillərin çoxu JPEG formatında silinir. Yaxşı bir miqyaslı görüntüləmə cihazı bu ziyanı artırmır (Real-ESRGAN). -
Üz və mətn fərqindəliyi
Səhvləri aşkar etməyin ən asan yolları üzlər və mətndir. Yaxşı modellər onlara yumşaq yanaşırlar (və ya xüsusi rejimlərə malikdirlər). -
Kadrlar arasında ardıcıllıq (video üçün)
Əgər detallar kadrdan kadra titrəyirsə, gözləriniz qışqıracaq. Videonun miqyasının artırılması zaman sabitliyi ilə yaşayır və ya ölür (BasicVSR (CVPR 2021)). -
Məntiqli idarəetmələr.
Siz real nəticələrə uyğun sürgülər istəyirsiniz: səs-küyün azaldılması, bulanıqlığın aradan qaldırılması, artefaktın təmizlənməsi, dənəciklərin saxlanması, itiləmə... praktik şeylər.
Sakit bir qayda qüvvədədir: "ən yaxşı" yüksəltmə çox vaxt çətinliklə fərqinə vardığınızdır. Sadəcə, görünür, əvvəlcə daha yaxşı kameranız var idi 📷✨
Müqayisə Cədvəli: məşhur süni intellekt miqyaslandırma seçimləri (və onların nə üçün yaxşı olduğu) 📊🙂
Aşağıda praktik bir müqayisə verilmişdir. Qiymətlər qəsdən qeyri-müəyyəndir, çünki alətlər lisenziyaya, paketlərə, hesablama xərclərinə və bütün bu kimi əyləncəli şeylərə görə dəyişir.
| Alət / Yanaşma | Ən yaxşısı | Qiymət abu-havası | Niyə işləyir (təxminən) |
|---|---|---|---|
| Topaz stilində masaüstü genişləndiricilər (Topaz Photo, Topaz Video) | Şəkillər, video, asan iş prosesi | Ödənişli | Güclü ümumi modellər + çoxlu tənzimləmə, əsasən "sadəcə işləməyə" meyllidir.. |
| Adobe “Super Resolution” tipli xüsusiyyətlər (Adobe Enhance > Super Resolution) | Fotoqraflar artıq həmin ekosistemdədirlər | Abunəlik-y | Bütöv detalların yenidən qurulması, adətən mühafizəkar (daha az dramatik) |
| Real-ESRGAN / ESRGAN variantları (Real-ESRGAN, ESRGAN) | Özünüz edin, tərtibatçılar, toplu işlər | Pulsuz (amma vaxt baxımından baha başa gəlir) | Tekstura detallarında əladır, diqqətli olmasanız, üzdə ədviyyatlı ola bilər |
| Diffuziya əsaslı yüksəltmə rejimləri (SR3) | Yaradıcı iş, stilizə edilmiş nəticələr | Qarışıq | Möhtəşəm detallar yarada bilər - həmçinin cəfəngiyat da uydura bilər, ona görə də... bəli |
| Oyun təkmilləşdiriciləri (DLSS/FSR üslubunda) (NVIDIA DLSS, AMD FSR 2) | Real vaxt rejimində oyun və render | Paketlənmiş | Hərəkət məlumatlarından və öyrənilmiş ilkin dəyərlərdən istifadə edir - hamar performans qazanır 🕹️ |
| Bulud genişləndirmə xidmətləri | Rahatlıq, sürətli qələbələr | Ödənişli istifadə | Sürətli + miqyaslana bilən, lakin nəzarəti və bəzən incəliyi mübadilə edirsiniz |
| Videoya yönəlmiş süni intellekt (BasicVSR, Topaz Video) | Köhnə görüntülər, anime, arxivlər | Ödənişli | Titrəməni azaltmaq üçün müvəqqəti tövsiyələr + ixtisaslaşmış video modellər |
| "Ağıllı" telefon/qalereya genişləndirilməsi | Təsadüfi istifadə | Daxildir | Mükəmməllik üçün deyil, xoş nəticə üçün tənzimlənən yüngül modellər (hələ də əlverişlidir) |
Formatlaşdırma qəribə etirafı: “Pullu” bu cədvəldə çox iş görür. Amma başa düşdünüz 😅
Böyük sirr: modellər aşağı keyfiyyətlidən yüksək keyfiyyətliyə xəritələşdirməni öyrənirlər 🧠➡️🖼️
Əksər süni intellekt yüksəltmələrinin mərkəzində nəzarətli öyrənmə quruluşu dayanır (Dərin Konvolyusiya Şəbəkələrindən İstifadə Edərək Şəkil Super Çözünürlüyü (SRCNN)):
-
Yüksək qətnaməli şəkillərlə başlayın ("həqiqət")
-
Onları aşağı qətnaməli versiyalara ("giriş") endirin
-
Aşağı keyfiyyətli orijinal yüksək keyfiyyətli görüntünü yenidən qurmaq üçün bir modeli öyrədin
Zamanla model aşağıdakı kimi korrelyasiyaları öyrənir:
-
"Göz ətrafındakı bu cür bulanıqlıq adətən kirpiklərə aiddir"
-
"Bu piksel klasteri tez-tez serif mətni göstərir"
-
"Bu kənar qradiyent təsadüfi səs-küy deyil, dam xəttinə bənzəyir"
Bu, konkret şəkilləri əzbərləmək deyil (sadə mənada), statistik strukturu öyrənməkdir (Şəkil Super-resolution üçün Dərin Öyrənmə: Sorğu). Bunu teksturaların və kənarların qrammatikasını öyrənmək kimi düşünün. Şeir qrammatikası yox, daha çox... IKEA əl qrammatikası 🪑📦 (yöndəmsiz metafora, lakin kifayət qədər yaxın).
Qayka və boltlar: nəticə çıxarma zamanı nə baş verir (yuxarı səviyyəyə çatanda) ⚙️✨
Süni intellekt (AI) cihazına bir şəkil əlavə etdikdə, adətən belə bir boru kəməri olur:
-
Əvvəlcədən emal
-
Rəng məkanını çevirin (bəzən)
-
Piksel dəyərlərini normallaşdırın
-
Şəkli böyükdürsə, hissələrə bölün (VRAM reallıq yoxlaması 😭) (Real-ESRGAN repo (kafel seçimləri))
-
-
Xüsusiyyət çıxarışı
-
Erkən təbəqələr kənarları, küncləri və qradiyentləri aşkar edir
-
Daha dərin təbəqələr naxışları aşkar edir: teksturalar, formalar, üz komponentləri
-
-
Yenidənqurma
-
Model daha yüksək qətnaməli xüsusiyyət xəritəsi yaradır
-
Sonra bunu faktiki piksel çıxışına çevirir
-
-
Sonradan emal
-
İsteğe bağlı itiləmə
-
Könüllü səs-küyün azaldılması
-
Artefaktın basdırılması (zəng, halo, bloklanma)
-
Bir incə detal: bir çox alətlər plitələri yüksək səviyyəyə qaldırır, sonra tikişləri qarışdırır. Əla alətlər plitə sərhədlərini gizlədir. Çox yaxşı alətlər gözlərinizi qıysanız, zəif şəbəkə izləri buraxır. Bəli, gözlərinizi qıyacaqsınız, çünki insanlar kiçik qremlinlər kimi kiçik qüsurları 300% zumla yoxlamağı sevirlər 🧌
Süni intellekt səviyyəsinin yüksəldilməsi üçün istifadə edilən əsas model ailələri (və niyə fərqli hiss etdikləri) 🤖📚
1) CNN əsaslı super qətnamə (klassik iş atı)
Konvolyusiya neyron şəbəkələri lokal naxışlarda əladır: kənarlar, teksturalar, kiçik strukturlar (Dərin Konvolyusiya Şəbəkələrindən İstifadə Edərək Təsvir Super Çözünürlüyü (SRCNN)).
-
Müsbət cəhətləri: sürətli, sabit, daha az sürpriz
-
Mənfi cəhətləri: sərt şəkildə basıldıqda bir az "işlənmiş" görünə bilər
2) GAN əsaslı yüksəltmə (ESRGAN üslubunda) 🎭
GAN-lar (Generativ Rəqib Şəbəkələri) generatoru diskriminatorun real görüntülərdən ayırd edə bilmədiyi yüksək keyfiyyətli görüntülər yaratmaq üçün öyrədir (Generativ Rəqib Şəbəkələri).
-
Müsbət cəhətləri: təsirli tekstura, iti detallar
-
Mənfi cəhətləri: Olmayan detalları uydura bilər - bəzən səhv, bəzən qəribə (SRGAN, ESRGAN)
GAN sizə heyrətamiz kəskinlik verə bilər. Həmçinin portret mövzunuza əlavə qaş verə bilər. Beləliklə... döyüşlərinizi seçin 😬
3) Diffuziya əsaslı yüksəltmə (yaradıcı vəhşi kart) 🌫️➡️🖼️
Diffuziya modelləri addım-addım səs-küyü azaldır və yüksək keyfiyyətli detallar yaratmaq üçün idarə oluna bilər (SR3).
-
Müsbət cəhətləri: xüsusilə yaradıcı iş üçün ağlabatan detallarda inanılmaz dərəcədə yaxşı ola bilər
-
Mənfi cəhətləri: parametrlər aqressivdirsə, orijinal kimlikdən/strukturdan uzaqlaşa bilər (SR3)
Məhz burada "yüksək miqyaslama" "yenidən təsəvvür etmə" ilə qarışmağa başlayır. Bəzən məhz bunu istəyirsiniz, bəzən isə yox.
4) Zaman ardıcıllığı ilə videonun miqyasının artırılması 🎞️
Videonun miqyaslandırılması tez-tez hərəkətə həssas məntiq əlavə edir:
-
Detalları sabitləşdirmək üçün qonşu çərçivələrdən istifadə edir (BasicVSR (CVPR 2021))
-
Sürünən və titrəyən artefaktlardan qaçmağa çalışır
-
Tez-tez super qətnaməni səs-küyün azaldılması və deinterlacing ilə birləşdirir (Topaz Video)
Əgər şəklin miqyasının artırılması bir rəsmi bərpa etmək kimidirsə, videonun miqyasının artırılması personajın burnunun hər səhifədə formasını dəyişməsinə səbəb olmadan flipbuku bərpa etmək kimidir. Bu... səsləndiyindən daha çətindir.
Niyə süni intellekt səviyyəsinin yüksəldilməsi bəzən saxta görünür (və onu necə müəyyən etmək olar) 👀🚩
Süni intellekt səviyyəsinin yüksəldilməsi tanınan şəkildə uğursuz olur. Nümunələri öyrəndikdən sonra onları hər yerdə görəcəksiniz, məsələn, yeni bir maşın alıb birdən hər küçədə həmin modeli görəcəksən 😵💫
Ümumi deyir:
-
Üzlərdəki mumlu dəri (həddindən artıq səs-küy azaltmaq + hamarlamaq)
-
həddindən artıq itilənmiş halolar (klassik "həddindən artıq" ərazi) (Bikubik interpolasiya)
-
Təkrarlanan teksturalar (kərpic divarları surət-yapışdırma naxışlarına çevrilir)
-
"Alqoritm" deyə qışqıran xırtıldayan mikrokontrast
-
Hərflərin demək olar ki, hərflərə çevrildiyi mətn qarışıqlığı (ən pis növ)
-
Xüsusilə diffuziya iş axınlarında kiçik xüsusiyyətlərin incə şəkildə dəyişdiyi detal sürüşməsi ( SR3 )
Çətin hissə: bəzən bu artefaktlar ilk baxışdan "daha yaxşı" görünür. Beyniniz kəskinliyi sevir. Amma bir andan sonra hiss olunur ki... səhvdir.
Yaxşı bir taktika, normal baxış məsafəsində təbii görünüb-görünmədiyini yoxlamaqdır. Əgər yalnız 400% böyütmədə yaxşı görünürsə, bu, qələbə deyil, hobbidir 😅
Süni intellekt (AI)-ın təkmilləşdirilməsi necə işləyir: riyaziyyat başağrısı olmadan təlim tərəfi 📉🙂
Super qətnaməli modellərin təlimi adətən aşağıdakıları əhatə edir:
-
Cütlənmiş məlumat dəstləri (aşağı qətnaməli giriş, yüksək qətnaməli hədəf) (Dərin Konvolyusiya Şəbəkələrindən (SRCNN) istifadə edərək təsvirin super qətnaməsi)
-
Yanlış rekonstruksiyaları cəzalandıran itki funksiyaları ( SRGAN )
Tipik zərər növləri:
-
Piksel itkisi (L1/L2)
Dəqiqliyi təşviq edir. Bir az zəif nəticələr verə bilər. -
Qavrayış itkisi dəqiq piksellər əvəzinə daha dərin xüsusiyyətləri (məsələn, " oxşar görünür ") müqayisə edir ( Perceptual Losses (Johnson və digərləri, 2016) ).
-
Düşmən itkisi (GAN)
Realizmi təşviq edir, bəzən hərfi dəqiqlik bahasına (SRGAN, Generativ Düşmən Şəbəkələri).
Daimi bir mübarizə var:
-
Orijinala sadiq olun və
-
Vizual olaraq xoş hala gətirin
Bu spektrdə fərqli yerlərdə müxtəlif alətlər mövcuddur. Ailə fotolarını bərpa etməyinizdən və ya "gözəl"in məhkəmə-tibbi dəqiqliyindən daha çox əhəmiyyət kəsb etdiyi bir poster hazırlamağınızdan asılı olaraq, birinə üstünlük verə bilərsiniz.
Praktik iş axınları: fotoşəkillər, köhnə skanlar, anime və video 📸🧾🎥
Fotoşəkillər (portretlər, mənzərələr, məhsul şəkilləri)
Ən yaxşı təcrübə adətən belədir:
-
Əvvəlcə yüngül səs-küy azaldılması (lazım gələrsə)
-
Mühafizəkar mühitlərlə yüksək səviyyəli
-
Əgər işlər çox hamar görünürsə, yenidən taxıl əlavə edin (bəli, həqiqətən)
Taxıl duz kimidir. Çoxu şam yeməyini korlayır, amma heç biri bir az dadsız ola bilməz 🍟
Köhnə skanlar və çox sıxılmış şəkillər
Bunlar daha çətindir, çünki model sıxılma bloklarını "tekstura" kimi qəbul edə bilər.
Sınayın:
-
Artefaktın çıxarılması və ya blokdan çıxarılması
-
Sonra yüksək səviyyəli
-
Sonra yüngül itiləmə (çox yox... bilirəm, hamı belə deyir, amma yenə də)
Anime və xətt sənəti
Xətt sənəti aşağıdakılardan faydalanır:
-
Təmiz kənarları qoruyan modellər
-
Azaldılmış tekstura halüsinasiyası
Animenin böyüdülməsi çox vaxt əla görünür, çünki formalar daha sadə və ardıcıldır. (Xoşbəxtlikdən.)
Video
Video əlavə addımlar əlavə edir:
-
Səs-küyün azaldılması
-
Deinterlace (müəyyən mənbələr üçün)
-
Yüksək səviyyəli
-
Temporal hamarlaşdırma və ya stabilləşdirmə (BasicVSR (CVPR 2021))
-
Koheziya üçün isteğe bağlı taxıl reintroduksiyası
Zaman ardıcıllığını qaçırsanız, parıldayan detalları görəcəksiniz. Bir dəfə fərq etdikdən sonra onu görməzdən gələ bilməzsiniz. Sakit bir otaqdakı cırıltılı kreslo kimi 😖
Vəhşicəsinə təxmin etmədən parametrləri seçmək (kiçik bir fırıldaq vərəqi) 🎛️😵💫
Budur, yaxşı bir başlanğıc düşüncə tərzi:
-
Əgər üzlər plastik kimi görünürsə,
səs-küyü azaldın, itiləməni azaldın, üz qoruyucu model və ya rejimi sınayın. -
Əgər teksturalar çox sıx görünürsə,
"detalların yaxşılaşdırılması" və ya "detalların bərpası" sürgülərini aşağı salın, sonra incə detallar əlavə edin. -
Kənarları parıldayırsa,
itiləməni azaldın, halo basdırma seçimlərini yoxlayın. -
Əgər şəkil çox "Süni intellekt" kimi görünürsə,
daha mühafizəkar olun. Bəzən ən yaxşı addım sadəcə... daha azdır.
Həmçinin: sadəcə bacardığınız üçün 8x-i artırmayın. Təmiz 2x və ya 4x çox vaxt ən yaxşı seçimdir. Bundan əlavə, modeldən pikselləriniz haqqında fanfikasiya yazmasını istəyirsiniz 📖😂
Etika, orijinallıq və "həqiqət"in yöndəmsiz sualı 🧭😬
Süni intellekt səviyyəsinin yüksəldilməsi bir xətti qarışdırır:
-
Bərpa, orada olanı bərpa etmək deməkdir
-
Gücləndirmə, olmayan şeyləri əlavə etmək deməkdir
Şəxsi fotoşəkillərlə, adətən, yaxşıdır (və gözəldir). Jurnalistika, hüquqi sübutlar, tibbi görüntüləmə və ya sədaqətin vacib olduğu hər hansı bir şeylə bağlı... diqqətli olmalısınız (OSAC/NIST: Məhkəmə Rəqəmsal Təsvir İdarəetməsi üçün Standart Təlimat, Məhkəmə Təsvir Təhlili üçün SWGDE Təlimatları).
Sadə bir qayda:
-
Əgər risklər yüksəkdirsə, süni intellekt səviyyəsinin yüksəldilməsini nümunəvi bir şey.
Həmçinin, açıqlama peşəkar kontekstlərdə vacibdir. Süni intellekt şər olduğuna görə deyil, auditoriyanın detalların yenidən qurulub-rekonstruksiya olunmadığını və ya ələ keçirildiyini bilməyə layiq olduğuna görə. Bu, sadəcə... hörmətcildir.
Yekun qeydlər və qısa xülasə 🧡✅
Beləliklə, Süni İntellekt (Sİ)-in Yüksək Ölçülülüyünün İşləmə Təhlili belədir: modellər yüksək qətnaməli detalların aşağı qətnaməli nümunələrlə necə əlaqəli olduğunu öyrənir, sonra isə yuxarı miqyaslama zamanı inandırıcı əlavə pikselləri proqnozlaşdırırlar ( Şəkil Super qətnaməsi üçün Dərin Öyrənmə: Sorğu ). Model ailəsindən (CNN, GAN, diffuziya, video-temporal) asılı olaraq, bu proqnoz mühafizəkar və etibarlı ola bilər... ya da cəsarətli və bəzən qeyri-müəyyən ola bilər 😅
Qısa xülasə
-
Ənənəvi böyütmə pikselləri uzadır (Bikubik interpolasiya)
-
Süni intellekt (SRCNN) öyrənilmiş nümunələrdən istifadə edərək itkin detalları proqnozlaşdırır .
-
Əla nəticələr düzgün model + təmkin sayəsində əldə edilir
-
Videoda halolara, mumlu üzlərə, təkrarlanan teksturalara və titrəmələrə diqqət yetirin (BasicVSR (CVPR 2021))
-
Miqyaslandırma çox vaxt mükəmməl həqiqət deyil, "məqbul yenidənqurma"dır (SRGAN, ESRGAN)
İstəsəniz, nəyi böyütdüyünüzü (üzlər, köhnə şəkillər, video, anime, mətn skanları) deyin və mən ümumi "Süni intellekt görünüşü" tələlərindən yayınmaq üçün bir ayar strategiyası təklif edəcəyəm 🎯🙂
Real dünya nümunəsi: Köhnə bazar məhsul fotolarının miqyasının artırılması 📸
Ssenari
Kiçik bir ikinci əl kamera mağazasında köhnə veb saytdan 800 piksel enində ixrac edilmiş 40 məhsul şəkli var. Sahibi onları tövsiyə olunan şəkil ölçüsünün 1600 piksel olduğu yeni bir e-ticarət səhifəsində təkrar istifadə etmək istəyir.
Problem: normal ölçü dəyişikliyi kameraları yumşaq göstərir, aqressiv süni intellekt miqyasının artırılması isə rezin tutacaqların, seriya nömrələrinin və linza işarələrinin şübhəli şəkildə saxta görünməsinə səbəb ola bilər. Bu vacibdir, çünki alıcılar alış-veriş etməzdən əvvəl bu detallara etibar edirlər.
Məqsəd itkin məlumatları mükəmməl şəkildə "bərpa etmək" deyil. Məqsəd orijinal faylları əlçatan saxlayarkən daha təmiz siyahı şəkilləri yaratmaqdır, çünki süni intellekt miqyasının artırılması zəmanətli həqiqətdən daha çox inandırıcı detalları proqnozlaşdırır.
İş axınının nəyə ehtiyacı var
Orijinal məhsul fotoşəkilləri, ideal olaraq ən az sıxılmış versiyalar mövcuddur
Hədəf çıxış ölçüsü, məsələn, 800 pikseldən 1600 pikselə qədər 2 × yüksək miqyaslı ölçü
Səs-küyün azaldılması, itiləmə və artefaktların çıxarılması üçün ayrıca idarəetmə vasitələri olan bir alət və ya model
Mətn, kənarlar, loqotiplər, vintlər, düymələr, dəri toxuması və əks etdirmələr üçün sadə bir yoxlama siyahısı
Orijinallar üçün qovluq və redaktə edilmiş ixraclar üçün ayrıca qovluq, beləliklə heç nə yenidən yazılmır
Nümunə təlimat
Süni intellekt artırıcısını sınaqdan keçirərkən bu cür təlimatlardan istifadə edin:
E-ticarət siyahısı üçün bu məhsul fotosunun miqyasını 2 dəfə artırın. Obyektin formasını, loqotip yerini, linza işarələrini, düymə kənarlarını və səth teksturasını orijinala mümkün qədər yaxın saxlayın. Yüngül sıxılma təmizlənməsindən, aşağı itiləmədən istifadə edin və əlavə mətn, cızıqlar, etiketlər, seriya nömrələri və ya dekorativ detallardan istifadə etməkdən çəkinin. Son şəkil normal məhsul səhifəsi ölçüsündə təbii görünməlidir, 400% böyütmədə süni şəkildə kəskin olmamalıdır.
Bunu necə sınaqdan keçirmək olar
Tam dəsti emal etməzdən əvvəl beş qarışıq şəkil ilə başlayın:
Yaxşı işıqlandırma ilə təmiz bir məhsul şəkli
Bloklu bir JPEG sıxılmış şəkil
Kiçik çap olunmuş mətn və ya linza işarələri olan bir fotoşəkil
Kölgələrdə səs-küy olan bir qaranlıq görüntü
Əks etdirici metal və ya şüşə ilə bir şəkil
Miqyası artırdıqdan sonra hər nəticəni orijinalla 100% və 200% müqayisə edin. Marka adlarının, siferblatların, vintlərin, portların və tekstura naxışlarının hələ də uyğun olub olmadığını yoxlayın. Model "demək olar ki, hərflər" və ya saxta səth izləri yaradırsa, itiləmə və ya detalların bərpası parametrini azaldın.
Nəticə
Təsviredici nəticə: bu iş axınından istifadə etməzdən əvvəl və sonra beş şəkilli testin vaxtına əsaslanır.
Əl ilə təmizləmə və ölçüsünün dəyişdirilməsi hər bir şəkil üçün təxminən 9 dəqiqə və ya beş şəkil üçün 45 dəqiqə çəkdi.
Süni intellektlə dəstəklənən iş axını hər şəkil üçün təxminən 3 dəqiqə və ya beş şəkil üçün 15 dəqiqə çəkdi.
Bu, beş şəkil üçün təxminən 30 dəqiqə və ya 40 şəkil toplusunda təxminən 4 saat qənaət deməkdir.
Keyfiyyət yoxlamasının nəticəsi: 5 şəkildən 4-ü ilk baxışdan keçdi. Şəkillərdən biri uğursuz oldu, çünki yuxarı miqyaslı cihaz kiçik linza mətnini təhrif etdi, buna görə də daha aşağı kəskinləşdirmə ilə və mətn yaxşılaşdırması olmadan yenidən işləndi.
Buradakı dəyərli metrik sadəcə "daha kəskin görünür" deyil, o da budur: uydurma detallar olmadan neçə şəkil yan-yana nəzərdən keçirilir?
Nə səhv gedə bilər
Model toz, JPEG blokları və ya cızıqları "əsl" teksturaya çevirə bilər.
Kiçik mətn, böyütməyə qədər inandırıcı görünən saxta mətnə çevrilə bilər.
Həddindən artıq səs-küy rezin, dəri və ya fırçalanmış metalın mum kimi görünməsinə səbəb ola bilər.
Güclü itiləmə məhsulun kənarları ətrafında halolar yarada bilər.
Toplu emal səhvləri gizlədə bilər, buna görə də hər şeyi ixrac etməzdən əvvəl nümunəni nəzərdən keçirin.
Elektron ticarət üçün ən təhlükəsiz qayda sadədir: heç vaxt zərəri gizlətmək, vəziyyəti dəyişdirmək və ya məhsulu olduğundan daha yeni göstərmək üçün süni intellektdən istifadə etməyin.
Praktik yemək
Süni intellekt səviyyəsinin artırılması, sehrli təmir düyməsi kimi deyil, idarə olunan bir bitirmə mərhələsi kimi qəbul edildikdə ən yaxşı nəticə verir. Mühafizəkar 2× parametrlərindən istifadə edin, alıcıların maraqlandığı detalları yoxlayın və redaktə edilmiş versiyanın etibarlı qalması üçün orijinal şəkli saxlayın.
Real həyat nümunəsi: Köhnə təlim videosunu parıldatmadan genişləndirmək
Ssenari
Kiçik bir təlim şirkətində 2014-cü ildə 720p keyfiyyətində 7 dəqiqəlik təhlükəsizlik nümayiş videosu var. Məzmun hələ də dəyərlidir, lakin görüntülər şirkətin yeni veb saytında, xüsusən də daha böyük noutbuk ekranlarında zəif görünür.
Komanda yenidən çəkiliş etmədən daha təmiz 1080p versiyasını ixrac etmək istəyir. Risk ondadır ki, aqressiv süni intellekt miqyasının artırılması üzləri mum kimi göstərə, işarələrdəki mətni "demək olar ki, sözlərə" çevirə və ya kadrdan kadra titrəyən tekstura yarada bilər.
Məqsəd videonu yeni göstərmək deyil. Təlimatçının üzünü, xəbərdarlıq etiketlərini, əl hərəkətlərini və avadanlıq detallarını orijinala sadiq saxlayarkən onu daha aydın, sabit və daha az sıxılmış etməkdir.
İş axınının nəyə ehtiyacı var
Mümkünsə, sıxılmış sosial media yükləməsi deyil, orijinal video faylı
Birbaşa 4K-ya keçmək əvəzinə, 720p-dən 1080p-ə qədər ixrac ölçüsünü hədəfləyin
Səs-küyün azaldılması, kəskinləşdirmə, sıxılma təmiri və müvəqqəti uyğunluq seçimlərinə malik video gücləndirici
Üzlər, hərəkət, mətn və ətraflı səthlər haqqında qısa bir test klipi
Sıçrayış, halo, əyri mətn, üz teksturası və hərəkət edən kənarlar üçün yoxlama siyahısı
Lazım gələrsə, müqayisə və açıqlama üçün orijinal videonun saxlanılmış surəti
Nümunə təlimat
Tam videonu emal etməzdən əvvəl bu cür təlimatlardan istifadə edin:
Bu 720p təlim videosunu 1080p-ə qədər artırın. Təbii hərəkətə, sabit kənarlara, oxunaqlı mövcud mətnə və real dəri teksturasına üstünlük verin. Yüngül sıxılma təmiri və aşağı itiləmədən istifadə edin. Çatışmayan mətn, loqotiplər, etiketlər, cızıqlar, üz detalları və ya avadanlıq işarələri yaratmayın. Çərçivədən çərçivəyə parıltıdan çəkinin. Son nəticə normal baxış ölçüsündə daha aydın görünməlidir, dayandırıldıqda və böyüdüldükdə süni şəkildə kəskin olmamalıdır.
Bunu necə sınaqdan keçirmək olar
Tam 7 dəqiqəlik faylı emal etməzdən əvvəl, aşağıdakıları əhatə edən 20 saniyəlik bir nümunəni ixrac edin:
Müəllimin danışarkən üzü
Çərçivədə hərəkət edən bir əl
Xəbərdarlıq etiketi və ya kiçik çaplı mətn
Parça, beton, fırçalanmış metal və ya plastik kimi teksturalı səth
Kamera paneli və ya hər hansı bir titrək hərəkət
Nümunəni iki dəfə izləyin: bir dəfə normal sürətlə və bir dəfə kadr-kadr fasilə verin. Normal sürətlə titrəmə, sürünən tekstura və ya kənarlar ətrafında qeyri-təbii hərəkətə diqqət yetirin. Fasilə verildikdə, mətnin, düymələrin, alətlərin və üz cizgilərinin hələ də uyğun olub olmadığını yoxlamaq üçün orijinal və təkmilləşdirilmiş versiyaları müqayisə edin.
Nəticə
Təsviredici nəticə: 20 saniyəlik bir test klipinin vaxtına və sonra eyni parametrlərin 7 dəqiqəlik videoya tətbiq edilməsinə əsaslanır.
Əl ilə "ölçüsünü dəyiş və kəskinləşdir" iş axını ixrac və baxış da daxil olmaqla təxminən 35 dəqiqə çəkdi, lakin nəticə təlimatçının saçında görünən parıltı və təhlükəsizlik nişanlarının ətrafında halolar göstərdi.
Süni intellektlə dəstəklənən iş axını test ixracları da daxil olmaqla təxminən 55 dəqiqə çəkdi, lakin ilk ixracdakı 8 görünən problemdən son ixracdakı 2 kiçik problemə qədər azaltdı.
Son versiya yoxlama siyahısındakı 12 yoxlamadan 10-nu keçdi. Qalan iki problem fon mətnində yüngül yumşaqlıq və qaranlıq küncdə yüngül səs-küy idi. Hər ikisi qəbul edildi, çünki təlimatçı, avadanlıq və təhlükəsizlik addımları vizual olaraq eyni qaldı.
Burada mənalı metrik "1080p əldə edildi" deyil. Məqsəd: normal oxutma zamanı videonun neçə saniyəsində diqqəti yayındıran artefaktlar göstərilir?
Nə səhv gedə bilər
Model sıxılma bloklarını itiləşdirə və onları orijinal tekstura kimi göstərə bilər.
İncə mətn daha inamlı görünə bilər, lakin daha az dəqiq ola bilər.
Səs-küyün azaldılması çox yüksəkdirsə, üzlər çox hamar ola bilər.
Alət hər bir çərçivəni çox müstəqil şəkildə işləyərsə, hərəkət edən kənarlar parıldaya bilər.
4K ixracı, modelin həddindən artıq çox detal icad etməli olduğu üçün məhdud 1080p ixracından daha pis görünə bilər.
Ən böyük səhv yalnız dayandırılmış kadrı qiymətləndirməkdir. Videonun miqyasının artırılması hərəkətdə təbii görünməlidir, sadəcə hərəkətsiz bir görüntü kimi təsirli olmamalıdır.
Praktik yemək
Video üçün süni intellekt səviyyəsinin artırılması əvvəlcə qısa bir hissəni sınaqdan keçirdikdə, yüksək səviyyəni təvazökar saxladıqda və kəskinlikdən əvvəl hərəkəti qiymətləndirməklə ən yaxşı nəticəni verir. Bir az daha yumşaq, lakin sabit nəticə, adətən, hər hərəkət etdikdə yanıb-sönən kəskin versiyadan daha yaxşıdır.
Tez-tez verilən suallar
Süni intellekt yüksəltmə və necə işləyir
Süni intellekt səviyyəsinin yüksəldilməsi (çox vaxt "super qətnamə" adlanır) təlim zamanı öyrənilən nümunələrdən itkin yüksək qətnaməli detalları proqnozlaşdırmaqla təsvirin qətnaməsini artırır. Model, sadəcə bikub interpolasiyası kimi pikselləri uzatmaq əvəzinə, kənarları, teksturaları, üzləri və mətnə bənzər cizgiləri öyrənir, sonra öyrənilən nümunələrlə uyğunlaşan yeni piksel məlumatları yaradır. Bu, "reallığı bərpa etmək"dən daha çox təbii görünən "inandırıcı bir təxmin etmək" deməkdir.
Süni intellekt səviyyəsinin artırılması və bikub və ya ənənəvi ölçü dəyişikliyi
Ənənəvi yüksəltmə metodları (məsələn, bikubik) əsasən mövcud piksellər arasında interpolasiya aparır və əsl yeni detallar yaratmadan keçidləri hamarlaşdırır. Süni intellekt yüksəltmə vizual işarələri tanımaqla və bu işarələrin yüksək qətnaməli versiyalarının necə görünəcəyini proqnozlaşdırmaqla mümkün strukturu yenidən qurmağı hədəfləyir. Buna görə də süni intellekt nəticələri daha kəskin hiss oluna bilər və həmçinin mənbədə olmayan artefaktları təqdim edə və ya detalları "icad edə" bilərlər.
Niyə üzlər mumlu və ya həddindən artıq hamar görünə bilər
Mumlu üzlər, adətən, təbii dəri teksturasını pozan itiləmə ilə birlikdə aqressiv səs-küyü azaltmaq və hamarlamaqla əldə edilir. Bir çox alət səs-küyü və incə teksturanı eyni şəkildə müalicə edir, buna görə də təsviri "təmizləmək" məsamələri və incə detalları silə bilər. Ümumi yanaşma səs-küyü azaltmaq və itiləməni azaltmaq, mümkün olduqda üz qoruyucu rejimdən istifadə etmək və sonra nəticənin daha az plastik və daha fotoqrafik olması üçün bir az dənəvərliyi yenidən tətbiq etməkdir.
Diqqət yetirilməli olan ümumi süni intellekt artefaktları
Tipik xüsusiyyətlərə kənarlar ətrafında halolar, təkrarlanan tekstura naxışları (məsələn, kopyalama-yapışdırma kərpicləri), xırtıldayan mikro-kontrast və "demək olar ki, hərflərə" çevrilən mətn daxildir. Diffuziya əsaslı iş axınlarında kiçik xüsusiyyətlərin incə şəkildə dəyişdiyi detalların sürüşməsini də görə bilərsiniz. Video üçün, kadrlarda titrəyən və sürünən detallar böyük təhlükə siqnallarıdır. Əgər yalnız həddindən artıq böyütmədə yaxşı görünürsə, parametrlər çox güman ki, çox aqressivdir.
GAN, CNN və diffuziya yüksəldicilərinin nəticələrdə necə fərqləndiyi
CNN əsaslı super qətnamə daha sabit və daha proqnozlaşdırıla bilən olmağa meyllidir, lakin sərt şəkildə basıldıqda "işlənmiş" görünə bilər. GAN əsaslı seçimlər (ESRGAN üslubunda) tez-tez daha kəskin tekstura və hiss olunan kəskinlik yaradır, lakin onlar, xüsusən də üzlərdə səhv detalları halüsinasiya edə bilər. Diffuziya əsaslı yüksəltmə gözəl, inandırıcı detallar yarada bilər, lakin istiqamətləndirmə və ya güc parametrləri çox güclü olarsa, orijinal strukturdan kənara çıxa bilər.
"Həddindən artıq süni intellekt" görünüşündən qaçınmaq üçün praktik parametrlər strategiyası
Mühafizəkar başlayın: həddindən artıq amillərə çatmadan əvvəl 2x və ya 4x yüksək miqyaslı çəkin. Üzlər plastik kimi görünürsə, səs-küyün azaldılmasını və itiləməni azaldın və üzün fərqində olan rejimi sınayın. Teksturalar çox intensivləşirsə, detalların yaxşılaşdırılmasını azaldın və sonradan incə toxumalar əlavə etməyi düşünün. Kənarlar parıldayırsa, itiləməni azaldın və halo və ya artefaktın basılmasını yoxlayın. Bir çox layihədə "daha az" qalib gəlir, çünki inandırıcı realizmi qoruyur.
Miqyası artırmadan əvvəl köhnə skan edilmiş şəkillərin və ya ağır JPEG sıxılmış şəkillərin işlənməsi
Sıxılmış şəkillər çətinlik yaradır, çünki modellər blok artefaktlarını real tekstura kimi qəbul edə və onları gücləndirə bilər. Ümumi iş axını əvvəlcə artefaktın çıxarılması və ya blokdan çıxarılması, sonra miqyasın artırılması və yalnız lazım olduqda işıq itiləməsidir. Skanlar üçün yumşaq təmizləmə modelin zədələnmədən daha çox real struktur üzərində fokuslanmasına kömək edə bilər. Məqsəd, miqyaslandırıcının səs-küylü girişlərdən inamlı təxminlər etməyə məcbur olmaması üçün "saxta tekstura işarələrini" azaltmaqdır.
Niyə videonun miqyasını artırmaq fotonun miqyasını artırmaqdan daha çətindir
Videonun miqyaslandırılması yalnız bir sabit görüntüdə deyil, bütün kadrlar üzrə ardıcıl olmalıdır. Təfərrüatlar kadrdan kadra titrəyirsə, nəticə tez bir zamanda diqqəti yayındırır. Videoya yönəlmiş yanaşmalar, rekonstruksiyanı sabitləşdirmək və parıldayan artefaktların qarşısını almaq üçün qonşu kadrlardan müvəqqəti məlumatlardan istifadə edir. Bir çox iş axınlarına həmçinin səs-küyün azaldılması, müəyyən mənbələr üçün deinterlacing və isteğe bağlı taxılların yenidən daxil edilməsi daxildir ki, bütün ardıcıllıq süni şəkildə kəskin deyil, vahid hiss olunsun.
Süni intellekt səviyyəsinin artırılması uyğun olmadıqda və ya etibar etmək riskli olduqda
Süni intellekt səviyyəsinin yüksəldilməsi sübut kimi deyil, təkmilləşdirmə kimi qəbul edilməlidir. Jurnalistika, hüquqi sübutlar, tibbi görüntüləmə və ya məhkəmə işi kimi yüksək riskli kontekstlərdə "inandırıcı" piksellərin yaradılması yanlış təsəvvür yarada bilər, çünki bu, qeydə alınmayan detalları əlavə edə bilər. Daha təhlükəsiz çərçivələmə, onu illüstrasiyalı şəkildə istifadə etmək və süni intellekt prosesinin yenidən qurulmuş detalları açıqlamaqdır. Əgər dəqiqlik vacibdirsə, orijinalları qoruyun və hər bir emal addımını və parametrini sənədləşdirin.
İstinadlar
-
arXiv - Təsvir Super-çözünürlük üçün Dərin Öyrənmə: Sorğu - arxiv.org
-
arXiv - Dərin Konvolyusiya Şəbəkələrindən (SRCNN) istifadə edərək Super Çözünürlüklü Şəkil - arxiv.org
-
arXiv - Real-ESRGAN - arxiv.org
-
arXiv - ESRGAN - arxiv.org
-
arXiv - SR3 - arxiv.org
-
NVIDIA Geliştiricisi - NVIDIA DLSS - developer.nvidia.com
-
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
-
Kompüter Görmə Fondu (CVF) Açıq Giriş - BasicVSR: Video Super Çözünürlükdə Əsas Komponentlərin Axtarışı (CVPR 2021) - openaccess.thecvf.com
-
arXiv - Generativ Rəqib Şəbəkələri - arxiv.org
-
arXiv - SRGAN - arxiv.org
-
arXiv - Qavrayış İtkiləri (Johnson və digərləri, 2016) - arxiv.org
-
GitHub - Real-ESRGAN repo (kafel seçimləri) - github.com
-
Vikipediya - Bikubik interpolasiyası - wikipedia.org
-
Topaz Labs - Topaz Foto - topazlabs.com
-
Topaz Labs - Topaz Videosu - topazlabs.com
-
Adobe Yardım Mərkəzi - Adobe Enhance > Super Resolution - helpx.adobe.com
-
NIST / OSAC - Kriminalistik Rəqəmsal Təsvir İdarəetməsi üçün Standart Təlimat (Versiya 1.0) - nist.gov
-
SWGDE - Kriminalistik Təsvir Təhlili üçün Təlimatlar - swgde.org