Qısa cavab: Süni intellekt əvvəlcədən emalı, təmizlənmə, kodlaşdırma, miqyaslama, tokenləşdirmə və görüntü transformasiyaları da daxil olmaqla, xam, yüksək varianslı məlumatları ardıcıl model girişlərinə çevirən təkrarlana bilən addımlar toplusudur. Bu vacibdir, çünki təlim girişləri və istehsal girişləri fərqli olarsa, modellər səssizcə sıradan çıxa bilər. Əgər bir addım parametrləri "öyrənərsə", sızmanın qarşısını almaq üçün onu yalnız təlim məlumatlarına uyğunlaşdırın.
Süni intellekt əvvəlcədən emal, modelin əslində ondan öyrənə bilməsi üçün təlimdən və ya nəticə çıxarmadan əvvəl (və bəzən də təlim zamanı) xam məlumatlarla etdiyiniz hər şeydir. Sadəcə "təmizləmək" deyil. Bu, məlumatları təmizləmək, formalaşdırmaq, miqyaslandırmaq, kodlaşdırmaq, artırmaq və sonradan modelinizi səssizcə səhv salmayacaq ardıcıl bir təmsilçiliyə qablaşdırmaqdır. [1]
Əsas nəticələr:
Tərif : Əvvəlcədən emal xam cədvəlləri, mətni, şəkilləri və qeydləri modelə hazır xüsusiyyətlərə çevirir.
Ardıcıllıq : Uyğunsuzluqların qarşısını almaq üçün təlim və nəticə çıxarma zamanı eyni çevrilmələri tətbiq edin.
Sızma : Scalerləri, enkoderləri və tokenizatorları yalnız təlim məlumatlarına uyğunlaşdırın.
Təkrarlanabilmə : Ad-hoc dəftər hüceyrə ardıcıllığı ilə deyil, yoxlanıla bilən statistika ilə boru kəmərləri qurun.
İstehsal monitorinqi : Girişlərin tədricən performansı pozmaması üçün əyrilikləri və sürüşmələri izləyin.
Bundan sonra oxumaq istəyə biləcəyiniz məqalələr:
🔗 Süni intellekt modellərini real həyatda necə sınaqdan keçirmək olar
Dəqiqliyi, möhkəmliyi və qərəzi tez bir zamanda qiymətləndirmək üçün praktik metodlar.
🔗 Mətndən nitqə çevirmə süni intellektdirmi və necə işləyir?
TTS-in əsaslarını, əsas istifadələrini və bu günkü ümumi məhdudiyyətləri izah edir.
🔗 Süni intellekt bu gün kursiv əl yazısını dəqiq oxuya bilərmi?
Tanınma problemlərini, ən yaxşı alətləri və dəqiqlik tövsiyələrini əhatə edir.
🔗 Süni intellekt ümumi tapşırıqlar üzrə nə dərəcədə dəqiqdir
Dəqiqlik amillərini, etalonları və real dünya etibarlılığını təhlil edir.
Sadə dildə süni intellekt əvvəlcədən emalı (və nəyin olmaması) 🤝
Süni intellekt ilkin emalı xam girişlərin (cədvəllər, mətn, şəkillər, qeydlər) modelə hazır xüsusiyyətlərə çevrilməsidir. Əgər xam məlumatlar dağınıq bir qarajdırsa, ilkin emal qutuları etiketləmək, sınmış zibilləri atmaq və əşyaları üst-üstə yığmaqdır ki, əslində xəsarət almadan içəri girə biləsiniz.
Bu, modelin özü deyil. Modeli mümkün edən şeylərdir:
-
kateqoriyaları rəqəmlərə çevirmək (bir-isti, sıra və s.) [1]
-
Böyük rəqəm diapazonlarını sağlam diapazonlara miqyaslandırmaq (standartlaşdırma, min-maks və s.) [1]
-
mətni giriş ID-lərinə (və adətən diqqət maskasına) çevirmək [3]
-
şəkillərin ölçüsünü dəyişdirmək/kəsmək və deterministik və təsadüfi çevrilmələri müvafiq şəkildə tətbiq etmək [4]
-
Təlim və "real həyat" girişlərinin incə şəkildə fərqlənməməsi üçün təkrarlana bilən boru kəmərləri qurmaq [2]
Kiçik bir praktik qeyd: "əvvəlcədən işləmə" modelin girişi görməzdən əvvəl ardıcıl olaraq baş verənləri . Bəzi komandalar bunu "xüsusiyyət mühəndisliyi" və "məlumatların təmizlənməsi"nə bölürlər, lakin real həyatda bu xətlər bulanır.

Niyə süni intellekt əvvəlcədən emalı insanların etiraf etdiyindən daha vacibdir 😬
Model, zehn oxuyucusu deyil, nümunə uyğunlaşdırıcısıdır. Girişləriniz uyğunsuzdursa, model uyğunsuz qaydaları öyrənir. Bu, fəlsəfi deyil, ağrılı şəkildə hərfi mənadadır.
Əvvəlcədən emal sizə kömək edir:
-
Qiymətləndiricilərin etibarlı şəkildə istifadə edə biləcəyi (xüsusən də miqyaslama/kodlaşdırma ilə bağlı olduqda) təsvirlərə xüsusiyyətləri daxil etməklə öyrənmə sabitliyini artırın
-
Qəribə artefaktları əzbərləmək əvəzinə, dağınıq reallığı modelin ümumiləşdirə biləcəyi bir şeyə bənzətməklə səs-küyü azaldın
-
Sızma və təlim/xidmət uyğunsuzluqları (validasiyada "möhtəşəm" görünən və istehsalda faceplants kimi) kimi səssiz nasazlıq rejimlərinin qarşısını alın
-
Təkrarlana bilən transformasiyalar həftənin hər günü notebook spagettisini üstələdiyi üçün iterasiyanı sürətləndirin
Həmçinin, əslində "model performansının" çox hissəsi də elə buradan qaynaqlanır. Məsələn... təəccüblü dərəcədə çox. Bəzən ədalətsiz hiss olunur, amma bu, reallıqdır 🙃
Yaxşı bir süni intellekt əvvəlcədən emal boru kəmərini nə yaradır ✅
Əvvəlcədən emalın "yaxşı versiyası" adətən bu keyfiyyətlərə malikdir:
-
Təkrarlana bilən : eyni giriş → eyni çıxış (qəsdən artırılma olmadığı təqdirdə sirli təsadüfilik yoxdur).
-
Təlim xidməti ardıcıllığı : təlim vaxtında etdiyiniz hər şey nəticə çıxarma vaxtında eyni şəkildə tətbiq olunur (eyni uyğun parametrlər, eyni kateqoriya xəritələri, eyni tokenizer konfiqurasiyası və s.). [2]
-
Sızmaya davamlı : qiymətləndirmə/testdə heç bir şey
uyğunluqmərhələsinə təsir göstərmir. (Bu tələ haqqında bir az sonra daha ətraflı məlumat veriləcək.) [2] -
Müşahidə edilə bilən : nəyin dəyişdiyini (xüsusiyyət statistikası, çatışmazlıqlar, kateqoriya sayı) yoxlaya bilərsiniz, buna görə də ayıklama vibes əsaslı mühəndislik deyil.
final_v7_really_final_ok adlı bir yığın dəftər xanasıdırsa ... necə olduğunu bilirsiniz. İşləməyənə qədər işləyir 😬
Süni intellekt əvvəlcədən emalının əsas tikinti blokları 🧱
Əvvəlcədən emalı bir boru kəmərinə birləşdirdiyiniz bir sıra tikinti blokları kimi düşünün.
1) Təmizləmə və təsdiqləmə 🧼
Tipik tapşırıqlar:
-
dublikatları silin
-
itkin dəyərləri idarə etmək (əskik dəyərləri atmaq, əlavə etmək və ya itkinliyi açıq şəkildə təmsil etmək)
-
növləri, vahidləri və diapazonları tətbiq edin
-
səhv daxilolmaları aşkar edin
-
mətn formatlarını standartlaşdırmaq (boşluq, örtük qaydaları, Unicode xüsusiyyətləri)
Bu hissə cazibədar deyil, amma son dərəcə axmaq səhvlərin qarşısını alır. Bunu sevgi ilə deyirəm.
2) Kateqoriyalı məlumatların kodlaşdırılması 🔤
"red" və ya "premium_user" kimi xam sətirləri birbaşa istifadə edə bilmir .
Ümumi yanaşmalar:
-
Birdəfəlik kodlaşdırma (kateqoriya → ikili sütunlar) [1]
-
Sıra kodlaması (kateqoriya → tam ədəd ID) [1]
Əsas məsələ hansı kodlayıcını seçməyiniz deyil - xəritələşdirmənin ardıcıl qalması və təlim və nəticə çıxarma arasında "forma dəyişməməsi"dir. Beləliklə, oflayn olaraq yaxşı görünən və onlayn olaraq kabus kimi davranan bir model əldə edirsiniz. [2]
3) Xüsusiyyət miqyaslanması və normallaşdırılması 📏
Xüsusiyyətlər tamamilə fərqli diapazonlarda olduqda miqyaslanma vacibdir.
İki klassik:
-
Standartlaşdırma : orta qiyməti çıxarın və vahid variasiyasına miqyas verin [1]
-
Min-maks miqyaslama : hər bir xüsusiyyəti müəyyən bir diapazona miqyaslandırmaq [1]
Hətta "əsasən öhdəsindən gələn" modellərdən istifadə edərkən belə, miqyaslandırma boru kəmərlərinin düşünülməsini asanlaşdırır və təsadüfən qırılmasını çətinləşdirir.
4) Xüsusiyyət mühəndisliyi (yəni faydalı fırıldaqçılıq) 🧪
Daha yaxşı siqnallar yaratmaqla modelin işini asanlaşdırdığınız yer budur:
-
nisbətlər (kliklər / təəssüratlar)
-
pəncərələrin fırlanması (son N gün)
-
say (istifadəçi başına düşən hadisələr)
-
ağır quyruqlu paylanmalar üçün loqarifmik çevirmələr
Burada bir sənət var. Bəzən bir məqalə yaradırsan, qürur duyursan... və bu heç nəyə səbəb olmur. Daha da pisi, ağrıdır. Bu normaldır. Məqalələrə emosional olaraq bağlanma - onlar səni qarşılıqsız sevməzlər 😅
5) Məlumatların düzgün şəkildə bölünməsi ✂️
Bu, görünməyənə qədər aydın səslənir:
-
iid məlumatları üçün təsadüfi bölünmələr
-
zaman seriyaları üçün zamana əsaslanan bölünmələr
-
obyektlər (istifadəçilər, cihazlar, xəstələr) təkrarlandıqda qruplaşdırılmış bölünmələr
Və ən əsası: verilənlərdən öyrənən ilkin emalı uyğunlaşdırmadan əvvəl bölün . Əgər ilkin emal addımınız parametrləri (məsələn, vasitələr, lüğətlər, kateqoriya xəritələri) "öyrənirsə", onları yalnız təlimdən öyrənməlidir. [2]
Məlumat növünə görə süni intellekt əvvəlcədən emal: cədvəl, mətn, şəkillər 🎛️
Əvvəlcədən emal, modelə nə verdiyinizdən asılı olaraq formasını dəyişir.
Cədvəl məlumatları (elektron cədvəllər, qeydlər, verilənlər bazaları) 📊
Ümumi addımlar:
-
dəyər itkisi strategiyası
-
kateqoriyalı kodlaşdırma [1]
-
rəqəmli sütunların miqyaslandırılması [1]
-
kənar idarəetmə (domen qaydaları əksər hallarda "təsadüfi kəsmə"dən üstündür)
-
törəmə xüsusiyyətlər (aqreqasiyalar, gecikmələr, yayma statistikaları)
Praktik məsləhət: sütun qruplarını dəqiq şəkildə təyin edin (rəqəmli və kateqoriyalı və identifikatorlar). Gələcəkdə özünüz sizə minnətdar olacaqsınız.
Mətn məlumatları (NLP) 📝
Mətnin əvvəlcədən işlənməsi çox vaxt aşağıdakıları əhatə edir:
-
tokenləşdirmə tokenlərə/alt sözlərə
-
giriş ID- lərinə çevrilmə
-
doldurma/kəsikləmə
-
toplu diqqət maskaları qurmaq
Ağrıdan xilas edən kiçik bir qayda: transformator əsaslı qurğular üçün modelin gözlənilən tokenizator parametrlərinə əməl edin və səbəbiniz olmadığı təqdirdə sərbəst şəkildə hərəkət etməyin. Sərbəst üslubda hərəkət etmək, "məşq edir, amma qəribədir" nəticəsi ilə nəticələnir
Şəkillər (kompüter görmə) 🖼️
Tipik əvvəlcədən emal:
-
ölçüsünü dəyişin / ardıcıl formalara kəsin
-
qiymətləndirmə üçün deterministik çevrilmələr
-
Təlim artırması üçün təsadüfi çevrilmələr (məsələn, təsadüfi kəsmə) [4]
İnsanların qaçırdığı bir detal: "təsadüfi çevrilmələr" sadəcə bir atmosfer deyil - onlar hər dəfə çağırıldıqda parametrləri sözün əsl mənasında nümunə götürürlər. Müxtəlifliyi öyrətmək üçün əladır, təsadüfiliyi söndürməyi unutsanız, qiymətləndirmə üçün dəhşətlidir. [4]
Hər kəsin düşdüyü tələ: məlumat sızması 🕳️🐍
Sızma, qiymətləndirmə məlumatlarından alınan məlumatların təlimə - çox vaxt əvvəlcədən emal yolu ilə - daxil olmasıdır. Bu, modelinizi validasiya zamanı sehrli göstərə bilər, sonra isə sizi real dünyada məyus edə bilər.
Ümumi sızma nümunələri:
-
Tam məlumat dəsti statistikasından istifadə edərək miqyaslandırma (yalnız təlim əvəzinə) [2]
-
birlikdə qatar+test istifadə edərək tikinti kateqoriyası xəritələri [2]
-
test dəstini "görən" istənilən
fit()və yafit_transform()
Əsas qayda (sadə, qəddar, təsirli):
-
Düzgün atılan hər şey yalnız məşq zamanı düzgün hərəkət etməlidir.
-
Daha sonra çevirirsiniz . [2]
Əgər "nə qədər pis ola bilər?" sualını istəyirsinizsə, bağırsaq yoxlaması: scikit-learn-ın öz sənədlərində səhv əvvəlcədən emal əmrinin təsadüfi hədəflərdə 0,76 0,5 . İnandırıcı dərəcədə səhv sızma belə görünə bilər. [2]
Xaos olmadan ilkin emalın istehsala keçməsi 🏗️
Bir çox model istehsalda uğursuz olur, çünki model "pis" deyil, giriş reallığı dəyişir və ya boru kəməriniz dəyişir.
İstehsal yönümlü ilkin emal adətən aşağıdakıları əhatə edir:
-
Yadda saxlanılan artefaktlar (kodlayıcı xəritələşdirmələr, skaler parametrləri, tokenizer konfiqurasiyası), buna görə də nəticə çıxarma eyni öyrənilmiş transformasiyalardan istifadə edir [2]
-
Ciddi giriş müqavilələri (gözlənilən sütunlar/növlər/diapazonlar)
-
İstehsal məlumatları yayınacağı üçün əyrilik və sürüşmənin monitorinqi [5]
Konkret təriflər istəyirsinizsə: Google-un Vertex AI Model Monitorinqi təlimə xidmət edən əyriliyi (istehsal paylanması təlimdən yayınır) və nəticə çıxarma sürüşməsini (istehsal paylanması zamanla dəyişir) fərqləndirir və həm kateqoriyalı, həm də ədədi xüsusiyyətlər üçün monitorinqi dəstəkləyir. [5]
Çünki sürprizlər bahadır. Həm də əyləncəli növ deyil.
Müqayisə cədvəli: ümumi əvvəlcədən emal + monitorinq alətləri (və onlar kimlər üçündür) 🧰
| Alət / kitabxana | Ən yaxşısı | Qiymət | Niyə işləyir (və bir az dürüstlük) |
|---|---|---|---|
| scikit-learn əvvəlcədən emal | Cədvəlli ML boru kəmərləri | Pulsuz | Bütöv kodlayıcılar + skalerlər (OneHotEncoder, StandardScaler və s.) və proqnozlaşdırıla bilən davranış [1] |
| Qucaqlayan Üz Tokenizatorları | NLP giriş hazırlığı | Pulsuz | Giriş ID-ləri + diqqət maskaları ardıcıl olaraq qaçışlar/modellər üzrə yaradır [3] |
| Torchvision transformasiyaları | Görmənin transformasiyası + böyütmə | Pulsuz | Deterministik və təsadüfi çevrilmələri bir boru kəmərində qarışdırmağın təmiz yolu [4] |
| Vertex AI Model Monitorinqi | Məhsulda sürüşmə/əyilmə aşkarlanması | Ödənişli (bulud) | Monitorlar əyrilik/sürüşmə xüsusiyyətinə malikdir və hədləri aşdıqda xəbərdarlıq edir [5] |
(Bəli, cədvəldə hələ də fikirlər var. Amma heç olmasa səmimi fikirlərdir 😅)
Həqiqətən istifadə edə biləcəyiniz praktik bir ilkin emal yoxlama siyahısı 📌
Təlimdən əvvəl
-
Giriş sxemini təyin edin (növlər, vahidlər, icazə verilən diapazonlar)
-
Çatışmayan dəyərləri və dublikatları yoxlayın
-
Məlumatları düzgün şəkildə bölün (təsadüfi / zamana əsaslanan / qruplaşdırılmış)
-
Yalnız təlimdə uyğunluq üçün əvvəlcədən emal (
fit/fit_transformtəlimdə qalır) [2] -
Əvvəlcədən emal olunmuş artefaktları saxlayın ki, nəticə çıxarmaq onları yenidən istifadə edə bilsin [2]
Təlim zamanı
-
Təsadüfi artırmanı yalnız uyğun yerlərdə tətbiq edin (adətən yalnız təlim bölmələri ilə) [4]
-
Qiymətləndirmənin əvvəlcədən işlənməsini deterministik saxlayın [4]
-
Model dəyişiklikləri kimi əvvəlcədən emal dəyişikliklərini izləyin (çünki onlar belədir)
Yerləşdirmədən əvvəl
-
Nəticə çıxarmanın eyni əvvəlcədən emal yolundan və artefaktlardan istifadə etdiyinə əmin olun [2]
-
Drift/əyilmə monitorinqini qurun (hətta əsas xüsusiyyət paylanması yoxlamaları belə çox şeyə kömək edir) [5]
Dərinliyə dalış: ümumi əvvəlcədən emal səhvləri (və onlardan necə yayınmaq olar) 🧯
Səhv 1: “Hər şeyi tez bir zamanda normallaşdıracağam” 😵
Əgər bütün verilənlər bazasında miqyaslama parametrlərini hesablasanız, qiymətləndirmə məlumatı sızmış olur. Uyğunlaşdırın, qalanını dəyişdirin. [2]
Səhv 2: kateqoriyalar xaosa doğru sürünür 🧩
Kateqoriya xəritələşdirməniz təlim və nəticə çıxarma arasında dəyişirsə, modeliniz dünyanı səssizcə səhv başa düşə bilər. Xəritələşdirmələri yadda saxlanılan artefaktlar vasitəsilə sabit saxlayın. [2]
Səhv 3: təsadüfi artırmanın qiymətləndirməyə gizlicə daxil olması 🎲
Təsadüfi çevrilmələr təlimdə əladır, lakin performansı ölçməyə çalışarkən onlar "gizli şəkildə" olmamalıdır. (Təsadüfi təsadüfi deməkdir.) [4]
Yekun qeydlər 🧠✨
Süni intellekt əvvəlcədən emalı, qarışıq reallığı ardıcıl model girişlərinə çevirməyin intizamlı sənətidir. Buraya təmizləmə, kodlaşdırma, miqyaslama, tokenləşdirmə, təsvir transformasiyaları və ən əsası təkrarlana bilən boru kəmərləri və artefaktları daxildir.
-
Əvvəlcədən emal etmək təsadüfi deyil, qəsdən edilməlidir. [2]
-
Əvvəlcə bölün, yalnız məşq zamanı uyğun transformasiyalar edin, sızmaların qarşısını alın. [2]
-
Modallığa uyğun ilkin emaldan istifadə edin (mətn üçün tokenizatorlar, şəkillər üçün transformasiyalar). [3][4]
-
Modelinizin yavaş-yavaş cəfəngiyata sürüklənməməsi üçün istehsal əyriliyini/dəyişməsini izləyin. [5]
Əgər nə vaxtsa ilişib qalsanız, özünüzdən soruşun:
“Sabah yeni məlumatlar üzərində işlətsəm, bu əvvəlcədən işləmə addımı yenə də mənalı olarmı?”
Əgər cavab “bəlkə də?”-dirsə, bu sizin ipucunuzdur 😬
Tez-tez verilən suallar
Sadə dillə desək, süni intellekt əvvəlcədən emal nədir?
Süni intellekt əvvəlcədən emal, səs-küylü, yüksək variasiyalı xam məlumatları modelin öyrənə biləcəyi ardıcıl girişlərə çevirən təkrarlana bilən addımlar toplusudur. Buraya təmizləmə, doğrulama, kateqoriyaların kodlaşdırılması, ədədi dəyərlərin miqyaslandırılması, mətnin tokenləşdirilməsi və şəkil transformasiyalarının tətbiqi daxil ola bilər. Məqsəd, təlim və istehsal nəticələrinin "eyni növ" girişi görməsini təmin etməkdir ki, model sonradan gözlənilməz davranışa sürüklənməsin.
Süni intellekt ilkin emalı istehsalda niyə bu qədər vacibdir?
Əvvəlcədən emal vacibdir, çünki modellər giriş təqdimatına həssasdır. Təlim məlumatları istehsal məlumatlarından fərqli olaraq miqyaslandırılıb, kodlaşdırılıb, tokenləşdirilib və ya transformasiya edilibsə, oflayn rejimdə yaxşı görünən, lakin onlayn rejimdə səssizcə uğursuz olan təlim/xidmət uyğunsuzluğu xətaları ilə qarşılaşa bilərsiniz. Güclü əvvəlcədən emal boru kəmərləri həmçinin səs-küyü azaldır, öyrənmə sabitliyini artırır və təkrarlamanı sürətləndirir, çünki siz noutbuk spagettisini açmırsınız.
Əvvəlcədən emal zamanı məlumatların sızmasının qarşısını necə ala bilərəm?
Sadə bir qayda işləyir: uyğun addımı olan hər hansı bir şey yalnız təlim məlumatlarına uyğun olmalıdır. Buraya orta, kateqoriya xəritələri və ya lüğətlər kimi parametrləri öyrənən skalerlər, enkoderlər və tokenizatorlar daxildir. Əvvəlcə bölünür, təlim bölünməsinə uyğunlaşdırılır, sonra uyğunlaşdırılmış transformatordan istifadə edərək validasiya/testi çevirirsiniz. Sızma validasiyanı "sehrli" şəkildə yaxşı göstərə və sonra istehsal istifadəsində çökə bilər.
Cədvəl məlumatları üçün ən çox yayılmış ilkin emal addımları hansılardır?
Cədvəl məlumatları üçün adi boru kəmərinə təmizləmə və validasiya (növlər, diapazonlar, çatışmayan dəyərlər), kateqoriyalı kodlaşdırma (birdəfəlik və ya sıralı) və rəqəmsal miqyaslama (standartlaşdırma və ya minimum-maks) daxildir. Bir çox boru kəmərlərinə nisbətlər, pəncərələrin yayılması və ya saylar kimi domen əsaslı xüsusiyyət mühəndisliyi əlavə olunur. Praktik bir vərdiş, sütun qruplarını açıq şəkildə təyin etməkdir (rəqəmli vs kateqoriyalı vs identifikatorlar) ki, transformasiyalarınız ardıcıl qalsın.
Mətn modelləri üçün əvvəlcədən işləmə necə işləyir?
Mətnin əvvəlcədən işlənməsi adətən tokenləşdirməni tokenlərə/alt sözlərə çevirmək, onları giriş ID-lərinə çevirmək və toplulaşdırma üçün boşluq/kəsikləməni idarə etmək deməkdir. Bir çox transformator iş axınları da ID-lərlə yanaşı diqqət maskası yaradır. Ümumi yanaşma, modelin gözlənilən tokenizator konfiqurasiyasından improvizasiya etmək əvəzinə istifadə etməkdir, çünki tokenizator parametrlərindəki kiçik fərqlər "öyrədir, lakin gözlənilməz şəkildə davranır" nəticələrinə səbəb ola bilər.
Maşın öyrənməsi üçün şəkillərin əvvəlcədən işlənməsinin fərqi nədir?
Təsvirin əvvəlcədən işlənməsi adətən ardıcıl formaları və piksellərin işlənməsini təmin edir: ölçüsünün dəyişdirilməsi/kəsilməsi, normallaşdırma və deterministik və təsadüfi çevrilmələr arasında aydın bir bölgü. Qiymətləndirmə üçün çevrilmələr deterministik olmalıdır ki, metriklər müqayisə oluna bilsin. Təlim üçün təsadüfi artırma (təsadüfi kəsimlər kimi) möhkəmliyi artıra bilər, lakin təsadüfilik qəsdən təlim bölgüsünə daxil edilməlidir, qiymətləndirmə zamanı təsadüfən qalmamalıdır.
Əvvəlcədən emal boru kəmərini kövrək deyil, "yaxşı" edən nədir?
Yaxşı bir süni intellekt əvvəlcədən emal boru kəməri təkrarlana bilən, sızmaya davamlı və müşahidə edilə biləndir. Təkrarlana bilən, təsadüfilik qəsdən artırılmadığı təqdirdə eyni girişin eyni çıxışı yaratmadığı deməkdir. Sızmaya davamlı, uyğun addımların heç vaxt doğrulama/testlə əlaqəsi olmadığını bildirir. Müşahidə edilə bilən, itkinlik, kateqoriya sayı və xüsusiyyət paylanması kimi statistikaları yoxlaya biləcəyiniz deməkdir, buna görə də ayıklama daxili hisslərə deyil, dəlillərə əsaslanır. Boru kəmərləri hər dəfə ad-hoc noutbuk ardıcıllıqlarını üstələyir.
Təlim və nəticə çıxarmanın ilkin emalını necə ardıcıl saxlaya bilərəm?
Əsas məsələ, eyni öyrənilmiş artefaktları nəticə çıxarma vaxtında təkrar istifadə etməkdir: miqyas parametrləri, kodlayıcı xəritələşdirmələri və tokenizer konfiqurasiyaları. Həmçinin, istehsal məlumatlarının səssizcə etibarsız formalara sürüklənməməsi üçün giriş müqaviləsi (gözlənilən sütunlar, növlər və diapazonlar) lazımdır. Ardıcıllıq sadəcə "eyni addımları etmək" deyil - bu, "eyni uyğunlaşdırılmış parametrlər və xəritələşdirmələrlə eyni addımları etmək"dir
Zamanla sürüşmə və əyilmə kimi əvvəlcədən emal problemlərini necə izləyə bilərəm?
Möhkəm bir boru kəməri ilə belə, istehsal məlumatları dəyişir. Ümumi bir yanaşma, xüsusiyyət paylanması dəyişikliklərini izləmək və təlimə xidmət edən əyrilik (istehsal təlimdən yayınır) və nəticə çıxarma sürüşməsi (zamanla istehsal dəyişiklikləri) barədə xəbərdarlıq etməkdir. Monitorinq yüngül (əsas paylama yoxlamaları) və ya idarə oluna bilər (Vertex AI Model Monitorinqi kimi). Məqsəd, giriş dəyişikliklərini model performansını yavaş-yavaş pozmadan əvvəl erkən müəyyən etməkdir.
İstinadlar
[1] scikit-learn API:
sklearn.preprocessing (kodlayıcılar, skalerlər, normallaşdırma) [2] scikit-learn: Ümumi tələlər - Məlumat sızması və ondan necə qaçınmaq olar
[3] Qucaqlaşan Üz Transformatorları sənədləri: Tokenizatorlar (giriş ID-ləri, diqqət maskaları)
[4] PyTorch Torchvision sənədləri: Transformasiyalar (Ölçüsünü Yenidən/Normallaşdır + təsadüfi çevrilmələr)
[5] Google Cloud Vertex AI sənədləri: Model Monitorinqinə ümumi baxış (xüsusiyyət əyriliyi və sürüşməsi)