Süni intellekt (AI) Əvvəlcədən emal nədir?

Süni intellekt (AI) Əvvəlcədən emal nədir?

Qısa cavab: Süni intellekt əvvəlcədən emalı, təmizlənmə, kodlaşdırma, miqyaslama, tokenləşdirmə və görüntü transformasiyaları da daxil olmaqla, xam, yüksək varianslı məlumatları ardıcıl model girişlərinə çevirən təkrarlana bilən addımlar toplusudur. Bu vacibdir, çünki təlim girişləri və istehsal girişləri fərqli olarsa, modellər səssizcə sıradan çıxa bilər. Əgər bir addım parametrləri "öyrənərsə", sızmanın qarşısını almaq üçün onu yalnız təlim məlumatlarına uyğunlaşdırın.

Süni intellekt əvvəlcədən emal, modelin əslində ondan öyrənə bilməsi üçün təlimdən və ya nəticə çıxarmadan əvvəl (və bəzən də təlim zamanı) xam məlumatlarla etdiyiniz hər şeydir. Sadəcə "təmizləmək" deyil. Bu, məlumatları təmizləmək, formalaşdırmaq, miqyaslandırmaq, kodlaşdırmaq, artırmaq və sonradan modelinizi səssizcə səhv salmayacaq ardıcıl bir təmsilçiliyə qablaşdırmaqdır. [1]

Əsas nəticələr:

Tərif: Əvvəlcədən emal xam cədvəlləri, mətni, şəkilləri və qeydləri modelə hazır xüsusiyyətlərə çevirir.

Ardıcıllıq: Uyğunsuzluqların qarşısını almaq üçün təlim və nəticə çıxarma zamanı eyni çevrilmələri tətbiq edin.

Sızma: Scalerləri, enkoderləri və tokenizatorları yalnız təlim məlumatlarına uyğunlaşdırın.

Təkrarlanabilmə: Ad-hoc dəftər hüceyrə ardıcıllığı ilə deyil, yoxlanıla bilən statistika ilə boru kəmərləri qurun.

İstehsal monitorinqi: Girişlərin tədricən performansı pozmaması üçün əyrilikləri və sürüşmələri izləyin.

Bundan sonra oxumaq istəyə biləcəyiniz məqalələr:

🔗 Süni intellekt modellərini real həyatda necə sınaqdan keçirmək olar
Dəqiqliyi, möhkəmliyi və qərəzi tez bir zamanda qiymətləndirmək üçün praktik metodlar.

🔗 Mətndən nitqə çevirmə süni intellektdirmi və necə işləyir?
TTS-in əsaslarını, əsas istifadələrini və bu günkü ümumi məhdudiyyətləri izah edir.

🔗 Süni intellekt bu gün kursiv əl yazısını dəqiq oxuya bilərmi?
Tanınma problemlərini, ən yaxşı alətləri və dəqiqlik tövsiyələrini əhatə edir.

🔗 Süni intellekt ümumi tapşırıqlar üzrə nə dərəcədə dəqiqdir
Dəqiqlik amillərini, etalonları və real dünya etibarlılığını təhlil edir.


Sadə dildə süni intellekt əvvəlcədən emalı (və nəyin olmaması) 🤝

Süni intellekt ilkin emalı xam girişlərin (cədvəllər, mətn, şəkillər, qeydlər) modelə hazır xüsusiyyətlərə çevrilməsidir. Əgər xam məlumatlar dağınıq bir qarajdırsa, ilkin emal qutuları etiketləmək, sınmış zibilləri atmaq və əşyaları üst-üstə yığmaqdır ki, əslində xəsarət almadan içəri girə biləsiniz.

Bu, modelin özü deyil. Modeli mümkün edən şeylərdir:

  • kateqoriyaları rəqəmlərə çevirmək (bir-isti, sıra və s.) [1]

  • Böyük rəqəm diapazonlarını sağlam diapazonlara miqyaslandırmaq (standartlaşdırma, min-maks və s.) [1]

  • mətni giriş ID-lərinə (və adətən diqqət maskasına) çevirmək [3]

  • şəkillərin ölçüsünü dəyişdirmək/kəsmək və deterministik və təsadüfi çevrilmələri müvafiq şəkildə tətbiq etmək [4]

  • Təlim və "real həyat" girişlərinin incə şəkildə fərqlənməməsi üçün təkrarlana bilən boru kəmərləri qurmaq [2]

Kiçik bir praktik qeyd: "əvvəlcədən işləmə" modelin girişi görməzdən əvvəl ardıcıl olaraq baş verənləri. Bəzi komandalar bunu "xüsusiyyət mühəndisliyi" və "məlumatların təmizlənməsi"nə bölürlər, lakin real həyatda bu xətlər bulanır. 

 

Süni intellekt əvvəlcədən emal

Niyə süni intellekt əvvəlcədən emalı insanların etiraf etdiyindən daha vacibdir 😬

Model, zehn oxuyucusu deyil, nümunə uyğunlaşdırıcısıdır. Girişləriniz uyğunsuzdursa, model uyğunsuz qaydaları öyrənir. Bu, fəlsəfi deyil, ağrılı şəkildə hərfi mənadadır.

Əvvəlcədən emal sizə kömək edir:

  • Qiymətləndiricilərin etibarlı şəkildə istifadə edə biləcəyi (xüsusən də miqyaslama/kodlaşdırma ilə bağlı olduqda) təsvirlərə xüsusiyyətləri daxil etməklə öyrənmə sabitliyini artırın . [1]

  • Qəribə artefaktları əzbərləmək əvəzinə, dağınıq reallığı modelin ümumiləşdirə biləcəyi bir şeyə bənzətməklə səs-küyü azaldın

  • Sızma və təlim/xidmət uyğunsuzluqları (validasiyada "möhtəşəm" görünən və istehsalda faceplants kimi) kimi səssiz nasazlıq rejimlərinin qarşısını alın . [2]

  • Təkrarlana bilən transformasiyalar həftənin hər günü notebook spagettisini üstələdiyi üçün iterasiyanı sürətləndirin

Həmçinin, əslində "model performansının" çox hissəsi də elə buradan qaynaqlanır. Məsələn... təəccüblü dərəcədə çox. Bəzən ədalətsiz hiss olunur, amma bu, reallıqdır 🙃


Yaxşı bir süni intellekt əvvəlcədən emal boru kəmərini nə yaradır ✅

Əvvəlcədən emalın "yaxşı versiyası" adətən bu keyfiyyətlərə malikdir:

  • Təkrarlana bilən: eyni giriş → eyni çıxış (qəsdən artırılma olmadığı təqdirdə sirli təsadüfilik yoxdur).

  • Təlim xidməti ardıcıllığı: təlim vaxtında etdiyiniz hər şey nəticə çıxarma vaxtında eyni şəkildə tətbiq olunur (eyni uyğun parametrlər, eyni kateqoriya xəritələri, eyni tokenizer konfiqurasiyası və s.). [2]

  • Sızmaya davamlı: qiymətləndirmə/testdə heç bir şey uyğunluq mərhələsinə təsir göstərmir. (Bu tələ haqqında bir az sonra daha ətraflı məlumat veriləcək.) [2]

  • Müşahidə edilə bilən: nəyin dəyişdiyini (xüsusiyyət statistikası, çatışmazlıqlar, kateqoriya sayı) yoxlaya bilərsiniz, buna görə də ayıklama vibes əsaslı mühəndislik deyil.

Əgər əvvəlcədən emalınız final_v7_really_final_ok adlı bir yığın dəftər xanasıdırsa ... necə olduğunu bilirsiniz. İşləməyənə qədər işləyir 😬


Süni intellekt əvvəlcədən emalının əsas tikinti blokları 🧱

Əvvəlcədən emalı bir boru kəmərinə birləşdirdiyiniz bir sıra tikinti blokları kimi düşünün.

1) Təmizləmə və təsdiqləmə 🧼

Tipik tapşırıqlar:

  • dublikatları silin

  • itkin dəyərləri idarə etmək (əskik dəyərləri atmaq, əlavə etmək və ya itkinliyi açıq şəkildə təmsil etmək)

  • növləri, vahidləri və diapazonları tətbiq edin

  • səhv daxilolmaları aşkar edin

  • mətn formatlarını standartlaşdırmaq (boşluq, örtük qaydaları, Unicode xüsusiyyətləri)

Bu hissə cazibədar deyil, amma son dərəcə axmaq səhvlərin qarşısını alır. Bunu sevgi ilə deyirəm.

2) Kateqoriyalı məlumatların kodlaşdırılması 🔤

Əksər modellər "red" və ya "premium_user" kimi xam sətirləri birbaşa istifadə edə bilmir .

Ümumi yanaşmalar:

  • Birdəfəlik kodlaşdırma (kateqoriya → ikili sütunlar) [1]

  • Sıra kodlaması (kateqoriya → tam ​​ədəd ID) [1]

Əsas məsələ hansı kodlayıcını seçməyiniz deyil - xəritələşdirmənin ardıcıl qalması və təlim və nəticə çıxarma arasında "forma dəyişməməsi"dir. Beləliklə, oflayn olaraq yaxşı görünən və onlayn olaraq kabus kimi görünən bir model əldə edirsiniz. [2]

3) Xüsusiyyət miqyaslanması və normallaşdırılması 📏

Xüsusiyyətlər tamamilə fərqli diapazonlarda olduqda miqyaslanma vacibdir.

İki klassik:

  • Standartlaşdırma: orta qiyməti çıxarın və vahid variasiyasına miqyas verin [1]

  • Min-maks miqyaslama: hər bir xüsusiyyəti müəyyən bir diapazona miqyaslandırmaq [1]

Hətta "əsasən öhdəsindən gələn" modellərdən istifadə edərkən belə, miqyaslandırma boru kəmərlərinin düşünülməsini asanlaşdırır və təsadüfən qırılmasını çətinləşdirir.

4) Xüsusiyyət mühəndisliyi (yəni faydalı fırıldaqçılıq) 🧪

Daha yaxşı siqnallar yaratmaqla modelin işini asanlaşdırdığınız yer budur:

  • nisbətlər (kliklər / təəssüratlar)

  • pəncərələrin fırlanması (son N gün)

  • say (istifadəçi başına düşən hadisələr)

  • ağır quyruqlu paylanmalar üçün loqarifmik çevirmələr

Burada bir sənət var. Bəzən bir məqalə yaradırsan, qürur duyursan... və bu heç nəyə səbəb olmur. Daha da pisi, ağrıdır. Bu normaldır. Məqalələrə emosional olaraq bağlanma - onlar səni qarşılıqsız sevməzlər 😅

5) Məlumatların düzgün şəkildə bölünməsi ✂️

Bu, görünməyənə qədər aydın səslənir:

  • iid məlumatları üçün təsadüfi bölünmələr

  • zaman seriyaları üçün zamana əsaslanan bölünmələr

  • obyektlər (istifadəçilər, cihazlar, xəstələr) təkrarlandıqda qruplaşdırılmış bölünmələr

Və ən əsası: verilənlərdən öyrənən ilkin emalı uyğunlaşdırmadan əvvəl bölün. Əgər ilkin emal addımınız parametrləri (məsələn, vasitələr, lüğətlər, kateqoriya xəritələri) "öyrənirsə", onları yalnız təlimdən öyrənməlidir. [2]


Məlumat növünə görə süni intellekt əvvəlcədən emal: cədvəl, mətn, şəkillər 🎛️

Əvvəlcədən emal, modelə nə verdiyinizdən asılı olaraq formasını dəyişir.

Cədvəl məlumatları (elektron cədvəllər, qeydlər, verilənlər bazaları) 📊

Ümumi addımlar:

  • dəyər itkisi strategiyası

  • kateqoriyalı kodlaşdırma [1]

  • rəqəmli sütunların miqyaslandırılması [1]

  • kənar idarəetmə (domen qaydaları əksər hallarda "təsadüfi kəsmə"dən üstündür)

  • törəmə xüsusiyyətlər (aqreqasiyalar, gecikmələr, yayma statistikaları)

Praktik məsləhət: sütun qruplarını dəqiq şəkildə təyin edin (rəqəmli və kateqoriyalı və identifikatorlar). Gələcəkdə özünüz sizə minnətdar olacaqsınız.

Mətn məlumatları (NLP) 📝

Mətnin əvvəlcədən işlənməsi çox vaxt aşağıdakıları əhatə edir:

  • tokenləşdirmə tokenlərə/alt sözlərə

  • giriş ID- lərinə çevrilmə

  • doldurma/kəsikləmə

  • toplu diqqət maskaları qurmaq [3]

Ağrıdan xilas edən kiçik bir qayda: transformator əsaslı qurğular üçün modelin gözlənilən tokenizator parametrlərinə əməl edin və səbəbiniz olmadığı təqdirdə sərbəst şəkildə hərəkət etməyin. Sərbəst üslubda hərəkət etmək, "məşq edir, amma qəribədir" nəticəsi ilə nəticələnir

Şəkillər (kompüter görmə) 🖼️

Tipik əvvəlcədən emal:

  • ölçüsünü dəyişin / ardıcıl formalara kəsin

  • qiymətləndirmə üçün deterministik çevrilmələr

  • Təlim artırması üçün təsadüfi çevrilmələr (məsələn, təsadüfi kəsmə) [4]

İnsanların qaçırdığı bir detal: "təsadüfi çevrilmələr" sadəcə bir atmosfer deyil - onlar hər dəfə çağırıldıqda parametrləri sözün əsl mənasında nümunə götürürlər. Müxtəlifliyi öyrətmək üçün əladır, təsadüfiliyi söndürməyi unutsanız, qiymətləndirmə üçün dəhşətlidir. [4]


Hər kəsin düşdüyü tələ: məlumat sızması 🕳️🐍

Sızma, qiymətləndirmə məlumatlarından alınan məlumatların təlimə - çox vaxt əvvəlcədən emal yolu ilə - daxil olmasıdır. Bu, modelinizi validasiya zamanı sehrli göstərə bilər, sonra isə sizi real dünyada məyus edə bilər.

Ümumi sızma nümunələri:

  • Tam məlumat dəsti statistikasından istifadə edərək miqyaslandırma (yalnız təlim əvəzinə) [2]

  • birlikdə qatar+test istifadə edərək tikinti kateqoriyası xəritələri [2]

  • test dəstini "görən" istənilən fit() və ya fit_transform() addımı [2]

Əsas qayda (sadə, qəddar, təsirli):

  • Düzgün addım atılan hər şey yalnız məşq zamanı düzgün hərəkət etməlidir.

  • Daha sonra çevirirsiniz . [2]

Əgər "nə qədər pis ola bilər?" sualını istəyirsinizsə, bağırsaq yoxlaması: scikit-learn-ın öz sənədlərində səhv əvvəlcədən emal əmrinin təsadüfi hədəflərdə təxminən 0,76 dəqiqlik verdiyi və sonra sızma düzəldildikdən sonra ~ 0,5 -ə düşdüyü bir sızma nümunəsi göstərilir . İnandırıcı dərəcədə səhv sızma belə görünə bilər. [2]


Xaos olmadan ilkin emalın istehsala keçməsi 🏗️

Bir çox model istehsalda uğursuz olur, çünki model "pis" deyil, giriş reallığı dəyişir və ya boru kəməriniz dəyişir.

İstehsal yönümlü ilkin emal adətən aşağıdakıları əhatə edir:

  • Yadda saxlanılan artefaktlar (kodlayıcı xəritələşdirmələr, skaler parametrləri, tokenizer konfiqurasiyası), buna görə də nəticə çıxarma eyni öyrənilmiş transformasiyalardan istifadə edir [2]

  • Ciddi giriş müqavilələri (gözlənilən sütunlar/növlər/diapazonlar)

  • İstehsal məlumatları yayınacağı üçün əyrilik və sürüşmənin monitorinqi [5]

Konkret təriflər istəyirsinizsə: Google-un Vertex AI Model Monitorinqi təlimə xidmət edən əyriliyi (istehsal paylanması təlimdən yayınır) və nəticə çıxarma sürüşməsini (istehsal paylanması zamanla dəyişir) fərqləndirir və həm kateqoriyalı, həm də ədədi xüsusiyyətlər üçün monitorinqi dəstəkləyir. [5]

Çünki sürprizlər bahadır. Həm də əyləncəli növ deyil.


Müqayisə cədvəli: ümumi əvvəlcədən emal + monitorinq alətləri (və onlar kimlər üçündür) 🧰

Alət / kitabxana Ən yaxşısı Qiymət Niyə işləyir (və bir az dürüstlük)
scikit-learn əvvəlcədən emal Cədvəlli ML boru kəmərləri Pulsuz Bütöv kodlayıcılar + skalerlər (OneHotEncoder, StandardScaler və s.) və proqnozlaşdırıla bilən davranış [1]
Qucaqlayan Üz Tokenizatorları NLP giriş hazırlığı Pulsuz Giriş ID-ləri + diqqət maskaları ardıcıl olaraq qaçışlar/modellər üzrə yaradır [3]
Torchvision transformasiyaları Görmənin transformasiyası + böyütmə Pulsuz Deterministik və təsadüfi çevrilmələri bir boru kəmərində qarışdırmağın təmiz yolu [4]
Vertex AI Model Monitorinqi Məhsulda sürüşmə/əyilmə aşkarlanması Ödənişli (bulud) Monitorlar əyrilik/sürüşmə xüsusiyyətinə malikdir və hədləri aşdıqda xəbərdarlıq edir [5]

(Bəli, cədvəldə hələ də fikirlər var. Amma heç olmasa səmimi fikirlərdir 😅)


Həqiqətən istifadə edə biləcəyiniz praktik bir ilkin emal yoxlama siyahısı 📌

Təlimdən əvvəl

  • Giriş sxemini təyin edin (növlər, vahidlər, icazə verilən diapazonlar)

  • Çatışmayan dəyərləri və dublikatları yoxlayın

  • Məlumatları düzgün şəkildə bölün (təsadüfi / zamana əsaslanan / qruplaşdırılmış)

  • Yalnız təlimdə uyğunluq üçün əvvəlcədən emal ( fit / fit_transform təlimdə qalır) [2]

  • Əvvəlcədən emal olunmuş artefaktları saxlayın ki, nəticə çıxarmaq onları yenidən istifadə edə bilsin [2]

Təlim zamanı

  • Təsadüfi artırmanı yalnız uyğun yerlərdə tətbiq edin (adətən yalnız təlim bölmələri ilə) [4]

  • Qiymətləndirmənin əvvəlcədən işlənməsini deterministik saxlayın [4]

  • Model dəyişiklikləri kimi əvvəlcədən emal dəyişikliklərini izləyin (çünki onlar belədir)

Yerləşdirmədən əvvəl

  • Nəticə çıxarmanın eyni əvvəlcədən emal yolundan və artefaktlardan istifadə etdiyinə əmin olun [2]

  • Drift/əyilmə monitorinqini qurun (hətta əsas xüsusiyyət paylanması yoxlamaları belə çox şeyə kömək edir) [5]


Dərinliyə dalış: ümumi əvvəlcədən emal səhvləri (və onlardan necə yayınmaq olar) 🧯

Səhv 1: “Hər şeyi tez bir zamanda normallaşdıracağam” 😵

Əgər bütün verilənlər bazasında miqyaslama parametrlərini hesablasanız, qiymətləndirmə məlumatı sızmış olur. Uyğunlaşdırın, qalanını dəyişdirin. [2]

Səhv 2: kateqoriyalar xaosa doğru sürünür 🧩

Kateqoriya xəritələşdirməniz təlim və nəticə çıxarma arasında dəyişirsə, modeliniz dünyanı səssizcə səhv başa düşə bilər. Xəritələşdirmələri yadda saxlanılan artefaktlar vasitəsilə sabit saxlayın. [2]

Səhv 3: təsadüfi artırmanın qiymətləndirməyə gizlicə daxil olması 🎲

Təsadüfi çevrilmələr təlimdə əladır, lakin performansı ölçməyə çalışarkən onlar "gizli şəkildə" olmamalıdır. (Təsadüfi təsadüfi deməkdir.) [4]


Yekun qeydlər 🧠✨

Süni intellekt əvvəlcədən emalı, qarışıq reallığı ardıcıl model girişlərinə çevirməyin intizamlı sənətidir. Buraya təmizləmə, kodlaşdırma, miqyaslama, tokenləşdirmə, təsvir transformasiyaları və ən əsası təkrarlana bilən boru kəmərləri və artefaktları daxildir.

  • Əvvəlcədən emal etmək təsadüfi deyil, qəsdən edilməlidir. [2]

  • Əvvəlcə bölün, yalnız məşq zamanı uyğun transformasiyalar edin, sızmaların qarşısını alın. [2]

  • Modallığa uyğun ilkin emaldan istifadə edin (mətn üçün tokenizatorlar, şəkillər üçün transformasiyalar). [3][4]

  • Modelinizin yavaş-yavaş cəfəngiyata sürüklənməməsi üçün istehsal əyriliyini/dəyişməsini izləyin. [5]

Əgər nə vaxtsa ilişib qalsanız, özünüzdən soruşun:
“Sabah yeni məlumatlar üzərində işlətsəm, bu əvvəlcədən işləmə addımı yenə də mənalı olarmı?”
Əgər cavab “bəlkə də?”-dirsə, bu sizin ipucunuzdur 😬

Real həyat nümunəsi: Sızma proqnozu üçün sızmaya qarşı təhlükəsiz ilkin emal boru kəmərinin qurulması

Ssenari

Növbəti 30 gün ərzində hansı müştərilərin sifarişi ləğv edəcəyini proqnozlaşdırmağa çalışan kiçik bir SaaS komandasını təsəvvür edin. Onların xam məlumatları üç yerdə yerləşir: faktura ixracı, məhsul istifadə qeydləri və dəstək biletləri.

Modelin ilk versiyası validasiya baxımından əla görünür, lakin yeni bir ay ərzində müştərilər üzərində sınaqdan keçirildikdə zəif nəticə göstərir. Məsələ model arxitekturasında deyil, əvvəlcədən emaldadır.

Komanda təsadüfən bütün məlumat dəstindən istifadə edərək rəqəmsal xüsusiyyətləri miqyaslandırdı, qatar və test məlumatlarından birlikdə kateqoriya xəritələri yaratdı və yalnız ləğv edildikdən sonra əlavə edilən dəstək bileti etiketlərini daxil etdi. Klassik sızma. Ağrılı, lakin düzəldilə bilən. [2]

Boru kəmərinin nəyə ehtiyacı var

Praktik bir quruluşa aşağıdakılar daxildir:

  • Sabit giriş sxemi: customer_id, plan_type, account_age_days, logins_30d, tickets_30d, last_payment_status, region

  • Yanvar-sentyabr aylarında təlim və oktyabrda test kimi vaxt əsaslı bölgü

  • Rəqəmsal miqyaslama yalnız təlim bölməsinə uyğunlaşdırılıb

  • Kateqoriyalı kodlayıcılar yalnız təlim bölməsinə quraşdırılıb

  • İstehsal eyni xəritələşdirmələrdən və miqyaslandırıcı dəyərlərdən istifadə etməsi üçün saxlanılan əvvəlcədən emal boru kəməri

  • Yerləşdirildikdən sonra itkin sütunlar, görünməyən kateqoriyalar və paylama dəyişiklikləri üçün əsas monitorinq

Əsas qayda sadədir: əvvəlcə bölün, sonra əvvəlcədən emal uyğunlaşdır. Məlumatlardan öyrənilən hər şey yalnız təlim dövründən öyrənilməlidir. [2]

Nümunə təlimat

Bunu əvvəlcədən emal mərhələsi üçün işçi təlimat kimi istifadə edin:

Müştəri hesablaşması, istifadəsi və dəstək məlumatlarından istifadə edərək, itki proqnozlaşdırma modeli üçün əvvəlcədən emal boru kəməri qurun. Hər hansı bir transformatoru quraşdırmadan əvvəl məlumatları zamana görə bölün. Rəqəmsal miqyaslayıcıları və kateqoriyalı kodlayıcıları yalnız təlim məlumatlarına uyğunlaşdırın, sonra həmin uyğunlaşdırılmış çevirmələri doğrulama və sınaq məlumatlarına tətbiq edin. İstehsal modeli eyni sxemdən, kateqoriya xəritələşdirmələrindən və miqyaslama parametrlərindən istifadə etməsi üçün bütün əvvəlcədən emal artefaktlarını saxlayın. Proqnozlaşdırmadan əvvəl itkin sütunları, gözlənilməz məlumat növlərini, görünməyən kateqoriyaları və əsas paylanma dəyişikliklərini qeyd edin.

Bunu necə sınaqdan keçirmək olar

Modelə etibar etməzdən əvvəl, əvvəlcədən emal boru kəmərini bir neçə qəsdən yöndəmsiz qeydlə sınaqdan keçirin:

  • Təlimdə olmayan bir plan növü üzrə müştəri

  • Region və ya son_ödəniş_statusu çatışmayan sətir

  • Qeyri-adi dərəcədə yüksək istifadəyə malik müştəri, məsələn, 30 gün ərzində 10.000 giriş

  • Sütunları səhv ardıcıllıqla düzülmüş istehsal tipli fayl

  • Quraşdırma zamanı heç vaxt istifadə olunmayan gələcək ay üçün sınaq dəsti

Sonra üç şeyi yoxlayın:

  • Boru kəməri xüsusiyyət sırasını dəyişdirmədən işləyirmi?

  • Naməlum kateqoriyalar ardıcıl olaraq işlənirmi?

  • Sızıntı aradan qaldırıldıqdan sonra doğrulama performansı daha inandırıcı səviyyəyə düşürmü?

Sonuncu məqam vacibdir. Şübhəli dərəcədə yüksək validasiya balı çox vaxt möcüzə deyil, əvvəlcədən emal olunmuş qoxudur.

Nəticə

Noutbuk addımlarını yadda saxlanılan boru kəmərinə çevirməzdən əvvəl və sonra beş nümunə əvvəlcədən emal prosesinin vaxtına əsaslanan illüstrativ nəticə:

  • Əl ilə əvvəlcədən işləmə müddəti hər məlumat dəsti yeniləməsi üçün 55 dəqiqədən 8 dəqiqəyə endirildi.

  • Xüsusiyyət sıralama xətaları 5 test yeniləməsindəki 3 xətadan 5 yeniləmədə 0 xətaya düşdü.

  • Sızma aradan qaldırıldıqdan sonra doğrulama dəqiqliyi 91%-dən 74%-ə düşdü, lakin yeni ayda sınaq dəqiqliyi 62%-dən 71%-ə yüksəldi.

  • Komanda 6 avtomatlaşdırılmış yoxlama əlavə etdi: itkin sütunlar, etibarsız növlər, görünməyən kateqoriyalar, sıfır dərəcəsi dəyişikliyi, rəqəmsal diapazon dəyişikliyi və təlim-xidmət sxemi uyğunsuzluğu.

Bu rəqəmlər universal bir etalon deyil. Bunlar komandanın yeniləmələrin vaxtını təyin etməklə, uğursuz qaçışları saymaqla və təsdiq nəticələrini təxirə salınmış gələcək ayla müqayisə etməklə təkrarlaya biləcəyi sadə əvvəl və sonra ölçmələridir.

Nə səhv gedə bilər

Ən böyük risk, sızmanı sakitcə qoruyarkən boru kəmərinin təmiz görünməsidir. Məsələn, "son ləğv xəbərdarlıq e-poçtundan sonrakı günlər" dəyərli görünə bilər, lakin bu e-poçt yalnız daxili sızma yoxlamasından sonra göndərilərsə, gələcəkdə məlumat sızdıra bilər.

Digər ümumi tələlər:

  • Yadda saxlanılan xəritələri yükləmək əvəzinə istehsalda kodlayıcıların yenidən quraşdırılması

  • Yeni kateqoriyaların səssizcə xüsusiyyət mövqelərini dəyişməsinə icazə vermək

  • Əsl tapşırıq zamana əsaslandıqda təsadüfi bölünmə üzərində sınaq

  • Təlimdə çatışmayan dəyərləri olan sətirləri silmək, lakin nəticə çıxarma yolu ilə onları emal etməmək

  • Giriş sürüşməsini nəzərə almadan model dəqiqliyinin monitorinqi

Praktik yemək

Yaxşı bir ilkin emal boru kəməri xam məlumatları səliqəli etməkdən daha çox şey edir. Bu, modeli pis qiymətləndirmədən, pozulmuş istehsal girişlərindən və yavaş səssiz sürüşmədən qoruyur. İtirilmiş model üçün ağıllı ilkin emal ilə etibarlı ilkin emal arasındakı fərq, xüsusən də məlumatlar modelin əvvəllər heç görmədiyi bir aydan gəlirsə, eyni uyğunlaşdırılmış transformasiyaların hər dəfə təkrar istifadə olunub-olunmamasından asılıdır.


Tez-tez verilən suallar

Sadə dillə desək, süni intellekt əvvəlcədən emal nədir?

Süni intellekt əvvəlcədən emal, səs-küylü, yüksək variasiyalı xam məlumatları modelin öyrənə biləcəyi ardıcıl girişlərə çevirən təkrarlana bilən addımlar toplusudur. Buraya təmizləmə, doğrulama, kateqoriyaların kodlaşdırılması, ədədi dəyərlərin miqyaslandırılması, mətnin tokenləşdirilməsi və şəkil transformasiyalarının tətbiqi daxil ola bilər. Məqsəd, təlim və istehsal nəticələrinin "eyni növ" girişi görməsini təmin etməkdir ki, model sonradan gözlənilməz davranışa sürüklənməsin.

Süni intellekt ilkin emalı istehsalda niyə bu qədər vacibdir?

Əvvəlcədən emal vacibdir, çünki modellər giriş təqdimatına həssasdır. Təlim məlumatları istehsal məlumatlarından fərqli olaraq miqyaslandırılıb, kodlaşdırılıb, tokenləşdirilib və ya transformasiya edilibsə, oflayn rejimdə yaxşı görünən, lakin onlayn rejimdə səssizcə uğursuz olan təlim/xidmət uyğunsuzluğu xətaları ilə qarşılaşa bilərsiniz. Güclü əvvəlcədən emal boru kəmərləri həmçinin səs-küyü azaldır, öyrənmə sabitliyini artırır və təkrarlamanı sürətləndirir, çünki siz noutbuk spagettisini açmırsınız.

Əvvəlcədən emal zamanı məlumatların sızmasının qarşısını necə ala bilərəm?

Sadə bir qayda işləyir: uyğun addımı olan hər hansı bir şey yalnız təlim məlumatlarına uyğun olmalıdır. Buraya orta, kateqoriya xəritələri və ya lüğətlər kimi parametrləri öyrənən skalerlər, enkoderlər və tokenizatorlar daxildir. Əvvəlcə bölünür, təlim bölünməsinə uyğunlaşdırılır, sonra uyğunlaşdırılmış transformatordan istifadə edərək validasiya/testi çevirirsiniz. Sızma validasiyanı "sehrli" şəkildə yaxşı göstərə və sonra istehsal istifadəsində çökə bilər.

Cədvəl məlumatları üçün ən çox yayılmış ilkin emal addımları hansılardır?

Cədvəl məlumatları üçün adi boru kəmərinə təmizləmə və validasiya (növlər, diapazonlar, çatışmayan dəyərlər), kateqoriyalı kodlaşdırma (birdəfəlik və ya sıralı) və rəqəmsal miqyaslama (standartlaşdırma və ya minimum-maks) daxildir. Bir çox boru kəmərlərinə nisbətlər, pəncərələrin yayılması və ya saylar kimi domen əsaslı xüsusiyyət mühəndisliyi əlavə olunur. Praktik bir vərdiş, sütun qruplarını açıq şəkildə təyin etməkdir (rəqəmli vs kateqoriyalı vs identifikatorlar) ki, transformasiyalarınız ardıcıl qalsın.

Mətn modelləri üçün əvvəlcədən işləmə necə işləyir?

Mətnin əvvəlcədən işlənməsi adətən tokenləşdirməni tokenlərə/alt sözlərə çevirmək, onları giriş ID-lərinə çevirmək və toplulaşdırma üçün boşluq/kəsikləməni idarə etmək deməkdir. Bir çox transformator iş axınları da ID-lərlə yanaşı diqqət maskası yaradır. Ümumi yanaşma, modelin gözlənilən tokenizator konfiqurasiyasından improvizasiya etmək əvəzinə istifadə etməkdir, çünki tokenizator parametrlərindəki kiçik fərqlər "öyrədir, lakin gözlənilməz şəkildə davranır" nəticələrinə səbəb ola bilər.

Maşın öyrənməsi üçün şəkillərin əvvəlcədən işlənməsinin fərqi nədir?

Təsvirin əvvəlcədən işlənməsi adətən ardıcıl formaları və piksellərin işlənməsini təmin edir: ölçüsünün dəyişdirilməsi/kəsilməsi, normallaşdırma və deterministik və təsadüfi çevrilmələr arasında aydın bir bölgü. Qiymətləndirmə üçün çevrilmələr deterministik olmalıdır ki, metriklər müqayisə oluna bilsin. Təlim üçün təsadüfi artırma (təsadüfi kəsimlər kimi) möhkəmliyi artıra bilər, lakin təsadüfilik qəsdən təlim bölgüsünə daxil edilməlidir, qiymətləndirmə zamanı təsadüfən qalmamalıdır.

Əvvəlcədən emal boru kəmərini kövrək deyil, "yaxşı" edən nədir?

Yaxşı bir süni intellekt əvvəlcədən emal boru kəməri təkrarlana bilən, sızmaya davamlı və müşahidə edilə biləndir. Təkrarlana bilən, təsadüfilik qəsdən artırılmadığı təqdirdə eyni girişin eyni çıxışı yaratmadığı deməkdir. Sızmaya davamlı, uyğun addımların heç vaxt doğrulama/testlə əlaqəsi olmadığını bildirir. Müşahidə edilə bilən, itkinlik, kateqoriya sayı və xüsusiyyət paylanması kimi statistikaları yoxlaya biləcəyiniz deməkdir, buna görə də ayıklama daxili hisslərə deyil, dəlillərə əsaslanır. Boru kəmərləri hər dəfə ad-hoc noutbuk ardıcıllıqlarını üstələyir.

Təlim və nəticə çıxarmanın ilkin emalını necə ardıcıl saxlaya bilərəm?

Əsas məsələ, eyni öyrənilmiş artefaktları nəticə çıxarma vaxtında təkrar istifadə etməkdir: miqyas parametrləri, kodlayıcı xəritələşdirmələri və tokenizer konfiqurasiyaları. Həmçinin, istehsal məlumatlarının səssizcə etibarsız formalara sürüklənməməsi üçün giriş müqaviləsi (gözlənilən sütunlar, növlər və diapazonlar) lazımdır. Ardıcıllıq sadəcə "eyni addımları etmək" deyil - bu, "eyni uyğunlaşdırılmış parametrlər və xəritələşdirmələrlə eyni addımları etmək"dir

Zamanla sürüşmə və əyilmə kimi əvvəlcədən emal problemlərini necə izləyə bilərəm?

Möhkəm bir boru kəməri ilə belə, istehsal məlumatları dəyişir. Ümumi bir yanaşma, xüsusiyyət paylanması dəyişikliklərini izləmək və təlimə xidmət edən əyrilik (istehsal təlimdən yayınır) və nəticə çıxarma sürüşməsi (zamanla istehsal dəyişiklikləri) barədə xəbərdarlıq etməkdir. Monitorinq yüngül (əsas paylama yoxlamaları) və ya idarə oluna bilər (Vertex AI Model Monitorinqi kimi). Məqsəd, giriş dəyişikliklərini model performansını yavaş-yavaş pozmadan əvvəl erkən müəyyən etməkdir.

İstinadlar

[1] scikit-learn API: sklearn.preprocessing (kodlayıcılar, skalerlər, normallaşdırma)
[2] scikit-learn: Ümumi tələlər - Məlumat sızması və ondan necə qaçınmaq olar
[3] Qucaqlaşan Üz Transformatorları sənədləri: Tokenizatorlar (giriş ID-ləri, diqqət maskaları)
[4] PyTorch Torchvision sənədləri: Transformasiyalar (Ölçüsünü Yenidən/Normallaşdır + təsadüfi çevrilmələr)
[5] Google Cloud Vertex AI sənədləri: Model Monitorinqinə ümumi baxış (xüsusiyyət əyriliyi və sürüşməsi)

Ən son süni intellekt texnologiyalarını rəsmi süni intellekt köməkçisi mağazasında tapın

Haqqımızda

Bloqa qayıt

Əlavə Tez-tez Verilən Suallar

  • Süni intellekt əvvəlcədən emal maşın öyrənmə modellərini necə təkmilləşdirir?

    Süni intellekt ilkin emalı, xam məlumatları ardıcıl, modelə hazır xüsusiyyətlərə çevirməklə maşın öyrənmə modellərini təkmilləşdirir. Bu, öyrənmə sabitliyini artırmağa, səs-küyü azaltmağa və səssiz nasazlıq riskini minimuma endirməyə kömək edir və modellərin həm təlim, həm də istehsal mühitlərində etibarlı şəkildə işləməsini təmin edir.

  • Süni intellekt ilkin emal prosesində hansı addımlar iştirak edir?

    Süni intellekt ilkin emalı adətən məlumatların təmizlənməsi və doğrulanması, kateqoriyalı dəyişənlərin kodlaşdırılması, ədədi məlumatların miqyaslandırılması, mətnin tokenləşdirilməsi və şəkil transformasiyalarının tətbiqi daxildir. Modelin giriş məlumatlarından effektiv şəkildə öyrənə bilməsi üçün hər bir addım vacibdir.

  • Süni intellekt əvvəlcədən emalında ardıcıllıq nə üçün vacibdir?

    Təlim və istehsal məlumatları girişləri arasında uyğunsuzluqların qarşısını almaq üçün süni intellekt ilkin emalında ardıcıllıq vacibdir. İlkin emal addımları fərqli olarsa, model validasiya zamanı yaxşı nəticə göstərə bilər, lakin real həyatda səssizcə uğursuz ola bilər və bu da etibarsız nəticələrə səbəb olur.

  • Süni intellekt əvvəlcədən emal kontekstində məlumat sızması nədir?

    Məlumat sızması, qiymətləndirmə və ya test məlumat dəstlərindən alınan məlumatlar təlim prosesinə təsadüfən təsir etdikdə baş verir. Bunun qarşısını almaq üçün parametrləri öyrənən bütün əvvəlcədən emal addımları yalnız təlim məlumatlarına uyğunlaşdırılmalıdır ki, bu da model qiymətləndirməsinin həqiqi performansı əks etdirməsini təmin etsin.

  • Süni intellekt əvvəlcədən emal boru kəmərimin təkrarlana biləcəyini necə təmin edə bilərəm?

    Süni intellekt əvvəlcədən emal boru kəmərinizdə təkrarlana bilməsini təmin etmək üçün eyni giriş-çıxış xəritələşdirmələrini saxlayın, skalerlər və enkoderlər kimi əvvəlcədən emal artefaktlarını yalnız təlim məlumatlarına uyğunlaşdırın və bu artefaktları model çıxarışı zamanı istifadə üçün saxlayın.

  • Model performans problemlərinin qarşısını almaq üçün süni intellektimdə ilkin emalda nələrə nəzarət etməliyəm?

    Zamanla məlumatlarınızdakı sürüşmə və əyrilikləri izləmək vacibdir. Bu, xüsusiyyət paylanmalarındakı dəyişikliklərin yoxlanılmasını və istehsal məlumatlarının təlim məlumatları ilə uyğunluğunu təmin etməyi əhatə edir. Bu cür problemlərin erkən aşkarlanması modelin performansını qorumağa kömək edə bilər.

  • Qarşısını almaq üçün ümumi əvvəlcədən emal səhvlərinə dair nümunələr verə bilərsinizmi?

    Ümumi ilkin emal səhvlərinə bütün məlumat dəstində ilkin emal addımlarının uyğunlaşdırılması, məlumatların sızması, təlim və nəticə çıxarma arasında uyğunsuz kateqoriya xəritələşdirmələri və qiymətləndirmə zamanı təsadüfi çevrilmələrin aktiv qalması daxildir ki, bu da performans göstəricilərini təhrif edə bilər.