Əgər siz nə vaxtsa bir demo modelin kiçik bir sınaq yükünü əzməsinə və sonra real istifadəçilərin göründüyü anda dondurulmasına baxmısınızsa, siz cani ilə qarşılaşmısınız: miqyas. Süni intellekt məlumatlara, hesablamalara, yaddaşa, bant genişliyinə və qəribə də olsa, diqqətə görə acgözdür. Beləliklə, AI Ölçeklenebilirliği nədir və hər həftə hər şeyi yenidən yazmadan onu necə əldə etmək olar?
Bundan sonra oxumaq istəyə biləcəyiniz məqalələr:
🔗 Süni intellekt qərəzliliyinin nə olduğunu sadəcə izah edin
Gizli qərəzlərin AI qərarlarını və model nəticələrini necə formalaşdırdığını öyrənin.
🔗 Başlanğıc bələdçisi: süni intellekt nədir
AI, əsas anlayışlar, növlər və gündəlik tətbiqlərə ümumi baxış.
🔗 İzah edilə bilən AI nədir və nə üçün vacibdir
Açıqlana bilən süni intellektin şəffaflığı, etibarı və normativlərə uyğunluğu necə artırdığını kəşf edin.
🔗 Proqnozlaşdırılan AI nədir və necə işləyir
Proqnozlaşdırılan AI, ümumi istifadə halları, faydalar və məhdudiyyətləri anlayın.
AI Ölçeklenebilirliği nədir? 📈
Süni intellekt miqyaslılığı, süni intellekt sisteminin performansı, etibarlılığı və xərcləri məqbul həddə saxlayarkən daha çox məlumat, sorğu, istifadəçi və istifadə hallarını idarə etmək qabiliyyətidir. Yalnız daha böyük serverlər deyil - əyri qalxdıqca gecikməni aşağı, yüksək ötürmə qabiliyyətini və keyfiyyəti sabit saxlayan daha ağıllı arxitekturalar. Əslində nəyin işlədiyini sizə deyən elastik infrastruktur, optimallaşdırılmış modellər və müşahidə qabiliyyəti düşünün.

Yaxşı AI Ölçeklenebilirliğini təmin edən nədir ✅
AI Ölçeklenebilirliği yaxşı edildikdə, əldə edirsiniz:
-
Tikanlı və ya davamlı yük altında proqnozlaşdırıla bilən gecikmə 🙂
-
Əlavə edilmiş aparat və ya replikalara mütənasib olaraq artan məhsuldarlıq
-
Hər tələb üzrə artmayan xərc səmərəliliyi
-
Girişlər şaxələnən və həcmlər artdıqca keyfiyyət sabitliyi
-
Avtomatik ölçmə, izləmə və sağlam SLO sayəsində əməliyyat sakitliyi
Başlıq altında bu, adətən üfüqi miqyaslaşdırma, toplulaşdırma, keşləmə, kvantlaşdırma, möhkəm xidmət və səhv büdcələrlə əlaqəli düşünülmüş buraxılış siyasətlərini birləşdirir [5].
AI Ölçeklenebilirliği vs Performans vs Tutum 🧠
-
Performans tək bir sorğunun ayrılıqda nə qədər sürətli tamamlandığıdır.
-
Tutum bu sorğuların neçəsini eyni anda idarə edə biləcəyinizdir.
-
AI Ölçeklenebilirliği resursların əlavə edilməsi və ya daha ağıllı üsullardan istifadənin tutumun artırılması və performansı ardıcıl olaraq saxlamasıdır - hesabınızı və ya peycerinizi partlatmadan.
Kiçik fərq, nəhəng nəticələr.
Niyə miqyas ümumiyyətlə AI-də işləyir: miqyas qanunları ideyası 📚
Müasir ML-də geniş istifadə olunan bir fikir , model ölçüsünü, məlumatları miqyaslandırdıqca və məntiq daxilində hesabladıqca itkinin proqnozlaşdırıla bilən şəkildə azalmasıdır . Model ölçüsü ilə təlim tokenləri arasında da hesablama üçün optimal bir tarazlıq mövcuddur ; hər ikisini birlikdə miqyaslandırmaq yalnız birini miqyaslandırmaqdan daha yaxşıdır. Praktikada bu fikirlər təlim büdcələrini, məlumat dəsti planlaşdırmasını və xidmət kompromislərini formalaşdırır [4].
Sürətli tərcümə: daha böyük daha yaxşı ola bilər, ancaq siz girişləri miqyaslandırdıqda və mütənasib hesabladıqda - əks halda bu, traktor təkərlərini velosipedə taxmağa bənzəyir. Güclü görünür, heç yerə getmir.
Üfüqi və şaquli: iki miqyaslama qolu 🔩
-
Şaquli miqyas: daha böyük qutular, daha güclü GPU-lar, daha çox yaddaş. Sadə, bəzən bahalı. Tək düyünlü təlim, aşağı gecikmə müddəti və ya modeliniz gözəl şəkildə parçalamaqdan imtina etdikdə yaxşıdır.
-
Üfüqi miqyas : daha çox replika.yaxşı işləyir CPU/GPU və ya fərdi tətbiq ölçüləri əsasında podlar əlavə edən və ya silənKubernetes-də, HorizontalPodAutoscaler tələbata cavab olaraq podları tərəziləşdirir - trafik sıçrayışları üçün əsas kütlə nəzarətiniz [1]. avtomiqyaslayıcılarla .
Anekdot (kompozit): Yüksək profilli işə salınma zamanı sadəcə server tərəfində paketləşdirməni təmin etmək və avtomatik miqyaslayıcıya heç bir müştəri dəyişikliyi olmadan növbə dərinliyi stabilləşdirilmiş p95-ə reaksiya vermək imkanı verir. Qeyri-adi qələbələr hələ də qələbədir.
Süni intellekt ölçüsünün tam dəsti 🥞
-
Məlumat təbəqəsi: sürətli obyekt saxlama, vektor indeksləri və məşqçilərinizi boğmayacaq axın qəbulu.
-
Təlim təbəqəsi: məlumat/model paralelliyini, yoxlama nöqtəsini, təkrar cəhdləri idarə edən paylanmış çərçivələr və planlaşdırıcılar.
-
Xidmət səviyyəsi: optimallaşdırılmış iş vaxtları, dinamik toplulaşdırma, səhifələnmiş diqqət , keşləmə, token axını. Triton və vLLM burada tez-tez qəhrəmanlardır [2][3].
-
Orkestrasiya: HPA və ya xüsusi avtomiqyaslayıcılar [1] vasitəsilə elastiklik üçün Kubernetes.
-
Müşahidə oluna bilənlik: məhsulda istifadəçi səyahətlərini və model davranışını izləyən izlər, ölçülər və qeydlər; onları SLO-larınız ətrafında dizayn edin [5].
-
İdarəetmə və xərc: hər sorğu üzrə iqtisadiyyat, büdcələr və qaçaq iş yükü üçün söndürmə açarları.
Müqayisə cədvəli: AI Ölçüləndirilməsi üçün alətlər və nümunələr 🧰
Məqsəd baxımından bir az qeyri-bərabərdir - çünki real həyat belədir.
| Alət / Nümunə | Tamaşaçı | Qiymətə uyğun | Niyə işləyir | Qeydlər |
|---|---|---|---|---|
| Kubernetes + HPA | Platforma komandaları | Açıq mənbə + infra | Metriklər artdıqca podları üfüqi şəkildə ölçür | Fərdi ölçülər qızıldır [1] |
| NVIDIA Triton | Nəticə SRE | Pulsuz server; GPU $ | Dinamik yığım ötürmə qabiliyyətini artırır | config.pbtxt [2] vasitəsilə konfiqurasiya edin |
| vLLM (PageDattention) | LLM komandaları | Açıq mənbə | Effektiv KV-cache paging vasitəsilə yüksək ötürmə qabiliyyəti | Uzun sorğular üçün əladır [3] |
| ONNX Runtime / TensorRT | Perf nerds | Pulsuz / satıcı alətləri | Kernel səviyyəli optimallaşdırmalar gecikməni azaldır | İxrac yolları çətin ola bilər |
| RAG nümunəsi | Tətbiq komandaları | İnfra + indeksi | Biliyi bərpa etmək üçün yükləyir; indeksi ölçür | Təravət üçün əladır |
Dərin dalış 1: İğneyi hərəkət etdirən fəndlər 🚀
-
Dinamik toplu qruplar kiçik nəticə çağırışlarını serverdə daha böyük partiyalara çevirir və müştəri dəyişiklikləri olmadan GPU istifadəsini kəskin şəkildə artırır [2].
-
Səhifəli diqqət KV önbelleğini tənzimləməklə daha çox söhbəti yaddaşda saxlayır ki, bu da paralellik altında ötürmə qabiliyyətini artırır [3].
-
Eyni sorğular və ya yerləşdirmələr üçün birləşdirmə və keşləmə tələb edin, təkrarlanan işlərdən qaçın
-
Spekulyativ dekodlaşdırma və token axını, divar saatı güclə qalxsa belə, qəbul edilən gecikməni azaldır.
Dərin dalış 2: Model səviyyəsində səmərəlilik - kvantlama, distillə, budama 🧪
-
Kvantlaşdırma yaddaşı daraltmaq və nəticə çıxarmağı sürətləndirmək üçün parametr dəqiqliyini (məsələn, 8-bit/4-bit) azaldır; həmişə dəyişikliklərdən sonra tapşırığın keyfiyyətini yenidən qiymətləndirin.
-
Distillə, bilikləri böyük bir müəllimdən aparatınızın həqiqətən bəyəndiyi daha kiçik tələbəyə ötürür.
-
Strukturlaşdırılmış budama ən az töhfə verən çəkiləri/başları kəsir.
Düzünü desək, bu, bir az çamadanınızın ölçüsünü azaltdıqdan sonra bütün ayaqqabılarınızın hələ də uyğun olduğunu israr etmək kimi bir şeydir. Birtəhər olur, əsasən.
Dərin dalış 3: Göz yaşı tökmədən məlumat və məşq miqyası 🧵
-
Eksperimentləri daha tez göndərə bilmək üçün paralelliyin iyrənc hissələrini gizlədən paylanmış təlimdən istifadə edin.
-
Bu miqyaslama qanunlarını xatırlayın : büdcəni model ölçüsü və tokenlər üzrə düşünərək bölüşdürün; hər ikisini birlikdə miqyaslaşdırmaq hesablama baxımından səmərəlidir [4].
-
Tədris planı və məlumatların keyfiyyəti tez-tez nəticələri insanların etiraf etdiyindən daha çox dəyişir. Daha yaxşı məlumatlar bəzən daha çox məlumatı üstələyir - hətta daha böyük klaster sifariş etmisinizsə belə.
Dərin dalış 4: RAG bilik üçün miqyaslı strategiya kimi 🧭
Dəyişən faktlarla ayaqlaşmaq üçün modeli yenidən hazırlamaq əvəzinə, RAG nəticə çıxarmaq üçün axtarış addımı əlavə edir. Siz modeli sabit saxlaya və korpusunuz böyüdükcəZərif və çox vaxt bilik tələb edən proqramlar üçün tam təkrar təlimlərdən daha ucuzdur. indeksi və retrieverləri miqyaslandıra bilərsiniz.
Özünü ödəyən müşahidə qabiliyyəti 🕵️♀️
Görmədiyinizi miqyaslandıra bilməzsiniz. İki əsas:
-
Tutumu planlaşdırma və avtomatik miqyaslama üçün ölçülər : gecikmə faizləri, növbə dərinliyi, GPU yaddaşı, toplu ölçülər, token ötürmə qabiliyyəti, keş vurma dərəcələri.
-
izlər . Ölçdüklərinizi SLO-larınıza bağlayın ki, idarəetmə panelləri sualları bir dəqiqədən az müddətdə cavablandırsın [5].
Panellər bir dəqiqədən az müddətdə suallara cavab verəndə insanlar onlardan istifadə edirlər. Olmayanda, elə bil, elə bilirlər.
Etibarlılıq qoruyucuları: SLO-lar, səhv büdcələri, sağlam buraxılışlar 🧯
-
Gecikmə, mövcudluq və nəticə keyfiyyəti üçün SLO-ları müəyyənləşdirin və etibarlılığı buraxma sürəti ilə balanslaşdırmaq üçün səhv büdcələrindən istifadə edin [5].
-
Trafik bölünmələrinin arxasında yerləşdirin, kanareykalar edin və qlobal kəsilmədən əvvəl kölgə testləri keçirin. Gələcək özünüz qəlyanaltılar göndərəcək.
Drama olmadan xərclərə nəzarət 💸
Ölçmə yalnız texniki deyil; maliyyədir. GPU saatlarını və tokenlərini vahid iqtisadiyyatı ilə birinci dərəcəli resurslar kimi nəzərdən keçirin (1k token, hər yerləşdirmə, bir vektor sorğusu üçün xərc). Büdcələr və xəbərdarlıq əlavə edin; şeyləri silməyi qeyd edin.
Süni intellekt miqyası üçün sadə yol xəritəsi 🗺️
-
p95 gecikmə, əlçatanlıq və tapşırıq dəqiqliyi üçünbirinci gün tel ölçüləri/izləri [5]. SLO ilə başlayın ;
-
Paketləşdirməni və davamlı yığımı dəstəkləyən xidmət yığını seçin : Triton, vLLM və ya ekvivalentlər [2][3].
-
Modeli optimallaşdırın: kömək etdiyi yeri ölçün, daha sürətli nüvələri işə salın və ya xüsusi tapşırıqlar üçün distillə edin; keyfiyyəti real qiymətləndirmələrlə təsdiqləyin.
-
Elastiklik üçün memar: Kubernetes HPA düzgün siqnallar, ayrı oxu/yazma yolları və vətəndaşlığı olmayan nəticə çıxarma replikaları [1].
-
axtarışı qəbul edin ki, hər həftə yenidən məşq etmək əvəzinə indeksinizi genişləndirəsiniz.
-
Xərclə döngəni bağlayın: vahid iqtisadiyyatı və həftəlik nəzərdən keçirin.
Ümumi uğursuzluq rejimləri və sürətli düzəlişlər 🧨
-
Gecikmə pis olduğu halda 30% istifadədə GPU
-
Dinamik toplulaşdırmanı yandırın , paket qapaqlarını diqqətlə qaldırın və serverin paralelliyini yenidən yoxlayın [2].
-
-
Uzun göstərişlərlə ötürmə qabiliyyəti çökür
-
Səhifələnmiş diqqəti dəstəkləyən xidmətdən istifadə edin və maksimum paralel ardıcıllığı tənzimləyin [3].
-
-
Avtomatik ölçmə qapaqları
-
Pəncərələrlə hamar ölçülər; növbə dərinliyi üzrə miqyas və ya təmiz CPU əvəzinə saniyədə xüsusi nişanlar [1].
-
-
Xərclər işə salındıqdan sonra partlayır
-
Sorğu səviyyəsində xərc ölçülərini əlavə edin, təhlükəsiz olduğu yerlərdə kvantlaşdırmanı aktivləşdirin, ən yaxşı sorğuları keşləyin və ən pis cinayətkarların dərəcəsini məhdudlaşdırın.
-
AI Ölçeklenebilirlik oyun kitabı: sürətli yoxlama siyahısı ✅
-
SLO və səhv büdcələri mövcuddur və görünür
-
Metriklər: gecikmə, tps, GPU yaddaşı, toplu ölçüsü, token/s, keş hit
-
Girişdən modelə, post-proc-ə qədər izlər
-
Xidmət: batching, paralel olaraq tənzimlənir, isti keşlər
-
Model: kömək etdiyi yerdə kvantlaşdırılmış və ya distillə edilmişdir
-
İnfra: HPA düzgün siqnallarla konfiqurasiya edilmişdir
-
Bilik təzəliyi üçün axtarış yolu
-
Vahid iqtisadiyyatı tez-tez nəzərdən keçirilir
Çox Uzun Oxumadım və Yekun Qeydlər 🧩
Süni intellekt Ölçülənə bilənlik tək bir xüsusiyyət və ya gizli bir keçid deyil. Bu, bir şablon dilidir: avtomatik ölçənlərlə üfüqi miqyaslama, istifadə üçün server tərəfində toplulaşdırma, model səviyyəsində səmərəlilik, bilikləri boşaltmaq üçün geri alma və yayımları darıxdırıcı edən müşahidə qabiliyyəti. Hər kəsi uyğun vəziyyətdə saxlamaq üçün SLO-lara əlavə edin və gigiyena xərclərini ödəyin. İlk dəfə mükəmməl nəticə əldə edə bilməyəcəksiniz - heç kim bunu etmir - amma düzgün geribildirim döngələri ilə sisteminiz gecə saat 2-də soyuq tər hissi olmadan inkişaf edəcək 😅
İstinadlar
[1] Kubernetes Sənədləri - Horizontal Pod Avtomatik Ölçmə - daha çox oxu
[2] NVIDIA Triton - Dinamik Batcher - daha çox oxu
[3] vLLM Sənədləri - Səhifəli Diqqət - daha çox oxu
[4] Hoffmann et al. (2022) - Təlim Hesablama-Optimal Böyük Dil Modelləri - daha çox oxu
[5] Google SRE İş Kitabı - SLO-ların həyata keçirilməsi - daha çox oxu