Süni intellekt modellərini necə yerləşdirmək olar

Süni intellekt modellərini necə yerləşdirmək olar

Qısa cavab: Süni intellekt modelinin tətbiqi xidmət nümunəsini (real vaxt, toplu, yayım və ya kənar) seçmək, sonra isə bütün yolu təkrarlana bilən, müşahidə edilə bilən, təhlükəsiz və geri qaytarıla bilən etmək deməkdir. Hər şeyi versiyalaşdırdığınız və istehsalat kimi faydalı yüklərdə p95/p99 gecikməsini qiymətləndirdiyiniz zaman, əksər "noutbukumda işləyən" nasazlıqları kənara qoyursunuz.

Əsas nəticələr:

Yerləşdirmə nümunələri: Alətlərə başlamazdan əvvəl real vaxt, toplu, yayım və ya kənar seçimlərini edin.

Təkrarlana bilmə: Driftin qarşısını almaq üçün modeli, xüsusiyyətləri, kodu və mühiti versiyalaşdırın.

Müşahidə olunma: Gecikmə quyruqlarını, səhvləri, doyma və məlumat və ya çıxış paylanmalarını davamlı olaraq izləyin.

Təhlükəsiz tətbiqlər: Avtomatik geri qaytarma hədləri ilə kanareyka, mavi-yaşıl və ya kölgə testlərindən istifadə edin.

Təhlükəsizlik və məxfilik: Avtorizasiya, sürət limitləri və sirrlərin idarə edilməsini tətbiq edin və jurnallarda PII-ni minimuma endirin.

Süni intellekt modellərini necə yerləşdirmək olar? İnfoqrafiya

Bundan sonra oxumaq istəyə biləcəyiniz məqalələr: 

🔗 AI performansını necə ölçmək olar
Etibarlı süni intellekt nəticələri üçün metrikləri, etalonları və real dünya yoxlamalarını öyrənin.

🔗 Süni intellektlə tapşırıqları necə avtomatlaşdırmaq olar
Təkrarlanan işləri tapşırıqlar, alətlər və inteqrasiyalardan istifadə edərək iş axınlarına çevirin.

🔗 Süni intellekt modellərini necə sınaqdan keçirmək olar
Modelləri obyektiv şəkildə müqayisə etmək üçün qiymətləndirmələr, məlumat dəstləri və balların dizaynı.

🔗 AI ilə necə danışmaq olar
Daha yaxşı suallar verin, kontekst yaradın və daha aydın cavablar alın.


1) “Yerləşdirmə” əslində nə deməkdir (və niyə bu, sadəcə bir API deyil) 🧩

İnsanlar "modeli yerləşdirin" dedikdə, bunlardan hər hansı birini nəzərdə tuta bilərlər:

Beləliklə, yerləşdirmə "modeli əlçatan etmək"dən daha az və daha çox aşağıdakı kimidir:

Bu, sanki restoran açmaq kimidir. Əlbəttə ki, əla yemək bişirmək vacibdir. Amma yenə də binaya, işçilərə, soyuducuya, menyulara, təchizat zəncirinə və dondurucuda ağlamadan nahar tələsikliyini idarə etməyin bir yoluna ehtiyacınız var. Mükəmməl bir metafora deyil... amma başa düşürsünüz. 🍝


2) “Süni İntellektual Modelləri Necə Yerləşdirmək Olar”ın yaxşı versiyasını nə təşkil edir? ✅

"Yaxşı yerləşdirmə" ən yaxşı şəkildə darıxdırıcıdır. Təzyiq altında proqnozlaşdırıla bilən şəkildə davranır və belə olmadıqda, onu tez bir zamanda diaqnoz edə bilərsiniz.

"Yaxşı" adətən belə görünür:

  • Təkrarlana bilən qurğular
    Eyni kod + eyni asılılıqlar = eyni davranış. Qorxunc "noutbukumda işləyir" vibrasiyası yoxdur 👻 ( Docker: Konteyner nədir? )

  • Aydın interfeys müqaviləsi
    Girişlər, çıxışlar, sxemlər və kənar hallar müəyyən edilmişdir. Saat 2-də sürpriz tiplər yoxdur. ( OpenAPI: OpenAPI nədir?, JSON Sxemi )

  • Reallıqla uyğunlaşan performans.
    Gecikmə və məhsuldarlıq istehsala bənzər aparat və real yüklərlə ölçülür.

  • Dişlərlə monitorinq.
    Hərəkəti tetikləyən metriklər, qeydlər, izlər və sürüşmə yoxlamaları (yalnız heç kimin açmadığı tabloslar deyil). ( SRE Kitabı: Paylanmış Sistemlərin Monitorinqi )

  • Təhlükəsiz yayım strategiyası:
    Kanareyka və ya mavi-yaşıl, asan geri qaytarılma, dua tələb etməyən versiyalaşdırma. ( Kanareyka Buraxılışı , Mavi-Yaşıl Yerləşdirmə )

  • Xərclər barədə məlumatlılıq
    “Sürətli” hesab telefon nömrəsi kimi görünənə qədər əladır 📞💸

  • Təhlükəsizlik və məxfilik
    Sirlərin idarə edilməsi, giriş nəzarəti, PII idarəetməsi, audit edilə bilmə kimi sahələrdə inkişaf etdirilir. ( Kubernetes Sirləri , NIST SP 800-122 )

Əgər bunları ardıcıl olaraq edə bilirsənsə, artıq əksər komandalardan irəlidəsən. Düzünü desək.


3) Düzgün yerləşdirmə modelini seçin (alətləri seçməzdən əvvəl) 🧠

Real vaxt API nəticəsi⚡

Ən yaxşı nə vaxt:

  • istifadəçilərə ani nəticələr (tövsiyələr, saxtakarlıq yoxlamaları, söhbət, fərdiləşdirmə) lazımdır

  • qərarlar sorğu zamanı verilməlidir

Diqqət tədbirləri:

Toplu hesablama 📦

Ən yaxşı nə vaxt:

  • Proqnozlar gecikdirilə bilər (gecəlik risk qiymətləndirməsi, satış proqnozu, ETL zənginləşdirilməsi) ( Amazon SageMaker Batch Transform )

  • xərc səmərəliliyi və daha sadə əməliyyatlar istəyirsiniz

Diqqət tədbirləri:

  • məlumatların təzəliyi və doldurulması

  • xüsusiyyət məntiqini təlimlə uyğun saxlamaq

Axın nəticəsi 🌊

Ən yaxşı nə vaxt:

  • hadisələri davamlı olaraq emal edirsiniz (IoT, klik axınları, monitorinq sistemləri)

  • ciddi sorğu-cavab olmadan demək olar ki, real vaxt rejimində qərarlar istəyirsiniz

Diqqət tədbirləri:

Kənarların yerləşdirilməsi 📱

Ən yaxşı nə vaxt:

Diqqət tədbirləri:

Əvvəlcə nümunəni, sonra yığını seçin. Əks halda, kvadrat modeli dəyirmi işləmə müddətinə məcbur edəcəksiniz. Və ya buna bənzər bir şey. 😬


4) Modelin istehsalla təmasda qalması üçün qablaşdırılması 📦🧯

Əksər "asan yerləşdirmələrin" səssizcə öldüyü yer budur.

Hər şeyin versiyası (bəli, hər şey)

  • Model artefaktı (çəkilər, qrafik, tokenizator, etiket xəritələri)

  • Xüsusiyyət məntiqi (transformasiyalar, normallaşdırma, enkoderlər)

  • Nəticə kodu (əvvəlcədən/sonrakı emal)

  • Ətraf mühit (Python, CUDA, sistem kitabxanaları)

İşləyən sadə bir yanaşma:

  • modelə buraxılış artefaktı kimi yanaşın

  • versiya etiketi ilə saxlayın

  • model kartı kimi metaməlumat faylı tələb olunur: sxem, metriklər, təlim məlumatlarının anlıq qeydləri, məlum məhdudiyyətlər ( Model Hesabatı üçün Model Kartları )

Qablar kömək edir, amma onlara sitayiş etməyin 🐳

Konteynerlər əladır, çünki onlar:

  • asılılıqları dondurmaq ( Docker: Konteyner nədir? )

  • quruluşları standartlaşdırmaq

  • yerləşdirmə hədəflərini sadələşdirin

Amma yenə də idarə etməlisiniz:

İnterfeysi standartlaşdırın

Giriş/çıxış formatınızı əvvəlcədən müəyyənləşdirin:

  • Sadəlik üçün JSON (yavaş, lakin dostcasına) ( JSON Sxemi )

  • Performans üçün Protobuf ( Protokol Buferlərinə Baxış )

  • şəkillər/səs üçün fayl əsaslı yükləmələr (üstəgəl metaməlumatlar)

Zəhmət olmasa, girişləri doğrulayın. Yanlış girişlər "niyə cəfəngiyat qaytarır" biletlərinin əsas səbəbidir. ( OpenAPI: OpenAPI nədir?, JSON Sxemi )


5) Xidmət seçimləri - “sadə API”-dən tam model serverlərə qədər 🧰

İki ümumi marşrut var:

Seçim A: Tətbiq serveri + nəticə çıxarma kodu (FastAPI üslubunda yanaşma) 🧪

Modeli yükləyən və proqnozları qaytaran bir API yazırsınız. ( FastAPI )

Müsbət cəhətləri:

  • özelleştirmek asandır

  • daha sadə modellər və ya erkən mərhələli məhsullar üçün əladır

  • sadə autentifikasiya, marşrutlaşdırma və inteqrasiya

Mənfi cəhətləri:

  • performans tənzimləməsinə (toplama, yivləmə, GPU istifadəsi) sahibsiniz

  • Bəzi təkərləri yenidən ixtira edəcəksən, bəlkə də əvvəlcə pis

Seçim B: Model server (TorchServe / Triton üslubunda yanaşma) 🏎️

Aşağıdakıları idarə edən ixtisaslaşmış serverlər:

Müsbət cəhətləri:

  • qutudan daha yaxşı performans nümunələri

  • xidmət və biznes məntiqi arasında daha təmiz ayrılıq

Mənfi cəhətləri:

  • əlavə əməliyyat mürəkkəbliyi

  • konfiqurasiya... duş temperaturunu tənzimləmək kimi qəribə hiss oluna bilər

Hibrid model çox yaygındır:


6) Müqayisə Cədvəli - yerləşdirməyin məşhur yolları (səmimi əhval-ruhiyyə ilə) 📊😌

süni intellekt modellərini necə yerləşdirməyi öyrənərkən istifadə etdikləri variantların praktik bir təsviri verilmişdir .

Alət / Yanaşma Tamaşaçı Qiymət Niyə işləyir
Docker + FastAPI (və ya oxşar) Kiçik komandalar, startaplar Sərbəst Sadə, çevik, çatdırılma sürətli - hər miqyaslama problemini "hiss edəcəksiniz" ( Docker , FastAPI )
Kubernetes (Özün Hazırla) Platforma komandaları İnfra-asılı Nəzarət + ölçeklenebilirlik… həmçinin, çoxlu düymələr, bəziləri lənətə gəlmişdi ( Kubernetes HPA )
İdarə olunan ML platforması (bulud ML xidməti) Daha az əməliyyat istəyən komandalar Ödənişinizi istədiyiniz kimi edin Daxili yerləşdirmə iş axınları, monitorinq qarmaqları - bəzən həmişə aktiv olan son nöqtələr üçün baha başa gəlir ( Vertex AI yerləşdirməsi , SageMaker real vaxt nəticəsi )
Serversiz funksiyalar (işıq çıxarışı üçün) Hadisəyə əsaslanan tətbiqlər İstifadəyə görə ödəniş Sürətli tıxac üçün əladır - amma soyuq başlanğıclar və model ölçüsü gününüzü korlaya bilər 😬 ( AWS Lambda soyuq başlanğıclar )
NVIDIA Triton Nəticə Serveri Performansa yönəlmiş komandalar Pulsuz proqram təminatı, infrastruktur xərcləri Əla GPU istifadəsi, toplu yükləmə, çoxmodel - konfiqurasiya səbr tələb edir ( Triton: Dinamik toplu yükləmə )
TorchServe PyTorch-a ağırlıq verən komandalar Pulsuz proqram təminatı Layiqli standart xidmət nümunələri - yüksək miqyaslı üçün tənzimləmə tələb oluna bilər ( TorchServe sənədləri )
BentoML (qablaşdırma + porsiya) ML mühəndisləri Pulsuz nüvə, əlavələr fərqlidir Hamar qablaşdırma, gözəl geliştirici təcrübəsi - yenə də infrastruktur seçimlərinə ehtiyacınız var ( yerləşdirmək üçün BentoML qablaşdırma )
Ray Serve Paylanmış sistemlər üzrə mütəxəssislər İnfra-asılı Üfüqi şəkildə miqyaslanır, boru kəmərləri üçün yaxşıdır - kiçik layihələr üçün "böyük" hiss olunur ( Ray Serve sənədləri )

Cədvəl qeydi: “Pulsuz” real həyat terminologiyasıdır. Çünki heç vaxt pulsuz deyil. Yuxunuz olsa belə, həmişə bir yerdə bir hesab olur. 😴


7) Performans və miqyaslanma - gecikmə, məhsuldarlıq və həqiqət 🏁

Performans tənzimləməsi yerləşdirmənin bir sənətkarlığa çevrildiyi yerdir. Məqsəd "sürətli" deyil. Məqsəd ardıcıl olaraq kifayət qədər sürətlidir .

Əhəmiyyətli olan əsas ölçülər

Çəkmək üçün ümumi qollar

  • birləşdirin
    . Məhsuldarlıq üçün əladır, həddindən artıq çox istifadə etsəniz, gecikməyə zərər verə bilər. ( Triton: Dinamik toplulaşdırma )

  • Kvantlaşdırma
    Aşağı dəqiqlik (INT8 kimi) nəticə çıxarmağı sürətləndirə və yaddaşı azalda bilər. Dəqiqliyi bir qədər azalda bilər. Bəzən təəccüblü deyil. ( Təlim sonrası kvantlaşdırma )

  • Kompilyasiya/optimallaşdırma
    ONNX ixracı, qrafik optimallaşdırıcıları, TensorRT kimi axınlar. Güclüdür, lakin ayıklama kəskinləşə bilər 🌶️ ( ONNX , ONNX Runtime model optimallaşdırmaları )

  • Keşləmə
    Girişlər təkrarlanırsa (və ya yerləşdirmələri keşləyə bilərsinizsə), çox qənaət edə bilərsiniz.

  • Avtomatik miqyaslama
    CPU/GPU istifadəsinə, növbə dərinliyinə və ya sorğu tezliyinə görə miqyaslanır. Növbə dərinliyi az qiymətləndirilir. ( Kubernetes HPA )

Qəribə, lakin doğru bir məsləhət: istehsalata bənzər faydalı yük ölçüləri ilə ölçün. Kiçik sınaq faydalı yükləri sizə yalan danışır. Onlar nəzakətlə gülümsəyirlər və sonra sizə xəyanət edirlər.


8) Monitorinq və müşahidə - kor-koranə uçmayın 👀📈

Model monitorinqi sadəcə iş vaxtının monitorinqi deyil. Bilmək istəyirsiniz, əgər:

Nə izlənilməlidir (minimum uyğun dəst)

Xidmət sağlamlığı

Model davranışı

  • giriş xüsusiyyət paylanmaları (əsas statistika)

  • yerləşdirmə normaları (yerləşdirmə modelləri üçün)

  • çıxış paylanmaları (etimad, sinif qarışığı, bal diapazonları)

  • Girişlərdə anomaliya aşkarlanması (zibil daxil olur, zibil xaric olur)

Məlumat sürüşməsi və konsepsiya sürüşməsi

Qeydiyyat, amma "hər şeyi əbədi olaraq qeyd et" yanaşması deyil 🪵

Qeyd:

Məxfiliklə bağlı diqqətli olun. Qeydlərinizin məlumat sızmasına çevrilməsini istəmirsiniz. ( NIST SP 800-122 )


9) CI/CD və yayım strategiyaları - modellərə real buraxılışlar kimi yanaşın 🧱🚦

Etibarlı yerləşdirmələr istəyirsinizsə, bir boru kəməri qurun. Hətta sadə bir dənə belə.

Möhkəm bir axın

Ağlınızı qoruyan yayma nümunələri

  • Canary : əvvəlcə 1-5% trafikə qədər buraxın ( Canary Release )

  • Mavi-yaşıl : yeni versiyanı köhnə versiya ilə birlikdə işlədin, hazır olduqda çevirin ( Mavi-Yaşıl Yerləşdirmə )

  • Kölgə testi : yeni modelə real trafik göndərin, lakin nəticələrdən istifadə etməyin (qiymətləndirmə üçün əladır) ( Microsoft: Kölgə testi )

Və son nöqtələrinizi və ya marşrutunuzu model versiyasına görə versiyalaşdırın. Gələcəkdə sizə təşəkkür edəcəksiniz. Hazırkı versiyada da sizə təşəkkür edəcəksiniz, amma səssizcə.


10) Təhlükəsizlik, məxfilik və “xahiş edirəm məlumat sızdırmayın” 🔐🙃

Təhlükəsizlik çağırılmamış qonaq kimi gec gəlməyə meyllidir. Onu tez dəvət etmək daha yaxşıdır.

Praktik yoxlama siyahısı

  • Doğrulama və avtorizasiya (modeli kim çağıra bilər?)

  • Qiymət məhdudlaşdırılması (sui-istifadə və təsadüfi fırtınalardan qorunmaq) ( API Gateway throttling )

  • Sirlərin idarə edilməsi (kodda açar yoxdur, konfiqurasiya fayllarında da açar yoxdur...) ( AWS Secrets Manager , Kubernetes Secrets )

  • Şəbəkə nəzarətləri (özəl alt şəbəkələr, xidmətdən xidmətə siyasətlər)

  • Audit qeydləri (xüsusilə həssas proqnozlar üçün)

  • Məlumatların minimuma endirilməsi (yalnız lazım olanları saxlayın) ( NIST SP 800-122 )

Model şəxsi məlumatlara toxunarsa:

  • redakt və ya heş identifikatorları

  • Xam yüklərin qeydiyyatından çəkinin ( NIST SP 800-122 )

  • saxlama qaydalarını müəyyən edin

  • sənəd məlumat axını (darıxdırıcı, lakin qoruyucu)

Həmçinin, təcili inyeksiya və çıxış sui-istifadəsi generativ modellər üçün əhəmiyyətli ola bilər. Əlavə edin: ( LLM Tətbiqləri üçün OWASP Top 10 , OWASP: Təcili inyeksiya )

  • giriş dezinfeksiya qaydaları

  • çıxış filtrləməsi lazım olduqda

  • alət çağırışı və ya verilənlər bazası əməliyyatları üçün mühafizə rayları

Heç bir sistem mükəmməl deyil, amma onu daha az kövrək edə bilərsiniz.


11) Ümumi tələlər (yəni adi tələlər) 🪤

Budur klassiklər:

Əgər bunu oxuyursunuzsa və "bəli, biz bunlardan ikisini edirik" deyə düşünürsünüzsə, kluba xoş gəlmisiniz. Klubda qəlyanaltılar və yüngül stress var. 🍪


12) Xülasə - Süni intellekt modellərini ağlını itirmədən necə yerləşdirmək olar 😄✅

Süni intellekt əsl məhsula çevrildiyi yerdir. Bu, cazibədar deyil, amma etibar qazanıldığı yerdir.

Qısa xülasə

Bəli, Süni İntellekt Modellərini Necə Yerləşdirmək Əvvəlcə alovlu boulinq topları ilə jonqlyorluq etmək kimi hiss oluna bilər. Amma kanalınız sabitləşdikdən sonra qəribə dərəcədə məmnunedici olur. Nəhayət, dağınıq bir çekmece təşkil etmək kimi... yalnız çekmece istehsal trafikidir. 🔥🎳

Tez-tez verilən suallar

Süni intellekt modelini istehsalda tətbiq etmək nə deməkdir

Süni intellekt modelinin yerləşdirilməsi adətən proqnozlaşdırma API-sinin ifşasından daha çox şey tələb edir. Praktikada, bu, modeli və onun asılılıqlarını qablaşdırmanı, xidmət nümunəsinin (real vaxt, toplu, axın və ya kənar) seçilməsini, etibarlılıqla miqyaslandırılmasını, sağlamlığın və sürüşmənin monitorinqini və təhlükəsiz yayma və geri qaytarma yollarının qurulmasını əhatə edir. Möhkəm yerləşdirmə yük altında proqnozlaşdırıla bilən dərəcədə sabit qalır və bir şey səhv getdikdə diaqnoz edilə bilən qalır.

Real vaxt, toplu, yayım və ya kənar yerləşdirmə arasında necə seçim etməli

Proqnozların nə vaxt lazım olduğuna və altında işlədiyiniz məhdudiyyətlərə əsasən yerləşdirmə modelini seçin. Real vaxt API-ları gecikmənin vacib olduğu interaktiv təcrübələrə uyğundur. Toplu qiymətləndirmə gecikmələr məqbul olduqda və xərc səmərəliliyi potensialı olduqda ən yaxşı işləyir. Axın, xüsusən çatdırılma semantikası çətinləşdikdə, davamlı hadisə emalına uyğundur. Kənar yerləşdirmə oflayn əməliyyat, məxfilik və ya ultra aşağı gecikmə tələbləri üçün idealdır, baxmayaraq ki, yeniləmələri və aparat dəyişikliyini idarə etmək çətinləşir.

"Noutbukumda işləyir" yerləşdirmə xətalarının qarşısını almaq üçün hansı versiyanı seçməliyəm

Versiya yalnız model çəkilərindən daha çoxdur. Tipik olaraq, versiyalaşdırılmış model artefaktı (tokenizatorlar və ya etiket xəritələri daxil olmaqla), əvvəlcədən emal və xüsusiyyət məntiqi, nəticə çıxarma kodu və tam işləmə mühiti (Python/CUDA/sistem kitabxanaları) istəyəcəksiniz. Modeli etiketlənmiş versiyaları və sxem gözləntilərini, qiymətləndirmə qeydlərini və məlum məhdudiyyətləri təsvir edən yüngül metaməlumatları olan bir buraxılış artefaktı kimi qəbul edin.

Sadə FastAPI tipli xidmət və ya xüsusi model server ilə yerləşdirmək

Sadə bir tətbiq serveri (FastAPI üslubunda bir yanaşma) erkən məhsullar və ya sadə modellər üçün yaxşı işləyir, çünki marşrutlaşdırma, təsdiqləmə və inteqrasiya üzərində nəzarəti özündə saxlayırsınız. Model serveri (TorchServe və ya NVIDIA Triton üslubunda) qutudan daha güclü toplaşma, paralellik və GPU səmərəliliyi təmin edə bilər. Bir çox komanda hibrid üzərində işləyir: nəticə çıxarmaq üçün model server və təsdiqləmə, sorğu formalaşdırma və sürət limitləri üçün nazik bir API təbəqəsi.

Dəqiqliyi pozmadan gecikməni və ötürmə qabiliyyətini necə artırmaq olar

Kiçik testlər yanılda biləcəyi üçün real yüklü istehsala bənzər aparatlarda p95/p99 gecikməsini ölçməklə başlayın. Ümumi təsirlərə toplulaşdırma (daha yaxşı ötürmə qabiliyyəti, potensial olaraq daha pis gecikmə), kvantlaşdırma (daha kiçik və daha sürətli, bəzən orta dəqiqliklə kompromislər), kompilyasiya və optimallaşdırma axınları (ONNX/TensorRT kimi) və təkrarlanan girişləri və ya yerləşdirmələri keşləmə daxildir. Növbə dərinliyinə əsaslanan avtomatik miqyaslama quyruq gecikməsinin yuxarıya doğru sürünməsinin qarşısını ala bilər.

"Son nöqtə bitdi"dən başqa hansı monitorinqə ehtiyac var?

İşləmə müddəti kifayət deyil, çünki proqnozlaşdırma keyfiyyəti azalarkən xidmət sağlam görünə bilər. Ən azı, sorğu həcmini, səhv nisbətini və gecikmə paylanmalarını, üstəgəl CPU/GPU/yaddaş və növbə vaxtı kimi doyma siqnallarını izləyin. Model davranışı üçün giriş və çıxış paylanmalarını əsas anomaliya siqnalları ilə birlikdə izləyin. Səs-küylü xəbərdarlıqlar əvəzinə hərəkəti tetikləyən sürüşmə yoxlamaları və sorğu ID-lərini, model versiyalarını və sxem doğrulama nəticələrini əlavə edin.

Yeni model versiyalarını necə təhlükəsiz şəkildə tətbiq etmək və tez bir zamanda bərpa etmək olar

Tam buraxılışlar kimi modellərə əvvəlcədən emal və sonrakı emalı sınaqdan keçirən, inteqrasiya yoxlamalarını "qızıl dəst"ə qarşı aparan və yük bazası yaradan CI/CD boru kəməri ilə yanaşın. Yayımlar üçün kanareyka tədricən trafik buraxır, mavi-yaşıl isə dərhal geri qayıtmaq üçün köhnə versiyanı aktiv saxlayır. Kölgə testi istifadəçilərə təsir etmədən yeni modeli real trafikdə qiymətləndirməyə kömək edir. Geri qayıtma ikinci dərəcəli mexanizm deyil, birinci dərəcəli mexanizm olmalıdır.

Süni intellekt modellərini necə yerləşdirməyi öyrənərkən ən çox rast gəlinən tələlər

Təlim-xidmət əyriliyi klassik haldır: əvvəlcədən emal təlim və istehsal arasında fərqlənir və performans sakitcə pisləşir. Digər tez-tez rast gəlinən problem sxem validasiyasının olmamasıdır, burada yuxarı axın dəyişikliyi girişləri incə şəkildə pozur. Komandalar həmçinin quyruq gecikməsini az qiymətləndirir və orta göstəricilərə həddindən artıq diqqət yetirir, xərcləri gözardı edir (boş GPU-lar tez bir zamanda əlavə olunur) və geri qayıtma planlaşdırmasını atlayırlar. Yalnız işləmə müddətini izləmək xüsusilə risklidir, çünki "yuxarı, lakin səhv" aşağıdan daha pis ola bilər.

İstinadlar

  1. Amazon Veb Xidmətləri (AWS) - Amazon SageMaker: Real vaxt nəticəsi - docs.aws.amazon.com

  2. Amazon Veb Xidmətləri (AWS) - Amazon SageMaker Batch Transform - docs.aws.amazon.com

  3. Amazon Veb Xidmətləri (AWS) - Amazon SageMaker Model Monitoru - docs.aws.amazon.com

  4. Amazon Veb Xidmətləri (AWS) - API Gateway sorğusunun azaldılması - docs.aws.amazon.com

  5. Amazon Veb Xidmətləri (AWS) - AWS Secrets Manager: Giriş - docs.aws.amazon.com

  6. Amazon Veb Xidmətləri (AWS) - AWS Lambda icra mühitinin həyat dövrü - docs.aws.amazon.com

  7. Google Cloud - Vertex AI: Modeli son nöqtəyə yerləşdirin - docs.cloud.google.com

  8. Google Cloud - Vertex AI Model Monitorinqinə ümumi baxış - docs.cloud.google.com

  9. Google Cloud - Vertex AI: Monitor funksiyası əyrilik və sürüşmə - docs.cloud.google.com

  10. Google Cloud Bloqu - Dataflow: tam bir dəfə və ən azı bir dəfə yayım rejimləri - cloud.google.com

  11. Google Cloud - Cloud Dataflow axın rejimləri - docs.cloud.google.com

  12. Google SRE Kitabı - Paylanmış Sistemlərin Monitorinqi - sre.google

  13. Google Araşdırma - Ölçüdəki Quyruq - research.google

  14. LiteRT (Google AI) - LiteRT icmalı - ai.google.dev

  15. LiteRT (Google AI) - LiteRT cihazda nəticə çıxarmaq - ai.google.dev

  16. Docker - Konteyner nədir? - docs.docker.com

  17. Docker - Docker ən yaxşı təcrübələrini qurur - docs.docker.com

  18. Kubernetes - Kubernetes sirləri - kubernetes.io

  19. Kubernetes - Üfüqi Pod Avtomiqyaslama - kubernetes.io

  20. Martin Fowler - Canary Release - martinfowler.com

  21. Martin Fowler - Mavi-Yaşıl Yerləşdirmə - martinfowler.com

  22. OpenAPI Təşəbbüsü - OpenAPI nədir? - openapis.org

  23. JSON Sxemi - (sayta istinad edilib) - json-schema.org

  24. Protokol Buferləri - Protokol Buferlərinə Baxış - protobuf.dev

  25. FastAPI - (sayta istinad edilib) - fastapi.tiangolo.com

  26. NVIDIA - Triton: Dinamik Batching və Paralel Model İcrası - docs.nvidia.com

  27. NVIDIA - Triton: Paralel Model İcrası - docs.nvidia.com

  28. NVIDIA - Triton Inference Server sənədləri - docs.nvidia.com

  29. PyTorch - TorchServe sənədləri - docs.pytorch.org

  30. BentoML - Yerləşdirmə üçün qablaşdırma - docs.bentoml.com

  31. Ray - Ray Serve docs - docs.ray.io

  32. TensorFlow - Təlimdən sonrakı kvantlaşdırma (TensorFlow Model Optimallaşdırması) - tensorflow.org

  33. TensorFlow - TensorFlow Məlumatlarının Doğrulanması: təlimə xidmət edən əyriliyi aşkar edin - tensorflow.org

  34. ONNX - (sayta istinad edilib) - onnx.ai

  35. ONNX Runtime - Model optimallaşdırmaları - onnxruntime.ai

  36. NIST (Milli Standartlar və Texnologiya İnstitutu) - NIST SP 800-122 - csrc.nist.gov

  37. arXiv - Model Hesabatı üçün Model Kartları - arxiv.org

  38. Microsoft - Kölgə testi - microsoft.github.io

  39. OWASP - LLM Tətbiqləri üçün OWASP-ın Ən Yaxşı 10-luğu - owasp.org

  40. OWASP GenAI Təhlükəsizlik Layihəsi - OWASP: Sürətli Enjeksiyon - genai.owasp.org

Ən son süni intellekt texnologiyalarını rəsmi süni intellekt köməkçisi mağazasında tapın

Haqqımızda

Bloqa qayıt