NVIDIA GPU-mun süni intellekt təlimi üçün görünməsini necə təmin edə bilərəm?

Terminaldakı 'nvidia-smi' əmrindən istifadə edərək NVIDIA GPU-nuzun görünüb-görünmədiyini yoxlaya bilərsiniz. Bu əmr sizə GPU adı, drayver versiyası, yaddaş istifadəsi və işləyən proseslər kimi məlumatları göstərəcək. Əgər uğursuz olarsa, süni intellekt təliminə davam etməzdən əvvəl drayverin quraşdırılmasında yaranan problemləri həll etməlisiniz.

NVIDIA GPU-larında təlim üçün drayver və çərçivə uyğunluğunun əhəmiyyəti nədir?

Qəzaların qarşısını almaq və sabit quraşdırmaları təmin etmək üçün NVIDIA drayverini, CUDA işləmə müddətini və çərçivə versiyalarını uyğun saxlamaq çox vacibdir. Uyğun olmayan versiyalar təlim zamanı gözlənilməz səhvlərə səbəb ola bilər.

Təlim zamanı VRAM-ı effektiv şəkildə idarə etmək üçün hansı addımları atmalıyam?

VRAM-ı effektiv şəkildə idarə etmək üçün qarışıq dəqiqlik (FP16/BF16), qradiyent yığımı, daha kiçik toplu ölçülər və aktivləşdirmə yoxlama məntəqəsi kimi üsullardan istifadə edə bilərsiniz. Bu strategiyalar yaddaş istifadəsini minimuma endirməyə və mövcud VRAM-a daha böyük modelləri uyğunlaşdırmağa kömək edir.

Çox GPU təlimi keçirməzdən əvvəl hansı ilkin şərtləri nəzərə almalıyam?

Birdən çox GPU ilə məşq etməzdən əvvəl, maneələrin qarşısını almaq üçün GPU-larınızın oxşar imkanlara malik olduğundan əmin olun. Həmçinin, qarşılıqlı əlaqə sürətini (NVLink vs PCIe) izləməli və performansı optimallaşdırmaq üçün hər GPU üçün balanslaşdırılmış partiya ölçülərini saxlamalısınız.

Təlim zamanı ümumi CUDA səhvlərini necə aradan qaldıra bilərəm?

"Yaddaşın tükənməsi" kimi ümumi CUDA səhvləri üçün toplu ölçüsünü azaldın, qarışıq dəqiqlikdən istifadə edin və ya GPU yaddaşını istehlak edən digər prosesləri yoxlayın. Təlim prosessorunda təsadüfən işləyərkən həm modelin, həm də tensorların GPU-ya köçürüldüyünə əmin olun.

NVIDIA GPU-larında təlim keçərkən hansı monitorinq təcrübələri tövsiyə olunur?

GPU istifadəsinə, yaddaş istifadəsinə, enerji istehlakına və temperatura nəzarət etmək vacibdir. Bu göstəriciləri izləmək potensial maneələri erkən mərhələdə müəyyən etməyə və təlim prosesinizin səmərəli qalmasını təmin etməyə kömək edir.

NVIDIA GPU-larından istifadə edərkən yavaş təlim sürətlərindən necə qaçınmaq olar?

Yavaş təlimdən qaçınmaq üçün məlumat kanalınızı gecikmiş məlumat yükləyiciləri üçün yoxlayın və təlim zamanı ağır ilkin emal etmədiyinizdən əmin olun. Məlumat yükləyicisi işçilərinin sayını artırmağı, sancaqlanmış yaddaşdan istifadə etməyi və toplu ölçüləri optimallaşdırmağı düşünün.

NVIDIA GPU-larından süni intellekt təlimi üçün necə istifadə olunur [Video və Viktorina]

Qısa cavab: Əvvəlcə nvidia-smi ilə drayverin və GPU-nun göründüyünü təsdiqləməklə , sonra uyğun bir çərçivə/CUDA yığını quraşdırmaqla və kiçik bir "model + cuda üzərində toplu" testini işə salmaqla süni intellekt təlimi üçün NVIDIA GPU-larından istifadə edin. Yaddaşınız tükənibsə, istifadəni, yaddaşı və temperaturu izləyərkən toplu ölçüsünü azaldın və qarışıq dəqiqlikdən istifadə edin.

Əsas nəticələr:

Əsas yoxlamalar: nvidia-smi; framework-ləri quraşdırmadan əvvəl sürücünün görünürlüyünü düzəldin.

Stek uyğunluğu: Çökmələrin və kövrək quraşdırmaların qarşısını almaq üçün drayver, CUDA işləmə müddəti və çərçivə versiyalarını uyğun saxlayın.

Kiçik uğur: Təcrübələri genişləndirməzdən əvvəl CUDA-da tək irəli ötürmənin işlədiyini təsdiqləyin.

VRAM intizamı: Daha böyük modellərə uyğunlaşmaq üçün qarışıq dəqiqliyə, qradiyent yığılmasına və yoxlama nöqtəsinə əsaslanın.

Monitorinq vərdişi: Çətinlikləri erkən aşkar etmək üçün istifadəni, yaddaş modellərini, gücü və temperaturu izləyin.

Bundan sonra oxumaq istəyə biləcəyiniz məqalələr:

🔗 Süni intellekt agenti necə qurulur
Agentinizin iş axınını, alətlərini, yaddaşını və təhlükəsizlik mühafizələrini dizayn edin.

🔗 Süni intellekt modellərini necə yerləşdirmək olar
Mühitləri, paket modellərini qurun və istehsalata etibarlı şəkildə göndərin.

🔗 AI performansını necə ölçmək olar
Metrikaları seçin, qiymətləndirmələri həyata keçirin və zamanla performansı izləyin.

🔗 Süni intellektlə tapşırıqları necə avtomatlaşdırmaq olar
Təkrarlanan işləri sorğular, iş axınları və inteqrasiyalarla avtomatlaşdırın.

1) Ümumi mənzərə - "GPU ilə məşq edərkən" nə edirsiniz 🧠⚡

Süni intellekt modellərini öyrətdiyiniz zaman əsasən matris riyaziyyatı ilə məşğul olursunuz. GPU-lar bu cür paralel iş üçün qurulub, buna görə də PyTorch, TensorFlow və JAX kimi çərçivələr ağır işi GPU-ya yükləyə bilər. (PyTorch CUDA sənədləri, TensorFlow quraşdırması (pip), JAX Quickstart)

Praktikada, "təlim üçün NVIDIA GPU-larından istifadə" adətən aşağıdakıları ifadə edir:

Model parametrləriniz (əsasən) GPU VRAM-da yaşayır
Hər addımda partiyalarınız RAM-dan VRAM-a köçürülür
CUDA nüvələrində irəli ötürmə və arxa prop işləyir (CUDA Proqramlaşdırma Təlimatı)
Optimallaşdırıcı yeniləmələriniz (ideal olaraq) GPU-da baş verir
Heç nə bişirməmək üçün temperaturu, yaddaşı və istifadəni izləyirsiniz 🔥 (NVIDIA nvidia-smi sənədləri)

Əgər bu çox səslənirsə, narahat olmayın. Bu, əsasən yoxlama siyahısı və zamanla qazandığınız bir neçə vərdişdir.

2) NVIDIA GPU süni intellekt təlim qurğusunun yaxşı versiyasını nə təşkil edir 🤌

Bu, "jele üzərində ev tikməyin" bölməsidir. NVIDIA GPU-larının süni intellekt təlimi üçün necə istifadə ediləcəyi aşağı dramatik olanıdır. Aşağı dramatik sabitdir. Sabit sürətlidir. Sürətlidir... yaxşı, sürətlidir 😄

Möhkəm bir təlim quruluşu adətən aşağıdakılara malikdir:

Partiya ölçüsünüz + modeliniz + optimallaşdırıcı vəziyyətləriniz üçün kifayət qədər VRAM
- VRAM çamadan yeri kimidir. Daha ağıllı şəkildə yığa bilərsiniz, amma sonsuz sayda yaddaş yığa bilməzsiniz.
Uyğunlaşdırılmış proqram təminatı dəsti (drayver + CUDA işləmə müddəti + çərçivə uyğunluğu) (PyTorch Başlanğıc (CUDA seçicisi), TensorFlow quraşdırması (pip))
Sürətli yaddaş (NVMe böyük məlumat dəstləri üçün çox kömək edir)
Məlumatların yüklənməsinin GPU-nu ac qoymaması üçün yaxşı CPU + RAM ( PyTorch Performans Sazlama Təlimatı )
Soyutma və enerji təchizatı (əgər belə deyilsə, qiymətləndirilmir 😬)
Yeniləmələrin xaosa çevrilməməsi üçün təkrarlana bilən mühit (venv/conda və ya konteynerlər) ( NVIDIA Container Toolkit-ə ümumi baxış )

Və insanların gözardı etdiyi daha bir şey:

Monitorinq vərdişi - maşın sürərkən güzgüləri yoxladığınız kimi GPU yaddaşını və istifadəsini yoxlayırsınız. (NVIDIA nvidia-smi sənədləri)

3) Müqayisə Cədvəli - NVIDIA GPU-ları ilə məşq etməyin məşhur yolları (xüsusiyyətləri ilə) 📊

Aşağıda "hansı uyğundur?" sualına qısa bir cavab verilmişdir. Qiymətlər təxmini olaraq dəyişir (çünki reallıq fərqlidir) və bəli, bu kameralardan biri qəsdən bir az boşboğazlıqla yazılıb.

Alət / Yanaşma	Ən yaxşısı	Qiymət	Niyə işləyir (əsasən)
PyTorch (vanil) PyTorch	əksər insanlar, əksər layihələr	Pulsuz	Çevik, nəhəng ekosistem, asan sazlanma - həmçinin hər kəsin öz fikri var
PyTorch Lightning Lightning sənədləri	komandalar, strukturlaşdırılmış təlim	Pulsuz	Təxmini halqaları azaldır, daha təmiz döngələr yaradır; bəzən "sehr" kimi hiss olunur, ta ki yox olana qədər
Qucaqlaşan Üz Transformerləri + Təlimçi Təlimçi sənədləri	NLP + LLM incə tənzimləmə	Pulsuz	Batareyalarla təchiz olunmuş məşq, əla standartlar, sürətli qələbələr 👍
Sürətləndir Sürətləndir sənədləri	ağrısız çox qrafikli prosessor	Pulsuz	DDP-ni daha az qıcıqlandırıcı edir, hər şeyi yenidən yazmadan miqyaslandırmaq üçün yaxşıdır
DeepSpeed ZeRO sənədləri	böyük modellər, yaddaş fəndləri	Pulsuz	Sıfır yükləmə, boşaltma, miqyaslama - çətin ola bilər, amma kliklədikdə məmnunedici ola bilər
TensorFlow + Keras TF quraşdırılması	istehsal yönümlü boru kəmərləri	Pulsuz	Güclü alətlər, yaxşı yerləşdirmə hekayəsi; bəzi insanlar bunu sevir, bəziləri isə səssizcə bəyənmir
JAX + Kətan JAX Quickstart / Kətan sənədləri	tədqiqat + sürət nerds	Pulsuz	XLA tərtibatı inanılmaz dərəcədə sürətli ola bilər, lakin ayıklama prosesi... mücərrəd hiss oluna bilər
NVIDIA NeMo NeMo-ya ümumi baxış	nitq + LLM iş axınları	Pulsuz	NVIDIA üçün optimallaşdırılmış yığın, yaxşı reseptlər - dəbdəbəli sobada yemək bişirmək kimi hiss olunur 🍳
Docker + NVIDIA Konteyner Alətlər Dəsti Alətlər Dəstinə Baxış	təkrarlana bilən mühitlər	Pulsuz	“Mənim maşınımda işləyir” “bizim maşınlarımızda işləyir” olur (əsasən yenə)

4) Birinci addım - GPU-nuzun düzgün göründüyünü təsdiqləyin 🕵️♂️

Bir çox şeyi quraşdırmadan əvvəl, əsasları yoxlayın.

Həqiqi olmaq istədiyiniz şeylər:

Maşın GPU-nu görür
NVIDIA sürücüsü düzgün quraşdırılıb
GPU başqa bir şey etməkdə ilişib qalmayıb
Etibarlı şəkildə sorğu edə bilərsiniz

Klassik yoxlama belədir:

nvidia-smi (NVIDIA nvidia-smi docs)

Axtardığınız şey:

GPU adı (məsələn, RTX, A seriyası və s.)
Sürücü versiyası
Yaddaş istifadəsi
İşləyən proseslər (NVIDIA nvidia-smi sənədləri)

Əgər nvidia-smi uğursuz olarsa, elə orada dayanın. Hələ freymvorklar quraşdırmayın. Bu, sobanız qoşulmadığı halda çörək bişirməyə çalışmaq kimidir. (NVIDIA Sistem İdarəetmə İnterfeysi (NVSMI))

Kiçik bir insan qeydi: bəzən nvidia-smi işləyir, amma təliminiz yenə də uğursuz olur, çünki freymvorkunuz tərəfindən istifadə edilən CUDA işləmə müddəti sürücü gözləntilərinə uyğun gəlmir. Bu, axmaqlıq deyil. Bax, belədir... elə belədir 😭 (PyTorch Başlayın (CUDA seçicisi), TensorFlow quraşdırması (pip))

5) Proqram təminatı yığını qurun - drayverlər, CUDA, cuDNN və “uyğunluq rəqsi” 💃

İnsanların saatlarını itirdiyi yer budur. Hiylə budur: bir yol seçin və ona sadiq qalın.

Seçim A: Çərçivə paketli CUDA (çox vaxt ən asan)

Bir çox PyTorch öz CUDA işləmə müddəti ilə gəmi qurur, yəni sistem daxilində quraşdırılmış tam CUDA alət dəstinə ehtiyacınız yoxdur. Sizə əsasən uyğun NVIDIA drayveri lazımdır. (PyTorch Başlayın (CUDA seçicisi), Əvvəlki PyTorch Versiyaları (CUDA təkərləri))

Müsbət cəhətləri:

Daha az hərəkətli hissələr
Daha asan quraşdırmalar
Ətraf mühitə görə daha çox təkrarlana bilər

Mənfi cəhətləri:

Mühitləri təsadüfən qarışdırsanız, çaşqınlıq yarana bilər

Seçim B: Sistem CUDA alət dəsti (daha çox nəzarət)

CUDA alət dəstini sistemə quraşdırırsınız və hər şeyi ona uyğunlaşdırırsınız. (CUDA Alət dəsti sənədləri)

Müsbət cəhətləri:

Xüsusi qurğular üçün daha çox nəzarət, bəzi xüsusi alətlər
Müəyyən əməliyyatları tərtib etmək üçün əlverişlidir

Mənfi cəhətləri:

Versiyaları uyğunlaşdırmağın və sakitcə ağlamağın daha çox yolu

insan baxımından cuDNN və NCCL

cuDNN dərin öyrənmə primitivlərini (konvolusiyalar, RNN bitləri və s.) sürətləndirir (NVIDIA cuDNN sənədləri)
NCCL, çoxlu GPU təlimi üçün sürətli "GPU-dan GPU-ya rabitə" kitabxanasıdır (NCCL icmalı)

Əgər çoxlu GPU təlimi keçirsinizsə, NCCL sizin ən yaxşı dostunuz və bəzən də xasiyyətli otaq yoldaşınızdır. (NCCL-ə ümumi baxış)

6) İlk GPU təliminiz (PyTorch nümunəvi düşüncə tərzi) ✅🔥

NVIDIA GPU-larından Süni İntellekt Təlimi üçün Necə İstifadə Edilir bölməsini izləmək üçün əvvəlcə böyük bir layihəyə ehtiyacınız yoxdur. Kiçik bir uğura ehtiyacınız var.

Əsas ideyalar:

Cihazı aşkarlayın
Modeli GPU-ya köçürün
Tensorları GPU-ya köçürün
Orada irəli ötürmə qaçışlarını təsdiqləyin (PyTorch CUDA sənədləri)

Həmişə erkən yaşda yoxladığım şeylər:

torch.cuda.is_available() funksiyası True funksiyasını qaytarır ( torch.cuda.is_available )
next(model.parameters().cihaz cuda göstərir ( PyTorch Forumu: CUDA-da modeli yoxlayın )
Tək bir toplu irəli ötürmə səhv etmir
Təlimə başladıqda GPU yaddaşı yüksəlir (yaxşı əlamətdir!) (NVIDIA nvidia-smi sənədləri)

Ümumi "niyə yavaşdır?" sualı

Məlumat yükləyiciniz çox yavaşdır (GPU boş gözləyir) (PyTorch Performans Sazlama Təlimatı)
Məlumatları GPU-ya köçürməyi unutmusunuz (ups)
Partiya ölçüsü kiçikdir (GPU az istifadə olunur)
Təlim mərhələsində ağır CPU əvvəlcədən emalını həyata keçirirsiniz

Həmçinin, bəli, əgər problem məlumatlardadırsa, GPU-nuz tez-tez "o qədər də məşğul deyil" kimi görünəcək. Bu, yarış avtomobili sürücüsünü işə götürüb hər dövrədə yanacaq gözlətməyə məcbur etmək kimidir.

7) VRAM oyunu - toplu ölçüsü, qarışıq dəqiqlik və partlamaz 💥🧳

Praktik təlim problemlərinin əksəriyyəti yaddaşla bağlıdır. Əgər bir bacarıq öyrənirsinizsə, VRAM idarəetməsini də öyrənin.

Yaddaş istifadəsini azaltmağın sürətli yolları

Qarışıq dəqiqlik (FP16/BF16)
- Adətən sürətin artırılması da böyükdür. Hər iki tərəf üçün faydalıdır 😌 (PyTorch AMP sənədləri, TensorFlow qarışıq dəqiqlik təlimatı)
Qradiyent yığılması
- Birdən çox addımda qradiyent toplayaraq daha böyük toplu ölçüsünü simulyasiya edin (Transformerlər üçün təlim sənədləri (qradiyent toplama, fp16))
Daha kiçik ardıcıllıq uzunluğu / kəsim ölçüsü
- Qəddar, lakin təsirli
Aktivləşdirmə yoxlama məntəqəsi
- Yaddaş üçün hesablama mübadiləsi (geriyə dönüş zamanı aktivləşdirmələri yenidən hesablayın) (torch.utils.checkpoint)
Daha yüngül bir optimizatordan istifadə edin
- Bəzi optimizatorlar VRAM-ı çeynəyən əlavə vəziyyətləri saxlayır

“VRAM dayandıqdan sonra niyə hələ də doludur?” anı

Çərçivələr tez-tez yaddaşı keşləyir . Bu normaldır. Qorxulu görünür, amma həmişə sızma deyil. Şablonları oxumağı öyrənirsiniz. (PyTorch CUDA semantikası: keşləmə ayırıcısı)

Praktik vərdiş:

Ayrılmış yaddaşa qarşı ayrılmış yaddaşa baxın (çərçivəyə xas) (PyTorch CUDA semantikası: keşləmə ayırıcısı)
İlk qorxulu rəqəmdə panikaya düşməyin 😅

8) GPU-nu həqiqətən işlək hala gətirin - vaxtınıza dəyər performans tənzimləməsi 🏎️

"GPU təliminin işləməsi" birinci addımdır. Onu tez bir zamanda ikinci addımdır.

Yüksək təsirli optimallaşdırmalar

Partiyanın ölçüsünü artırın (ağrıyana qədər, sonra bir az geri çəkin)
Dataloaderlərdə sancaqlanmış yaddaşdan istifadə edin (daha sürətli host-cihaz nüsxələri) ( PyTorch Performans Sazlama Təlimatı , PyTorch pin_yaddaş/bloklamayan_dərslik )
Dataloader işçilərini artırın (diqqətli olun, çox sayda əks nəticə verə bilər) (PyTorch Performans Sazlama Təlimatı)
GPU-nun boş işləməməsi üçün qrupları əvvəlcədən yükləyin
Mövcud olduqda əridilmiş əməliyyatlardan / optimallaşdırılmış nüvələrdən istifadə edin
Qarışıq dəqiqlikdən istifadə edin (yenə də, bu qədər yaxşıdır) (PyTorch AMP sənədləri)

Ən çox nəzərdən qaçırılan maneə

Saxlama və əvvəlcədən emal boru kəməriniz. Əgər verilənlər bazanız böyükdürsə və yavaş diskdə saxlanılırsa, GPU-nuz bahalı bir yer qızdırıcısına çevrilir. Çox inkişaf etmiş, çox parlaq bir yer qızdırıcısı.

Həmçinin, kiçik bir etiraf: Bir modeli bir saat "optimallaşdırdım", amma başa düşdüm ki, jurnalın aparılması çətinlik yaradır. Həddindən artıq çap etmək təlimi ləngidə bilər. Bəli, ləngidə bilər.

9) Çoxlu GPU təlimi - DDP, NCCL və xaos olmadan miqyaslama 🧩🤝

Daha çox sürət və ya daha böyük modellər istədikdən sonra çox qrafik prosessorlu prosessora üstünlük verirsiniz. Məhz burada hər şey daha da qızışır.

Ümumi yanaşmalar

Paralel Məlumat (DDP)
- GPU-lar arasında qrupları bölün, qradiyentləri sinxronlaşdırın
- Adətən standart "yaxşı" seçimi (PyTorch DDP sənədləri)
Model Paralel / Tensor Paralel
- Modeli GPU-lar arasında bölün (çox böyük modellər üçün)
Boru kəməri paralel
- Model təbəqələrini mərhələlərə bölün (montaj xətti kimi, lakin tensorlar üçün)

Əgər yeni başlayırsınızsa, DDP tipli təlim ən yaxşı seçimdir. (PyTorch DDP təlimatı)

Praktik çox GPU məsləhətləri

GPU-ların da eyni qabiliyyətə malik olduğundan əmin olun (qarışdırma çətinlik yarada bilər)
Qarşılıqlı əlaqəyə baxın: NVLink və PCIe sinxronizasiya ağır iş yükü üçün vacibdir (NVIDIA NVLink icmalı, NVIDIA NVLink sənədləri)
Hər GPU üçün partiya ölçülərini balanslı saxlayın
CPU və yaddaşı nəzərə almayın - çoxlu qrafik prosessor məlumat maneələrini artıra bilər

Bəli, NCCL səhvləri "niyə indi" sualına bükülmüş bir sirr içində bükülmüş bir tapmaca kimi hiss oluna bilər. Siz lənətlənməmisiniz. Yəqin ki. (NCCL-ə ümumi baxış)

10) Monitorinq və profilləmə - saatlarınıza qənaət edən xoşagəlməz şeylər 📈🧯

Başlamaq üçün dəbdəbəli idarəetmə panellərinə ehtiyacınız yoxdur. Nəyinsə səhv olduğunu görməlisiniz.

İzləmək üçün əsas siqnallar

GPU istifadəsi: daim yüksəkdir, yoxsa kəskindir?
Yaddaş istifadəsi: sabit, artan, yoxsa qəribə?
Enerji sərfiyyatı: qeyri-adi dərəcədə aşağı olması az istifadə deməkdir
Temperatur: davamlı yüksək temperaturlar performansı azalda bilər
CPU istifadəsi: məlumat boru kəməri problemləri burada görünür (PyTorch Performans Sazlama Təlimatı)

Profil düşüncə tərzi (sadə versiya)

Əgər GPU az istifadə olunursa - məlumat və ya CPU problemi
Əgər GPU yüksək, lakin yavaşdırsa - nüvənin səmərəsizliyi, dəqiqliyi və ya model arxitekturası
Təlim sürəti təsadüfi olaraq aşağı düşərsə - istilik dondurulması, fon prosesləri, giriş/çıxış hıçqırıqları

Bilirəm, monitorinq əyləncəli səslənmir. Amma bu, diş ipi ilə təmizləmək kimidir. Əsəbiləşdiricidir, amma birdən həyatınız yaxşılaşır.

11) Problemlərin aradan qaldırılması - adi şübhəlilər (və daha az adi olanlar) 🧰😵💫

Bu bölmə əsasən belədir: “əbədi olaraq eyni beş məsələ”

Problem: CUDA yaddaşı tükənib

Düzəlişlər:

partiya ölçüsünü azaldın
qarışıq dəqiqlikdən istifadə edin (PyTorch AMP sənədləri, TensorFlow qarışıq dəqiqlik təlimatı)
Qradiyent yığılması (Transformerlər üçün təlim sənədləri (qradiyent yığılması, fp16))
yoxlama məntəqələrinin aktivləşdirilməsi (torch.utils.checkpoint)
digər GPU proseslərini bağlayın

Problem: Təlim təsadüfən CPU-da işləyir

Düzəlişlər:

modelin Cuda'ya
tensorların cuda'ya köçürülməsini təmin edin
Çərçivə cihaz konfiqurasiyasını yoxlayın (PyTorch CUDA sənədləri)

Problem: Qəribə qəzalar və ya yaddaşa qanunsuz giriş

Düzəlişlər:

sürücü + işləmə müddəti uyğunluğunu təsdiqləyin (PyTorch Başlanğıc (CUDA seçicisi), TensorFlow quraşdırması (pip))
təmiz bir mühit sınayın
xüsusi əməliyyatları azaldın
çoxaltmaq üçün deterministik parametrlərlə yenidən işlədin

Problem: Gözləniləndən daha yavaş

Düzəlişlər:

dataloader-in ötürmə qabiliyyətini yoxlayın (PyTorch Performans Sazlama Təlimatı)
partiya ölçüsünü artırın
qeydləri azaldın
qarışıq dəqiqliyi aktivləşdirin (PyTorch AMP sənədləri)
profil addım vaxtının təhlili

Problem: Çoxlu GPU donur

Düzəlişlər:

Düzgün arxa plan parametrlərini təsdiqləyin (PyTorch paylanmış sənədləri)
NCCL mühit konfiqurasiyalarını yoxlayın (diqqətli olun) (NCCL icmalı)
əvvəlcə tək GPU-nu sınaqdan keçirin
şəbəkənin/interkonnektin sağlam olduğundan əmin olun

Kiçik geri çəkilmə qeydi: bəzən düzəliş sözün əsl mənasında yenidən başlatmaqla həyata keçirilir. Bu, axmaqcasına hiss olunur. İşləyir. Kompüterlər də belədir.

12) Qiymət və praktiklik - çox düşünmədən düzgün NVIDIA GPU və quraşdırma seçimi 💸🧠

Hər layihənin ən böyük qrafik prosessoruna ehtiyacı yoxdur. Bəzən kifayət qədər qrafik prosessora ehtiyacınız olur.

Əgər orta ölçülü modelləri incələyirsinizsə

VRAM və sabitliyə üstünlük verin
Qarışıq dəqiqlik çox kömək edir (PyTorch AMP sənədləri, TensorFlow qarışıq dəqiqlik təlimatı)
Çox vaxt tək güclü GPU ilə qurtula bilərsiniz

Əgər daha böyük modelləri sıfırdan öyrədirsinizsə

Birdən çox GPU və ya çox böyük VRAM istəyəcəksiniz
NVLink və rabitə sürəti ilə maraqlanacaqsınız (NVIDIA NVLink-ə ümumi baxış, NCCL-ə ümumi baxış)
Yəqin ki, yaddaş optimallaşdırıcılarından (ZeRO, boşaltma və s.) istifadə edəcəksiniz (DeepSpeed ZeRO sənədləri, Microsoft Research: ZeRO/DeepSpeed)

Əgər təcrübə aparırsınızsa

Sürətli təkrarlama istəyirsən
Bütün pulunuzu GPU-ya xərcləyib sonra yaddaşı və RAM-ı ac qoymayın
Balanslaşdırılmış sistem (əksər günlərdə) əyri tərəfli sistemdən üstündür

Və əslində, "mükəmməl" aparat seçimlərinin ardınca həftələrlə vaxt itirə bilərsiniz. İşə yararlı bir şey yaradın, ölçün, sonra tənzimləyin. Əsl düşmən geribildirim dövrəsinin olmamasıdır.

Yekun qeydlər - NVIDIA GPU-larından süni intellekt təlimi üçün ağlını itirmədən necə istifadə etməli 😌✅

Əgər NVIDIA GPU-larından süni intellekt təlimi üçün necə istifadə etmək barədə bu təlimatdan başqa heç nə götürmürsünüzsə , bunu edin:

Əvvəlcə nvidia-smi-nin işlədiyinə əmin olun ( NVIDIA nvidia-smi sənədləri )
Təmiz bir proqram yolu seçin (çərçivə paketli CUDA çox vaxt ən asandır) (PyTorch Başlanğıc (CUDA seçicisi))
Miqyası artırmadan əvvəl kiçik bir GPU təlimini təsdiqləyin (torch.cuda.is_available)
VRAM-ı məhdud bir saxlama yeri kimi idarə edin
Qarışıq dəqiqliyi erkən istifadə edin - bu, sadəcə "inkişaf etmiş şeylər" deyil (PyTorch AMP sənədləri, TensorFlow qarışıq dəqiqlik təlimatı)
Əgər yavaşdırsa, GPU-nu günahlandırmadan əvvəl məlumat yükləyicisindən və giriş/çıxışdan şübhələnin (PyTorch Performans Sazlama Təlimatı)
Çoxqatlı GPU güclüdür, lakin mürəkkəblik əlavə edir - tədricən miqyaslanır (PyTorch DDP sənədləri, NCCL icmalı)
Problemlərin erkən ortaya çıxması üçün istifadəni və temperaturu izləyin (NVIDIA nvidia-smi sənədləri)

NVIDIA GPU-larında təlim qorxulu hiss olunan bacarıqlardan biridir, sonra isə birdən-birə... normal hala gəlir. Sanki maşın sürməyi öyrənmək kimi. Əvvəlcə hər şey səs-küylü və qarışıq olur və sükanı çox möhkəm tutursunuz. Sonra bir gün səyahətə çıxıb qəhvə içir və təsadüfən partiya ölçüsü problemini həll edirsiniz, sanki elə bir problem yoxdur.

Real həyat nümunəsi: Kiçik bir şəkil təsnifatçısını bir NVIDIA GPU-da öyrətmək 🧪🖼️

Ssenari

Təsəvvür edin ki, kiçik bir e-ticarət komandası məhsul şəkillərini beş kateqoriyaya ayıran bir şəkil təsnifatçısı hazırlamaq istəyir: ayaqqabı, çanta, gödəkçə, saat və aksesuarlar.

Onlar nəhəng bir modeli sıfırdan öyrətmirlər. Komanda ideyanın miqyaslandırılmasına dəyər olub olmadığını tez bir zamanda yoxlaya bilməsi üçün əvvəlcədən öyrədilmiş bir görmə modelini tək bir NVIDIA GPU-da təkmilləşdirirlər.

Məqsəd sadədir: GPU qurğusunun işlədiyini sübut etmək, CUDA xaosundan qaçınmaq və daha böyük aparatlara və ya bulud əməliyyatlarına pul xərcləməzdən əvvəl təkrarlana bilən bir təlim döngəsi qurmaq.

Quruluşun nəyə ehtiyacı var

Bu cür test üçün sizə lazım olacaq:

Bir NVIDIA GPU və partiya ölçüsü üçün kifayət qədər VRAM olan bir maşın

Nvidia-smi tərəfindən təsdiqlənmiş işləyən NVIDIA sürücüsü

PyTorch, TensorFlow və ya JAX üçün təmiz Python mühiti

İdeal olaraq təlim, validasiya və test qovluqlarına bölünmüş kiçik etiketli şəkil məlumat dəsti

Müqayisə üçün əsas CPU vaxtlama çalışması

Addım vaxtı, GPU yaddaşı, GPU istifadəsi, temperatur və doğrulama dəqiqliyi ilə sadə bir qeyd vərəqi

Düzgün məşq etməzdən əvvəl, komanda kiçik bir CUDA tüstü testi keçirməlidir: bir dəst yükləməli, modeli və dəsti cuda-ya köçürməli, bir irəli ötürmə etməli və nvidia-smi-də GPU yaddaş artımlarını təsdiqləməlidir.

Nümunə təlimat

Praktik layihə təlimatı bu kimi görünə bilər:

Əvvəlcədən təlim keçmiş ResNet stilində modeldən istifadə edərək kiçik bir məhsul təsviri təsnifatçısını öyrədin. Əvvəlcə nvidia-smi-nin GPU-nu görə bildiyini təsdiqləyin. Daha sonra tam təlimdən əvvəl birdəfəlik CUDA testini işə salın. Dəstəklənərsə, qarışıq dəqiqlikdən istifadə edin. 32-ci dəst ölçüsü ilə başlayın, yalnız GPU yaddaşı sabit qalarsa artırın və hər işə salmadan sonra addım vaxtını, GPU yaddaş istifadəsini, GPU istifadəsini, temperaturu və doğrulama dəqiqliyini qeyd edin. CUDA yaddaş tükəndiyi ortaya çıxarsa, modeli dəyişdirməzdən əvvəl dəst ölçüsünü azaldın.

Bunu necə sınaqdan keçirmək olar

Ağlabatan bir test planı belə olardı:

nvidia-smi əmrini işə salın və GPU adını, drayver versiyasını, boş yaddaş istifadəsini və temperaturu qeyd edin.
Məlumat dəsti və model kodunun işləməsini təsdiqləmək üçün tək dəstli CPU testi keçirin.
Eyni tək dəstli testi cuda üzərində işlədin.
32 ölçülü dəstə ilə 200 addımlıq məşq edin.
Qarışıq dəqiqliklə təkrarlayın.
Yalnız ilk işə salma kifayət qədər VRAM boşluğu buraxarsa, 64 ölçülü toplu işə salmağa çalışın.
Doğrulama dəqiqliyini, orta addım müddətini, pik VRAM-ı və GPU temperaturunu müqayisə edin.

Yaxşı nəticə sadəcə "məşq etdi" demək deyil. Yaxşı nəticə "GPU-da məşq etdi, sürət yaxşılaşdı, yaddaş sabit qaldı və sabah hər şeyi yenidən quraşdırmadan təkrarlana bilər" deməkdir.

Nəticə

Təlimi CPU-dan tək bir NVIDIA GPU-ya köçürməzdən əvvəl və sonra üç kiçik 200 addımlı test çalışmasının vaxtına əsaslanan nümunəvi nəticə:

Yalnız CPU üçün əsas: hər təlim addımı üçün 3,4 saniyə

FP32 ilə GPU: hər təlim addımında 0,42 saniyə

Qarışıq dəqiqliklə GPU: hər təlim addımında 0,28 saniyə

Toplu həcmi 32 olan pik GPU yaddaşı: 5.8 GB

Toplu həcmi 64 olan pik GPU yaddaşı: 10.9 GB

Partiya ölçüsü 96: CUDA yaddaşı tükəndiyi üçün uğursuz oldu

Sabit işləmə zamanı GPU istifadəsi: 76% - 91%

Sabit işləmə zamanı temperatur: 67°C ilə 73°C arasında

Qısa sınaqdan sonra doğrulama dəqiqliyi: FP32 ilə 82%, qarışıq dəqiqliklə 82.4%

Bu nümunə qiymətləndirməsində, qarışıq dəqiqlik, FP32 GPU işləməsi ilə müqayisədə addım müddətini təxminən 33% azaltdı və eyni zamanda doğrulama dəqiqliyini təxminən eyni saxladı. Komanda bu rəqəmləri hər təlim addımının vaxtını təyin etməklə, işləmə zamanı nvidia-smi-ni yoxlamaqla və hər testdən sonra doğrulama dəqiqliyini saxlamaqla yoxlaya bildi.

Nə səhv gedə bilər

Ən çox yayılmış səhv çox erkən miqyaslamadır. Birdəfəlik CUDA testi uğursuz olarsa, tam bir məşq onu sehrli şəkildə düzəltməyəcək.

Digər asan tələlər:

Birdən çox CUDA versiyasını quraşdırmaq və çərçivənin hansından istifadə etdiyini bilməmək

Modeli cuda-ya köçürmək, lakin partiyaları CPU-da saxlamaq

Bir dəfə uyğun gələn, lakin bir neçə addımdan sonra çökən toplu ölçüsünün seçilməsi

Artıq VRAM istifadə edən digər prosesləri nəzərə almamaq

Məlumat yükləyicisi çox yavaş olduqda GPU-nu günahlandırmaq

CPU və GPU-nun müqayisəsi eyni məlumat dəsti, toplu ölçüsü və modeli istifadə etmədən işləyir

İnsan da ilk bir neçə proqnozu nəzərdən keçirməlidir. Etiketlər səs-küylüdürsə, siniflər balanssızdırsa və ya model məhsul növü əvəzinə fon rəngi kimi qısa yolları öyrənirsə, sürətli təlimin heç bir dəyəri yoxdur.

Praktik yemək

Etibarlı NVIDIA GPU təlim iş axını kiçikdən başlayır: drayverin işlədiyini sübut edin, CUDA-nın işlədiyini sübut edin, bir dəst işlədiyini sübut edin, sonra dəst ölçüsünü və təlim müddətini tədricən miqyaslandırın. Ən sürətli quraşdırma kağız üzərində ən təsirli GPU-ya malik quraşdırma deyil - bu, qarşısını almaq mümkün olan versiya, VRAM və məlumat yükləyicisi problemlərinə saatlar sərf etmədən sabit, ölçülə bilən işləmələr təmin edən quraşdırmadır.

Tez-tez verilən suallar

NVIDIA GPU-da süni intellekt modelini öyrətmək nə deməkdir

NVIDIA GPU-da təlim o deməkdir ki, model parametrləriniz və təlim qruplarınız GPU VRAM-da yaşayır və ağır riyazi əməliyyatlar (irəli ötürmə, arxa prop, optimallaşdırıcı addımlar) CUDA nüvələri vasitəsilə yerinə yetirilir. Praktikada bu, tez-tez modelin və tensorların cuda, sonra isə yaddaşa, istifadəyə və temperatura nəzarət etmək deməkdir ki, məhsuldarlıq sabit qalsın.

Başqa bir şey quraşdırmadan əvvəl NVIDIA GPU-nun işlədiyini necə təsdiqləmək olar

nvidia-smi ilə başlayın . Burada GPU adı, drayver versiyası, cari yaddaş istifadəsi və çalışan proseslər göstərilməlidir. Əgər nvidia-smi uğursuz olarsa, PyTorch/TensorFlow/JAX-ı gözləyin - əvvəlcə drayverin görünməsini düzəldin. Bu, GPU təlimi üçün "soba qoşulub-qoşulmadığını" yoxlamaq üçün əsasdır.

CUDA sistemi və PyTorch ilə birlikdə təqdim edilən CUDA arasında seçim etmək

Ümumi yanaşma, hərəkət edən hissələri azaltdığı üçün çərçivə paketli CUDA-dan (bir çox PyTorch təkərləri kimi) istifadə etməkdir - əsasən uyğun NVIDIA drayverinə ehtiyacınız var. Tam sistem CUDA alət dəstini quraşdırmaq daha çox nəzarət təklif edir (xüsusi qurmalar, əməliyyatların tərtib edilməsi), eyni zamanda versiya uyğunsuzluqları və çaşdırıcı icra səhvləri üçün daha çox imkanlar yaradır.

Niyə NVIDIA GPU ilə belə təlim hələ də yavaş ola bilər

Çox vaxt GPU giriş boru kəməri tərəfindən ac qalır. Gecikən məlumat yükləyiciləri, təlim mərhələsində CPU-nun ağır əvvəlcədən işlənməsi, kiçik partiya ölçüləri və ya yavaş yaddaş güclü GPU-nun boş yer qızdırıcısı kimi davranmasına səbəb ola bilər. Məlumat yükləyicisi işçilərinin artırılması, sancaqlanmış yaddaşın aktivləşdirilməsi, əvvəlcədən yükləmənin əlavə edilməsi və jurnalın kəsilməsi modeli günahlandırmadan əvvəl tez-tez edilən ilk addımlardır.

NVIDIA GPU təlimi zamanı "CUDA yaddaşının tükənməsi" səhvlərinin qarşısını necə almaq olar

Əksər düzəlişlər VRAM taktikalarıdır: toplu ölçüsünü azaltmaq, qarışıq dəqiqliyi aktivləşdirmək (FP16/BF16), qradiyent yığılmasından istifadə etmək, ardıcıllıq uzunluğunu/kəsmə ölçüsünü qısaltmaq və ya aktivləşdirmə yoxlama məntəqəsindən istifadə etmək. Həmçinin yaddaş istehlak edən digər GPU proseslərini də yoxlayın. Bəzi sınaq və səhvlər normaldır - VRAM büdcələməsi praktik GPU təlimində əsas vərdişə çevrilir.

Niyə VRAM təlim skripti bitdikdən sonra da dolu görünə bilər

Çərçivələr tez-tez sürət üçün GPU yaddaşını keşləyir, buna görə də ayrılmış yaddaş azaldıqda belə ehtiyat yaddaş yüksək qala bilər. Bu, sızmaya bənzəyə bilər, lakin tez-tez keşləmə ayırıcısı nəzərdə tutulduğu kimi davranır. Praktik vərdiş, tək bir həyəcan verici anlıq görüntüyə diqqət yetirmək əvəzinə, zamanla nümunəni izləmək və "ayrılmış və ehtiyatda olanları" müqayisə etməkdir.

Bir modelin CPU üzərində səssizcə məşq etmədiyini necə təsdiqləmək olar

Sağlamlığı erkən yoxlayın: torch.cuda.is_available() funksiyasının True qaytardığını təsdiqləyin , next(model.parameters()). cihazın cuda göstərdiyini təsdiqləyin və səhvsiz tək irəli ötürməni yerinə yetirin. Performans şübhəli dərəcədə yavaş hiss olunursa, qruplarınızın GPU-ya köçürüldüyünü də təsdiqləyin. Modeli köçürüb təsadüfən məlumatları geridə qoymaq adi haldır.

Çox GPU təliminə ən sadə yol

Data Paralel (DDP tipli təlim) çox vaxt ən yaxşı ilk addımdır: GPU-lar arasında qrupların bölünməsi və sinxronlaşdırma qradiyentləri. Accelerate kimi alətlər tam yenidən yazmadan çoxlu GPU-nu daha az ağrılı edə bilər. Əlavə dəyişənlər - NCCL rabitəsi, qarşılıqlı əlaqə fərqləri (NVLink vs PCIe) və gücləndirilmiş məlumat maneələri gözləyin, buna görə də tək GPU-lu işlədikdən sonra tədricən miqyaslandırma daha yaxşı getməyə meyllidir.

NVIDIA GPU təlimi zamanı problemləri erkən aşkar etmək üçün nələrə nəzarət etməli

GPU istifadəsinə, yaddaş istifadəsinə (sabit və ya artan), enerji istehlakına və temperaturlara diqqət yetirin - yavaşlama sürəti sakitcə azalda bilər. CPU istifadəsinə də diqqət yetirin, çünki məlumat boru kəməri problemi tez-tez ilk növbədə orada özünü göstərir. İstifadə kəskin və ya aşağıdırsa, giriş/çıxış və ya məlumat yükləyicilərindən şübhələnin; əgər yüksəkdirsə, lakin addım vaxtı hələ də yavaşdırsa, profil nüvələri, dəqiqlik rejimi və addım vaxtı bölgüsü.

İstinadlar

NVIDIA - NVIDIA nvidia-smi docs - docs.nvidia.com
NVIDIA - NVIDIA Sistem İdarəetmə İnterfeysi (NVSMI) - developer.nvidia.com
NVIDIA - NVIDIA NVLink-ə ümumi baxış - nvidia.com
PyTorch - PyTorch-a Başlayın (CUDA seçicisi) - pytorch.org
PyTorch - PyTorch CUDA sənədləri - docs.pytorch.org
TensorFlow - TensorFlow quraşdırması (pip) - tensorflow.org
JAX - JAX Tez Başlanğıc - docs.jax.dev
Qucaqlaşma Üzü - Təlimçi sənədləri - huggingface.co
İldırım süni intellekt - İldırım sənədləri - lightning.ai
DeepSpeed - ZeRO sənədləri - deepspeed.readthedocs.io
Microsoft Araşdırması - Microsoft Araşdırması: ZeRO/DeepSpeed - microsoft.com
PyTorch Forumları - PyTorch Forumu: CUDA-da modeli yoxlayın - discuss.pytorch.org

Ən son süni intellekt texnologiyalarını rəsmi süni intellekt köməkçisi mağazasında tapın

Haqqımızda

Bloqa qayıt

1) Ümumi mənzərə - "GPU ilə məşq edərkən" nə edirsiniz 🧠⚡

2) NVIDIA GPU süni intellekt təlim qurğusunun yaxşı versiyasını nə təşkil edir 🤌

3) Müqayisə Cədvəli - NVIDIA GPU-ları ilə məşq etməyin məşhur yolları (xüsusiyyətləri ilə) 📊

4) Birinci addım - GPU-nuzun düzgün göründüyünü təsdiqləyin 🕵️♂️

5) Proqram təminatı yığını qurun - drayverlər, CUDA, cuDNN və “uyğunluq rəqsi” 💃

Seçim A: Çərçivə paketli CUDA (çox vaxt ən asan)

Seçim B: Sistem CUDA alət dəsti (daha çox nəzarət)

insan baxımından cuDNN və NCCL

6) İlk GPU təliminiz (PyTorch nümunəvi düşüncə tərzi) ✅🔥

Ümumi "niyə yavaşdır?" sualı

7) VRAM oyunu - toplu ölçüsü, qarışıq dəqiqlik və partlamaz 💥🧳

Yaddaş istifadəsini azaltmağın sürətli yolları

“VRAM dayandıqdan sonra niyə hələ də doludur?” anı

8) GPU-nu həqiqətən işlək hala gətirin - vaxtınıza dəyər performans tənzimləməsi 🏎️

Yüksək təsirli optimallaşdırmalar

Ən çox nəzərdən qaçırılan maneə

9) Çoxlu GPU təlimi - DDP, NCCL və xaos olmadan miqyaslama 🧩🤝

Ümumi yanaşmalar

Praktik çox GPU məsləhətləri

10) Monitorinq və profilləmə - saatlarınıza qənaət edən xoşagəlməz şeylər 📈🧯

İzləmək üçün əsas siqnallar

Profil düşüncə tərzi (sadə versiya)

11) Problemlərin aradan qaldırılması - adi şübhəlilər (və daha az adi olanlar) 🧰😵💫

Problem: CUDA yaddaşı tükənib

Problem: Təlim təsadüfən CPU-da işləyir

Problem: Qəribə qəzalar və ya yaddaşa qanunsuz giriş

Problem: Gözləniləndən daha yavaş

Problem: Çoxlu GPU donur

12) Qiymət və praktiklik - çox düşünmədən düzgün NVIDIA GPU və quraşdırma seçimi 💸🧠

Əgər orta ölçülü modelləri incələyirsinizsə

Əgər daha böyük modelləri sıfırdan öyrədirsinizsə

Əgər təcrübə aparırsınızsa

Yekun qeydlər - NVIDIA GPU-larından süni intellekt təlimi üçün ağlını itirmədən necə istifadə etməli 😌✅

Real həyat nümunəsi: Kiçik bir şəkil təsnifatçısını bir NVIDIA GPU-da öyrətmək 🧪🖼️

Ssenari

Quruluşun nəyə ehtiyacı var

Nümunə təlimat

Bunu necə sınaqdan keçirmək olar

Nəticə

Nə səhv gedə bilər

Praktik yemək

Tez-tez verilən suallar

NVIDIA GPU-da süni intellekt modelini öyrətmək nə deməkdir

Başqa bir şey quraşdırmadan əvvəl NVIDIA GPU-nun işlədiyini necə təsdiqləmək olar

CUDA sistemi və PyTorch ilə birlikdə təqdim edilən CUDA arasında seçim etmək

Niyə NVIDIA GPU ilə belə təlim hələ də yavaş ola bilər

NVIDIA GPU təlimi zamanı "CUDA yaddaşının tükənməsi" səhvlərinin qarşısını necə almaq olar

Niyə VRAM təlim skripti bitdikdən sonra da dolu görünə bilər

Bir modelin CPU üzərində səssizcə məşq etmədiyini necə təsdiqləmək olar

Çox GPU təliminə ən sadə yol

NVIDIA GPU təlimi zamanı problemləri erkən aşkar etmək üçün nələrə nəzarət etməli

İstinadlar

Ən son süni intellekt texnologiyalarını rəsmi süni intellekt köməkçisi mağazasında tapın

Haqqımızda

Əlavə Tez-tez Verilən Suallar

NVIDIA GPU-mun süni intellekt təlimi üçün görünməsini necə təmin edə bilərəm?

NVIDIA GPU-larında təlim üçün drayver və çərçivə uyğunluğunun əhəmiyyəti nədir?

Təlim zamanı VRAM-ı effektiv şəkildə idarə etmək üçün hansı addımları atmalıyam?

Çox GPU təlimi keçirməzdən əvvəl hansı ilkin şərtləri nəzərə almalıyam?

Təlim zamanı ümumi CUDA səhvlərini necə aradan qaldıra bilərəm?

NVIDIA GPU-larında təlim keçərkən hansı monitorinq təcrübələri tövsiyə olunur?

NVIDIA GPU-larından istifadə edərkən yavaş təlim sürətlərindən necə qaçınmaq olar?