AI Performansını necə ölçmək olar?

Əgər siz nə vaxtsa noutbukda göz qamaşdıran, lakin istehsal zamanı büdrəyən bir model göndərmisinizsə, artıq sirri bilirsiniz: süni intellekt performansını necə ölçmək sehrli bir ölçü deyil. Bu, real dünyadakı məqsədlərlə əlaqəli yoxlamalar sistemidir. Dəqiqlik gözəldir. Etibarlılıq, təhlükəsizlik və biznesə təsir daha yaxşıdır.

Bundan sonra oxumaq istəyə biləcəyiniz məqalələr:

🔗 AI ilə necə danışmaq olar
Ardıcıl olaraq daha yaxşı nəticələr əldə etmək üçün süni intellektlə effektiv ünsiyyət qurmaq üçün təlimat.

🔗 AI nəyə səbəb olur
Siqnalların süni intellekt reaksiyalarına və çıxış keyfiyyətinə necə təsir etdiyini izah edir.

🔗 AI məlumatlarının etiketlənməsi nədir
Təlim modelləri üçün məlumatlara dəqiq etiketlərin təyin edilməsinə ümumi baxış.

🔗 AI etikası nədir
Məsuliyyətli süni intellekt inkişafı və tətbiqinə istiqamət verən etik prinsiplərə giriş.

Yaxşı AI performansını nə edir? ✅

Qısa versiya: yaxşı süni intellekt performansı sisteminizin qarışıq, dəyişən şəraitdəKonkret olaraq: faydalı, etibarlı və təkrarlana bilən olması deməkdir.

Tapşırıq keyfiyyəti - düzgün səbəblərə görə düzgün cavablar alır.
Kalibrləmə - etibarlılıq balları reallıqla uyğun gəlir, beləliklə ağıllı hərəkət edə bilərsiniz.
Möhkəmlik - sürüşmə, kənar hallar və rəqib tükləri altında davamlıdır.
Təhlükəsizlik və ədalət - zərərli, qərəzli və ya uyğunsuz davranışlardan qaçınır.
Səmərəlilik - miqyasda işləmək üçün kifayət qədər sürətli, kifayət qədər ucuz və kifayət qədər sabitdir.
Biznes təsiri - o, həqiqətən əhəmiyyət verdiyiniz KPI-ni hərəkətə gətirir.

Əgər metrikləri və riskləri uyğunlaşdırmaq üçün rəsmi bir istinad nöqtəsi istəyirsinizsə, NIST AI Risk Management Çərçivəsi etibarlı sistem qiymətləndirməsi üçün möhkəm bir şimal ulduzudur. [1]

Süni intellekt performansını necə ölçmək olar - yüksək səviyyəli resept 🍳

Üç təbəqədə düşünün :

Tapşırıq metrikləri - tapşırıq növü üçün düzgünlük: təsnifat, reqressiya, sıralama, generasiya, nəzarət və s.
Sistem ölçüləri - gecikmə, ötürmə qabiliyyəti, zəng başına xərc, uğursuzluq dərəcələri, sürüşmə siqnalları, iş vaxtı SLA-ları.
Nəticə metrikləri - həqiqətən istədiyiniz biznes və istifadəçi nəticələri: konversiya, saxlama, təhlükəsizlik hadisələri, əl ilə yoxlama yükü, bilet həcmi.

Əla ölçmə planı qəsdən hər üçünü qarışdırır. Əks təqdirdə, heç vaxt buraxılış meydançasından çıxmayan bir raket əldə edirsiniz.

Problem növünə görə əsas ölçülər - və hansından nə vaxt istifadə etməli 🎯

1) Təsnifat

Dəqiqlik, Xatırlatma, F1 - birinci gün üçlüyü. F1 dəqiqlik və xatırlamanın harmonik ortalamasıdır; siniflər balanssız olduqda və ya xərclər asimmetrik olduqda faydalıdır. [2]
ROC-AUC - təsnifatçıların eşik-aqnostik sıralaması; müsbət nəticələr nadir olduqda, PR-AUC-ni. [2]
Balanslaşdırılmış dəqiqlik - siniflər üzrə geri çağırmanın ortalaması; əyri etiketlər üçün əlverişlidir. [2]

Tələ izləmə: təkcə dəqiqlik olduqca yanıltıcı ola bilər və balanssızlığa səbəb ola bilər. İstifadəçilərin 99%-i qanunidirsə, axmaq, həmişə qanuni olan model 99% bal toplayır və nahardan əvvəl fırıldaqçılıq komandanızı uğursuzluğa düçar edir.

2) Reqressiya

İnsan tərəfindən oxuna bilən səhv üçün MAE ; böyük səhvləri cəzalandırmaq istədiyiniz zaman RMSE ; izah edilən dispersiya üçün R² . Daha sonra səhlənkarlığı yoxlayın - paylanmalar və qalıq qrafiklər. [2] (Maraqlı tərəflərin səhvi həqiqətən hiss edə bilməsi üçün domenə uyğun vahidlərdən istifadə edin.)

3) Sıralama, axtarış, tövsiyələr

nDCG - mövqe və qiymətləndirilmiş aktuallıqla maraqlanır; axtarış keyfiyyəti üçün standart.
MRR - ilk müvafiq elementin nə qədər tez göründüyünə diqqət yetirir ("bir yaxşı cavab tap" tapşırıqları üçün əladır).
(Tətbiq istinadları və işlənmiş nümunələr əsas metrik kitabxanalarda mövcuddur.) [2]

4) Mətnin yaradılması və xülasəsi

BLEU və ROUGE - klassik üst-üstə düşmə metrikləri; əsas xətlər kimi faydalıdır.
Yerləşdirmə əsaslı metriklər (məsələn, BERTScore) çox vaxt insan mühakiməsi ilə daha yaxşı əlaqələndirilir; stil, sədaqət və təhlükəsizlik baxımından həmişə insan reytinqləri ilə uyğunlaşdırın. [4]

5) Sualın cavablandırılması

Dəqiq Uyğunluq və əlamət səviyyəli F1 hasilat QA üçün ümumidir; əgər cavablar mənbələrə istinad etməlidirsə, həmçinin əsaslandırmanı (cavab dəstəyi yoxlamaları).

Kalibrləmə, etibarlılıq və Brier lensi 🎚️

Etibar balları bir çox sistemin səssizcə yerləşdiyi yerdir. Əməliyyatların eşikləri, insanlara marşrutu və ya qiymət riskini təyin edə bilməsi üçün reallığı əks etdirən ehtimallar lazımdır.

Kalibrləmə əyriləri - proqnozlaşdırılan ehtimalı empirik tezliyə qarşı vizuallaşdırın.
Brier balı - ehtimal dəqiqliyi üçün düzgün qiymətləndirmə qaydası; aşağı nə qədər yaxşıdırsa, o qədər yaxşıdır. Bu, xüsusilə yalnız sıralamaya deyil, ehtimalın keyfiyyətinə əhəmiyyət verdiyiniz zaman faydalıdır . [3]

Sahə qeydi: bir az "daha pis" F1, lakin daha yaxşı kalibrləmə əhəmiyyətli dərəcədə yaxşılaşdıra bilər - çünki insanlar nəhayət ballara etibar edə bilərlər.

Təhlükəsizlik, qərəzlilik və ədalətlilik - vacib olanı ölçün 🛡️⚖️

Sistem ümumilikdə dəqiq ola bilər və hələ də müəyyən qruplara zərər verə bilər.izləyin Qruplaşdırılmış ölçüləri və ədalətlilik meyarlarını

Demoqrafik paritet - qruplar arasında bərabər müsbət nisbətlər.
Bərabərləşdirilmiş şanslar / Bərabər imkanlar - qruplar arasında bərabər səhv nisbətləri və ya həqiqi müsbət nisbətlər; bunlardan birdəfəlik ötürmə-uğursuzluq möhürü kimi deyil, güzəştləri aşkar etmək və idarə etmək üçün istifadə edin. [5]

Praktik məsləhət: əsas göstəriciləri əsas atributlara görə bölən idarəetmə panellərindən başlayın, sonra siyasətinizin tələb etdiyi kimi xüsusi ədalət göstəriciləri əlavə edin. Bu, qeyri-müəyyən səslənir, amma adi bir hadisədən daha ucuzdur.

LLM və RAG - həqiqətən işləyən bir ölçmə təlimatı 📚🔍

Generativ sistemlərin ölçülməsi... əsəbidir. Bunu edin:

nəticələri müəyyənləşdirin : düzgünlük, faydalılıq, zərərsizlik, üsluba uyğunluq, brendin tonu, sitatın əsaslandırılması, imtina keyfiyyəti.
Güclü çərçivələrlə (məsələn, yığınızdakı qiymətləndirmə alətləri) əsas qiymətləndirmələri avtomatlaşdırın və onları məlumat dəstlərinizlə versiyalaşdırın.
semantik ölçülər (yerləşdirmə əsaslı) və üst-üstə düşən ölçülər (BLEU/ROUGE) əlavə edin. [4]
alətin topraklanması : bərpa vuruş sürəti, kontekst dəqiqliyi/xatırlama, cavab-dəstək üst-üstə düşməsi.
Razılıqla insan rəyi - qiymətləndiricinin ardıcıllığını ölçün (məsələn, Koenin κ və ya Fleissin κ) ki, etiketləriniz vibrasiya olmasın.

Bonus: gecikmə faizlərini qeyd edin və tapşırıq üçün işarə və ya hesablama dəyəri. Gələn çərşənbə axşamı gələn poetik cavabı heç kim sevmir.

Müqayisə cədvəli - süni intellekt performansını ölçməyə kömək edən vasitələr 🛠️📊

(Bəli, məqsədyönlü şəkildə bir az qarışıqdır - real qeydlər qarışıqdır.)

Alət	Ən yaxşı auditoriya	Qiymət	Niyə işləyir - tez qəbul edin
scikit-öyrənmə ölçüləri	ML praktikantları	Pulsuz	Təsnifat, reqressiya, sıralama üçün kanonik tətbiqlər; testlərə asanlıqla daxil edilir. [2]
MLflow Qiymətləndirmə / GenAI	Məlumat alimləri, MLOps	Pulsuz + pullu	Mərkəzləşdirilmiş qaçışlar, avtomatlaşdırılmış ölçülər, LLM hakimləri, xüsusi qol vuranlar; artefaktları təmiz qeyd edir.
Aydındır ki,	Tez idarə panelləri istəyən komandalar	OSS + bulud	100-dən çox ölçü, drift və keyfiyyət hesabatları, monitorinq çəngəlləri - zərurət yarandıqda gözəl vizuallar.
Çəkilər və Qərəzlər	Eksperimental ağırlıqlı orqanlar	Pulsuz səviyyə	Yan-yana müqayisələr, qiymətləndirmə məlumat dəstləri, hakimlər; cədvəllər və izləmələr səliqəlidir.
LangSmith	LLM tətbiq qurucuları	Ödənişli	Hər addımı izləyin, insan rəyini qayda və ya LLM qiymətləndiriciləri ilə qarışdırın; RAG üçün əladır.
TruLens	Açıq mənbəli LLM qiymətləndirmə həvəskarları	OSS	Geribildirim funksiyaları toksikliyi, əsaslılığı və aktuallığı qiymətləndirmək; istənilən yerə inteqrasiya etmək üçündür.
Böyük Ümidlər	Məlumat keyfiyyətinə önəm verən təşkilatlar	OSS	Məlumatlarla bağlı gözləntiləri rəsmiləşdirin - çünki pis məlumatlar hər bir metrikanı məhv edir.
Dərin yoxlamalar	Maşın öyrənmə üçün test və CI/CD	OSS + bulud	Batareyalara məlumat axını, model problemləri və monitorinq üçün sınaq daxildir; yaxşı məhəccərlər.

Qiymətlər dəyişir - sənədlərə baxın. Bəli, alət polisi gəlmədən bunları qarışdıra bilərsiniz.

Eşiklər, xərclər və qərar əyriləri - gizli sous 🧪

Qəribə, lakin həqiqətdir: eyni ROC-AUC-yə malik iki model, eşik və xərc nisbətlərindən.

Tez hazırlanan vərəq:

Yalançı müsbət və ya yalançı mənfi nəticənin dəyərini pul və ya zaman baxımından təyin edin.
Hədəfləri süpürün və 1000 qərar üçün gözlənilən dəyəri hesablayın.
Minimum gözlənilən xərc həddini seçin , sonra onu monitorinqlə kilidləyin.

Müsbət ədədlər nadir olduqda PR əyrilərindən, ümumi forma üçün ROC əyrilərindən və qərarlar ehtimallara əsaslandıqda kalibrləmə əyrilərindən istifadə edin. [2][3]

Mini-case: təvazökar F1-ə malik, lakin əla kalibrləmə ilə dəstək bileti triaj modeli, əməliyyatlar sərt eşikdən çoxmərhələli marşrutlaşdırmaya (məsələn, "avtomatik həll", "insan baxışı", "genişləndirmə") keçdikdən sonra kalibrlənmiş bal zolaqlarına bağlanmış əl ilə yenidən marşrutlaşdırmaları kəsir.

Onlayn monitorinq, sürüşmə və xəbərdarlıq 🚨

Oflayn qiymətləndirmələr son deyil, başlanğıcdır. İstehsalda:

Giriş sürüşməsini , çıxış sürüşməsini və performans azalmasını seqmentlərə görə izləyin .
Qoruyucu yoxlamaları təyin edin - maksimum halüsinasiya dərəcəsi, toksiklik hədləri, ədalət deltaları.
p95 gecikməsi, zaman aşımları və sorğu başına xərc üçün kanareyka idarəetmə panelləri əlavə edin .
Bunu sürətləndirmək üçün məqsədyönlü şəkildə qurulmuş kitabxanalardan istifadə edin; onlar qutudan kənar sürüşmə, keyfiyyət və monitorinq primitivlərini təklif edirlər.

Kiçik qüsurlu metafora: modelinizi maya xəmiri kimi düşünün - sadəcə bir dəfə bişirib getmirsiniz; yedizdirirsiniz, izləyir, iyləyir və bəzən yenidən başlayırsınız.

İnsanların sarsılmaz qiymətləndirməsi 🍪

İnsanlar nəticələri qiymətləndirəndə, proses düşündüyünüzdən daha vacibdir.

Keçid, sərhəd xətti və uğursuzluq nümunələri ilə sıx rubrikalar yazın .
Mümkün olduqda nümunələri təsadüfi və kor edin.
Qiymətləndiricilər arasında razılaşmanı ölçün (məsələn, iki qiymətləndirici üçün Koenin κ, bir çox qiymətləndirici üçün Fleissin κ) və razılaşma pozulduqda rubrikaları yeniləyin.

Bu, insan etiketlərinizin əhval-ruhiyyə və ya qəhvə tədarükü ilə sürüşməsindən qoruyur.

Dərin araşdırma: RAG-da LLM-lər üçün süni intellekt performansını necə ölçmək olar 🧩

Axtarış keyfiyyəti - recall@k, precision@k, nDCG; qızıl faktlarının əhatə dairəsi. [2]
Cavabların sədaqəti - istinad və təsdiq yoxlamaları, əsaslandırılma balları, rəqabətli zondlar.
İstifadəçi məmnuniyyəti - bəyənmələr, tapşırığın tamamlanması, təklif olunan layihələrdən redaktə məsafəsi.
Təhlükəsizlik - toksiklik, PII sızması, siyasətə uyğunluq.
Qiymət və gecikmə - tokenlər, keş xitləri, p95 və p99 gecikmələri.

Bunları biznes fəaliyyətlərinə bağlayın: əgər əsaslanma xəttin altına düşərsə, avtomatik olaraq ciddi rejimə və ya insan baxışına keçin.

Bu gün başlamaq üçün sadə bir oyun kitabçası 🪄

İşi təyin edin - bir cümlə yazın: süni intellekt nə etməlidir və kimin üçün.
2-3 tapşırıq metrikası seçin - üstəgəl kalibrləmə və ən azı bir ədalətlilik dilimi. [2][3][5]
Qiymətə əsasən hədləri müəyyən edin - təxmin etməyin.
İstehsal qarışığını əks etdirən 100-500 etiketli nümunədən ibarət kiçik bir qiymətləndirmə dəsti yaradın
Qiymətləndirmələrinizi avtomatlaşdırın - qiymətləndirmə/monitorinqi CI-yə ötürün ki, hər dəyişiklik eyni yoxlamaları aparsın.
Məhsulda monitor - sürüşmə, gecikmə, xərc, hadisə flags.
Aylıq-ish - heç kimin istifadə etmədiyi ölçüləri kəsin; real suallara cavab verənləri əlavə edin.
Qərarları sənədləşdirin - komandanızın həqiqətən oxuduğu canlı bir bal kartı.

Bəli, sözün əsl mənasında budur. Və işləyir.

Ən çox yayılmış səhvlər və onlardan necə yayınmaq olar 🕳️🐇

Tək metrikaya həddən artıq uyğunlaşma - qərar kontekstinə uyğun gələn[1][2] metrik səbətdən istifadə edin.
Kalibrləməni nəzərə almamaq - kalibrləmə olmadan özünəinam sadəcə təkəbbürdür. [3]
Seqmentləşdirmə yoxdur - həmişə istifadəçi qruplarına, coğrafiyaya, cihaza, dilə görə dilimləyin. [5]
Qeyri-müəyyən xərclər - əgər qiymət səhvlərini hesablamasanız, səhv həddi seçəcəksiniz.
İnsan qiymətləndirməsi dəyişikliyi - razılaşmanı ölçmək, rubrikaları yeniləmək, rəyçiləri yenidən hazırlamaq.
Təhlükəsizlik alətləri yoxdur - ədalət, toksiklik və siyasət yoxlamalarını sonra deyil, indi əlavə edin. [1][5]

Gəldiyiniz ifadə: AI performansını necə ölçmək olar - çox uzun, oxumadım 🧾

Aydın nəticələrlə başlayın , sonra tapşırıqları , sistemi və biznes metriklərini bir yerə toplayın. [1]
İş üçün düzgün ölçülərdən istifadə edin - təsnifat üçün F1 və ROC-AUC; Reytinq üçün nDCG/MRR; üst-üstə düşmə + nəsil üçün semantik ölçülər (insanlarla qoşalaşmış). [2][4]
Ehtimallarınızı kalibrləyin və hədləri seçmək üçün səhvlərinizi qiymətləndirin . [2][3]
Qrup dilimləri ilə ədalətlilik yoxlamaları əlavə edin və sövdələşmələri açıq şəkildə idarə edin. [5]
Qorxusuz təkrarlaya bilmək üçün qiymətləndirmələri və monitorinqi avtomatlaşdırın .

Necə olduğunu bilirsiniz - nəyin vacib olduğunu ölçün, yoxsa vacib olmayan şeyləri təkmilləşdirəcəksiniz.

İstinadlar

[1] NIST. Süni intellekt Risklərin İdarə Edilməsi Çərçivəsi (Sİ RMF). ətraflı
[2] scikit-learn. Modelin qiymətləndirilməsi: proqnozların keyfiyyətinin kəmiyyətləndirilməsi (İstifadəçi Təlimatı). ətraflı
[3] scikit-learn. Ehtimal kalibrasiyası (kalibrləmə əyriləri, Brier balı). ətraflı
[4] Papineni və başqaları. (2002). BLEU: Maşın Tərcüməsinin Avtomatik Qiymətləndirilməsi Metodu. ACL. ətraflı
[5] Hardt, Price, Srebro (2016). Nəzarət altında öyrənmədə imkanların bərabərliyi. NeurIPS. ətraflı

Ən son süni intellekt texnologiyalarını rəsmi süni intellekt köməkçisi mağazasında tapın

Haqqımızda

Bloqa qayıt