Qısa cavab: Süni intellekt dar, yaxşı müəyyən edilmiş tapşırıqlarda aydın həqiqətə əsaslanan yüksək dəqiqliyə malik ola bilər, lakin "dəqiqlik" universal olaraq etibar edə biləcəyiniz tək bir göstərici deyil. Bu, yalnız tapşırıq, məlumatlar və metrik əməliyyat şəraiti ilə uyğunlaşdıqda etibarlıdır; giriş məlumatları dəyişdikdə və ya tapşırıqlar açıq olduqda, səhvlər və özünəinam halüsinasiyaları artır.
Əsas nəticələr:
Tapşırıq uyğunluğu : İşi dəqiq şəkildə təyin edin ki, "düzgün" və "səhv" yoxlanıla bilsin.
Metrik seçim : Qiymətləndirmə metriklərini ənənə və ya rahatlıqla deyil, real nəticələrlə uyğunlaşdırın.
Reallıq testi : Təmsilçi, səs-küylü məlumatlardan və paylanmadan kənar stress testlərindən istifadə edin.
Kalibrləmə : Xüsusilə də hədlər üçün etibarlılığın düzgünlüklə uyğun olub-olmadığını ölçün.
Həyat dövrünün monitorinqi : İstifadəçilər, məlumatlar və mühitlər zamanla dəyişdikcə davamlı olaraq yenidən qiymətləndirin.
Bundan sonra oxumaq istəyə biləcəyiniz məqalələr:
🔗 Süni intellekt addım-addım necə öyrənilir
Süni intellekt öyrənməyə inamla başlamaq üçün yeni başlayanlar üçün uyğun bir yol xəritəsi.
🔗 Süni intellekt məlumatlardakı anomaliyaları necə aşkarlayır
Süni intellekt qeyri-adi nümunələri avtomatik olaraq aşkar etmək üçün istifadə etdiyi metodları izah edir.
🔗 Niyə süni intellekt cəmiyyət üçün zərərli ola bilər
Qərəz, iş yerlərinə təsir və məxfilik problemləri kimi riskləri əhatə edir.
🔗 Süni intellekt məlumat dəsti nədir və nə üçün vacibdir
Məlumat dəstlərini və onların süni intellekt modellərini necə öyrətdiyini və qiymətləndirdiyini müəyyən edir.
1) Beləliklə... Süni intellekt nə qədər dəqiqdir? 🧠✅
dar, yaxşı müəyyən edilmiş tapşırıqlarda son dərəcə ola bilər
Lakin açıq tipli tapşırıqlarda (xüsusən də generativ süni intellektdə ) "dəqiqlik" tez bir zamanda sürüşkənləşir, çünki:
-
birdən çox məqbul cavab ola bilər
-
çıxış səlis ola bilər, amma faktlara əsaslanmaya bilər
-
model ciddi düzgünlük üçün deyil, "faydalılıq" atmosferi üçün tənzimlənmiş ola bilər
-
dünya dəyişir və sistemlər reallıqdan geridə qala bilər
Faydalı zehni model: dəqiqlik sizin "sahib olduğunuz" bir xüsusiyyət deyil. Bu, müəyyən bir mühitdə, müəyyən bir ölçmə quruluşu ilə müəyyən bir tapşırıq üçün "qazandığınız" bir xüsusiyyətdir . Buna görə də ciddi rəhbərlik qiymətləndirməyə birdəfəlik hesab lövhəsi anı deyil, həyat dövrü fəaliyyəti kimi yanaşır. [1]

2) Dəqiqlik tək şey deyil - bu, bütün bir rəngarəng ailədir 👨👩👧👦📏
İnsanlar "dəqiqlik" dedikdə, bunlardan hər hansı birini nəzərdə tuta bilərlər (və çox vaxt fərqinə varmadan eyni anda ikisini
-
Düzgünlük : düzgün etiket/cavab verdimi?
-
Dəqiqlik və geri çağırış : yalançı həyəcan siqnallarından yayındı, yoxsa hər şeyi tutdu?
-
Kalibrləmə : "Mən 90% əminəm" deyildikdə, əslində ~90% hallarda doğrudurmu? [3]
-
Davamlılıq : girişlər bir az dəyişdikdə (səs-küy, yeni ifadələr, yeni mənbələr, yeni demoqrafik məlumatlar) yenə də işləyirmi?
-
Etibarlılıq : gözlənilən şərtlər altında ardıcıl davranırmı?
-
Dürüstlük / faktikilik (generativ süni intellekt): özünəinamlı bir tonda şeylər uydurmaq (hallüsinasiya etmək) deməkdirmi? [2]
Etibara yönəlmiş çərçivələrin "dəqiqlik"ə tək qəhrəman metrikası kimi yanaşmamasının səbəbi də budur. Onlar etibarlılıq, təhlükəsizlik, şəffaflıq, möhkəmlik, ədalət və daha çox şeydən vahid bir paket kimi danışırlar - çünki birini "optimallaşdıra" və digərini təsadüfən poza bilərsiniz. [1]
3) "Süni intellekt nə qədər dəqiqdir?" ölçməsinin yaxşı bir versiyasını nə təşkil edir? 🧪🔍
Budur, "yaxşı versiya" yoxlama siyahısı (insanların buraxdığı... sonra peşman olduğu versiya):
✅ Tapşırığın aydın tərifi (yəni: sınaqdan keçirilə bilən hala gətirin)
-
"Xülasə etmək" qeyri-müəyyəndir.
-
“5 bənddə ümumiləşdirin, mənbədən 3 konkret rəqəm daxil edin və istinadlar uydurmayın” prinsipi sınaqdan keçirilə bilər.
✅ Təmsiledici test məlumatları (yəni: asan rejimdə qiymətləndirməni dayandırın)
Test dəstiniz çox təmizdirsə, dəqiqlik saxta görünəcək. Real istifadəçilər səhv yazılar, qəribə kənar hərflər və "Bunu gecə saat 2-də telefonumda yazdım" enerjisi gətirirlər.
✅ Riskə uyğun bir metrik
Memi səhv təsnif etmək tibbi xəbərdarlığı səhv təsnif etmək ilə eyni deyil. Siz metrikləri ənənəyə əsaslanaraq seçmirsiniz - onları nəticələrə əsasən seçirsiniz. [1]
✅ Paylanmadan kənar test (yəni: "reallıq ortaya çıxdıqda nə baş verir?")
Qəribə ifadələr, qeyri-müəyyən girişlər, rəqib təkliflər, yeni kateqoriyalar, yeni zaman dövrləri sınayın. Bu vacibdir, çünki paylanma dəyişikliyi istehsalda modellərin üz-üzə yerləşdirilməsinin klassik bir yoludur. [4]
✅ Davamlı qiymətləndirmə (yəni: dəqiqlik "təyin et və unut" xüsusiyyəti deyil)
Sistemlər dəyişir. İstifadəçilər dəyişir. Məlumatlar dəyişir. "Əla" modeliniz səssizcə pisləşir - əgər onu davamlı olaraq ölçməsəniz. [1]
Tanıyacağınız kiçik real dünya nümunəsi: komandalar tez-tez güclü "demo dəqiqliyi" ilə göndərirlər, sonra isə əsl uğursuzluq rejiminin deyil , "inamla, miqyasda verilən səhv cavablar" olduğunu aşkar edirlər. Bu, sadəcə model problemi deyil, qiymətləndirmə dizayn problemidir.
4) Süni intellekt adətən çox dəqiq olur (və niyə) 📈🛠️
Süni intellekt problem aşağıdakı hallarda parlamağa meyllidir:
-
dar
-
yaxşı etiketlənmiş
-
zamanla sabit
-
təlim paylanmasına bənzər
-
avtomatik olaraq asanlıqla hesablamaq
Nümunələr:
-
Spam filtri
-
Ardıcıl düzülüşlərdə sənəd çıxarışı
-
Çoxlu sayda geribildirim siqnalı ilə sıralama/tövsiyə dövrələri
-
Nəzarətli mühitlərdə bir çox görmə təsnifatı tapşırıqları
Bu qələbələrin çoxunun arxasında duran darıxdırıcı supergüc: aydın həqiqət + çoxlu sayda müvafiq nümunələr . Cazibədar deyil - olduqca təsirli.
5) Süni intellekt dəqiqliyinin tez-tez pozulduğu yerlər 😬🧯
Bu, insanların sümüklərində hiss etdikləri hissədir.
Generativ süni intellektdə halüsinasiyalar 🗣️🌪️
inandırıcı, lakin faktiki olmayan yarada bilər - və "məqbul" hissəsi məhz bunun təhlükəli olmasının səbəbidir. Generativ süni intellekt risk rəhbərliyinin vibe əsaslı demolardan əsaslandırma, sənədləşdirmə və ölçməyə
Paylama növbəsi 🧳➡️🏠
Bir mühitdə təlim keçmiş model digərində büdrəyə bilər: fərqli istifadəçi dili, fərqli məhsul kataloqu, fərqli regional normalar, fərqli zaman dövrü. WILDS kimi etalonlar əsasən qışqırmaq üçün mövcuddur: "paylama daxilindəki performans real dünyadakı performansı kəskin şəkildə şişirtməyə bilər." [4]
Özünəinamlı təxminləri mükafatlandıran təşviqlər 🏆🤥
Bəzi qurğular təsadüfən "yalnız bildiyiniz zaman cavab verin" əvəzinə "həmişə cavab verin" davranışını mükafatlandırır. Beləliklə, sistemlər olmaq əvəzinə, düzgün səslənməyi . Buna görə qiymətləndirməyə yalnız xam cavab nisbəti deyil, həm də biganəlik/qeyri-müəyyənlik davranışı daxil edilməlidir. [2]
Real həyatda baş verən hadisələr və əməliyyat uğursuzluqları 🚨
Hətta güclü bir model belə bir sistem olaraq uğursuz ola bilər: zəif axtarış, köhnəlmiş məlumatlar, qırılmış mühafizə dirəkləri və ya modeli təhlükəsizlik yoxlamaları ətrafında sakitcə yönləndirən iş axını. Müasir rəhbərlik dəqiqliyi yalnız model balının deyil, daha geniş sistemin etibarlılığının . [1]
6) Qiymətləndirilməmiş super güc: kalibrləmə (yəni "bilmədiyin şeyi bilmək") 🎚️🧠
Hətta iki model eyni "dəqiqliyə" malik olduqda belə, onlardan biri daha təhlükəsiz ola bilər, çünki:
-
qeyri-müəyyənliyi müvafiq şəkildə ifadə edir
-
həddindən artıq özünəinamlı səhv cavablardan qaçınır
-
reallıqla uyğun gələn ehtimallar verir
Kalibrləmə sadəcə akademik deyil - bu, inamı əməli hala . Müasir neyron şəbəkələrində klassik bir tapıntı, açıq şəkildə kalibrləmə və ya ölçmə aparmadığınız təqdirdə, inamı qiymətləndirmə balının həqiqi düzgünlüklə uyğunsuzlaşa
Əgər boru kəməriniz "0.9-dan yuxarı avtomatik təsdiq" kimi hədlərdən istifadə edirsə, kalibrləmə "avtomatlaşdırma" və "avtomatlaşdırılmış xaos" arasındakı fərqdir
7) Müxtəlif süni intellekt növləri üçün süni intellekt dəqiqliyi necə qiymətləndirilir 🧩📚
Klassik proqnozlaşdırma modelləri üçün (təsnifat/reqressiya) 📊
Ümumi ölçülər:
-
Dəqiqlik, dəqiqlik, xatırlama, F1
-
ROC-AUC / PR-AUC (tez-tez balanssız problemlər üçün daha yaxşıdır)
-
Kalibrləmə yoxlamaları (etibarlılıq əyriləri, gözlənilən kalibrləmə xətası tərzi düşüncəsi) [3]
Dil modelləri və köməkçiləri üçün 💬
Qiymətləndirmə çoxölçülü olur:
-
düzgünlük (tapşırığın həqiqət şərti olduğu yerdə)
-
təlimatlara əməl edən
-
təhlükəsizlik və imtina davranışı (yaxşı imtinalar qəribə dərəcədə çətindir)
-
faktiki əsaslandırma / istinad intizamı (istifadə halınız tələb etdikdə)
-
istəklər və istifadəçi üslubları arasında möhkəmlik
“Holistik” qiymətləndirmə təfəkkürünün ən böyük töhfələrindən biri də məsələni aydın şəkildə ortaya qoymaqdır: güzəştlər real olduğundan, birdən çox ssenari üzrə çoxlu metrikaya ehtiyacınız var. [5]
LLM-lər üzərində qurulmuş sistemlər üçün (iş axınları, agentlər, axtarış) 🧰
İndi bütün boru kəmərini qiymətləndirirsiniz:
-
Axtarış keyfiyyəti (düzgün məlumatı əldə etdimi?)
-
alət məntiqi (prosesi izlədimi?)
-
çıxış keyfiyyəti (düzgün və faydalıdırmı?)
-
məhəccərlər (riskli davranışdan qaçınmaq mümkün idimi?)
-
monitorinq (təbiətdə uğursuzluqlar aşkar etdinizmi?) [1]
Zəif bir əlaqə, baza modeli layiqli olsa belə, bütün sistemin "qeyri-dəqiq" görünməsinə səbəb ola bilər.
8) Müqayisə Cədvəli: “Süni intellekt nə dərəcədə dəqiqdir?” qiymətləndirməyin praktik yolları 🧾⚖️
| Alət / yanaşma | Ən yaxşısı | Qiymət ab-havası | Niyə işləyir |
|---|---|---|---|
| İstifadə halları üçün test dəstləri | LLM tətbiqləri + xüsusi uğur meyarları | Sərbəst | Təsadüfi liderlik lövhəsini deyil, iş axınınızı sınayırsınız . |
| Çoxölçülü, ssenari əhatə dairəsi | Modelləri məsuliyyətlə müqayisə edin | Sərbəst | Tək bir sehrli rəqəm deyil, bir qabiliyyət "profili" əldə edirsiniz. [5] |
| Həyat dövrü riski + qiymətləndirmə düşüncə tərzi | Yüksək riskli sistemlər ciddiliyə ehtiyac duyur | Sərbəst | Sizi davamlı olaraq müəyyən etməyə, ölçməyə, idarə etməyə və izləməyə sövq edir. [1] |
| Kalibrləmə yoxlamaları | Etibarlılıq hədlərindən istifadə edən istənilən sistem | Sərbəst | “90% əminəm” sözünün bir şey ifadə edib-etmədiyini yoxlayır. [3] |
| İnsan rəy panelləri | Təhlükəsizlik, ton, nüans, "bu zərərli hiss olunurmu?" | $$ | İnsanlar avtomatlaşdırılmış ölçülərin qaçırdığı konteksti və zərəri anlayırlar. |
| Hadisə monitorinqi + geribildirim döngələri | Real həyatdakı uğursuzluqlardan dərs çıxarmaq | Sərbəst | Reallıqda qəbzlər var - və istehsal məlumatları sizə fikirlərdən daha tez öyrədir. [1] |
Formatlaşdırma qəribə etirafı: “Pulsuz” burada çox iş görür, çünki əsl xərc çox vaxt lisenziyalar deyil, insan-saatlardır 😅
9) Süni intellekt necə daha dəqiq olur (praktik vasitələr) 🔧✨
Daha yaxşı məlumatlar və daha yaxşı testlər 📦🧪
-
Kənar halları genişləndirin
-
Nadir, lakin kritik ssenariləri tarazlaşdırın
-
Həqiqi istifadəçi ağrısını təmsil edən bir "qızıl dəst" saxlayın (və onu yeniləməyə davam edin)
Faktiki tapşırıqlar üçün əsaslandırma 📚🔍
Əgər faktiki etibarlılığa ehtiyacınız varsa, etibarlı sənədlərdən istifadə edən və onlara əsaslanan cavablar verən sistemlərdən istifadə edin. Generativ süni intellekt riskləri üzrə təlimatların çoxu, modelin "davranışını" ümid etmək əvəzinə, uydurma məzmunu azaldan sənədləşdirmə, mənşə və qiymətləndirmə quruluşlarına
Daha güclü qiymətləndirmə dövrələri 🔁
-
Hər mənalı dəyişiklik üçün qiymətləndirmələri işə salın
-
Reqressiyalara diqqət yetirin
-
Qəribə istəklər və zərərli girişlər üçün stress testi
Kalibrlənmiş davranışı təşviq edin 🙏
-
"Bilmirəm"i çox sərt şəkildə cəzalandırmayın
-
Yalnız cavab nisbətini deyil, həm də bitərəfliyin keyfiyyətini qiymətləndirin
-
ölçdüyünüz və təsdiqlədiyiniz bir şey kimi qəbul edin , vibrasiyalarda qəbul etdiyiniz bir şey kimi deyil [3]
10) Tez bir daxili yoxlama: süni intellekt dəqiqliyinə nə vaxt etibar etməlisiniz? 🧭🤔
Daha çox etibar edin, əgər:
-
tapşırıq dar və təkrarlana biləndir
-
çıxışlar avtomatik olaraq təsdiqlənə bilər
-
sistem izlənilir və yenilənir
-
özünəinam kalibrlənir və ondan imtina etmək olar [3]
Aşağıdakı hallarda daha az etibar edin:
-
risklər yüksəkdir və nəticələr realdır
-
Sual açıqdır ("mənə hər şeyi danış...") 😵💫
-
heç bir əsaslandırma, yoxlama mərhələsi və insan rəyi yoxdur
-
sistem standart olaraq inamlı davranır [2]
Bir az qüsurlu metafora: yüksək riskli qərarlar üçün təsdiqlənməmiş süni intellektdən istifadə etmək, günəş altında qalan suşi yemək kimidir... yaxşı ola bilər, amma mədəniz qeydiyyatdan keçmədiyiniz bir qumara aludə olur.
11) Yekun Qeydlər və Qısa Xülasə 🧃✅
Beləliklə, süni intellekt nə qədər dəqiqdir?
Süni intellekt inanılmaz dərəcədə dəqiq ola bilər - lakin yalnız müəyyən edilmiş bir tapşırıq, ölçmə metodu və yerləşdirildiyi mühitə nisbətən . Generativ süni intellekt üçün "dəqiqlik" çox vaxt tək bir baldan daha çox etibarlı bir sistem dizaynı : torpaqlama, kalibrləmə, əhatə dairəsi, monitorinq və dürüst qiymətləndirmə. [1][2][5]
Qısa Xülasə 🎯
-
“Dəqiqlik” tək bir göstərici deyil - düzgünlük, kalibrləmə, möhkəmlik, etibarlılıq və (generativ süni intellekt üçün) doğruluqdur. [1][2][3]
-
Qiymətləndirmələr kömək edir, lakin istifadə hallarının qiymətləndirilməsi sizi dürüst saxlayır. [5]
-
Əgər faktiki etibarlılığa ehtiyacınız varsa, əsaslandırma + yoxlama addımları əlavə edin + bitərəfliyi qiymətləndirin. [2]
-
Həyat dövrünün qiymətləndirilməsi yetkin yanaşmadır... hətta lider lövhəsinin ekran görüntüsündən daha az maraqlı olsa belə. [1]
Tez-tez verilən suallar
Praktik yerləşdirmədə süni intellekt dəqiqliyi
Süni intellekt, tapşırıq dar, yaxşı müəyyən edilmiş və qiymətləndirə biləcəyiniz aydın həqiqətə bağlı olduqda son dərəcə dəqiq ola bilər. İstehsalatda "dəqiqlik" qiymətləndirmə məlumatlarınızın səs-küylü istifadəçi girişlərini və sisteminizin sahədə qarşılaşacağı şərtləri əks etdirib-etdirməməsindən asılıdır. Tapşırıqlar daha açıq hala gəldikcə (məsələn, çatbotlar), əsaslandırma, yoxlama və monitorinq əlavə etməsəniz, səhvlər və özünəinam halüsinasiyaları daha tez-tez ortaya çıxır.
Niyə "dəqiqlik" etibar edə biləcəyiniz bir göstərici deyil
İnsanlar "dəqiqlik" sözünü fərqli mənalar üçün istifadə edirlər: düzgünlük, dəqiqlik və ya xatırlama, kalibrləmə, möhkəmlik və etibarlılıq. Model təmiz test dəstində əla görünə bilər, sonra ifadələr dəyişdikdə, məlumatlar dəyişdikdə və ya risklər dəyişdikdə büdrəyə bilər. Etibara yönəlmiş qiymətləndirmə bir rəqəmi universal bir hökm kimi qəbul etmək əvəzinə, birdən çox metrik və ssenaridən istifadə edir.
Müəyyən bir tapşırıq üçün süni intellekt dəqiqliyini ölçməyin ən yaxşı yolu
Tapşırığı elə təyin edin ki, "düzgün" və "səhv" qeyri-müəyyən deyil, sınaqdan keçirilə bilsin. Real istifadəçiləri və kənar halları əks etdirən təmsilçi, səs-küylü test məlumatlarından istifadə edin. Xüsusilə balanssız və ya yüksək riskli qərarlar üçün nəticələrə uyğun metriklər seçin. Daha sonra paylanmadan kənar stress testləri əlavə edin və mühitiniz inkişaf etdikcə zamanla yenidən qiymətləndirməyə davam edin.
Dəqiqlik və xatırlama formasının dəqiqliyi praktikada necədir
Dəqiqlik və geri çağırış müxtəlif nasazlıq xərclərini müqayisə edir: dəqiqlik yalançı həyəcan siqnallarının qarşısını almağı, geri çağırış isə hər şeyi tutmağı vurğulayır. Spamı süzgəcdən keçirirsinizsə, bir neçə səhv məqbul ola bilər, lakin yalançı müsbət hallar istifadəçiləri məyus edə bilər. Digər hallarda, nadir, lakin kritik halların qaçırılması əlavə bayraqlardan daha vacibdir. Düzgün balans iş axışınızdakı "səhv" xərclərin nə qədər olduğundan asılıdır.
Kalibrləmə nədir və dəqiqlik üçün nə üçün vacibdir
Kalibrləmə, modelin özünəinamının reallığa uyğun olub-olmadığını yoxlayır - "90% əminəm" dedikdə, təxminən 90% hallarda doğrudurmu? Avtomatik təsdiq kimi hədləri 0.9-dan yuxarı təyin etdiyiniz zaman bu vacibdir. İki model oxşar dəqiqliyə malik ola bilər, lakin daha yaxşı kalibrlənmiş model daha təhlükəsizdir, çünki həddindən artıq özünəinamlı səhv cavabları azaldır və daha ağıllı imtina davranışını dəstəkləyir.
Generativ süni intellekt dəqiqliyi və halüsinasiyaların niyə baş verdiyi
Generativ süni intellekt, faktlara əsaslanmasa belə, səlis və inandırıcı mətn yarada bilər. Dəqiqliyi müəyyən etmək daha da çətinləşir, çünki bir çox suallar birdən çox məqbul cavaba imkan verir və modellər ciddi düzgünlük əvəzinə "faydalılıq" üçün optimallaşdırıla bilər. Çıxışlar yüksək inamla gəldikdə halüsinasiyalar xüsusilə riskli olur. Faktiki istifadə hallarında etibarlı sənədlərə və yoxlama addımlarına əsaslanmaq uydurma məzmunu azaltmağa kömək edir.
Paylanma dəyişikliyi və paylanmadan kənar girişlər üçün sınaq
Dünya dəyişdikdə paylama daxili etalonlar performansı şişirtməyə səbəb ola bilər. Sistemin harada çökdüyünü görmək üçün qeyri-adi ifadələr, səhvlər, qeyri-müəyyən girişlər, yeni zaman dövrləri və yeni kateqoriyalarla sınaqdan keçirin. WILDS kimi etalonlar bu ideya ətrafında qurulub: məlumatlar dəyişdikdə performans kəskin şəkildə aşağı düşə bilər. Stress testinə qiymətləndirmənin əsas hissəsi kimi yanaşın, yaxşı bir şey kimi deyil.
Zamanla süni intellekt sistemini daha dəqiq etmək
Kənar halları genişləndirməklə, nadir, lakin kritik ssenariləri balanslaşdırmaqla və real istifadəçi ağrısını əks etdirən "qızıl dəsti" qorumaqla məlumatları və testləri təkmilləşdirin. Faktiki tapşırıqlar üçün modelin işləyəcəyinə ümid etmək əvəzinə, əsaslandırma və yoxlama əlavə edin. Hər mənalı dəyişikliyə dair qiymətləndirmə aparın, reqressiyaları izləyin və istehsalda sürüşməni izləyin. Həmçinin "Bilmirəm" inamlı təxminlərə səbəb olmaması üçün bitərəfliyi də qiymətləndirin.
İstinadlar
[1] NIST AI RMF 1.0 (NIST AI 100-1): Bütün həyat dövrü ərzində AI risklərini müəyyən etmək, qiymətləndirmək və idarə etmək üçün praktik bir çərçivə. daha ətraflı
[2] NIST Generativ AI Profili (NIST AI 600-1): Generativ AI sistemlərinə xas olan risk mülahizələrinə yönəlmiş AI RMF-ə müşayiət olunan bir profil. daha ətraflı
[3] Guo və başqaları (2017) - Müasir Neyron Şəbəkələrinin Kalibrlənməsi: Müasir neyron şəbəkələrinin necə səhv kalibrlənə biləcəyini və kalibrləmənin necə təkmilləşdirilə biləcəyini göstərən təməl bir sənəd. daha ətraflı
[4] Koh və başqaları (2021) - WILDS etalonu: Real dünya paylanma dəyişiklikləri altında model performansını sınaqdan keçirmək üçün hazırlanmış etalon dəsti. daha ətraflı
[5] Liang və başqaları (2023) - HELM (Dil Modellərinin Holistik Qiymətləndirilməsi): Real kompromisləri üzə çıxarmaq üçün ssenarilər və metriklər üzrə dil modellərini qiymətləndirmək üçün bir çərçivə. daha ətraflı