AI Dataset nədir?

Əgər süni intellekt sistemləri qurursunuzsa, satın alırsınızsa və ya sadəcə qiymətləndirirsinizsə, aldadıcı dərəcədə sadə bir sualla qarşılaşacaqsınız və süni intellekt məlumat dəsti nədir və niyə bu qədər vacibdir? Qısaca: bu, modeliniz üçün yanacaq, yemək kitabı və bəzən kompasdır.

Bundan sonra oxumaq istəyə biləcəyiniz məqalələr:

🔗 AI tendensiyaları necə proqnozlaşdırır
Süni intellekt gələcək hadisələri və davranışları proqnozlaşdırmaq üçün nümunələri necə təhlil etdiyini araşdırır.

🔗 AI performansını necə ölçmək olar
Dəqiqliyi, səmərəliliyi və model etibarlılığını qiymətləndirmək üçün metriklər və metodlar.

🔗 AI ilə necə danışmaq olar
Süni intellekt tərəfindən yaradılan cavabları təkmilləşdirmək üçün daha yaxşı qarşılıqlı əlaqələrin yaradılmasına dair təlimat.

🔗 AI nəyə səbəb olur
Siqnalların süni intellekt çıxışlarını və ümumi rabitə keyfiyyətini necə formalaşdırdığına dair ümumi məlumat.

Süni intellekt verilənlər bazası nədir? Tez bir tərif 🧩

Süni intellekt verilənlər bazası nədir? Bu, modelinizin öyrəndiyi və ya qiymətləndirildiyi nümunələr toplusudur . Hər nümunədə aşağıdakılar var:

Girişlər - modelin gördüyü xüsusiyyətlər, məsələn, mətn parçaları, şəkillər, audio, cədvəl sətirləri, sensor oxumaları, qrafiklər.
Hədəflər - modelin proqnozlaşdırmalı olduğu etiketlər və ya nəticələr, məsələn, kateqoriyalar, rəqəmlər, mətn diapazonları, hərəkətlər və ya bəzən heç nə.
Metadatalar - mənbə, toplama metodu, zaman möhürləri, lisenziyalar, razılıq məlumatları və keyfiyyətə dair qeydlər kimi kontekst.

Bunu modeliniz üçün diqqətlə qablaşdırılmış nahar qutusu kimi düşünün: tərkib hissələri, etiketlər, qidalanma məlumatları və bəli, "bu hissəni yeməyin" yazısı olan yapışqan qeyd 🍱

Nəzarət olunan tapşırıqlar üçün açıq etiketlərlə qoşalaşdırılmış girişləri görəcəksiniz. Nəzarət olunmayan tapşırıqlar üçün etiketsiz girişləri görəcəksiniz. Möhkəmləndirmə öyrənməsi üçün məlumatlar çox vaxt vəziyyətləri, hərəkətləri və mükafatları olan epizodlara və ya trayektoriyalara bənzəyir. Multimodal iş üçün nümunələr mətn + şəkil + səsi tək bir qeyddə birləşdirə bilər. Möhtəşəm səslənir; əsasən santexnikadır.

Faydalı təlimatlar və təcrübələr: Məlumat Dəstləri üçün Məlumat Cədvəlləri ideyası komandalara içəridə nəyin olduğunu və necə istifadə edilməli olduğunu izah etməyə kömək edir [1] və Model Kartları model tərəfindəki məlumat sənədlərini tamamlayır [2].

Yaxşı bir süni intellekt məlumat dəstini nə təşkil edir ✅

Düzünü desək, bir çox modellər uğur qazanır, çünki verilənlər dəsti pis deyildi. "Yaxşı" verilənlər dəsti aşağıdakılardır:

Yalnız laboratoriya şəraitinin deyil, real istifadə hallarının nümayəndəsi .
Dəqiq etiketlənmiş, aydın qaydalar və dövri qərarlarla. Razılaşma metrikaları (məsələn, kappa tipli ölçülər) ağılın uyğunluğunu yoxlamağa kömək edir.
Uzun quyruqlarda səssiz uğursuzluğun qarşısını almaq üçün kifayət qədər tam və balanslı . Tarazlığın pozulması normaldır; səhlənkarlıq isə normal deyil
Mənşəyi aydın, razılıq, lisenziya və icazələr sənədləşdirilmişdir. Darıxdırıcı sənədləşmə maraqlı məhkəmə proseslərinin qarşısını alır.
Nəzərdə tutulan istifadəni, məhdudiyyətləri və məlum nasazlıq rejimlərini izah edən məlumat kartları və ya məlumat vərəqləri istifadə edilərək yaxşı sənədləşdirilmişdir [1]
idarə olunur . Məlumat dəstini təkrar istehsal edə bilmirsinizsə, modeli təkrar istehsal edə bilməzsiniz. NIST-in Süni İntellekt Risklərinin İdarə Edilməsi Çərçivəsindən məlumatların keyfiyyətinə və sənədləşməsinə birinci dərəcəli narahatlıqlar kimi yanaşır [3].

Nə etdiyinizə görə süni intellekt verilənlər bazalarının növləri 🧰

Tapşırıq üzrə

Təsnifat - məsələn, spam və ya spam deyil, şəkil kateqoriyaları.
Reqressiya - qiymət və ya temperatur kimi davamlı bir dəyəri proqnozlaşdırmaq.
Ardıcıllıqla etiketləmə - adlandırılmış varlıqlar, nitq hissələri.
Nəsil - xülasə, tərcümə, şəkil başlıqları.
Tövsiyə - istifadəçi, element, qarşılıqlı əlaqələr, kontekst.
Anomaliya aşkarlanması - zaman seriyalarında və ya jurnallarda nadir hadisələr.
Möhkəmləndirici öyrənmə - vəziyyət, hərəkət, mükafat, növbəti vəziyyət ardıcıllığı.
Axtarış - sənədlər, sorğular, aktuallıq mühakimələri.

Modallıqla

Cədvəl - yaş, gəlir, dəyişiklik kimi sütunlar. Qiymətləndirilməmiş, olduqca təsirli.
Mətn - sənədlər, söhbətlər, kod, forum yazıları, məhsul təsvirləri.
Şəkillər - fotoşəkillər, tibbi skanlar, peyk plitələri; maskalarla, qutularla, əsas məqamlarla və ya onlarsız.
Audio - dalğa formaları, transkriptlər, dinamik etiketləri.
Video - kadrlar, müvəqqəti annotasiyalar, fəaliyyət etiketləri.
Qrafiklər - düyünlər, kənarlar, atributlar.
Zaman seriyası - sensorlar, maliyyə, telemetriya.

Nəzarət yolu ilə

Etiketlənmiş (qızılı, gümüş, avtomatik etiketlənmiş), zəif etiketlənmiş, etiketsiz, sintetik. Mağazadan alınmış tort qarışığı - qutunu oxusanız, yaxşı ola bilər.

Qutunun içərisində: struktur, bölünmələr və metaməlumatlar 📦

Güclü məlumat dəsti adətən aşağıdakıları əhatə edir:

Sxem - tipli sahələr, vahidlər, icazə verilən dəyərlər, null emal.
Bölünmələr - təlim, doğrulama, sınaq. Test məlumatlarını möhürlənmiş saxlayın - ona son şokolad parçası kimi yanaşın.
Nümunə planı - populyasiyadan nümunələri necə çəkdiyiniz; bir bölgədən və ya cihazdan rahatlıq nümunələrindən çəkinin.
Əlavələr - çevirmələr, kəsmələr, səs-küy, parafrazalar, maskalar. Dürüst olanda yaxşıdır; vəhşi təbiətdə heç vaxt baş verməyən nümunələr icad etdikdə zərərlidir.
Versiyalaşdırma - deltaları təsvir edən dəyişiklik qeydləri ilə verilənlər dəsti v0.1, v0.2….
Lisenziyalar və razılıq - istifadə hüquqları, yenidən bölüşdürmə və silmə axınları. Milli məlumatların qorunması tənzimləyiciləri (məsələn, Böyük Britaniyanın ICO-su) praktik, qanuni emal yoxlama siyahıları təqdim edir [4].

Məlumat dəstinin həyat dövrü, addım-addım 🔁

Qərarı müəyyənləşdirin - model nəyə qərar verəcək və səhv olarsa nə baş verəcək.
Əhatə dairəsi xüsusiyyətləri və etiketləri - ölçülə bilən, müşahidə edilə bilən, toplamaq üçün etik.
Mənbə məlumatları - alətlər, qeydlər, sorğular, ictimai korporasiyalar, tərəfdaşlar.
Razılıq və hüquqi - məxfilik bildirişləri, imtinalar, məlumatların minimuma endirilməsi. “Niyə” və “necə” üçün tənzimləyicinin təlimatlarına baxın [4].
Toplama və saxlama - təhlükəsiz saxlama, rol əsaslı giriş, PII idarəetməsi.
Etiket - daxili annotatorlar, kütləvi mənbələrdən istifadə, ekspertlər; qızıl tapşırıqlar, auditlər və razılaşma metrikləri ilə keyfiyyəti idarə edin.
Təmizləyin və normallaşdırın - təkrarları silin, çatışmayanları idarə edin, vahidləri standartlaşdırın, kodlaşdırmanı düzəldin. Darıxdırıcı, qəhrəmancasına iş.
Bölün və təsdiqləyin - sızmanın qarşısını alın; müvafiq yerlərdə təbəqələşdirin; zaman məlumatlarına görə bölünmələrə üstünlük verin; və etibarlı qiymətləndirmələr üçün çarpaz təsdiqləmədən düşünülmüş şəkildə istifadə edin [5].
Sənəd - məlumat vərəqi və ya məlumat kartı; nəzərdə tutulan istifadə, xəbərdarlıqlar, məhdudiyyətlər [1].
Monitorinq və yeniləmə - sürüşmə aşkarlanması, yeniləmə kadensiyası, gün batımı planları. NIST-in süni intellekt RMF-i bu davam edən idarəetmə dövrəsini çərçivəyə alır [3].

Tez, real həyat formasında məsləhət: komandalar tez-tez "demo versiyasını qazanırlar", lakin istehsalda çətinlik çəkirlər, çünki məlumat dəstləri sakitcə dəyişir - yeni məhsul xətləri, adının dəyişdirilmiş sahə və ya dəyişdirilmiş siyasət. Sadə bir dəyişiklik jurnalı + dövri yenidən şərh etmə icazəsi bu ağrıların çoxunun qarşısını alır.

Məlumatların keyfiyyəti və qiymətləndirilməsi - səsləndiyi qədər darıxdırıcı deyil 🧪

Keyfiyyət çoxölçülüdür:

Dəqiqlik - etiketlər düzgündürmü? Razılaşma metrikalarından və dövri qərarlardan istifadə edin.
Tamlıq - həqiqətən ehtiyac duyduğunuz sahələri və sinifləri əhatə edin.
Ardıcıllıq - oxşar girişlər üçün ziddiyyətli etiketlərdən çəkinin.
Vaxtında olma - köhnəlmiş məlumatlar fərziyyələri fosilləşdirir.
Ədalətlilik və qərəzlilik - demoqrafik göstəricilər, dillər, cihazlar, mühitlər üzrə əhatə dairəsi; təsviri auditlərlə başlayın, sonra stress testləri. Sənədləşməyə əsaslanan təcrübələr (məlumat cədvəlləri, model kartları) bu yoxlamaları görünən edir [1] və idarəetmə çərçivələri onları risk nəzarəti kimi vurğulayır [3].

Modelin qiymətləndirilməsi üçün düzgün bölgülərdən və həm orta göstəriciləri, həm də ən pis qrup göstəricilərini izləyin. Parlaq orta göstərici krateri gizlədə bilər. Çarpaz doğrulama əsasları standart ML alət sənədlərində [5] yaxşı əhatə olunmuşdur.

Etika, məxfilik və lisenziyalaşdırma - mühafizə məhəccərləri 🛡️

Etik məlumatlar bir atmosfer deyil, bir prosesdir:

Razılıq və məqsəd məhdudiyyəti - istifadə və hüquqi əsaslar barədə açıq olun [4].
PII ilə işləmə - lazım olduqda minimuma endirin, təxəllüsləşdirin və ya anonimləşdirin; risklər yüksək olduqda məxfiliyi artıran texnologiyanı nəzərdən keçirin.
Atribut və lisenziyalar - eyni pay və kommersiya məqsədli istifadə məhdudiyyətlərinə hörmət edin.
Qərəz və zərər - saxta korrelyasiyaların yoxlanılması ("gündüz işığı = təhlükəsiz" gecələr çox qarışıq olacaq).
Düzəliş - tələb olunduqda məlumatların necə silinəcəyini və bu barədə təlim keçmiş modellərin necə geri qaytarılacağını bilmək (bunu məlumat vərəqinizdə qeyd edin) [1].

Nə qədər böyükdürsə, kifayət qədər böyükdür? Ölçü və siqnal-səs-küy 📏

Əsas qayda: daha çox nümunə, adətən, uyğun olduqda və demək olar ki, təkrarlanmadıqda kömək edir. Amma bəzən dağlarla dolu dağlarca qarışıq nümunələrdən daha az, daha təmiz və daha yaxşı etiketlənmiş nümunələrlə daha yaxşı nəticə əldə edirsiniz

Diqqət edin:

Öyrənmə əyriləri - məlumatlara və ya modelə bağlı olub olmadığınızı görmək üçün qrafik performansını nümunə ölçüsü ilə müqayisə edin.
Uzunquyruqlu örtük - nadir, lakin kritik siniflər çox vaxt yalnız daha çox toplu deyil, hədəflənmiş toplama tələb edir.
Səs-küyü etiketləyin - ölçün, sonra azaldın; bir az tolere edilə bilər, qabarma-çəkilmə dalğası isə tolere edilə bilməz.
Paylanma dəyişikliyi - bir bölgədən və ya kanaldan təlim məlumatları digərinə ümumiləşdirilməyə bilər; hədəfə bənzər test məlumatlarında doğrulayın [5].

Şübhəniz varsa, kiçik pilotları işə salın və genişləndirin. Bu, ədviyyat kimidir - əlavə edin, dadını çıxarın, tənzimləyin və təkrarlayın.

Məlumat dəstlərini harada tapmaq və idarə etmək olar 🗂️

Populyar resurslar və alətlər (hazırda URL-ləri yadda saxlamağa ehtiyac yoxdur):

Qucaqlaşan Üz Məlumat Dəstləri - proqramlı yükləmə, emal, paylaşma.
Google Məlumat Dəsti Axtarışı - vebdə meta-axtarış.
UCI ML Repozitori - baza və tədris üçün seçilmiş klassiklər.
OpenML - tapşırıqlar + verilənlər dəsti + mənbə ilə işləyir.
AWS Açıq Məlumatlar / Google Cloud İctimai Məlumat Dəstləri - genişmiqyaslı, yerləşdirilmiş korpuslar.

Peşəkar məsləhət: sadəcə yükləməyin. Lisenziyanı və məlumat cədvəlini oxuyun, sonra öz nüsxənizi versiya nömrələri və mənşəyi ilə sənədləşdirin [1].

Etiketləmə və annotasiya - həqiqətin müzakirə olunduğu yer ✍️

Annotasiya nəzəri etiket bələdçinizin reallıqla mübarizə apardığı yerdir:

Tapşırıq dizaynı - nümunələr və əks-nümunələrlə aydın təlimatlar yazın.
Annotator təlimi - qızıl cavablarla toxum, kalibrləmə raundları keçirin.
Keyfiyyətə nəzarət - razılaşma metrikalarından, konsensus mexanizmlərindən və dövri auditlərdən istifadə edin.
Alətlər - sxem təsdiqini tətbiq edən və növbələri nəzərdən keçirən alətlər seçin; hətta elektron cədvəllər də qaydalar və yoxlamalarla işləyə bilər.
Geribildirim döngələri - təlimatı təkmilləşdirmək üçün annotator qeydlərini və model səhvlərini qeyd edin.

Vergüllərlə bağlı fikir ayrılığı olan üç dostla lüğəti redaktə etmək kimi hiss edirsinizsə... bu normaldır. 🙃

Məlumatların sənədləşdirilməsi - gizli bilikləri açıq şəkildə təqdim etmək 📒

Yüngül məlumat vərəqi və ya məlumat kartı aşağıdakıları əhatə etməlidir:

Kim, necə və niyə yığıb.
Təyin olunmuş istifadə sahələri və əhatə dairəsindən kənar istifadə sahələri.
Məlum boşluqlar, qərəzlər və uğursuzluq rejimləri.
Etiketləmə protokolu, QA addımları və razılaşma statistikası.
Lisenziya, razılıq, məsələlər üçün əlaqə, silinmə prosesi.

Şablonlar və nümunələr: Məlumat dəstləri və Model Kartları üçün məlumat vərəqləri geniş istifadə olunan başlanğıc nöqtələridir [1].

Yaddaş, yazdıqdan sonra yox, qurarkən yazın.

Müqayisə Cədvəli - süni intellekt məlumat dəstlərini tapmaq və ya yerləşdirmək üçün yerlər 📊

Bəli, bu bir az qərəzlidir. Və sözlər qəsdən bir qədər qeyri-bərabərdir. Hər şey qaydasındadır.

Alət / Repozitoriya	Tamaşaçı	Qiymət	Niyə praktikada işləyir
Qucaqlaşan Üz Məlumat Dəstləri	Tədqiqatçılar, mühəndislər	Sərbəst səviyyə	Sürətli yükləmə, yayım, icma skriptləri; əla sənədlər; versiyalı məlumat dəstləri
Google Məlumat Dəsti Axtarışı	Hər kəs	Pulsuz	Geniş səth sahəsi; kəşf üçün əladır; bəzən uyğunsuz metadata
UCI ML Repozitori	Tələbələr, müəllimlər	Pulsuz	Seçilmiş klassiklər; kiçik, lakin səliqəli; baza və tədris üçün yaxşıdır
OpenML	Repro tədqiqatçıları	Pulsuz	Tapşırıqlar + məlumat dəstləri + birlikdə çalışmalar; gözəl mənşə yolları
AWS Açıq Məlumat Reyestri	Məlumat mühəndisləri	Əsasən pulsuz	Petabayt miqyaslı hostinq; buludda yerli giriş; saat çıxış xərcləri
Kaggle Məlumat Dəstləri	Təcrübəçilər	Pulsuz	Asan paylaşım, ssenarilər, müsabiqələr; icma siqnalları səs-küyün süzgəcdən keçirilməsinə kömək edir
Google Cloud İctimai Məlumat Dəstləri	Analitiklər, komandalar	Pulsuz + bulud	Hesablama yaxınlığında yerləşdirilib; BigQuery inteqrasiyası; ödənişlə diqqətli olun
Akademik portallar, laboratoriyalar	Niş mütəxəssisləri	Dəyişir	Yüksək ixtisaslaşmış; bəzən sənədləşdirilməmiş - hələ də ovuna dəyər

(Əgər hücrə danışıqlı görünürsə, bu, qəsdən edilir.)

İlkinizi qurmaq - praktik başlanğıc dəsti 🛠️

"Süni intellekt verilənlər bazası nədir" ifadəsindən "Mən birini yaratdım, işləyir" ifadəsinə keçmək istəyirsiniz. Bu minimal yolu sınayın:

Qərarı və metrikanı yazın - məsələn, düzgün komandanı proqnozlaşdırmaqla daxil olan dəstək səhvlərini azaldın. Metrik: makro-F1.
5 müsbət və 5 mənfi nümunəni sadalayın - real biletlərdən nümunələr götürün; uydurmayın.
Etiket təlimatının layihəsini hazırlayın - bir səhifə; açıq daxiletmə/istisna qaydaları.
Kiçik, əsl nümunə toplayın - kateqoriyalar üzrə bir neçə yüz bilet; ehtiyacınız olmayan PII-ni silin.
Sızma yoxlamaları ilə bölmə - eyni müştəridən gələn bütün mesajları bir bölmədə saxlayın; fərqi qiymətləndirmək üçün çarpaz doğrulamadan istifadə edin [5].
QA ilə annotasiya edin - alt qrupda iki annotasiyaçı; fikir ayrılıqlarını həll edin; təlimatı yeniləyin.
sadə bir baza xətti - logistika (məsələn, xətti modellər və ya kompakt transformatorlar) hazırlayın. Məqsəd medal qazanmaq deyil, məlumatları sınamaqdır.
Baxış xətaları - harada və niyə uğursuz olur; yalnız modeli deyil, məlumat dəstini yeniləyin.
Sənəd - kiçik məlumat cədvəli: mənbə, etiket təlimatı linki, bölünmələr, məlum limitlər, lisenziya [1].
Plan yeniləməsi - yeni kateqoriyalar, yeni jarqonlar, yeni domenlər gəlir; kiçik, tez-tez yeniləmələri planlaşdırın [3].

Bu dövrədən minlərlə maraqlı təcrübədən daha çox şey öyrənəcəksiniz. Həmçinin, ehtiyat nüsxələrini saxlayın. Zəhmət olmasa.

Komandalara gizlicə rast gəlinən ümumi tələlər 🪤

Məlumat sızması - cavab xüsusiyyətlərə daxil olur (məsələn, nəticələri proqnozlaşdırmaq üçün həll sonrası sahələrdən istifadə). Aldatma kimi hiss olunur, çünki belədir.
Səthi müxtəliflik - bir coğrafiya və ya cihaz qlobal kimi maskalanır. Testlər süjetin dönüşünü üzə çıxaracaq.
Etiket sürüşməsi - meyarlar zamanla dəyişir, lakin etiket təlimatı dəyişmir. Ontologiyanızı sənədləşdirin və versiyalaşdırın.
Qeyri-müəyyənləşdirilmiş məqsədlər - pis bir proqnoz təyin edə bilmirsinizsə, məlumatlarınız da təyin edə bilməyəcək.
Dağınıq lisenziyalar - indi əlimizdən alınıb, sonra üzr istəmək strategiya deyil.
Həddindən artıq artırma - aşpazı plastik meyvələrlə öyrətmək kimi qeyri-real artefaktları öyrədən sintetik məlumatlar.

İfadənin özü haqqında tez-tez verilən suallar ❓

“Süni intellekt verilənlər bazası nədir?” sadəcə bir tərif məsələsidirmi? Əsasən, amma bu, həm də modelləri etibarlı edən darıxdırıcı detallara əhəmiyyət verdiyinizin bir siqnalıdır.
Həmişə etiketlərə ehtiyacım varmı? Xeyr. Nəzarətsiz, özünənəzarət edilən və RL quraşdırmaları çox vaxt açıq etiketləri atlayır, lakin kurasiya yenə də vacibdir.
İctimai məlumatlardan hər hansı bir məqsəd üçün istifadə edə bilərəmmi? Xeyr. Lisenziyalara, platforma şərtlərinə və məxfilik öhdəliklərinə hörmət edin [4].
Daha böyük, yoxsa daha yaxşı? Hər ikisi, ideal olaraq. Seçməlisinizsə, əvvəlcə daha yaxşısını seçin.

Yekun Qeydlər - Ekran görüntüsünü çəkə biləcəyiniz şeylər 📌

Əgər kimsə sizdən süni intellekt verilənlər bazasının nə olduğunu, deyək ki, bu, insanların nəticələrə etibar edə bilməsi üçün idarəetmə ilə əhatə olunmuş, modeli öyrədən və sınaqdan keçirən nümunələrin seçilmiş, sənədləşdirilmiş toplusudur. Ən yaxşı verilənlər bazası təmsilçi, yaxşı etiketlənmiş, qanuni cəhətdən təmiz və davamlı olaraq saxlanılır. Qalanı struktur, bölünmələr və modellərin trafikə girməsinin qarşısını alan bütün bu kiçik maneələr haqqında vacib detallardır. Bəzən proses elektron cədvəllərlə bağçılıq kimi hiss olunur; bəzən pikselləri yığmaq kimi. Hər iki halda da, məlumatlara investisiya qoyun və modelləriniz daha az qəribə davranacaq. 🌱🤖

İstinadlar

[1] Məlumat Dəstləri üçün Məlumat Vərəqləri - Gebru və digərləri, arXiv. Link
[2] Model Hesabatı üçün Model Kartları - Mitchell və digərləri, arXiv. Link
[3] NIST Süni İntellekt Risklərin İdarə Edilməsi Çərçivəsi (AI RMF 1.0). Link
[4] Böyük Britaniya GDPR rəhbərliyi və resursları - İnformasiya Komissarlığı Ofisi (ICO). Link
[5] Çarpaz yoxlama: qiymətləndiricinin performansının qiymətləndirilməsi - scikit-learn İstifadəçi Təlimatı. Link

Ən son süni intellekt texnologiyalarını rəsmi süni intellekt köməkçisi mağazasında tapın

Haqqımızda

Bloqa qayıt