Maşın öyrənməsi və intellektual verilənlərin analizi |
---|
Verilənlərin hasilatı, data mədənçiliyi və ya verilənlərin mədənçiliyi — maşın öyrənməsi, statistika və verilənlər bazası sistemlərinin kəsişməsindəki metodları əhatə edən böyük məlumat dəstlərində nümunələrin çıxarılması və aşkarlanması prosesi.[1] Verilənlərin hasilatı, məlumat toplusundan məlumatı (ağıllı üsullarla) çıxarmaq və məlumatları daha sonra istifadə üçün başa düşülən struktura çevirmək məqsədi daşıyan kompüter elmləri və statistikanın fənlərarası alt sahəsidir.[1][2][3][4] Verilənlərin hasilatı "verilənlər bazasında bilik kəşfi" (KDD) prosesinin təhlil mərhələsidir.[5] Xam təhlil mərhələsindən başqa, o, həmçinin verilənlər bazası və məlumatların idarə edilməsi aspektlərini, verilənlərin əvvəlcədən işlənməsini, model və nəticə çıxarma mülahizələrini, maraqlılıq ölçülərini, mürəkkəblik mülahizələrini, aşkar edilmiş strukturların sonrakı emalını, vizuallaşdırmanı və onlayn yeniləməni əhatə edir.[1]
"Data mining" səhv addır, çünki məqsəd məlumatların özünün çıxarılması (hasilatı) deyil, böyük həcmdə məlumatlardan nümunələrin və biliklərin çıxarılmasıdır.[6] O, həm də məşhur sözdür[7] və genişmiqyaslı məlumatların və ya informasiya emalının istənilən formasına, eləcə də süni intellekt və biznes intellekti daxil olmaqla, qərar qəbuledici dəstək sisteminin hər hansı tətbiqinə tez-tez tətbiq olunur. Adətən daha ümumi terminlər, verilənlərin təhlili və analitikası və ya faktiki metodlara istinad etmək ya da süni intellekt və maşın öyrənməsi daha uyğundur.
Faktiki verilənlərin hasilatı tapşırığı, məlumat qeydləri qrupları, qeyri-adi qeydlər və asılılıqlar kimi əvvəllər naməlum, maraqlı nümunələri çıxartmaq üçün böyük miqdarda məlumatın yarı avtomatik və ya avtomatik təhlilidir. Bu, adətən fəza indeksləri kimi verilənlər bazası üsullarından istifadəni nəzərdə tutur. Bu nümunələr daha sonra daxil edilən məlumatların bir növ xülasəsi kimi görünə bilər və sonrakı təhlillərdə və ya maşın öyrənməsində və proqnozlaşdırıcı analitikada istifadə edilə bilər. Məsələn, verilənlərin öyrənilməsi mərhələsi verilənlərdə çoxlu qrupları müəyyən edə bilər, daha sonra qərar qəbuledici dəstək sistemi tərəfindən daha dəqiq proqnoz nəticələri əldə etmək üçün istifadə edilə bilər. Nə məlumatların toplanması, hazırlanması, nə də nəticələrin izahı və hesabatı əlavə mərhələlər kimi ümumi KDD prosesinə aid olsa da, məlumatların çıxardılması mərhələsinin bir hissəsi deyil.
Verilənlərin təhlili ilə hasilatı arasındakı fərq ondan ibarətdir ki, təhlil verilənlər bazasında modelləri və fərziyyələri yoxlamaq üçün istifadə olunur, məsələn, məlumatların miqdarından asılı olmayaraq marketinq kampaniyasının effektivliyini təhlil etmək. Hasilat isə əksinə olaraq böyük həcmdə məlumatda gizli nümunələri aşkar etmək üçün maşın öyrənməsi və statistik modellərdən istifadə edir.[8]
"Məlumatların dərinləşdirilməsi", "məlumatların ovlanması" və "məlumatların izlənilməsi" terminləri aşkar edilmiş hər hansı nümunələrin etibarlılığı ilə bağlı etibarlı statistik nəticələr çıxarmaq üçün çox kiçik olan (və ya ola bilən) daha böyük toplunun hissələrinin nümunə götürülməsi üçün məlumatların çıxarılması metodlarının istifadəsinə aiddir. Bununla belə, bu üsullar daha böyük məlumat toplusuna qarşı test etmək üçün yeni fərziyyələrin yaradılmasında istifadə edilə bilər.
Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long