Korpus dilçiliyi — mətn korpusunun inkişafı, yaradılması və istifadəsi ilə məşğul olan dilçiliyin bir sahəsidir. Termin 1960-cı illərdə korpusların yaradılması təcrübəsinin aparılması ilə meydana çıxmışdır və 1980-ci illərdə kompüter texnologiyasının inkişafı ilə əlaqədar istifadəyə başlanmışdır. Mətnlərin linqvistik və ya dil korpusu xüsusi linqvistik problemləri həll etmək üçün nəzərdə tutulmuş böyük, maşınla oxuna bilən, vahid, strukturlaşdırılmış, etiketlənmiş, filoloji cəhətdən səlahiyyətli dil məlumatlarının məcmusudur.[1] Müasir korpusun əsas xüsusiyyətləri maşınla oxuna bilən format, reprezentativlik və metalinqvistik məlumatın mövcudluğudur. Reprezentativlik xüsusi mətn seçimi prosedurundan istifadə etməklə əldə edilir. Linqvistik korpus müəyyən prinsiplərə uyğun toplanmış, müəyyən standarta uyğun olaraq işarələnmiş və ixtisaslaşmış axtarış sistemi ilə təmin edilmiş mətnlər toplusudur. Bəzən korpus ("birinci dərəcəli korpus") sadəcə olaraq hansısa ümumi xüsusiyyət (dil, janr, müəllif, mətnlərin yaranma dövrü) ilə birləşdirilən hər hansı mətnlər toplusu adlanır. Mətn korpusunun yaradılmasının mümkünlüyü aşağıdakılarla izah olunur:
İlk böyük kompüter korpusu 1960-cı illərdə Braun Universitetində yaradılmış və hər biri 2 min sözdən ibarət 500 mətn fraqmentindən ibarət olan və 1961-ci ildə ABŞ-də ingilis dilində istifadəyə verilən Braun korpusu (BK ing. Brown Corpus, BC) hesab olunur. 1970-ci illərdə BK-na yaxın olan modeldə , mətnlər korpusu əsasında, 1 milyon söz həcmində və təxminən bərabər nisbətdə ictimai-siyasi mətnlər, bədii ədəbiyyatlardan və müxtəlif sahələrdən və dramaturgiyadan elmi və elmi-kütləvi mətnlər əsasında Zasorinanın rus dilinin tezlik lüğəti yaradıldı. 1980-ci illərdə İsveçin Uppsala Universitetində analoji model üzrə rus dilinin korpusu hazırlanıb. Kompüterlərin gücünün artması səbəbindən böyük həcmli mətnləri idarə edə bilən 1980-ci illərdə daha böyük korpuslar yaratmaq üçün dünya üzrə bir neçə cəhd edildi. Böyük Britaniyada belə layihələr Birminhem Universitetində İngilis Bankı (ing. Bank of English) və Britaniya Milli Korpusu (BNC) idi. SSRİ-də belə bir layihə A. P. Erşovun təşəbbüsü ilə yaradılan Rus Dilinin Maşın Fondu idi.
Elektron formada çoxlu sayda mətnin mövcudluğu onlarla və yüz milyonlarla sözdən ibarət böyük həcmli korpus yaratmaq vəzifəsini əhəmiyyətli dərəcədə asanlaşdırdı, lakin problemləri aradan qaldırmadı: minlərlə mətnin toplanması, müəllif hüquqları ilə bağlı problemlərin aradan qaldırılması, bütün mətnlərin vahid formada yığılması, korpusun mövzu və janr üzrə balanslaşdırılması çox vaxt aparır.
Alman, polyak, çex, sloven, fin, müasir yunan, çin, yapon, bolqar və digər dillərin korpusları mövcuddur (və ya hazırlanır). Rusiya Elmlər Akademiyasında yaradılmış rus dilinin milli korpusu hazırda 500 milyondan çox söz ehtiva edir[3].
Azərbaycan Dilinin Milli Korpusunun leksikoqrafiya altkorpusunun yaradılması istiqamətində atılmış addımlardan biri "Azərbaycan dilinin lüğət tərkibinin inkişafı, dilin normalarına əməl olunmasının ictimai monitorinqi və dilin verilənlər korpusunun hazırlanması üzrə inteqrasiya olunmuş elektron sistemin və lüğətin yaradılması" adlı layihə sayıla bilər. Bu layihə AMEA Nəsimi adına Dilçilik İnstitutunun baş elmi işçisi, fil.ü.e.d., prof. Məsud Mahmudovun rəhbərliyi ilə Azərbaycan Respublikasının Prezidenti yanında Elmin İnkişafı Fondunun 2015-ci ilin əsasqrant müsabiqəsinə təqdim edilmiş və bu çərçivədə elmi-tədqiqat proqramlarının(EİF-KETPL-2015–1(25) qalibi olmuşdur. Layihə əsasında Azərbaycan dilinin elektron lüğətlər korpusu hazırlanmışdır[4]