Böyük dil modeli

Böyük dil modeli (ing. Large language model; LLM) — ümumi məqsədli dil anlayışına və nəslinə nail olmaq qabiliyyəti ilə diqqət çəkən dil modeli. LLM-lər bu bacarıqları hesablama yolu ilə intensiv öz-özünə və yarı nəzarətli təlim prosesi zamanı mətn sənədlərindən statistik əlaqələri öyrənməklə əldə edirlər.^[1] LLM-lər transformator arxitekturasını izləyən süni neyron şəbəkələrdir.^[2]

Onlar daxil edilmiş mətni götürərək və növbəti işarəni və ya sözü təkrar-təkrar proqnozlaşdırmaqla mətn yaratmaq üçün istifadə edilə bilər.^[3] 2020-ci ilə qədər dəqiq tənzimləmə modelin konkret tapşırıqları yerinə yetirmək üçün uyğunlaşdırılmasının yeganə yolu idi. Bununla belə, GPT-3 kimi daha böyük ölçülü modellər oxşar nəticələr əldə etmək üçün tez bir zamanda dizayn edilə bilər.^[4] Onların insan dilinin korporasiyasına xas olan sintaksis, semantika və "ontologiya" haqqında, eyni zamanda korpusda mövcud olan qeyri-dəqiqliklər və qərəzlər haqqında biliklər əldə etdikləri güman edilir.^[5]

Populyar nümunələrə OpenAI-nin GPT modelləri (məsələn, ChatGPT-də istifadə edilən GPT-3.5 və GPT-4), Google-un PaLM (Bardda istifadə olunur) və Meta-nın LLaMA, həmçinin BLOOM, Ernie 3.0 Titan və Anthropic-in Claude 2-ni göstərmək olar.

Ehtimallı tokenləşdirmə

Bayt-cüt kodlaşdırmanın modifikasiyasından istifadə edərək, ilk addımda bütün unikal simvollar (boşluqlar və durğu işarələri daxil olmaqla) n-qramların ilkin dəsti (yəni, uni-qramların ilkin dəsti) kimi qəbul edilir. Ən təkrar bitişik simvol cütü uğurla biqramda birləşdirilir və cütün bütün nümunələri onunla əvəz olunur. Təkrarən birlikdə baş verən (əvvəllər birləşdirilmiş) n-qramların bitişik cütlərinin bütün hadisələri, təyin olunmuş ölçüdə lüğət əldə olunana qədər təkrar-təkrar daha uzun n-qramlara birləşdirilir (GPT-3-də ölçü 50257-dir.).^[6] Token lüğəti sıfırdan token lüğətinin ölçüsünə qədər olan tam ədədlərdən ibarətdir. Yeni sözlər həmişə tokenlərin və ilkin təyin edilmiş uni-qramların birləşmələri kimi şərh edilə bilər.^[7]

Əsasən ingilis korpusundan çıxarılan tezliklərə əsaslanan token lüğəti orta ingilis sözü üçün mümkün qədər az tokendən istifadə edir. Belə bir ingiliscə optimallaşdırılmış tokenləşdirici tərəfindən kodlanmış başqa dildəki orta bir söz suboptimal tokenlərə bölünür.

tokenizer: texts -> series of numerical "tokens" belə bölünə bilər:

n-qramlar:	token	izer	:	texts	`->`	series	of	numerical	"	t	ok	ens	"
rəqəmlər "token" kimi:	30001	7509	25	13399	4613	2168	286	29052	366	83	482	641	1

Ehtimallı tokenləşdirmə də verilənlər bazalarını sıxışdırır, bu da bayt cütünün kodlaşdırma alqoritmini tokenləşdirici kimi istifadə etməyin səbəbidir. LLM-lər ümumiyyətlə daxil edilən mətnin "kələ-kötür" olmayan massiv olmasını tələb etdiyindən, daha qısa mətnlər ən uzununun uzunluğuna uyğun gələnə qədər "doldurulmalıdır". Bir söz üçün orta hesabla nə qədər token tələb olunduğu verilənlər toplusunun dilindən asılıdır.^[8]^[9]

İstinadlar

↑ "Better Language Models and Their Implications". OpenAI. 2019-02-14. 2020-12-19 tarixində arxivləşdirilib. İstifadə tarixi: 2019-08-25.
↑ Merritt, Rick. "What Is a Transformer Model?". NVIDIA Blog (ingilis). 2022-03-25. 2023-11-17 tarixində arxivləşdirilib. İstifadə tarixi: 2023-07-25.
↑ Bowman, Samuel R. "Eight Things to Know about Large Language Models". 2023. arXiv:2304.00612 [cs.CL].
↑ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (redaktorlar ). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33. Dec 2020: 1877–1901. 2023-11-17 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 2024-01-12.
↑ Manning, Christopher D. "Human Language Understanding & Reasoning". Daedalus. 151 (2). 2022: 127–138. doi:10.1162/daed_a_01905. 2023-11-17 tarixində arxivləşdirilib. İstifadə tarixi: 2024-01-12.
↑ "OpenAI API". platform.openai.com (ingilis). April 23, 2023 tarixində arxivləşdirilib. İstifadə tarixi: 2023-04-30.
↑ Paaß, Gerhard; Giesselbach, Sven. Pre-trained Language Models // Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. 2022. 19–78. doi:10.1007/978-3-031-23190-2_2. ISBN 9783031231902. 3 August 2023 tarixində arxivləşdirilib. İstifadə tarixi: 3 August 2023.
↑ Yennie Jun. "All languages are NOT created (tokenized) equal". Language models cost much more in some languages than others. 2023-05-03. 2023-08-17 tarixində arxivləşdirilib. İstifadə tarixi: 2023-08-17. In other words, to express the same sentiment, some languages require up to 10 times more tokens.
↑ Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel. "Language Model Tokenizers Introduce Unfairness Between Languages". NeurIPS. June 23, 2023. arXiv:2305.15425. December 15, 2023 tarixində arxivləşdirilib. İstifadə tarixi: January 12, 2024 – openreview.net vasitəsilə.

Əlavə ədəbiyyat

Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
Phuong, Mary; Hutter, Marcus. "Formal Algorithms for Transformers". 2022. arXiv:2207.09238 [cs.LG].
Eloundou, Tyna; Manning, Sam; Mishkin, Pamela; Rock, Daniel. "GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models". 2023. arXiv:2303.10130 [econ.GN].
Eldan, Ronen; Li, Yuanzhi. "TinyStories: How Small Can Language Models Be and Still Speak Coherent English?". 2023. arXiv:2305.07759 [cs.CL].
Frank, Michael C. "Baby steps in evaluating the capacities of large language models". Nature Reviews Psychology (ingilis). 2 (8). 27 June 2023: 451–452. doi:10.1038/s44159-023-00211-x. ISSN 2731-0574. İstifadə tarixi: 2 July 2023.
Zhao, Wayne Xin; və b. "A Survey of Large Language Models". 2023. arXiv:2303.18223 [cs.CL].
Kaddour, Jean; və b. "Challenges and Applications of Large Language Models". 2023. arXiv:2307.10169 [cs.CL].
Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong. "A Survey on Multimodal Large Language Models". 2023-06-01. arXiv:2306.13549 [cs.CV].
Open LLMs repository on GitHub.

[:7-1] "Better Language Models and Their Implications". OpenAI. 2019-02-14. 2020-12-19 tarixində arxivləşdirilib. İstifadə tarixi: 2019-08-25.

[2] Merritt, Rick. "What Is a Transformer Model?". NVIDIA Blog (ingilis). 2022-03-25. 2023-11-17 tarixində arxivləşdirilib. İstifadə tarixi: 2023-07-25.

[Bowman-3] Bowman, Samuel R. "Eight Things to Know about Large Language Models". 2023. arXiv:2304.00612 [cs.CL].

[few-shot-learners-4] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario. Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (redaktorlar ). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33. Dec 2020: 1877–1901. 2023-11-17 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 2024-01-12.

[Manning-2022-5] Manning, Christopher D. "Human Language Understanding & Reasoning". Daedalus. 151 (2). 2022: 127–138. doi:10.1162/daed_a_01905. 2023-11-17 tarixində arxivləşdirilib. İstifadə tarixi: 2024-01-12.

[xbiWb-6] "OpenAI API". platform.openai.com (ingilis). April 23, 2023 tarixində arxivləşdirilib. İstifadə tarixi: 2023-04-30.

[2022Book_-7] Paaß, Gerhard; Giesselbach, Sven. Pre-trained Language Models // Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. 2022. 19–78. doi:10.1007/978-3-031-23190-2_2. ISBN 9783031231902. 3 August 2023 tarixində arxivləşdirilib. İstifadə tarixi: 3 August 2023.

[8] Yennie Jun. "All languages are NOT created (tokenized) equal". Language models cost much more in some languages than others. 2023-05-03. 2023-08-17 tarixində arxivləşdirilib. İstifadə tarixi: 2023-08-17. In other words, to express the same sentiment, some languages require up to 10 times more tokens.

[9] Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel. "Language Model Tokenizers Introduce Unfairness Between Languages". NeurIPS. June 23, 2023. arXiv:2305.15425. December 15, 2023 tarixində arxivləşdirilib. İstifadə tarixi: January 12, 2024 – openreview.net vasitəsilə.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]