UTF-8

UTF-8 kodlaşdırmasının ətraflı sxemi. Bitlərin nömrələnməsi və hər bitin dəqiq mövqeyi daxildir.

UTF-8 — elektronik kommunikasiya üçün istifadə olunan dəyişən uzunluqlu simvol kodlaşdırma standartı. Unicode Standartı tərəfindən müəyyən edilmiş ad Unicode (və ya Universal Kodlu Simvol Dəsti) Transformasiya Formatından – 8 bitdən götürülüb.[1]

UTF-8 Unicode-da birdən dördə qədər bir baytlıq (8-bit) kod vahidlərindən istifadə edərək bütün 1,112,064 etibarlı simvol kodu nöqtələrini kodlamağa qadirdir. Daha tez-tez baş verən daha aşağı ədədi dəyərlərə malik kod nöqtələri daha az baytdan istifadə etməklə kodlanır. ASCII ilə əvvəlki versiyalara uyğunluq üçün hazırlanmışdır. ASCII-yə bir-bir uyğun gələn ilk 128 Unicode simvolu, ASCII ilə eyni ikili dəyəri olan bir bayt istifadə edərək kodlanır, beləliklə etibarlı ASCII mətni də UTF-8 kodlu Unicode mətnidir.

UTF-8 qismən ASCII uyğunluğu ilə təklif olunan dəyişən uzunluqlu kodlaşdırma olan UTF-1-in üstün alternativi olaraq hazırlanmışdır. Bu kodlaşdırmada bəzi xüsusiyyətlər, o cümlədən özünü sinxronizasiya və drop (/) kimi simvolların tam ASCII-yə uyğun işləməsi yoxdur. Ken TompsonRob Payk 1992-ci ilin sentyabrında Plan 9 əməliyyat sistemi üçün ilk tətbiqi yayımladılar.[2][3] Bu, ilk dəfə 1993-cü ilin yanvarında USENIX-də rəsmi olaraq elan olunan və internet standartları üzrə gələcək iş üçün RFC 2277-də (BCP 18) IETF tərəfindən qəbul edilən FSS-UTF üçün bir spesifikasiya olaraq X/Open tərəfindən qəbul edilməsinə səbəb oldu.[4][5][6]

UTF-8 istənilən alternativ mətn kodlaşdırmasına nisbətən daha az beynəlmiləlləşdirmə[7][8] problemi ilə nəticələnir. UTF-8 bütün müasir əməliyyat sistemlərində, o cümlədən Microsoft WindowsJSON kimi standartlarda tətbiq edilmişdir,o burada Unicode-un icazə verilən yeganə formasıdır.

UTF-8 World Wide Web (və internet texnologiyaları) üçün dominant kodlaşdırmadır və 2023-cü ilə qədər bütün veb səhifələrin 98%-ni, ilk 10,000 səhifənin 99,1%-ni və bir çox dillər üçün 100%-ə qədərini təşkil edir. Faktiki olaraq bütün ölkələr və dillər internetdə UTF-8 kodlaşdırmalarından 95% və ya daha çox istifadə edir.[9]

  1. Chapter 2. General Structure // The Unicode Standard (6.0). Mountain View, California, US: The Unicode Consortium. ISBN 978-1-936213-01-6. 2022-03-06 tarixində arxivləşdirilib. İstifadə tarixi: 2023-09-25.
  2. Pike, Rob. "UTF-8 history". 30 April 2003. 29 October 2006 tarixində arxivləşdirilib. İstifadə tarixi: 25 September 2023.
  3. Pike, Rob; Thompson, Ken. Hello World or Καλημέρα κόσμε or こんにちは 世界 (PDF) // Proceedings of the Winter 1993 USENIX Conference. 1993. 2017-10-11 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 2023-09-25.
  4. "File System Safe UCS - Transformation Format (FSS-UTF) - X/Open Preliminary Specification" (PDF). unicode.org. 2023-05-16 tarixində arxivləşdirilib (PDF). İstifadə tarixi: 2023-09-25.
  5. "USENIX Winter 1993 Conference Proceedings". usenix.org. 2023-07-30 tarixində arxivləşdirilib. İstifadə tarixi: 2023-09-25.
  6. Alvestrand, Harald T. "RFC 2277 - IETF Policy on Character Sets and Languages". datatracker.ietf.org. January 1998. 2023-07-07 tarixində arxivləşdirilib. İstifadə tarixi: 2023-09-25.
  7. "UTF-8 support in the Microsoft Game Development Kit (GDK) - Microsoft Game Development Kit". learn.microsoft.com (ingilis). 2023-06-23 tarixində arxivləşdirilib. İstifadə tarixi: 2023-03-05. By operating in UTF-8, you can ensure maximum compatibility [..] Windows operates natively in UTF-16 (or WCHAR), which requires code page conversions by using MultiByteToWideChar and WideCharToMultiByte. This is a unique burden that Windows places on code that targets multiple platforms. [..] The Microsoft Game Development Kit (GDK) and Windows in general are moving forward to support UTF-8 to remove this unique burden of Windows on code targeting or interchanging with multiple platforms and the web. Also, this results in fewer internationalization issues in apps and games and reduces the test matrix that's required to get it right.
  8. "Encoding Standard". encoding.spec.whatwg.org. 2015-02-04 tarixində arxivləşdirilib. İstifadə tarixi: 2020-04-15.
  9. "Usage Survey of Character Encodings broken down by Ranking". w3techs.com (ingilis). 2022-01-21 tarixində arxivləşdirilib. İstifadə tarixi: 2023-09-01.

Xarici keçidlər

[redaktə | mənbəni redaktə et]