table of contents
| unicode(7) | Miscellaneous Information Manual | unicode(7) |
الاسم¶
unicode - مجموعة الأحرف العالمية
الوصف¶
يُعرِّف المعيار الدولي ISO/IEC 10646 مجموعة الأحرف العالمية (UCS). تحتوي UCS على جميع أحرف جميع معايير مجموعات الأحرف الأخرى. كما تضمن "التوافق ذهابًا وإيابًا"؛ بمعنى آخر، يمكن بناء جداول تحويل بحيث لا يُفقد أي معلومات عند تحويل سلسلة من أي ترميز آخر إلى UCS والعودة.
تحتوي UCS على الأحرف المطلوبة لتمثيل جميع اللغات المعروفة عمليًا. لا يشمل هذا النصوص اللاتينية واليونانية والسيريلية والعبرية والعربية والأرمنية والجورجية فحسب، بل يشمل أيضًا الرموز الفكرية الصينية واليابانية والكورية بالإضافة إلى نصوص مثل هيراغانا وكاتاكانا وهانغول وديفاناغاري وبنغالية وغورموخي وغوجاراتية وأوريا وتاميلية وتيلوغو وكانادا ومالايالامية وتايلندية ولاوية وخميرية وبوبوموفو وتبتية ورونية وإثيوبية ومقاطع كندية وشيروكية ومنغولية وأوغامية وميانمارية وسنغالية وثعانة ويي وغيرها. بالنسبة للنصوص غير المغطاة بعد، لا يزال البحث جاريًا حول أفضل طريقة لترميزها للاستخدام الحاسوبي وستُضاف في النهاية. قد يشمل هذا في النهاية ليس فقط الهيروغليفية واللغات الهندو-أوروبية التاريخية المختلفة، بل حتى بعض النصوص الفنية المختارة مثل تينغوار وسيرث وكلينغون. تغطي UCS أيضًا عددًا كبيرًا من الرموز الرسومية والطباعية والرياضية والعلمية، بما في ذلك تلك المقدمة من TeX وPostscript وAPL وMS-DOS وMS-Windows وMacintosh وخطوط OCR، بالإضافة إلى العديد من أنظمة معالجة النصوص والنشر، ويُضاف المزيد.
يصف معيار UCS (ISO/IEC 10646) بنية مجموعة أحرف ذات 31 بت تتكون من 128 مجموعة ذات 24 بت، كل منها مقسمة إلى 256 مستوى ذات 16 بت مكونة من 256 صفًا ذات 8 بت مع 256 موضع عمود، واحد لكل حرف. يُعرّف الجزء 1 من المعيار (ISO/IEC 10646-1) أول 65534 موضع رمز (0x0000 إلى 0xfffd)، والتي تشكل المستوى الأساسي متعدد اللغات (BMP)، أي المستوى 0 في المجموعة 0. يُضيف الجزء 2 من المعيار (ISO/IEC 10646-2) أحرفًا إلى المجموعة 0 خارج BMP في عدة مستويات تكميلية في النطاق 0x10000 إلى 0x10ffff. لا توجد خطط لإضافة أحرف تتجاوز 0x10ffff إلى المعيار، لذلك من مساحة الرمز بأكملها، سيُستخدم فقط جزء صغير من المجموعة 0 فعليًا في المستقبل المنظور. يحتوي BMP على جميع الأحرف الموجودة في مجموعات الأحرف الأخرى شائعة الاستخدام. تغطي المستويات التكميلية المضافة بواسطة ISO/IEC 10646-2 فقط أحرفًا أكثر غرابة للاحتياجات العلمية الخاصة وطباعة القواميس وصناعة النشر والبروتوكولات عالية المستوى والهواة.
يُشار إلى تمثيل كل حرف UCS ككلمة ذات 2 بايت بصيغة UCS-2 (فقط لأحرف BMP)، بينما UCS-4 هو تمثيل كل حرف بكلمة ذات 4 بايت. بالإضافة إلى ذلك، يوجد صيغتا ترميز UTF-8 للتوافق العكسي مع برامج معالجة ASCII وUTF-16 للمعالجة المتوافقة عكسيًا لأحرف غير BMP حتى 0x10ffff بواسطة برامج UCS-2.
أحرف UCS من 0x0000 إلى 0x007f مطابقة لأحرف مجموعة الأحرف US-ASCII الكلاسيكية والأحرف في النطاق 0x0000 إلى 0x00ff مطابقة لتلك الموجودة في ISO/IEC 8859-1 (Latin-1).
الأحرف المركبة¶
تم تعيين بعض نقاط الرمز في UCS إلى أحرف مركبة. تشبه هذه مفاتيح التشكيل غير المتباعدة على الآلة الكاتبة. يضيف الحرف المركب تشكيلًا إلى الحرف السابق. الأحرف المشكلة الأكثر أهمية لها رموز خاصة بها في UCS؛ ومع ذلك، تسمح آلية الأحرف المركبة بإضافة تشكيلات وعلامات تمييز أخرى إلى أي حرف. تتبع الأحرف المركبة دائمًا الحرف الذي تعدله. على سبيل المثال، يمكن تمثيل الحرف الألماني أوملاوت-A ("حرف لاتيني كبير A مع علامة تشكيل") إما بالرمز UCS المُركّب مسبقًا 0x00c4، أو بدلاً من ذلك كمجموعة من "حرف لاتيني كبير A" عادي متبوعًا بـ "علامة تشكيل مركبة": 0x0041 0x0308.
الأحرف المركبة ضرورية على سبيل المثال لترميز النص التايلندي أو للتنضيد الرياضي ولمستخدمي الأبجدية الصوتية الدولية.
مستويات التنفيذ¶
نظرًا لعدم توقع دعم جميع الأنظمة للآليات المتقدمة مثل الأحرف المركبة، يحدد ISO/IEC 10646-1 مستويات التنفيذ الثلاثة التالية لـ UCS:
- المستوى 1
- الأحرف المركبة وهانغول جامو (ترميز متغير للنص الكوري، حيث يُرمَز شكل مقطع هانغول كثلاثية أو زوج من رموز حروف العلة/الساكنة) غير مدعومة.
- المستوى 2
- بالإضافة إلى المستوى 1، يُسمح الآن بالأحرف المركبة لبعض اللغات حيث تكون ضرورية (مثل التايلندية واللاوية والعبرية والعربية والديفاناغارية والمالايالامية).
- المستوى 3
- جميع أحرف UCS مدعومة.
يحتوي معيار Unicode 3.0 المنشور من قبل اتحاد Unicode على المستوى الأساسي متعدد اللغات UCS بالضبط عند مستوى التنفيذ 3، كما هو موصوف في ISO/IEC 10646-1:2000. أضاف Unicode 3.1 المستويات التكميلية لـ ISO/IEC 10646-2. يوفر معيار Unicode والتقارير الفنية المنشورة من قبل اتحاد Unicode الكثير من المعلومات الإضافية حول دلالات واستخدامات الأحرف المختلفة الموصى بها. توفر إرشادات وخوارزميات لتحرير وفرز ومقارنة وتطبيع وتحويل وعرض سلاسل Unicode.
Unicode تحت Linux¶
تحت GNU+Linux، النوع C wchar_t هو نوع عدد صحيح مُوقّع 32 بت. تُفسّر قيمه دائمًا بواسطة مكتبة C كقيم رمز UCS (في جميع الإعدادات المحلية)، وهو اصطلاح تُشير إليه مكتبة GNU C للتطبيقات بتعريف الثابت __STDC_ISO_10646__ كما هو محدد في معيار ISO C99.
يمكن استخدام UCS/Unicode تمامًا مثل ASCII في تيارات الإدخال/الإخراج والاتصال الطرفي وملفات النص العادي وأسماء الملفات ومتغيرات البيئة في ترميز UTF-8 متعدد البايت المتوافق مع ASCII. للإشارة إلى استخدام UTF-8 كترميز أحرف لجميع التطبيقات، يجب تحديد إعداد محلي مناسب عبر متغيرات البيئة (مثل "LANG=en_GB.UTF-8").
تُرجع الدالة nl_langinfo(CODESET) اسم الترميز المحدد. يمكن استخدام دوال المكتبة مثل wctomb(3) وmbsrtowcs(3) لتحويل أحرف وسلاسل wchar_t الداخلية إلى ترميز أحرف النظام والعودة، وتخبر wcwidth(3) بعدد المواضع (0–2) التي يتقدم بها المؤشر عند إخراج حرف.
مناطق الاستخدام الخاص (PUA)¶
في المستوى الأساسي متعدد اللغات، لن يُخصص النطاق 0xe000 إلى 0xf8ff أبدًا لأي أحرف بواسطة المعيار وهو محجوز للاستخدام الخاص. بالنسبة لمجتمع Linux، تم تقسيم هذه المنطقة الخاصة بشكل أكبر إلى النطاق 0xe000 إلى 0xefff الذي يمكن استخدامه بشكل فردي من قبل أي مستخدم نهائي ومنطقة Linux في النطاق 0xf000 إلى 0xf8ff حيث يتم تنسيق الإضافات بين جميع مستخدمي Linux. يتم الحفاظ على سجل الأحرف المخصصة لمنطقة Linux بواسطة LANANA والسجل نفسه هو Documentation/admin-guide/unicode.rst في مصادر نواة Linux.
مستويان آخران محجوزان للاستخدام الخاص، المستوى 15 (منطقة الاستخدام الخاص التكميلية-A، النطاق 0xf0000 إلى 0xffffd) والمستوى 16 (منطقة الاستخدام الخاص التكميلية-B، النطاق 0x100000 إلى 0x10fffd).
الأدبيات¶
- •
- تكنولوجيا المعلومات — مجموعة الأحرف المشفرة العالمية متعددة الثمانيات (UCS) — الجزء 1: الهندسة والمستوى المتعدد اللغات الأساسي. المعيار الدولي ISO/IEC 10646-1، المنظمة الدولية للمعايير، جنيف، 2000.
- هذه هي المواصفات الرسمية لـ UCS. متوفرة من http://www.iso.ch/.
- •
- معيار يونيكود، الإصدار 3.0. اتحاد يونيكود، أديسون-ويسلي، ريدينغ، ماساتشوستس، 2000، ISBN 0-201-61633-5.
- •
- S. هاربيسون، G. ستيل. C: دليل مرجعي. الطبعة الرابعة، برنتيس هول، إنجلوود كليفس، 1995، ISBN 0-13-326224-3.
- كتاب مرجعي جيد حول لغة البرمجة C. تغطي الطبعة الرابعة التعديل 1 لعام 1994 لمعيار ISO C90، الذي يضيف عددًا كبيرًا من دوال مكتبة C الجديدة للتعامل مع ترميزات الأحرف العريضة ومتعددة البايت، لكنها لا تغطي بعد ISO C99، الذي حسّن دعم الأحرف العريضة ومتعددة البايت بشكل أكبر.
- •
- التقارير الفنية ليونيكود.
- •
- ماركوس كون: الأسئلة الشائعة حول UTF-8 ويونيكود لـ UNIX/Linux.
- •
- برونو هايبل: دليل يونيكود.
انظر أيضًا¶
ترجمة¶
تُرجمت هذه الصفحة من الدليل بواسطة زايد السعيدي <zayed.alsaidi@gmail.com>
هذه الترجمة هي وثيقة مجانية؛ راجع رخصة جنو العامة الإصدار 3 أو ما بعده للاطلاع على شروط حقوق النشر. لا توجد أي ضمانات.
إذا وجدت أي أخطاء في ترجمة صفحة الدليل هذه، يرجى إرسال بريد إلكتروني إلى قائمة بريد المترجمين: kde-l10n-ar@kde.org.
| 11 فبراير 2026 | صفحات دليل لينكس (لم تصدر بعد) |