השוואה של מספר התווים (יוניקוד) במשפטים מקבילים בשפות שונות יחסית לעברית לפי שני מאגרים רב־לשוניים מקבילים של תמלילי הרצאות TED. נוסף לכך, אנו מחשבים את ה־perplexity החד־תווי, משמע אקספוננט האנטרופיה של התפלגות התווים, שמודד את המספר האפקטיבי של סימנים שונים המשמשים במערכת הכתב של השפה. ה־inefficiency הוא מכפלת מספר התווים היחסי ב־perplexity היחסי. ככלל, העברית והערבית אינן מנוקדות, ובשום מקרה לא הוסרו סימני ניקוד או פיסוק. לצורך חישוב המדדים האחרונים, אותיות רישיות הומרו לקטנות, הצורות הסופיות המובחנות בעברית וביוונית אוחדו עם מקבילותיהן, והפסיק והספרות הערביים הומרו לצורה לטינית.

יוצא שהעברית היא הקצרה בספירת התווים מבין השפות עם מערכות כתב אלף־ביתיות ועיצוריות (אבג'ד), וקצרות ממנה כאן סינית ויפנית המשתמשות בכתב לוגוגרפי, קוריאנית בכתב האנגול הברתי, ואמהרית בכתב געז שהוא אבוגידה. בהשוואה לאנגלית, משפט עברי מקביל יהיה קצר ברבע. כאשר לוקחים בחשבון את המספר האפקטיבי של הסימנים, נראה שעברית היא היעילה אורתוגרפית מבין מערכות הכתב של השפות במאגרים. את התוצאות להלן ניתן לשחזר באמצעות הקוד בגוגל קולאב (קובץ JSON להורדה).

TED 2020 TED Parallel (349,049 sentences)

A comparison of the number of Unicode characters in parallel sentences in different languages relative to Hebrew according to two parallel multilingual datasets of TED lecture transcripts. In addition, we compute the unigram character perplexity, i.e. the exponential of the entropy of the character distribution, which measures the effective number of different symbols used in the writing system of the language. The inefficiency is the product of the relative number of characters times the relative perplexity. The Hebrew and Arabic texts are mostly diacriticless, and in no case have diacritics or punctuation been removed. For calculating the latter indices, uppercase letters were lowercased, The distinct final letter forms Hebrew and Greek were unified with their equivalents, and Arabic comma and digits were converted to Latin form.

Hebrew emerges as the shortest in character count among the languages employing alphabetic and abjad writing systems, the only shorter being Chinese and Japanese which use logographic scripts, Korean in the syllabic Hangul script, and Amharic in the Ge'ez script, which is an abugida. Relative to English, a corresponding Hebrew sentence will be a quarter shorter. When taking into account the effective number of symbols, Hebrew appears to be the most orthographically efficient of the language writing systems in the datasets. The results below can be reproduced using the code in Google Colab (JSON file for download).

Ajinkya Kulkarni, TED parallel corpus (code, data) (2015).
Nils Reimers and Iryna Gurevych, Making monolingual sentence embeddings multilingual using knowledge distillation, (code+data [1.1GB], data [550MB]) Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (2020).