دراسة عن تحليل تردد الحروف العربية | Print |

هذه الوثيقة موجودة تحت ترجمات أخرى [ رمز: English en00001 ]، يمكن أيضًا الوصول إليها عبر صفحة الوثائق.

👋👋👋 جربوا أعناب🍇، الباحث عن كلمات القرآن الكريم بدقة وسرعة فائقتين. هنا ڤيديو من 6 دقائق للتعرف عليها، وهنا ڤيديو مفصل من 30 دقيقة، وهنا التطبيق.

مقدمة

أثناء تصميم انتلارك (لوحة مفاتيح انتلرن العربية)، التصميم الجديد الذي يسمح لك بأن تطبع بالعربي مستخدما معرفتك للطباعة بالإنجليزي، احتجت بطبيعة الحال لمعرفة تردد كل حرف في الحروف العربية، وذلك للقيام بقرارات مدروسة للتوفيق من مفاتيح اللوحات اللاتينية إلى حروف وعلامات اللغة العربية. كان من الغريب أن لا نجد جداول أو بيانات عن تردد الحروف العربية على الإنترنت كما هو متوفر للحروف الإنجليزية [1، 2، 3]! شكَّل هذا ميلاد انتلايز، محلل تردد حروف وكلمات انتلرن، والذي سيساعد فيما بعد على تقديم إحصاءات ودراسة عن تردد الحروف العربية.

كان ذلك فعلا غريبا حيث أن مفهوم "تحليل الترددات" ابتدأ من العرب منذ حوالي 1000 سنة عن طريق العلامة أبو يوسف يعقوب ابن اسحاق الكندي [4، 5، 6]. الكندي (800 - 873 ميلادي) ألف أكثر من 250 كتاب عن مواضيع تغطي ببساطة ما تعرضه أقسام العلوم والدراسات الإنسانية في الجامعات العصرية! و... بدون أجهزة كمبيوتر تساعده على الطباعة، برامج تساعده على تقليص مدة حسابات قد تحتاج إلى سنين إلى بضع أجزاء من الثانية، أو انترنت يساعده على التصفح والإستفادة من الحصاد العلمي للآخرين! إذا، ما هي قيمة إجراء تحليلات عن ترددات الحروف في القرآن الكريم أو بعض المصادر الأخرى؟ أكثر من أي شيءٍ آخر، كم أتمنى لو أرى ترددات الحروف العربية كاملة يعود تاريخها إلى ذلك القرن التاسع فيتسنى لنا بذلك مقارنة الدقة والطرق المستخدمة حينذاك مع ما يحصيه انتلايز الآن بسهولة. في [5]، يُقال "لقد عرفوا أقل الحروف شيوعا في العربية والأكثر كذلك: الحرفان 'ا' و 'ل' هما الأكثر شيوعا في العربية، بينما يتردد الحرف 'ج' فقط كعُشر". بينما هو من السهل الموافقة أن حرفي ا و ل هما الأكثر شيوعا في النص العربي، فإن ما قيل عن حرف ج هو بعيدًا بمقدار 10 مرات! في الواقع، تردد ج في العربية هو أقرب لأن يكون 1 على 100 (بدلا من 1 على 10). إذا، من المقصود بـ "الذين عرفوا" في [5] في الإستشهادة السابقة؟ من أين حصلوا على تلك المعلومات؟ هذه لا يزال ينتظر الإجابة.

في هذه الدراسة الأولية، أجريت تحاليل على عدة مصادر والتي تزودنا بأكثر من خمسة ملايين حرف للحصول على نتائج ثابتة يعتمد عليها في حال الإستشهاد بتحليل تردد الحروف العربية.

باديء ذي بدء: ما الذي يُحصى في النصوص المدخلة؟

من المعلوم أن الحروف العربية تتألف من 28 حرف رئيسية، هذه الحروف المعروضة في جدول 1 من 1 إلى 28. ولكن عند الكتابة، هناك ثمانية حروف أخرى معتمِدة تسكن في الخلايا 29 إلى 36 ذات استعمال متردد أيضا. لو كتَّلنا الـ 8 الأخيرة مع الحروف الرئيسية اعتمادا على التشابه الشكلي أو الصوتي، ينتهي بنا المطاف للترتيب المعروض في جدول 2. للدقة في التحليل، انتلايز لا يُكتِّل، فهو يدع ذلك للمستخدم أذا أراد. لاحظ هنا أن الترتيب الهجائي للحروف يتماشى مع المألوف في الترتيب بدلا من الترتيب على حسب معيار Unicode.

 

جدول 1: الحروف العربية. الحروف 1 إلى 28 رئيسية. الحروف 29 إلى 36 معتمدة في الشكل أو الصوت على بعض الحروف الرئيسية.

 

جدول 2: الحروف العربية، مع الحروف المتعمدة متكتلة مع ما تعتمد عليه من الحروف الرئيسية.

تردد الحروف العربية باستخدام القرآن فقط كمصدر إدخال

في هذا الجزء، دعونا نأخذ فقط القرآن كمصدر للمعلومات المدخلة لإنتاج توزيع الترددات في الحروف العربية. جدول 3 يعرض معلومات تردد الحروف بناءً فقط على سور القرآن الـ 114. الترتيب المشهود يعتمد على معيار Unicode في ترتيب الحروف العربية. فيما يلي وصف لأعمدة جدول 3 الثلاثة:

  • العمود حرف يعرض الحروف التي أحصي ترددها
  • العمود تردد يعرض تردد كل حرف في الـ 330,709 حرف المحصاة في القرآن الكريم كله

  • أخيرا، العمود نسبة يعرض نفس معلومات العمود السابق ولكن بالنسبة المئوية لكل حرف. خذ حرف ا كمثال على إحدى الحسبات؛ لو قسمنا التردد على كامل حروف القرآن ثم ضربنا الناتج في 100 (أي 43,542 \ 330,709 * 100) لنتجت النسبة المئوية 13.17.
     


جدول 3: الحروف العربية وترددها مرتبة على حسب قيمتها في معيار Unicode. أنظر إلى صفحة إحصاءات سور القرآن (ح س ق) لتغطية كيفية حسبة الترددات.


يعرض جدول 4 بالأسفل نفس المعلومات المعروضة في الجدول السابق، ولكن على حسب ترتيب التردد من الأكثر إلى الأقل شيوعا. لاحظ أن حرف ج يظهر في الترتيب الحادي والعشرين، وأن تردده واحد في المئة. بطريقة أخرى، إذا علمنا أن متوسط طول الكلمة في القرآن هو 4,25 (إنظر ح س ق)، من الممكن توقع ورود ج مرة في كل 23,53 كلمة، أو مرة في كل 100 حرف. إحصاءات كاملة عن تردد الحروف، الكلمات، ومتوسط طول الكلمات في سور القرآن الكريم موجودة في صفحة ح س ق.


جدول 4: ترددات الحروف العربية مرتبة على حسب شيوع الحرف في القرآن الكريم ترتيبا تنازليا.

 تردد الحروف العربية باستخدام مراجع أخرى

هذا العمل لن يُعدُّ كاملا بدون أخذ إحصاءات عن ترددات الحروف من مصادر أخرى غير القرآن. فيما يلى نبذة عن المصادر الأخرى التي استعملت.

  • أول سبعة مجلدات في سلسلة البداية والنهاية لابن كثير. تحتوي هذه المجلدات مجتمعة على ما يملأ 2,855 صفحة، تحتوي على 1,096,047 كلمة، تحتوي على 4,326,031 حرف
     
  • كتاب الرحيق المختوم للمباركفوري عن سيرة النبي صلى الله عليه وسلم. لإحدى الطبعات 284 صفحة تتكون من 134,662 كلمة، تتكون من 553,740 حرف
     
  • كتاب تحفة العروسين للشوري. ينتشر الكتاب حول 239 صفحة تحتوي على 66,550 كلمة تتألف من 242,361 حرف

تكون هذه المصادر مجتمعة ما يفوق 3,378 صفحة بها 1,297,259 كلمة تتألف من 5,122,132 حرف. جدول 5 يعرض إحصاءات المراجع المذكورة.


جدول 5: ترددات الحروف العربية مرتبة على حسب شيوع الحرف في المصادر الأخرى المذكورة ترتيبا تنازليا. هذه المصادر تحتوي على ما يزيد على خمسة ملايين حرف.

الشكلان 1 و 2 بالأسفل يعرضان بيانات جدول 5 كرسم بياني.

 



شكل 1: توزيع تردد إحصاءات الحروف العربية الواردة في بيانات جدول 5، مرتبة على حسب معيار Unicode.

 

 



شكل 2: توزيع تردد إحصاءات الحروف العربية الواردة في بيانات جدول 5، مرتبة على حسب تردد الحروف.


أشكال خطية تقارن ما بين تردد الحروف في القرآن الكريم والمصادر الأخرى موجودة في صفحة مقارنة المصادر. تم استخدام أداة انتلايز لتوليد الإحصاءات الخاصة بالحروف العربية.

نتائج تسترعي الإهتمام

أثناء البحث عن مصادر لترددات الحروف على الإنترنت، عثرت على بعض المواقع قد تجد بعض التسلية في المعرفة عنها.

تردد حروف القرآن، بالإنجليزي!

في [7]، أجريت إحصاءات تردد الحروف على قرآن مترجم إلى الإنجليزية. من الصعب الوصول إلى أهمية هذا الجهد حيث أن الإحصاءات إجريت على كلمات انجليزية! من ناحية نستنتج مدى أهمية القرآن كمصدر للمعلومات حتى يؤخذ تردد حروفه، ولكن من ناحية أخرى يمكننا استنتاج أن نتائج التحليلات سوف تتوافق في النهاية مع ما هو معروف عن تردد الحروف الإنجليزية.

كسر الشفرات

من الأمور العجيبة أنه منذ 1000 سنة تقريبا، تجد وصفا كاملا عن بعض الطرق المستخدمة في كسر الشفرات المكتوبة، وبخط اليد! أتود إلقاء نظرة؟ إلق نظرة على [8].

لادِقَّة غير مفسرة!

كما أسلفت في البداية قبل الشروع في بناء انتلايز، همت في الإنترنت بعضا من الوقت علني أجد موقعا عن تردد الحروف العربية. وجدت واحدًا! ورقة علمية في سنة 2005 ألفت من قبل طالبة دكتوراه (حينذاك على الأقل) في بريطانيا. في ورقتها في جدول 1، ذكرت إحصاءات الكلمات في 24 سورة. مصدر السور الذي استُخدم في البحث يسترعي الإنتباه، حيث أن القرآن كله نقل حرفيا إلى اللغة الإنجليزية كلمة بكلمة، تقريبا لمساعدة غير الناطقين بالعربية على ضبط القراءة. ما لم استطع فهمه هو عدد الكلمات المدونة لكل سورة في ذلك الجدول. الأرقام بعيدة عن الصحيح بـ 100 أحيانا. لقد دققت المراجعة على إحصاءات سورة الكهف كنموذج. المسجل في تلك الورقة أن بسورة الكهف 1,489 كلمة، ولكن انتلايز يخبر أن عدد الكلمات 1,583 (وهذا هو عدد الكلمات الذي توصلت إلى عده بدون أدوات، صفحة صفحة، سطرا سطرا). سأشارككم أي رد منها على استفساري الذي بعثته لها عن كيف وصلت إلى إحصاءاتها المسجلة.

اتصل بنا

أي تعليقات، معلومات غير دقيقة أو غير صحيحة، إضافات أو روابط ذات علاقة؟ لا تتردد في إرسال خواطرك إلينا لتحسين جودة ودقة هذه المقالة. شكرًا لكم.