أهلا بكم في مدونة الدكتور محمود إسماعيل صالح

السبت، 5 أبريل 2014

لسانيات المدونات اللغوية : مقدمة للقارئ العربي


 
د./ محمود إسماعيل صالح

أستاذ اللسانيات التطبيقية

 1435هـ/ 2014م


المقدمة:

الحمد لله خلق الإنسان علمه البيان ، ومن آياته اختلاف الألسنة والألوان ، والصلاة والسلام على محمد أفصح من تكلم بالعربية وأبان ، وبعد:

 من الأمور التي لا يجهلها أحد أن الحاسوب هو أداة القرن الحالي دون منازع. فقد دخل تقريبا كل بيت ومؤسسة عامة وخاصة ، وأدى استخدامه في مجالات الحياة العلمية والعملية إلى تطورات كبيرة في هذه الحقول المختلفة. ومن هذه المجالات ميدان اللغة التي تميز بها الإنسان عن سائر الحيوانات. ويمكننا الاستفادة من الحاسوب في النشاط اللغوي بوجوه متعددة ، يمكننا تلخيصها في ثلاث صور رئيسة هي: الاستعمال العام والاستعمال الخاص والبحث اللساني الحاسوبي المتخصص.

غير أن أحدث وأهم مجال لعبه الحاسوب في خدمة البحث اللغوي هو ما يعرف بلسانيات المدونات (اللغوية) Corpus Linguistics ، وهو موضوع الدراسة التي بين أيدينا.

ولعل مما يلفت انتباه الباحث العربي أنه على الرغم من مرور نصف قرن تقريبا على أول مدونة إلكترونية في اللغة الإنجليزية وحوالي ثلاثة عقود على البحث اللساني المبني على المدونات المحوسبة قلة إلمام اللسانيين العرب بها وبإمكاناتها غير المحدودة . من هنا نأمل أن تكون هذه الدراسة بمثابة حافز للعلماء العرب للخوص في غمار هذا العلم وفي الاستفادة من المدونات اللغوية العربية في بحوثهم اللغوية.

أولا: تعريف بالمدونة ولسانيات المدونات اللغوية:

 

لعل أبسط تعريف للمدونة اللغوية هو: مجموعة من النصوص اللغوية الشفوية أوالمكتوبة الموثقة (من حيث المصدر والتاريخ والنوع كجد أدنى). ومن التسميات الشائعة ، إلى حد ما ، اسم "الذخيرة اللغوية" ، والتي أطلقها عليها رائد العمل العربي في مجال المدونات المحوسبة اللساني الجزائري عبدالرحمن حاج صالح ، غيرأن تعريفه للذخيرة اللغوية كما ورد في دراسته التي نورد مقتبسا منها يختلف قليلا عن المدونة اللغوية بالتعريف الذي ذكرناه (انظر عبدالرحمن صالح (1999). كما أن الباحثة السعودية مها الربيعة تطلق عليها "مدونة نصية" كما هو واضح من عنوان مشروعها المسمى "الذخيرة النصية الفصحى لجامعة الملك سعود" . وهناك من أسماها بالمكنز، كما فعل عبدالغني أبو العزم (حيث يتحدث عن "مكنز صخر" . وفي دراسة حديثة للدكتور صالح العصيمي ، أطلق الكاتب مسمى "لسانيات المتون" على لسانيات المدونات اللغوية.

 

هذا وقد يتم جمع النصوص بطريقة عشوائية أو منتظمة (وفق أسس محددة). كما يتم الاستفادة منها كذلك بصور مختلفة ، كما فعل مثلا اللغويون العرب الأوائل عند وضع قواعد اللغة العربية ومعاجمها ، ودليل ذلك الاستشهادات التي نجدها في بطون كتب النحو والمعاجم. (انظر أحمد مختار عمر "مصادر اللغويين العرب" في كتابه الموسوم (البحث اللغوي عند العرب ...) كذلك نجد مثالا على ذلك ما فعله الباحثون في علم اللغة التاريخي و ما فعله اللسانيون البنيويون من أمثال بلومفيد وسابير في دراساتهم للغات الهنود الحمر وغيرهم ممن عملوا في اللسانيات الميدانية، وكذلك مافعله لانداو وفاخر عاقل وداود عبده في دراساتهم الإحصائية للكلمات العربية في نصوص مختلفة ، وأخيرا ما فعله مايكل وست في بريطانيا ومن قبله ومن جاء بعده من لسانيي المدونات في دراساتهم المعجمية الإحصائية المبنية على مدونات مكتوبة أو محوسبة.

 

لكن نود أن ننبه أن "المدونة" في سياق لسانيات المدونات اللغوية بقصد بها المدونة اللغوية المحوسبة ، أي المخزنة رقميا في الحاسوب. لذلك نجد بعض الذين يتحدثون عن لسانيات المدونات باسم لسانيات المدونات الإلكترونية electronic corpus linguistics.

 

وجدير بالذكر في هذا المجال أن الشبكة العنكبوتية (الإنترنت) أو الشابكة كما يسميها البعض يمكن اعتبارها مدونة لغوية شاملة ، كما يشيرالباحثان كيلغاريف وغرينفنستيت Adam Kigarriff and Greogroy Grefenstette في بحثها المعنون الشبكة بوصفها مدونة Web as Corpus حيث يقولان في مقدمة بحثهما أن الشابكة "تشتمل على مئات البلايين من الكلمات من النصوص ويمكن استعمالها لجميع أنواع البحث اللغوي." (Adam Kigarriff and Greogroy Grefenstette (2003))

 

أما مصطلح لسانيات المدونات (اللغوية)  corpus linguistics فيطلق عادة على دراسة اللغة في ضوء النصوص اللغوية المدونة والمخزنة حاسوبيا. من ثم فهو ليس نظرية جديدة في اللسانيات بقدر ماهو منهج جديد أو مقاربة approach في البحث اللساني، كما سنبين أدناه.

 

طرق الاستفادة من المدونات اللغوية:

 

من متابعة  الأعمال البحثية المختلفة ، لابد لنا من التنويه إلى أن هناك اختلافا بين نوع المدونة (يدوية أو محوسبة) من جهة وبين طريقة الاستفادة منها في البحث اللغوي. فحتى المدونة المحوسبة يمكن البحث فيها يدويا أو بأسلوب شبه يدوي ، كما نظن ما حدث مع مدونة جريدة الجزيرة وعدد من الأبحاث الرصينة التي أجريت عليها (كما في "دراسات في علم اللغة النصي") . وقد يتم إجراء البحث آليا ، كما هو الشأن في معظم الدراسات التي تمت على المدونات الإنجليزية ، بدءا بمدونة براون والدراسات الأخرى الواردة في بايبر وزملائه (Biber, Conrad and Reppen, 1998) وكذلك ماك إنري وزملائه (McEnry, Tony, Xiao, Richard and Tono, Yukio (2006)). وأخيرا المشروع الذي أنجزه الباحثان الأمريكيان تِم بَكوولتر وديلويرث باركنسون في معجم الألفاظ الشائعة في اللغة العربية (انظر Buckwalter, Tim and Parkison, Dilworth (2011)) ، وكذلك أطروحة الدكتوراة لرجب الزهراني.

 

لمزيد من المعلومات في هذا المجال ، انظر أدناه أعمال مبنية على المدونات.

 

ثانيا: مقارنة بين لسانيات المدونات والتحليل اللغوي التقليدي:

 

قبل أن نتحدث عن أوجه التشابه والاختلاف هذه ، يجب أن نؤكد على ما ينبه إليه كثير من اللسانيين ، وهو أن اللسانيات المبنية على المدونات corpus-based linguistics ، كما يسمي البعض لسانيات المدونات ، ليست نظرية لسانية بل هي طريقة في البحث اللساني . من ثم ليس هناك تعارض ، بل هناك تكامل بين النوعين من البحث اللساني. ومع ذلك يمكننا أن نشير إلى اختلافات في التوجه البحثي في كل من البحث اللساني التقليدي  conventional ولسانيات المدونات ، لعل من أهمها مايلي:

 

1- الحدس والواقع اللغوي :

 

 منذ انتقادات تشومسكي الشديدة للسانيات البنيوية structural linguistics  واعتمادها على النصوص أو دراسة الأداء اللغوي performance وتأكيده على وجوب أن يكون البحث اللساني وصفا للكفاية اللغوية competence، اتجه البحث اللساني إلى الاعتماد على حدس intuition الناطق الأصلي باللغة والتأملintrospection . وقد كانت حجة تشومسكي آنذاك هزالة المدونات التي كان يعتمد عليها الباحث اللساني ، وكذلك امتلاء الأداء اللغوي بمظاهر النقص اللغوي ، مثل التردد والتكرار والحذف أثناء التحدث ، مما لايعكس أبنية اللغة الصحيحة.

 

 في مقابل هذا الاعتماد الكبير على الحدس ، نجد أن لسانيات المدونات تؤكد على وجوب الاعتماد بصورة أساسية على النصوص التي تعكس الأداء اللغوي (المدونة corpus)، مع التنبيه إلى حجم المدونات اللغوية الرقمية (التي قد تصل إلى مئات الملايين من الكلمات) وإلى تمثيلها الحقيقي للغة بشقيها الشفوي والمكتوب ، ولكن دون إغفال لدور الحدس والحس اللغوي خاصة في الجانب الكيفي من التحليل اللغوي (التعميم مثلا والتفسير للظواهر اللغوية). وجدير بالذكر أن مدونات النصوص المكتوبة لا تعاني مما ذكره تشومسكي من عيوب الأداء اللغوي ، حيث إن النصوص غالبا ماتكون منقحة .  أما ما أشار إليه تشومسكي من عيوب الأداء فهي ترتبط باللغة المحكية . ويلاحظ أن المدونات اللغوية للنصوص المحكية تحتفظ بمثل تلك "العيوب" ، ويستفيد منها الباحث اللساني في دراسة خصائص اللغة المحكية ، في مقابل اللغة المكتوبة.

 

2- ينظرالتحليل اللغوي التقليدي إلى الوحدات اللغوية وأنواعها وخصائصها وإلى التراكيب : مكوناتها ونوعها وتصنيفها وكيفية  تكون بعضها من بعض (الجملة وأنواعها وصفاتها والكلمة وتركيبها وحالاتها ...).

 

      3- أما الدرس اللغوي المبنى على المدونات ، فينظر إلى :

أ‌-       الاستعمال اللغوي ، مثلا لماذا نستخدم تركيبا بدلا من آخر (المبني للمعلوم بدلا من المبني للمجهول) في بعض النصوص.

ب‌-  التركيز على ألفاظ أو تراكيب معينة ودراسة سياقات استعمالها (من حيث المستخدم ، نوع الخطاب (أدبي ، تقريري ، علمي)، ومن حيث الجنس الأدبي....

جـ - الارتباط association (1) اللغوي-اللغوي (مثلا المعجمي-المعجمي ، كما في المصاحبات اللفظية واللفظي-التركيبي ، كما في أنواع الأفعال الناقصة و اللازمة والمتعدية بأنواعها وما يرتبط بكل منها من تراكيب نحوية).  (2) اللغوي-غير اللغوي (مثل ارتباط استعمال كلمة أو تركيب معين بمؤلف أو مجال أو لهجة أو عصر تاريخي ... وهكذا).(انظر Biber, Conrad and Reppen, 1998: 5-12) .

 لكن هذا لا يعني ، كما أسلفنا ، أن هناك تناقضا بين الدرس اللغوي التقليدي والمبني على المدونات. فالباحث اللساني لابد أن يكون لديه إلمام جيد بالنظريات اللسانية الحديثة في مجالات الأصوات phonology والتراكيب morphology and syntax والدلالة semantics والمعجمية lexicography، إضافة إلى النظريات الخاصة بتحليل الخطاب discourse analysis وأعمال الكلام   speech actsوالتداولية pragmatics . فلسانيات المدونات إنما هي طريقة في البحث اللساني يستفيد من الإمكانات الهائلة للحاسوب والمدونات اللغوية corpora.

 

ثالثا: مزايا لسانيات المدونات (اللغوية):

 

تتسم لسانيات المدونات المحوسبة بمزايا كثيرة ، لعل من أهمها مايلي:

1-     إنها عملية وتجريبية ، مبنية على نصوص حقيقيقة للاستعمال اللغوي ، وليس على الحدس الشخصي. وتدرس نماذج واقعية للغة أو التركيب.

2-     الحجم الكبير للنصوص اوالمدونات التي تخضع للبحث والتحليل .

3-     التنوع المبنى على أسس علمية لنصوص المدونة لتمثل استخدامات اللغة المختلفة, وذلك بمراعاة التمثيل الأفقي (الجغرافي) والعمودي (التاريخي) والنوعي (الأسلوبي مثلا)  للغة واستعمالاتها المختلفة. (غير أن ذلك يعتمد بالطبع على التصميم والاختيار الجيدين من قبل معد(ي) المدونة اللغوية.)

4-     استخدام الحاسوب في التحليل بصورة واسعة ، آليا (دون تدخل بشري) وتحاوريا (بين الحاسوب والباحث ، حيث يقوم الحاسوب بالجانب الآلي ، كا لإحصاء والتنبيه إلى ظواهر معينة كاللبس المعجمي أو التركيبي، ويقوم الباحث اللغوي بالجانب الذي يتطلب تدخلا بشريا مثل فك اللبس وتحديد الاسم الذي يعود إليه ضمير ما في النص ، مثلا).

5-     سهولة الحصول على النصوص والمدونات (بصور مختلفة : أقراص مضغوطة CD، على الشابكة (الإنترنت)) أو في صورة نصوص إلكترونية / رقمية ، وباستخدام قارئة المحارف البصرية OCR لتحويل النصوص المطبوعة إلى نصوص رقمية) ، مما جعل بناء المدونات أمرا ميسورا. (يجب هنا التنبه إلى وجوب مراعاة حقوق الملكية الفكرية لبعض النصوص.)

6-     الاعتماد على أساليب التحليل الكمية (الإحصائية ، مثل شيوع كلمة أو تركيب ما في نص أو نصوص مختلفة) والكيفية (التفسير والاستنتاج ، مثل تفسيرسبب كثرة استعمال كلمة أو تركيب ما في أنواع النصوص المختلفة).(انظر Biber, Conrad and Reppen, 1998)

7-     إمكانية التثبت من صحة القواعد المبنية على الحدس والتخمين في ضوء الاستعمال الواقعي للغة ، من ثم التعرف على دقة تلك القواعد من حيث وصفها للاستعمال اللغوي.

8-     الكشف عن مزيد من المعلومات المعجمية والنحوية وغيرها في ضوء النصوص المتاحة في المدونة. فقد ثبت مثلا في البحث المبني على المدونات أن كثيرا من الألفاظ لها معان تزيد عما يرد عادة في المعاجم المعروفة . (انظر Hunston (2002) Corpora in Applied Linguistics, 96-99)).

9-     إمكانية الاستفادة من المدونات في شتى فروع المعرفة اللسانية ، مثل اللسانية النفسية والاجتماعية والدراسات المعجمية والنحوية وتحليل الخطاب والتداولية ، كما سنبين لاحقا.

 

رابعا:  أنواع المدونات اللغوية:

 

1-     المدونة العامة : مثلا "مدونة اللغة العربية" و"المدونة الوطنية البريطانية" وغيرها.

2-     المدونة الخاصة بنوع من النصوص (شعر، نثر، قصة ، كتابة تقنية أو علمية ... ، جغرافية (بلد أو منطقة معينة) ، مؤلف ما، نص ما (القرآن الكريم مثلا) وهكذا.

3-     المدونة المقارنة أو المتشابهة comparable: في لغتين أو صورتين مختلفتين للغة واحدة (لهجتين).

4-     المدونة المتوازية parallel : تشتمل على مجموعة من النصوص المتماثلة بلغتين مختلفين (مثلا أحد النصين ترجمة للنص من لغة أخرى). وجدير بالذكر أن بعض مشروعات وبرمجيات الترجمة الآلية المبنية على أسس إحصائبة (مثل برمجيات شركة آي بي إم) تعتمد بشكل أساسي على هذا النوع من المدونات. كما أن هناك برنامجا متوافر على الشابكة لتطوير برمجيات الترجمة الآلية المبنية على المدونات المتوازية : Moses Statistical Machine Translation System (انظر قائمة المراجع.)

5-     مدونة المتعلمين learner (دارسي اللغة خاصة من غير أهلها). وتفيد هذه المدونات في تحليل أخطاء الدارسين من خلفيات ومستويات مختلفة ، من ثم تفيد أيضا في دراسات اكتساب اللغة الثانية. ومن أمثلة هذه المدونات :

Cambridge Learners' Corpus, Longman Learners' Corpus.  وللغة العربية مدونات للغة المتعلمين ، إحداها التي أنشأتها الباحثتان الماليزيتان (انظر Hassan, Haslina and Nurahihan Mat Daud   والأخرى تسمى "مدونة متعلمي العربية المكتوبة The L2 Written Arabic Corpus التي تم إنشاؤها في جامعة أريزونا بالولايات المتحدة الأمريكية بمركز المصادر التعليمية عن الثقافة واللغة ومحو الأمية (CERCLL)  . وتعتبر المدونة الثانية التي تتكون من 300 مقالة نموذجا لما يمكن أن يكون عليه هذا النوع من المدونات ، حيث يذكر الباحثون ما يلي عنها:

"تم وضع المقالات المطبوعة في قاعدة بيانات قابلة للبحث ، حيث تم وسمها بمستوى المتعلم (مبتدىء ومتوسط ومتقدم) ونوع المتعلم (دارس لغة ثانية أو التراث) ونوع النص genre (وصف وسرد وتعليمات)" (انظر:http://l2arabiccorpus.cercll.arizona.edu )

6-     المدونة التعليمية pedagogic: ويشمل ذلك جمع المواد التعليمية لمنهج ما في مدونة واحدة ، لأغراض تعليمية مختلفة . (انظر أيضا O'Keeffe, Anne, McCarthy, Michael and Carter, Ronald (2007) From Corpus to Classroom).

7-      مدونة تاريخية historical/ diachronic: ويعني ذلك اشتمال المدونة لنصوص من عصور مختلفة ، بصورة علمية متوازنة، للتعرف على التطور الذي طرأ على اللغة وعلى استعمالات ألفاظها ومعانيها وعلى تراكيبها إلى غير ذلك. وهذا النوع من المدونات يجب أن يكون الأساس لأي عمل معجمي تاريخي يعتمد على الاستقراء المنهجي ، بدلا من الاجتهادات الشخصية والحدس والتخمين. ومن أحسن الأمثلة لهذا النوع من المدونات : ARCHER و تشتمل على نصوص للإنجليزية البريطانية والأمريكية للفترة مابين 1650 حتى 1990 .

8-     المتابعة (النمو اللغوي) monitor . نجد أن بعض مؤسسات النشر المعجمي، مثل دار Collins ، تهتم بمثل هذا النوع من المدونات التي ترصد المستحدثات  عن طريق التحديث المنهجي للمدونة (قاعدة البيانات اللغوية) , وذلك بغرض تحديث معاجمها بين الفينة والفينة وإضافة ما مايدخل إلى اللغة من ألفاظ جديدة أو ملاحظة الاستعمالات الطارئة لبعض مداخل تلك المعاجم.

(انظر (Susan Hunson: 15-16)

9-     اللغة المنطوقة/ المحكية ، مثل نصوص هاتفية ، أو تعليقات إذاعية ، ومحادثات يومية . وهناك عدد محدود من هذه حتى للهجة العربية المصرية . ويجب التنبيه إلى الفرق بين المدونة البسيطة التي تحول النص المنطوق إلى نص مكتوب فحسب وبين المدونة التي تسجل بصورة دقيقة النص الشفوي (من حيث الوقفات والنبر والتنغيم ، كذلك مواقع الترردد والتكرار... إلى غير ذلك مما يحدث أثناء الكلام). ولكل نوع أغراضه وفوائده . (من أمثلة هذا النوع من المدونات:

Bergen Corpus of London Teenage English (COLT), Corpus of Spoken Professional English

CALLHOME Corpus  والأخيرة خاصة بمحادثات هاتفية باللهجة المصرية.

 

 هذا ويفضل أن تتوافر تسجيلات النصوص الصوتية للباحثين للرجوع إليها عند الحاجة.

10-مدونة اللغة المكتوبة، وهذا هو الغالب على المدونات اللغوية المختلفة . ولكن هناك مدونات تجمع بين اللغة المحكية والمكتوبة ، مثل "المدونة الوطنية البريطانية BNC"

11-مدونة خام : ويقصد بها المدونة التي تخلو من أية تحشيات annotations(صرفية أو نحوية أومعجمية مثلا). وينطبق هذا على معظم المدونات اللغوية المعروفة.

12-مدونة موسومة tagged: وهي المدونة التي بها تحشيات (صرفية أو نحوية أومعجمية مثلا)، حيث نجد وسما للكلمات مثلا ، يبين قسم الكلام الذي تنتمي إليه POS . ومن خير الأمثلة على هذا النوع من المدونات: Lancaster Parsed Corpus (مدونة لانكاستر المعربة).

(لمزيد من الأمثلة للمدونات الإنجليزية المختلفة ، أنظر "Corpus Resources" في كتاب English Corpus Linguistics: An Introduction). وللمدونات العربية ، ينظر: Latifa Al-Sulaiti "Arabic Corpora"

 

خامسا : مواصفات المدونات اللغوية :

 

من الأمور التي يجب أن تؤخذ بعين الاعتبار عند تصميم المدونات وتقويمها ما يلي:

 

أ‌-       الحجم الكبير (ويحسب بعدد كلمات المدونات) : وغالبا مايكون ذلك ملايين الكلمات للمدونات العامة. ولكن ذلك قد لاينطبق بالضرورة على المدونات الخاصة .

ب‌-  الشمول وتمثيل استعمالات اللغة representativeness: ويعني ذلك أن تشتمل المدونة على نصوص تمثل استعمالات اللغة المختلفة (الشفوية والمكتوبة) ، في ضوء الهدف من إنشاء المدونة. فلا تقتصر المدونة اللغوية على استعمال أو أسلوب أو منطقة جغرافية معينة مثلا.

جـ -  التوازن: أن يكون هناك توازن بين أنواع أو فئات النصوص والتخصصات وغير ذلك مما يشمله معيار التمثيل، فلا يطغى مؤلف أو لهجة أو جنس أدبي ... على غيره. (انظر:Biber, D., 2003. "Representativeness in corpus design" in: Literary and Linguistic Computing, 8/4: 243-57).

لأمثلة لتطبيق هذه المعايير ، انظر مثلا Biber, 2003; McEnery et al, 2006: 17. في وصفهم للمدونة الوطنية البريطانية British National Corpus وانظر أيضا مانورده أدناه عن مدونة براون Brown Corpus.

على سبيل المثال ، نجد أن مدونة براون الرائدة اشتملت على خمسمائة "نوع genre" مختلف من الكتابات المنقحة edited ، يمثل كل منها نص يتكون من 200 كلمة (المجموع : مليون كلمة من النصوص المنشورة). وفي المدونة الوطنية البريطانية ، تم التأكيد على أن "الكلام الذي يجمع يؤخذ من عينة تراعي التوازن من حيث العمر والجنس والطبقة الاجتماعية والمنطقة اللهجية " (Meyer, 2002: 18).

من الدراسات المهمة التي عالجت معايير تصميم المدونات اللغوية مقالة سو أتكنز وزميلاها بعنوان "معايير تصميم المدونة اللغوية Corpus Design Criteria " والذي نشرته مجلة الحوسبة الأدبية واللغوية (انظر: Atkins, Sue…, 1993 في قائمة المراجع). وكذلك مجموعة الدراسات التي وردت في الكتاب الذي حرره مارتن وين  Wynne بعنوان : تطوير المدونات اللغوية: دليل للممارسات الجيدة ( Developing Linguistic Corpora: a Guide to Good Practice) والذي يجمع بين دفتيه مقالات مهمة لعدد من رواد العمل في هذا المجال ، وقد صدر في العام 2005.

سادسا: بناء المدونة اللغوية:

 

من الأمور التي يجب أخذها بعين الاعتبار عند تصميم المدونة اللغوية ما يلي:

 

أ‌-       تحديد الهدف من المدونة.

ب‌-  تحديد أنواع النصوص المناسبة .

ت‌-  تحديد نسب كل نوع ، وفق أسس علمية أوشبه علمية.

ث‌-  البحث عن مصادر هذه النصوص (مطبوعة ، رقمية ، صوتية)

ج‌-    جمع النصوص من مصادرها المختلفة (انظر "وسائل جمع النصوص" أدناه.)

ح‌-    تحويلها إلى نصوص رقمية موحدة من حيث التشفير. (انظر "وسائل جمع النصوص" أدناه.)

خ‌-    وسم tagging النصوص (العنونة الصرفية والنحوية – كما يسميها صوالحة -تحديد قسم الكلام لكل لفظة مثلا)، إذا أمكن . جدير بالذكر أن بعض الباحثين يستخدمون مصطلح التحشية annotation بدلا من الوسم. (انظر أدناه الوسم الصرفي والوسم النحوي.)

في جميع الأحوال لابد من توافر حد أدنى للتعليقات أو التعليم  markup  على كل نص (المصدر، التاريخ ، المؤلف مثلا).

وتقدم لنا لطيفة السليطي وإريك أتويل دراسة مفيدة في تصميم مدونة للغة العربية المعاصرة. ((Al-Sulaiti, L and Atwell, E (2006).

سابعا:  وسائل جمع نصوص المدونة وتخزينها:

- النصوص الشفوية:

هناك عدة طرائق لتخزين النصوص الشفوية حاسوبيا: (1) تحويل النص إلى نص مكتوب باستخدام الإملاء التقليدي . ويمكننا استخدام برامج الإملاء الآلي لهذا الغرض ، مع ضرورة المراجعة الدقيقة لها. (2) كتابة النص كتابة صوتية ، أي باستخدام رموز بديلة للألفباء الصوتية phonetic alphabet. وهذا مطلوب في تخزين النصوص العامية أو اللهجية وكذلك لغة الطفل. (3) الكتابة الصوتية مع إضافة رموز للدلالة على الوقف والتردد وماشابه ذلك من ظواهر يتسم بها الكلام المنطوق والحوارات.

-         النصوص المكتوبة يدويا:

الوسيلة المعروفة هي تخزين النصوص يدويا عن طريق لوحة المفاتيح . ولكن يمكننا تخزين هذه النصوص نظريا على الأقل عن طريق الإملاء الآلي ، بقراءة النصوص واستعمال نظام تحويل النص الشفوي إلى نص مكتوب (كلام إلى نص speech-to-text).

-         النصوص المطبوعة:

هناك وسيلتان لتخزين هذه النصوص حاسوبيا: (1) الأسلوب التقليدي هو استخدام لوحة الطباعة/ المفاتيح في الحاسوب . أما الأسلوب الآخر فهو باستخدام قارئة المحارف البصرية (optical character reader (OCR) ) ، حيث يقوم البرنامج بمسح النص المطبوع ثم تحويله إلى نص رقمي. غيرأن هناك مشكلات تواجه هذه الوسيلة: (1) محدودية برامج قراءة المحارف البصرية من حيث تعاملها مع أبناط معينة (أي أشكال محدودة من الحروف) . (2) ضرورة الوضوح التام لحروف النص المطبوع. (3) وجود نسبة تقل أو تكثر من الخطأ في عملية قراءة المحارف ، مما يتطلب تدقيقا بشريا لهذه النصوص بعد تخزينها.

(من أمثلة هذا النوع من البرمجيات الجديرة بالتنويه عنها "القارئ الآلي" من إنتاج شركة صخر المعروفة ، والذي يتعامل مع الحروف العربية واللاتينية.)

-         النصوص الرقمية:

هناك عدة أنواع من النصوص المتاحة رقميا، لعل أهمها ما يلي:

-         النصوص الناتجة عن استخدام برمجيات معالجة النصوص/ الكلمات word processors.

-         النصوص المتاحة على الشابكة (الإنترنت) .

-         النصوص المتاحة في صورة PDF.

-         المواد المتاحة لدى شركات الطباعة والناشرين .

وتحتاج كل هذه النصوص إلى تحويلها إلى نصوص خالية من المعلومات الخاصة بالشكل format ، أي نصوص رقمية بسيطة    plain text، مع مراعاة توحيد الشفرة code المستخدمة ، لكي تتعامل معها برامج تحليل النصوص ، مثل المكشاف السياقي concordancer. كذلك يلاحظ ضرورة تحويل النص المتاح في صورة PDF إلى نص من الحروف قابل للتعديل عليه ، من خلال مايسمى بمحولة البي دي إف PDF converter 

ثامنا:  مصطلحات مهمة في مجال لسانيات المدونات :

نورد أدناه بعضا من أهم مصطلحات هذا العلم . ولمزيد من هذه المصطلحات ، ينظر (مصطلحات لسانيات المدونات اللغوية).

أ‌-       تعليم المدونة markup : إعطاء معلومات عن مصدر المدونة وتاريخ النص ومؤلف النص ونوع النص genre ويشمل الجنس الأدبي ... إلخ .ويكون ذلك خارج النص. لكن يلاحظ أن بعض الباحثين يستعملون المصطلح ليشمل جميع أنواع المعلومات التي تضاف إلى النص سواء في داخله أو خارجه ، مما يعنى اشتماله على التحشية والوسم.

ب‌-  التحشية annotation : إضافة معلومات في داخل النص ، مثل االوسم tagging. وهناك أنواع مختلفة للوسم ، منها:

(1) قسم الكلام (اسم ، فعل ، حرف). ويجدر ملاحظة أن التقسيم العربي التقليدي يجتاج إلى مراجعة وتفصيل أكثر عند وسم الكلمات ، حتى يكون التحليل أكثر فائدة ودقة. (انظر: محمود إسماعيل الصيني "نحو معجم عربي للتطبيقات الحاسوبية" وانظر تطبيقا عمليا لنوع جديد من التقسيم في المعجم الذي أعده بكوولتر وباركنسون Buckwalter and Parkinson ، وهما من رواد العمل في مجال مدونات اللغة العربية في الولايات المتحدة الأمريكية .

يجدر بالذكر أن كتب النحو العربي تزخر بمصطلحات تتعلق بتصنيف الكلمات العربية يمكننا الاستفادة منها ، من مثل : ضمير، اسم موصول ، اسم جامد ، اسم مشتق(اسم فاعل ، اسم مفعول ، صيغة مبالغة ، صفة مشبهة ، اسم آلة ، اسم مكان) ، اسم جمع ، اسم نوع ، اسم علم ، مصدر،ظرف (مكان ، زمان) ، فعل (لازم ، متعد لمفعول ، متعد لمفعولين ، ناقص ، ماض ، مضارع ، أمر...) , حرف (جر، نصب، جزم ، عطف ، نفي ...) . ويجب وسم الكلمات بمثل هذه التصنيفات لإجراء كثير من الدراسات المعجمية والنحوية. (انظر الدراسة الممتازة في هذا المجال لمجدي صوالحة. انظر أيضا Kais Dukes and Nizar Habash "Morphological Annotation of Quranic Arabic" في قائمة المراجع.)

(2) الوسم النحوي أو الإعرابي (لبيان الوظيفة النحوية / الحالة الإعرابية (مبتدأ، فاعل، مسند إليه ...)

مثالان للوسم الإعرابي:

الجملة : الإيمان نور القلوب

الوسم الإعرابي : (مب (الإيمان) خب ( مض (نور) مض إل (القلوب)))

الشرح:

الإيمان = مبتدأ

نور القلوب = خبر

نور= مضاف

القلوب= مضاف إليه

المستوى الأول : الإيمان (مبتدأ) + نور القلوب (خبر)

المستوى الثاني: نور (مضاف) + القلوب (مضاف إليه)

الجملة : الإيمان ينير القلوب

الوسم الإعرابي: (مب (الإيمان) خب (فع (ينير) مف (القلوب)))

الإيمان = مبتدأ

ينير القلوب = خبر

ينير = فعل

القلوب = مفعول به

المستوى الأول : الإيمان (مبتدأ) + ينير القلوب (خبر)

المستوى الثاني: ينير (فعل) + القلوب (مفعول به)

من يرغب في الاطلاع على مزيد من المعلومات والأمثلة ، يمكنه الرجوع إلى الدراسة التي تمت في جامعة ليدز البريطانية (انظر: Kais Dukes, Eric Atwell and Abdul-Baqee Sharif, "Syntactic Annotation Guidelines for the Qur'anic Arabic Dependency Treebank") ، كذلك الدراسة التي يقوم بها فريق من الباحثين في جامعة كولومبيا الأمريكيةHabash, Nizar, Reem Faraj and Ryan Roth. "Syntactic Annotation in the Columbia Arabic Treebank" ).

(3) الوسم الدلالي : المحددات الدلالية (مثلا: لكلمة "عين" : البصر، الماء، توكيد).

أساليب الوسم المختلفة:

أما طريقة الوسم فيستحسن اتباع مايعرف بلغة التعليم المعيارية العامة  General Standard Markup Language (GSML). لأمثلة تطبيقيةعلى اللغة العربية ، انظر الدراسات المشار إليها أعلاه عن مشروعات جامعة ليدز البريطانية وجامعة كولمبيا الأمريكية: درسات ديوكز وزملائه وحبش وزميليه .

ومن الأمثلة على أساليب الوسم المختلفة استخدام القوس المثلث <> قبل وبعد الجزء المطلوب تعليمه. مثلا، لبيان أن النص من الشعر الأموي نكتب: <شعر أموي> أبيات من الشعر الأموي <شعر أموي/> ، حيث تشير المعلومات بين القوسين المثلثين إلى أن النص من الشعر الأموي ، كما تبين المعلومات بداية النص ونهايته . ومن الأمثلة الأخرى استخدام الأقواس المربعة ، مثلا [S….S] للدلالة على بداية الجملة ونهايتها.

لا بد من التأكيد على ضرورة بيان حدود العبارات التي تزيد عن كلمة واحدة للتعرف على بداية العبارة ونهايتها. وهذا ينطبق على التعبيرات الاصطلاحية والأمثال والأفعال المتعدية بحروف وماشابها، إذا أردنا للحاسوب أن يعيننا في حصرها وإحصائها آليا.

ويمكننا وسم الكلمات بطريقة بسيطة ، مثل : كتب-س ، كتب-ف للتمييز بين الكلمة بوصفها اسما وبوصفها فعلا ، وذلك في غياب برنامج للتحليل الصرفي.

يذكر Bowker and Peason (2002)  أن هناك نظاما يسمى معيار تشفير المدونة Corpus Encoding Standard (CES) اتفق عليه الباحثون في أوربا وأمريكا لتعليم النصوص وتحشيتها ، تنقسم إلى ثلاث فئات هي:

(أ) التوثيق ، ويقصد به الإشارة إلى معلومات ببليوغرفية عن النص ولغته ، مثلا.

 (ب) بيانات أساسية: وتشمل معلومات عن مكونات النص ، مثل الفقرات والعناوين والهوامش ... ألخ ، إضافة إلى معلومات عن الرسومات graphics .

(جـ) تحشية لغوية : وتشمل المعلومات اللغوية داخل النص ، مثل سمات الكلمات الخاصة بقسم الكلام part of speech والمعلومات الخاصة بالخطاب والوسم النحوي والوسم الدلالي ...

جدير بالذكر أن مفهوم التعليم markup وكذلك نظام/ لغة ال SGML مطبقان على بعض النصوص المتوافرة على الشابكة  internet ، باسم HTML, XML. ويعني HTML (hypertext markup language ) "لغة تعليم النص التشعبي" ويعني XML (extended markup language) لغة التعليم الموسعة".  (انظر Bowker and Peason (2002): 80 -89).

تاسعا : أمثلة لمدونات للغة العربية والإنجليزية:

قبل أن نعطي وصفا لبعض المدونات ، أود الإشارة إلى الدراسة القيمة للدكتور عبدالرحمن حاج صالح ، أستاذ اللسانيات الجزائري الذي يعتبر بحق أول من دعى إلى إنشاء مدونة للغة العربية تسمى ذخيرة اللغة العربية منذ عدة عقود. وقد نشرت الدراسة في مجلة اللسان العربي التابع لمكتب تنسيق التعريب في العدد 48 (1999). ونورد أدناه أهداف المشروع ومواصفاته كما وردت في الدراسة المذكورة:

"أ- أهداف المشروع:

يرمي مشروع الذخيرة اللغوية العربية إلى إنجاز ما يلي:

1.     بنك آلي للغة العربية المستعملة بالفعل (بنك نصوص)

2.     معجم آلي جامع للغة العربية مع المقابل الفرنسي والإنكليزي يستخرج من البنك الألي المذكور (معجم مفردات).

"ب – مواصفات المشروع:

سينجز البنك الآلي (أو الحاسوبي) للمعطيات النصية انطلاقا من الاستعمال الحقيقي للغة العربية ليضم:

1-     المؤلفات ذات القيمة الكبيرة في الآداب والعلوم والتكنولوجيا وغيرها، القديمة منها والحديثة،

2-     المحاضرات الجامعية القيمة المنشورة،

3-     المقالات ذات القيمة المنشورة في المجلات الأدبية والعلمية والبحوث القيمة المعروضة في الندوات والمؤتمرات والموائد المستديرة وغيرها،

4-     جميع المعاجم العربية والمزدوجة اللغة القديمة والحديثة (مثل لسان العرب والمعجم الكبير الحديث وغيرهما). والغرض من بنك النصوص الآلي هو أن يكون قاعدة معطيات دائمة بحيث تقبل الزيادة والتصحيح على الدوام بسبب تطور المعلومات من خلال الاستعمال الحقيقي للغة العربية وبالتالي أن تصير المصدر الأساسي لإنجاز المعجم الجامع للغة العربية الذي سيحرره العلماء وخاصة أعضاء المجامع العربية وإنجاز العدد الكبير جدا من الدراسات والبحوث في اللغة العربية ، زيادة على ذلك..." (عبدالرحمن الحاج صالح (1999).

 

(1) مشروع معجم التلميذ (السعودي):

 

الهدف : تأليف معجم للتلميذ في المرحلتين المتوسطة والثانوية.

- مكونات المدونة:  في ضوء ما رأت اللجنة هي النصوص التي يتعرض لها التلميذ  في المرحلتين المتوسطة والثانوية، وتشمل ما يأتي:

المواد الدراسية.

-         القرآن الكريم

-         الحديث النبوي الشريف (رياض الصالحين)

-         نماذج أدبية عامة

-         صحف ومجلات شباب

-         برامج إذاعية ومتلفزة شبابية

-         كتابات الطلاب. نصوص المدونة مصنفة (حسب النوع والمصدر والمستوى)

المجموع : ثلاثة مليون كلمة

 

2) المدونة اللغوية العربية (المدونة العربية):

لاشك أن هذه المدونة تعتبر أكبر مدونة مفتوحة للغة العربية وأكثرها تنوعا من حيث النصوص والمصادر.

نورد أدناه النبذة الرسمية عن المدونة من موقعها:

 

Top of Form

تعريف بالمشروع:

عزيزنا الزائر، مرحبا بك في موقع المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنية أو (المدونة العربية)، إحدى المشاريع الاستراتيجية لمبادرة الملك عبدالله للمحتوى العربي. يهدف المشروع إلى بناء مدونة لغوية عربية تحوي سبعمائة مليون كلمة مما دون بالعربية ابتداءًا من العصر الجاهلي وحتى العصر الحديث ومن مختلف المناطق والبلدان مع الاخذ بنظر الاعتبار طبيعة وحجم النشاط الفكري لكل فترة و تنوع أوعية النشر فيها(مخطوطات، صحف، كتب، مجلات، دوريات علمية، ...) و السائد من المجالات العلمية والفكرية المختلفة (المعتقدات، علوم العربية، العلوم الطبيعية، الادب، ...). كما يشمل المشروع بالإضافة الى المادة اللغوية المصنفة، انشاء موقع للمدونة على الانترنت بالإضافة الى أدوات للبحث والتحليل اللغوي والإحصائي تعزز الإستفادة من مواد المدونة. موقعنا لازال تحت التطوير والاختبار. يسعدنا تواجدك واستقبال ارائك ومقترحاتك بخصوص المدونة وادواتها..

2. ماهي المدونة اللغوية:

المدونة اللغوية هي (نصوص الكترونية تجمع لغرض معين بناء على معايير خارجيه). والمقصود بالمعايير الخارجية أي المعايير التي ليس لمحتوى النص علاقة بها، مثل اوعية النشر أو تاريخ النشر. وبعبارة اخرى اننا نضع المعايير التي تناسب الغرض ثم نبحث عن النصوص التي تحقق هذه المعايير بغض النظر عن المحتوى. وتختلف الاغراض التي على اساسها تبنى المدونة. فالمدونات في الأساس تبنى لدراسة اللغة او لبناء النماذج الحاسوبية لها.

ومما يجدر الاشارة اليه ان المدونة اللغوية ليست مكتبة اليكترونيه لاستعراض وقراءة النصوص. وليست هي اللغة كلها بل هي نموذج ممثل للغة اذا اُحسن تصميمها مع اختلاف بين المهتمين والدارسين للمدونات اللغوية فيما اذا كان بإمكان المدونات أن تمثل اللغة وبالتالي فأنه يمكن من خلالها إصدار الأحكام أو بناء النماذج الحاسوبية للغة. فالمدونات في رأي البعض لا تمثل اللغة بل تمثل نفسها فقط وأن أي احكام او نماذج تبنى انما هي صحيحة بالنسبة للمدونة. ولكن ما يهم في دراسة اللغة او حتى في بناء النماذج الحاسوبية لها، هو الأنماط المتكررة على المستوى اللفظي أو النحوي أو الصرفي أو حتى الدلالي منها. هذه الأنماط يمكن ان توجد وأن تتضح صورها – إن كانت موجوده – في عينة من اللغة نفسها والتي هي المدونة اللغوية، وتزداد فرص ظهورها والقطعيةُ بحجية الاستدلال بها كلما زاد عدد كلمات المدونة وتنوعت أوعيتها وموضوعاتها. وهذا هو شأن العلوم التطبيقية التي تكتسب نتائج ابحاثها اهميتها من حجم عينات الدراسة وتنوعها والانماط التي تظهر فيها.

 

3. تصميم المدونة العربية :

إن مدونة مدينة الملك عبدالعزيز للعلوم والتقنية ، ستكون أكبر وأضخم مدونة لغوية للعربية. وهي في مرحلتها الاولى تسعى لجمع سبعمائة مليون كلمه وسوف يزداد حجمها الى ان تصل الى بليون كلمه في مرحلة لاحقة ان شاء الله. راعي تصميم المدونة اللغوية العربية لمدينة الملك عبدالعزيز للعلوم والتقنية، عدة معايير خارجية لاختيار نصوص المدونة تعتمد على خمس ركائز أساسية هي البعد الزمني، والبعد الجغرافي، والوعاء المعلوماتي، و المجال المعرفي والتصنيف الموضوعي. إضافة الى هذا فإن المدونة في مرحلتها الحالية هي للنصوص المكتوبة والكاملة فقط ولا تحوي أي نصوص منطوقه مثل الحوارات التلفزيونية أو الخطابات السياسية أو أي نصوص غير مكتملة مثل فصل من كتاب او جزء من مقال.

 

3.1. البعد الزمني

أول المعايير التي تم مراعاتها هو عامل الزمن أو البعد التاريخي والذي يمتد من عصر ما قبل الإسلام وحتى عصرنا هذا والذي اثر على الوعاء أو الصورة التي ظهر فيها النص وكذلك على حجم النصوص المطلوب جمعها لكل فترة زمنيه والذي كان على هيئة دالة أسية تتناسب مع تطور المعارف والعلوم والتدوين الخاص باللغة العربية بحيث يزداد عدد كلمات المدونة كلما قربنا من العصر الحديث ويزداد تنوع صورها معه كذلك. الشكل 1 يوضح توزيع محتوى المدونة على الأوعية و الشكل 2 والجدول 1 يوضح توزيع محتوى المدونة على الفترات الزمنية كما يوضح التوزيع الأسي لمواد المدونة على الفترات الزمنية.

 






3.2. البعد الجغرافي

ويقصد به المكان الذي صدر منه النص. ولأن المدونة تعنى باللغة العربية بمجموعها وتحاول ان تكون ممثلة للغة ومتغيراتها فإنه لم يتم تحديد بلد عربي بعينه لجمع النصوص بل ان المطلوب هو تنوع البلدان والكّتاب أو المؤلفين ويسعى تصميم المدونة لجمع النصوص من جميع البلدان والمناطق العربية قديما وحديثا كما أن التصميم لا يمنع ضم أي نص مكتوب باللغة العربية من أي بلد كان بحيث لا يطغى بلد او منطقة على بقية البلدان او المناطق قدر الإمكان.

3.3. أوعية النشر:

هذا هو البعد الثالث لتصميم المدونة. حيث تم إختيار ما يناسب كل فترة زمنية وما كان سائدا فيها من علوم ومعارف وما كان اكثر انتشارا وتداولا بين الناس من أوعية للنشر وما تكون لغته مناسبة ورصينة. فمثلا تم استبعاد المنتديات الحوارية و صفحات الانترنت الخاصة والتي يغلب عليها هذا الوقت اللهجات الدارجة ولا تتقيد باللغة العربية الفصحى. وتم إختيار عشرة اوعية للنشر وهي المخطوطات المحققة ، الصحف، المجلات، الكتب، الرسائل الجامعية، الدوريات المحكمة، الإصدارات الرسمية، وكالات الأنباء، الانترنت والمناهج الدراسية. وتم اختيار هذه الأوعية بناء على انتشارها وتأثيرها و رصانة لغتها. وكل فترة زمنية من فترات المدونة لها ما يناسبها من هذه الاوعية. الجدول 2 يوضح توزيع محتوى المدونة على اوعية النشر والفترات الزمنية.


3.4. المجال المعرفي:

يندرج تحت كل وعاء من الاوعية المختارة مجالات مناسبة له، تحدد مجال النص وسمته العامة. ففي الصحف على سبيل المثال هناك مجالان رئيسان هما الأخبار والمقالات. وفي المخطوطات المحققة وفي الفترة التي كتبت فيها هذه المخطوطات كان هناك مجالات عامه مثل العقائد والفقه واصوله وعلوم اللغة وغيرها بما يناسب كل فتره. وينطبق هذا على كل وعاء من الأوعية. وهذا البعد يعطي المدونة فرصة اكبر لإيضاح الاختلافات بين كل مجال واخر وفترة واخرى كما يوضح ايضا تنوعها وتمثيلها للغة بشكل اكبر.

3.5. التصنيف الموضوعي

يندرج تحت كل مجال من المجالات المخصصة للأوعية عدة مواضيع تفصل المجال وتوضح تنوعاته الادق وتظهر الثراء والتنوع في كل مجال ووعاء. ففي وعاء الصحف وتحت مجال الاخبار هناك عدة مواضيع مثل الاخبار الاجتماعية، الاخبار السياسية، الاخبار الرياضية ، الاخبار الاقتصادية ،.....الخ. وفي وعاء المخطوطات المحققة وتحت مجال اصول الفقه هناك عدة مواضيع مثل اصول الفقه الشافعي ، اصول الفقه الحنبلي، اصول الفقه المالكي، اصول الفقه الحنفي وأصول الفقه الاثنا عشري. يعطي هذا البعد تنوعا وثراء وتخصصا اكثر لنصوص المدونة مما يجعل الفائدة اكبر منها بحيث يجد الدارس ما يناسبه لاختياره ودراسته ومقارنته.

معلومات عامة عن المدونة

·         عدد الكلمات الكلي =   739,119,011

·         عدد الكلمات بدون تكرار = 7,464,396

·         العدد الكلي للنصوص = 950,478 ً

·         العدد الكلي للمؤلفين = 1,900 مؤلفاً

 

أدوات المدونة:

 

"توفر أدوات المدونة الوظائف التالية للمستخدم

1. البحث: حيث يتم البحث عن الكلمة وتظهر النتائج كما تظهر في أي محرك بحث مع اعطاء معلومات عن النص الذي ظهرت فيه الكلمة مع امكانية استخدام محددات البحث الواضحة أعلى صفحة البحث .

2. تكرار الكلمة: توضح هذه الاداة توزيع الكلمة على الأوعية أو الفترات الزمنية ويمكن الاستفادة منها للمقارنة بين استخدام مجموعة من الكلمات او معرفة الفترات التي ظهرت أو اندثرت فيها لفظة بعينها

3. التوافق: تستخدم هذه الاداة لتتبع معاني الألفاظ من خلال السياق الذي تظهر فيه هذه الكلمة كما يمكن استخدام الأداة لدراسة اختلاف وتغير معاني الكلمات حسب الأوعية أو الفترات الزمنية

4. النص: استعراض المعلومات الأساسية لنصوص المدونة و إستعراض تكرار كلمات كل نص على حدة

5. إحصائيات: معلومات عامة عن توزيع محتوى المدونة إحصائياً على الأوعية و الفترات الزمنية والمناطق الجغرافية

6. الكلمات الأكثر تكراراً: استعراض الكلمات العشرة آلاف الأكثر تكراراً في المدونة "

 

(المصدر: الموقع الرسمي للمدونة اللغوية العربية لمدينة الملك عبد العزيز للعلوم والتقنية  www.kacst.org.sa).

Bottom of Form

 

 (3) مثال : مدونة براون Brown Corpus :

نظرا لأن البعض يرى أسبقية هذه المدونة ولتأثيرها على كثيرمن مدونات اللغة الإنجليزية خاصة ، رأينا أن نعطي تعريفا بها أدناه.

- نشر الكتاب الخاص بهذه المدونة وبعض نتائج دراستها في عام 1967 (للإنجليزية الأمريكية). - الهدف : دراسة اللغة الإنجليزية الأمريكية المعاصرة. ونقرأ في دليل المدونة المنقح والموسع في عام 1979بعض التفاصيل المهمة التالية:

"تشتمل هذه المدونة المعيارية للغة الإنجليزية المعاصرة من 1.014.312 كلمة من النثر الإنجليزي المنقح المنشور في الولايات المتحدة في العام 1961. وقد حاولنا التثبت قدر الإمكان من كون المؤلفين من الناطقين الأصليين للإنجليزية الأمريكية . ...

"تم التوصل إلى الفئات الرئيسة وفروعها في مؤتمر عقد في في جامعة براون في فبراير 1963. كذلك قدم المشاركون في المؤتمر آراءهم الخاصة بخصوص عدد العينات في كل فئة ، ثم استخرج المتوسط لهذه الأرقام واستخدمت في المدونة . هذا وقد أجريت تغييرات طفيفة في وقت لاحق في ضوء التجربة العملية في اختيار العينات. كذلك تم تقسيم العينات إلى فئات أدق بناء على نسب النشر الحقيقي في العام 1961."

(Brown Corpus Manual, 1979: 1)

المحتوى : اشتملت على حوالي مليون كلمة بالشكل التالي:

1-     تم تحديد أنواع النصوص المطلوب اختيار عينات منها والفترة الزمنية، في ضوء مناقشات مؤتمر عقد لهذا الغرض ، كما ذكر أعلاه. وقد قسمت العينات إلى ثمانية عشر فئة رئيسة ، تندرج تحت كل فئة عدد من الفروع.

2-     الفترة كانت عاما واحدا ، هي العام 1961.

3-     النصوص: 500 نص لتمثيل الأنواع المختلفة المذكورة أدناه . ويشير مؤلفا الدليل إلى أنه تم استبعاد الشعر لخصوصية لغته وكذلك الأعمال المسرحية (لأنها تمثل نوعا من اللغة المحكية) ، حيث إن الهدف كان دراسة لغة النثر فحسب.(مقدمة الدليل).

4 - تم اختيار2000 كلمة من كل نص.

نورد أدناه ترجمة لفئات النصوص الرئيسة والفرعية الخمسمائة كما وردت في دليل المدونة:

أولا: النثر الإعلامي/ المعلوماتي 374 عينة.

أ- تقارير صحفية:

سياسية 10 يومية + 4 أسبوعية

رياضية 5 يومية + 2 أسبوعية

اجتماعية 3 يومية

أخبار مهمة 7 يومية + 2 أسبوعية

مالية 3 يومية + 1 أسبوعية

ثقافية 5 يومية + 2 أسبوعية

المجموع 44 عينة

 

ب- صحافة : التحرير

مؤسساتية 7 يومية + 3 أسبوعية

شخصية 7 يومية +  3 أسبوعية

خطابات إلى رئيس التحرير  5 يومية +  2 أسبوعية

المجموع 27 عينة

 

جـ - صحافة: نقد (المسرح، الكتب، الموسيقى ، الرقص)

14 يومية + 3 أسبوعية

المجموع 17

 

د- دين:

كتب 7

6 دوريات

مختارات tracts 4

المجموع : 17

 

هـ - مهارات وهوايات:

كتب 2

دوريات 34

المجموع 36 عينة

 

و- أدب شعبي

كتب 23

دوريات 25

المجموع 48 عينة

 

ز- أدب راق وسير ذاتية ومذكرات ... إلخ.

كتب 38

دوريات 37

المجموع  75 عينة.

 

ح – منوعات:

وثائق حكومية 24

تقارير مؤسسات 2

تقارير صناعية 2

دليل جامعي 1

صوت مؤسسة صناعية 1

المجموع 30 عينة.

 

ط – علوم:

علوم طبيعية 12

طب 5

رياضيات 4

علوم اجتماعية وسلوكية  14

علوم سياسية وقانون وتربية 15

إنسانيات 18

تقنية وهندسة 12

المجموع 80 عينة.

 

ثانيا: نثر خيالي : 126 عينة.

ي – رواية عامة:

روايات 20

قصص قصيرة 9

المجموع 29 عينة.

 

ك- قصص بوليسية:

روايات  20

قصص قصيرة  4

المجموع  24 عينة

 

ل- الخيال العلمي

روايات  3

قصص قصيرة  3

المجموع  6

 

م- مغامرات وقصص الغرب الآمريكي (الكاوبوي):

روايات  15

قصص قصيرة  14

المجموع  29  عينة

 

ن- قصص الرومانسية والحب:

رواية  14

قصص قصيرة  15

المجموع   19

 

س- الفكاهة:

رويات  3

مقالات وماشابه  6

المجموع  9

 

العدد الإجمالي للعينات :  500 عينة .

جدير بالذكر أن المدونة المذكورة متاحة في خمس نسخ ، بنفس المحتوى اللغوي ولكن مع اختلافات في بعض الجوانب الإضافية لعل من أهمها ماأضيف إلى النسخة C من وسم نحوي للكلمات (معلومات تتعلق بأقسام الكلام الرئيسة والفرعية). انظر دليل المدونة. (القسم "4: النسخة الموسومة 4. The Tagged Version" من دليل مدونة براون .)

 

4-    بعض مدونات اللغة العربية المعروفة :

لا شك أن أفضل حصر للمدونات العربية إلى عهد قريب هو ما قامت به الباحثة لطيفة السليطي من جامعة ليدز Al-Sulaitie, Latifa(2010). Arabic Corpora. غير أن القائمة مكتوبة باللغة الإنجليزية.

(انظر الملحق الخاص بقائمة المدونات اللغوية العربية المشهورة ، وتشمل ترجمة لقائمة لطيفة السليطي، متبوعة بقائمتين إضافيتين نلحقهما بالقائمة المذكورة ، وتشمل عددا من المدونات الموسومة.)

لكن لابد لنا من الإشارة إلى مدونتين خاصتين بشركات عربية ، غالبا لأغراضها الخاصة، هما مدونة شركة صخر (انظر عبد الغني أبو العزم "اللغة العربية والمعالجة الآلية: برامج صخر نموذجا")  الذي يذكر فيه أنه يتوقع أن يصل حجم ما أسماه "مكنز صخر"  إلى 500 مليون كلمة، كما يعطي أبو العزم تفاصيل مهمة عن هذه المدونة وطرق استفادة الشركة منها). فيما يلي نورد وصفا لهذه المدونة:

يذكر أبوالعزم في دراسته عن مدونة صخر اللغوية أن أهم معايير اختيار نصوص المدونة المذكورة كانت:

أ - التركيز على النصوص الأدبية والدينية ذات الطبيعية السردية.

ب - انتقاء نصوص معبرة تاريخيا بما فيها نصوص ذات أساليب مجازية.

ج - تجنب النصوص الحوارية.

د - إبعاد النصوص الشعرية نسبيا.

لقد أفرزت هذه المعايير في البداية مصادر أساسية نذكر من بينها.

أ - القرآن الكريم.

ب - كتب السنة (صحيحا البخاري ومسلم، ومسند أحمد وموطأ مالك، وسنن الترمذي وأبي داود والنسائي والدارمي).

ج – كتب معرفية وأدبية سردية تتضمن موضوعات مختلفة.

د – مقالات متنوعة مأخوذة من صحف ومجلات عربية ذات انتشار واسع، ولقد روعي في اختيار النصوص الأدبية الصفة التمثيلية لمؤلفيها على نطاق أقطار العالم العربي.

 أما المدونة الأخرى الخاصة فهي مدونة اللغة العربية الخاصة بشركة ATA  بإدارة عدنان العيدان الذي ذكر لي منذ أكثر من عامين أنه يتوقع أن يصل حجم مدونة شركته إلى حوالي ملياري كلمة.

ومن مشروعات المدونات العربية الطموحة المدونة العربية الدولية International Corpus of Arabic التابع لمكتبة الاسكندرية ، وهي مدونة للعربية المعاصرة تطمح إلى بناء مدونة قوامها مائة مليون كلمة. (انظر Al-Ansary, Sameh, Nagi, Magdy and Adly, Noha في قائمة المراجع.)

 

ونظرا لأهمية المدونة اللغوية الدولية للغة العربية ، وهي الأحدث من نوعها ، نورد أدناه تعريفا بها كما وردت في موقعها:

1. هدف المدونة اللغوية العربية العالمية


مرحبا بكم في موقع المدونة اللغوية العربية العالمية لمكتبة الإسكندرية. مكتبة الإسكندرية هي إحدى المؤسسات المصرية العالمية التي تلعب دورا ملحوظا في نشر الثقافة والمعرفة ودعم الأبحاث العلمية، وقد قامت بدعم بناء المدونة اللغوية العربية العالمية التي هي إحدى المحاولات الحقيقية الطموحة لبناء مدونة لغوية للعربية المعاصرة تحوي 100 مليون كلمة محللة صرفيا ونحويا ودلاليا، وقد روعي فيها أن تكون ممثلة لقطاع إقليمي كبير من الدول الناطقة باللغة العربية المعاصرة وعاكسة بشكل حقيقي وواقعي لأنماط استخدام اللغة العربية المعاصرة في أنحاء العالم العربي. بمجرد الانتهاء من بناء المدونة ستكون أول مدونة محللة ومتاحة كمورد لغوي للباحثين بصفة عامة والباحثين اللغويين بصفة خاصة لتفيد في وصف نظريات اللغة من خلال الاستخدام الواقعي للكلمات.

2. تخطيط المدونة اللغوية العربية العالمية


لقد روعيت العديد من الأمور المرتبطة ببناء المدونة مثل التمثيل الجيد للنصوص في العربية المعاصرة والتنوع في فئات النصوص ومحتواها والتوازن بين كل فئة من النصوص وحجم الكلمات المجمعة في كل فئة من فئات التجميع. عند النظر إلى تمثيل العربية المعاصرة داخل المدونة نجد أن الاهتمام الأساسي هو التغطية والتمثيل الواقعي لمختلف المصادر من كل المجتمعات العربية. فشملت المدونة عددا من المصادر والفئات المختلفة للنصوص وذلك بهدف تحقيق شروط التمثيل الجيد ومدى انتشار المصدر أو الفئة، والتوازن بين كل مصدر وكل فئة، وحجم الكلمات في كل مصدر وفئة.

ونجد أن تصميم المدونة اعتمد بالأساس على البدء بحصر المصادر المختلفة، وداخل كل مصدر تم إدراج الفئات المميزة له. وقد تم حفظ النصوص داخل المدونة بطريقة هرمية من خلال تسمية النصوص بطريقة توضح العديد من المعلومات مثل المصدر والفئة وتاريخ النشر.

لقد تم الأخذ في الاعتبار العديد من الأمور عند تجميع المدونة مثل عدد الفئات المتضمنة داخل المدونة، وعدد النصوص داخل كل فئة من هذه الفئات، بالإضافة إلى متوسط عدد الكلمات داخل كل نص. تبعا لطبيعة كل مصدر من مصادر التجميع.

3. تصميم المدونة اللغوية العربية العالمية


  • يوجد أربعة مصادر أساسية: الصحافة والمقالات الإلكترونية والكتب والدراسات الأكاديمية.
  • المصدر الخاص بالصحافة منقسم إلى ثلاثة مصادر فرعية: الجرائد والمجلات والصحافة الإلكترونية.
  • يوجد إحدى عشرة فئة على مستوي المدونة: العلوم الاستراتيجية والعلوم الاجتماعية والرياضة والدين والأدب والعلوم الإنسانية والعلوم الطبيعية والعلوم التطبيقية والفنون والثقافة والسير الذاتية والنصوص المتنوعة.
  • يوجد أربع وعشرون فئة فرعية: سياسة وقانون واقتصاد واجتماع ودين إسلامي ودين مسيحي وأديان أخرى ودين مقارن وقصص وشعر ونثر ودراسات لغوية وأدبية وطب وهندسة وزراعة وتكنولوجيا وعلم الأحياء وعلم الفيزياء وعلم الفضاء وعلم الجيولوجيا والبيئة وعلم الكيمياء وعلم النفس وعلم الفلسفة وتاريخ.
  • يوجد أربع فئات فرعية من فئة القصص الفرعية: روايات وقصص قصيرة وقصص أطفال ومسرحيات.
  • تغطي المدونة جميع المنشورات داخل الوطن العربي وكذلك بعض المنشورات العربية المنشورة خارج الوطن العربي

4. تحليل المدونة اللغوية العربية العالمية


تشمل هذه المرحلة حاليا التحليل الصرفي لكل كلمة موجودة داخل المدونة، وقد تم في هذه المرحلة تحليل المدونة بطريقة آلية مبنية على بعض الطرق الإحصائية وبعض القواعد اللغوية بالاعتماد على أحد المحللات الصرفية الشهيرة - تيم باك والتر (Tim Buckwalter) - حيث يوضح التحليل الصرفي عدد من المعلومات كالسوابق واللواحق قسم الكلمة وساقها وجذعها وجذرها ووزنها الصرفي بالإضافة إلى نوع الكلمة من حيث الجنس والعدد والتعريف تبعا للسياقات المختلفة للكلمات داخل كل نص.

 

عاشرا: متطلبات التعامل مع المدونات:

 

تتطلب الاستفادة المثلى من المدونات مايلي:

 

- محرك بحث search engine: وهذا أبسط برنامج يفيد الباحث في العثور على الكلمات في سياقات مختلفة . وينبغي التنبيه إلى أن البرنامج قد يكون بسيطا بحيث ينظرإلى الكلمة بمعناها الحاسوبي (حسب الشكل فقط) ، وهو البرنامج المتوافر حاليا مع "مدونة اللغة العربية" التابع لمدينة الملك عبدالعزيز للعلوم والتقنية ، أو يكون متظورا بحيث يشمل تحليلا وتركيبا صرفيا ، حيث يمكن البحث بالجذر مثلا أو بالجذع ، ويورد البرنامج الكلمة في صورها المختلفة . وهذا النوع الأخير متوافر مع مدونة اللغة العربية التابعة لجامعة بريغهام يونغ Brigham Young University (BYU) في ولاية يوتا الأمريكية. (انظر:

ArabiCorpus: arabic corpus search tool ).

- برنامج المكشاف السياقي   concordancer، لإعداد الكشاف السياقي – أي قائمة بألفاظ النص/ المدونة في سياقاتها (مايسمى بالإنجليزية Key Word in Context (KWIC) ، بترتيبات مختلفة:

1- الأصل: كلمات مفتاحية key word  مسبوقة ومتبوعة بعدد من الكلمات ، حسب ورودها في المدونة . ولكن يمكننا أن نطلب من البرنامج أن

2- يجعل ترتيب أسطر الكشاف بناء على الكلمةالمفتاحية وما يسبقها مباشرة  <...قرأت كتابا ....، ...عندي كتاب...> . ويسمى الترتيب الموجه يمينا right sorted

3- أو بناء على الكلمةالمفتاحية ثم ما يتبعها مباشرة <... كتاب جديد...،  كتاب يتحدث عن ...> ويسمى الترتيب الموجه يسارا left sorted . ويجدر بالذكرأن ربط الكلمتين "يمين" و"يسار" بالسابق واللاحق يختلف في العربية عن المفهوم في اللغات الأوربية التي تتجه الكتابة فيها من اليسار إلى اليمين.

هذا ويمتاز المكشاف السياقي بإمكانات مهمة كثيرة ، يجعله يختلف عن محرك البحث التقليدي ،  مثل إحصاء التكرار وترتيب كلمات المدونة وفق شيوعها (تنازليا أو تصاعديا ، أي بدءا بالأشيع أو بالأقل شيوعا)، إضافة إلى العمل الأساسي لها ، وهو إيراد الكلمات في سياقاتها .

من أمثلة المكشاف السياقي برنامج aconcorde الذي أعده مجموعة من الباحثين في جامعة ليدز البريطانية ، ويعمل مع النصوص العربية والإنجليزية  . وبرنامج Word Smith ، وهو برنامج متطور من إعداد مطبعة جامعة أكسفورد Oxford University Press .

- برنامج محلل صرفي morphological analyzer (للتعرف على الصورة الأساسية للكلمة – الجذع- وكذلك الجذر والوزن)، وكذلك للفصل بين السوابق واللواحق المتصلة بالكلمات ، مثل بعض حروف الجر والعطف المتصلة بالكلمة ، وغير ذلك.

- برنامج لتحديد قسم الكلام part of speech الذي تنتمي إليه الكلمات ، ما يسمى بالإنجليزية POS tagger في غياب ذلك يحتاج الباحث إلى عمل ذلك يدويا ، إذا كانت هناك حاجة لذلك .

- برنامج تشكيل آلي (يعتمد على الإعراب   parsingاي تحديد وظيفة الكلمة النحوية) . ويسمى برنامج الإعراب parser (أي المعرب).

 

جدير بالذكر أن للباحثة لطيفة السليطي في جامعة ليدز دراسة مسحية ممتازة لأنواع البرمجيات المتاحة للتعامل مع اللغة العربية على مستوى المكشاف والتحليل الصرفي والتشكيل الآلي .(انظرwww.leeds.ac.uk/latifa/survey.htm) (بخصوص الوسم الصرفي (ما أسماه الباحث "العنونة الصرفية والنحوية للغةالعربية" ،انظر مجدي صوالحة في الموقعين:

 www.com.leeds.ac.uk/sawalha/tagset وكذلك www.comp.leeds.ac.uk/sawalha/tagset/tagset.htm

 

ومن الأعمال الجديرة بالاطلاع والاستفادة الدراسة التي نشرها مروان البواب (2012) بعنوان "محركات البحث في النصوص العربية " ، ففيه مناقشة مستفيضة للجوانب المهمة في محركات البحث في النصوص العربية.

 

هناك أيضا دراسة ممتازة لصوالحة وأتويل يجريان فيها مقارنة بين بعض برامج التحليل الصرفي للغة العربية. (انظر Sawalha, M and Atwell, E ((2008).

 

- الوسم اليدوي manual tagging لإعطاء معلومات مختلفة عن الكلمات والتراكيب والجمل التي يحتاج إليها الباحث (مثل حدود التعبيرة الاصطلاحية أوالعبارات المسكوكة (كما يسميها البعض) ، أي وضع علامة تدل على بداية العبارة وأخرى للدلالة على نهاية العبارة. فكثير من مثل هذه المعلومات لايمكن القيام به آليا لعدم وجود برمجيات يمكنها القيام بذلك دون تدخل بشري.

 

- تطوير برنامج للوسم الآلي:

هناك برنامج مفتوح المصدر open source يسمى بوابة gate لمساعدة الباحث اللغوي في إعداد برمجيات للوسم الآلي . (الموقع: www.gate.ac.uk ). يصفه الموقع بأنه :

"مصدر مفتوح لإيجاد حل دورة حياة كاملة لمعالجة النصوص a full-lifecycle open source solution for text processing".

 

حادي عشر: مجالات الاستفادة من لسانيات المدونات :

أولا. بعض أنواع التحليل في لسانيات المدونات:

(أ‌)                 إيجاد الترابط بين جوانب لغوية ولغوية أخرى :

1-     معجمي-معجمي(كلمة مع مصاحبات لفظية)

2-     معجمي-تركيبي ( أو كلمة مع تركيب ما...)

3-     تركيبي-تركيبي (تركيب يتطلب تركيبا معينا ، مثل الخبر شبه الجملة الذي يتطلب وقوعه مقدما على المبتدأ ، كما في: "في الدارعائلة كبيرة" ) .

(ب)  إيجاد ترابط لغوي-غير لغوي:

اللغة والمؤلف ، اللغة واللهجة ، اللغة والجنس الأدبي ، اللغة و تخصص معين (الطب أو الهندسة أو النقد)...

(جـ) دراسة أنواع النصوص المختلفة وخصائصها.

 

ويمكننا أن نصنف أسلوب التحليل إلى نوعين:

(1) تحليل كمي quantitative (إحصائي): مثلا ، بالنسبة لكلمة ما ، عدد مرات ورودها في النص ، ماالمصاحبات اللفظية لها وما شيوع كل منها.

(2) تحليل كيفي/ نوعي  qualitative: ويعني ذلك محاولة تفسسير الظاهرة اللغوية ، مثلا "لم تشيع كلمة معينة أو تركيب ما في نوع من النصوص؟" ، مثل شيوع الضمائر في اللغة المحكية مقارنة باللغة المكتوبة أو شيوع المبني للمجهول في النصوص العلمية والتقنية (الإنجليزية) ، مقارنة بالنصوص الأدبية مثلا.

(انظر Biber et al., 1998 ).

 

ثانيا:  أهم مجالات الاستفادة من لسانيات المدونات:

 

(أ‌)                الدراسات المعجمية:

 

1-     الدراسة المعجمية وصناعة المعاجم lexicography:

 

كانت الدراسات المعجمية وصناعتها من أوائل التطبيقات العلمية والعملية للمدونات اللغوية ، حتى من قبل التدوين الإلكتروني أو الرقمي ، كما هو واضح من أعمال مايكل وست Michael West وثورندايك ولورج Thonrndike and Lorge.

 

ونجد شرحا جيدا لدور المدونات المحوسبة في كتابات سنكلير Sinclair الباحث الرئيس في مشروع مدونة COBUILD الذي تم بالتعاون بين جامعة بيرمنغهام Birmingham وناشر المعاجم كولينز Collins. (انظرمثلا: Sinclair, J. (1991) Corpus, Concordance and Collocation ).

 

ولاشك أن هذا من أشيع نماذج الاستفادة من المدونات اللغوية المطبوعة والمحوسبة. فقد كانت جميع قوائم شيوع الألفاظ في اللغات المختلفة مبنية على مدونات مختلفة . من هذه القوائم الرائدة في الإنلجليزية قوائم مايكل وست Michael West وثورندايك ولورج Thorndike and Lorge . وفي العربية قوائم بريل ولانداو وفاخر عاقل وداود عبده . فقد قام هؤلاء بالاحصاء اليدوي للكلمات في نصوص مطبوعة للتعرف على الكلمات الشائعة فيها . كذلك قام بعضهم بأبعد من ذلك ، حيث قام مايكل وست بإحصاء تكرار المعاني المختلفة للألفاظ semantic count ، كما هو واضح من عنوان كتابه.

 

تحديد مفهوم الكلمة والوحدة المعجمية والمصطلحات ذات العلاقة:

 

من القضايا المهمة التي يجب التنبه لها عند الحديث عن الدراسات المعجمية التفريق بين المصطلحات ذات العلاقة بالكلمات وتعريفاتها المخلتفة ، ومنها ما يلي:

 

1-     الكلمة الحاسوبية : مجموعة من الحروف أوحتى رمز واحد مسبوقة بفراغ ومتبوعة بفراغ.

2-     الكلمة الفعلية token ، وهي الكلمة كما ترد في النص بصور مختلفة  (مثلا الفعل بتصريفاته المختلفة – كتب ، كتبنا ، كتبا ، نكتب ، يكتبون ...أو الاسم في صيغة المفرد والمثني والجمع).

3-     الوحدة المعجمية lexeme : قد تكون كلمة واحدة أو عبارة تتكون أكثر من كلمة ، كما في التعبيرات الاصطلاحية (مثلا: ضرب أخماسا في أسداس بمعنى احتار).

4-     االجذع stem (lemma) وهي الكلمة المجردة ، مثل : كاتب ، مكتوب ، كتب ،  قال ) وهي للاسم الكلمة في صيغة المفرد (وجمع التكسير، أحيانا) وللفعل صيغته في الماضي للمفرد المذكر.

5-     الكلمة النوعية type ، وهي الجذع المشارإليه أعلاه.

6-     الجذر  root(في العربية ، مثل: ك ت ب ، ق و ل) والمكون الأساس للكلمة في اللغات الأوربية (من امثلة ذلك الجذور اليونانية واللاتينية ، مثل bio, geo, logy ، إضافة الي الصورة الأبسط للكلمة.

7-     تجريد الكلمة من الزوائد lemmatization : ويعني ذلك في العربية تحويل الكلمة إلى صورتها الأساس (الجذع) مع حذف الزوائد السابقة ، مثل حرف الجر "بـ" والعطف "فـ" واللاحقة مثل الضمائر المتصلة "ـه" و"ـها" . فالكلمة الحاسوبية فهم تجرد إلى "فهم" الاسم والفعل ، وكذلك إلى "فـ" +"هم".

8-     قائمة الكلمات المستثناه stop list:

 عند طلب الكشاف السياقي أو قوائم الشيوع في المدونة ، هناك كلمات لانحتاج أحيانا إلى معرفة شيوعها (وهي ماتسمى بالكلمات الوظيفية ، مثل الضمائر وحروف الجر أو حروف العطف مثلا) ، لكثرتها ولأننا نعرف سلفا أنها أكثر الكلمات شيوعا في اللغة. في هذه الحالة يمكننا أن نعطي للبرنامج الإحصائي  قائمة بهذه الألفاظ ليتجاهلها الحاسوب.وهذه هي التي تسمى قائمة الكلمات المستثناه stop list .

9-     شيوع الألفاظ  word frequency: للتعرف على مدى شيوع كلمة معينة نقوم بعملية إحصاء الكلمات word count.

10- شيوع المعاني semantic count:

 يشير هذا المصطلح إلى إحصاء المعاني المختلفة للكلمة متعددة المعاني polysemous، وينطبق ذلك خاصة على  المشتركات اللفظية  homonyms ، مثل "عين" الباصرة ومنبع الماء وأداة التوكيد ، فلا شك أن لكل من هذه المعاني تكرارها الخاص بها .

مجالات البحث التي تتعلق بالجانب المعجمي للغة:

من أهم هذه المجالات مايلي:

1-     ما مدى شيوع كلمة ما ، بصورة عامة أو في نصوص مختلفة النوع مثلا؟

2-     ما نسبة شيوع كلمة ما في نصين مختلفين؟

يلاحظ أنه عند إجراء هذا النوع من المقارنة أن نأخذ بعين الاعتبار حجم كل نص . لذلك يفرق الخبراء بين الإحصاء أو العد العام / الخام raw ، أي ذكر التكرار في كل نص بغض النظر عن عدد كلماته ، وهو خطأ . فالمفروض أن نلجأ إلى حساب التكرار النسبي normed count ، أي نذكر تكرار الكلمة في كل ألف كلمة مثلا من النصين أ و ب ، كأن نقول إن كلمة "مسألة" ترد 50 مرة في كل ألف كلمة من النص أ وترد 57 مرة في كل ألف كلمة من النص ب.

3-     ما مدى شيوع معاني كلمة ما (الإحصاء الدلالي    semantic count)  في نص ما أو في نصوص مختلفة ؟ نجد مثلا أنه في الاستعمال العام ، ترد كلمة "عين" بمعنى البصر أكثر منها بمعنى عين الماء . كذلك نجد أن كلمة "باب" بمعنى المدخل قد يكون أكثر شيوعا منها بمعنى فصل من كتاب مثلا.

4-     هل للكلمة ارتباط بكلمات معينة (المصاحبات اللفظية – سابقة أو لاحقة )؟ ، مثلا: "جماعة من أهل العلم" و"فريق من اللاعبين" و"قطيع من الماشية" .

5-     هل للكلمة ارتباط بلهجة أو نوع من الاستعمال اللغوي genre أو غيرذلك من العوامل غير اللغوية؟ (مثلا: كلمة تكوين بمعنى التدريب والشغل بمعنى العمل في المغرب العربي ).

6-     ما مدى شيوع المصاحبات اللفظية المعينة ، بصورة عامة أو في لهجات أو أنواع من الاستعمال اللغوي؟

7-     ما هي مجالات استعمال المترادفات (وسيم ، جميل أو كبير، ضخم) وتوزيعاتها ، حسب نوع النص مثلا ؟

8-     الاختلاف بين استعمالات الكلمة في حالتي الإفراد والجمع (مثلا كلمة "حبل" و"حبال" في القرآن الكريم).

9-     التعرف على التعبيرات الاصطلاحية (المسكوكات) ومدى شيوعها عامة أو في أنواع مختلفة من النصوص. ويشمل ذلك الأفعال المتعدية بحروف . (انظرمثلا دراسة وفاء كامل (2007) ومحمد الحناش "برنامج لساني-حاسوبي للتعرف الآلي على التعابير المسكوكة في اللغة العربية" في : مجلة التواصل اللساني ، ملحق سلسلة الندوات ، المجلد 3، سنة 1996، ص 89.

10-دراسة الجذوروالحروف العربية من حيث تكرارها وشيوعها. ويعتبر علي حلمي موسى في دراستيه (بالتعاون مع إبراهيم أنيس وعبدالصبور شاهين ) والخاصتين بمعجمي اللسان العربي والصحاح بحق رائدا في هذا النوع من الدراسات (انظر قائمة المراجع) . ومن الأعمال الرائدة في العالم العربي أيضا (المعجم الحاسوبي: إحصاء الأفعال العربية في المعجم العربي) من إعداد محمد المراياتي ويحي ميرعلم ومحمد حسن طيان . ولكن يلاحظ أن هذه الأعمال عاملت بعض المعاجم العربية بوصفها مدونات في إنجاز الدراسات المشار إليها.

 (انظر الدراسة القيمة للدكتور عبدالرحمان حاج صالح ، رائد مشروع الذخيرة العربية ، في قائمة المراجع ، حيث يذكر عددا من فوائد المدونة اللغوية الإضافية.)

نموذج للبحث المعجمي:

أ‌-       الكلمات التي تسبق الكلمة الهدف (موضوع البحث) كثيرا ، ثم نوع هذه الكلمات (أسماء، أفعال ،صفات...).

ب‌-  الكلمات التي تليها كثيرا ، ثم نوع هذه الكلمات (أسماء، أفعال ،صفات...).

ت‌-  الوظائف الدلالية للكلمة الهدف في سياقاتها المختلفة:  مثلا ، للدلالة على المكان أو الزمان أوالأداة. (انظرKennedy, G "Between and through: The company they keep and the functions they serve" in  Aijmer, K, and Altenberg, B (1991, eds.):95-110.

من الكتب التي عالجت بإسهاب كثيرا من القضايا المعجمية كتب سنكلير الذي كان من المشرفين على مشروع COBUILD ومحررا لمعجم BBC للغة الإنجليزية: Corpus, Concordance and Collocation.

صناعة المعاجم:

يلاحظ هنا أن إعداد المعاجم (أحادية اللغة وثنائيتها) يستخدم المدونات لأغراض مختلفة ، مثل اختيار ألفاظ المعجم (المداخل) وكذلك حصرمعاني الألفاظ (بناء على الكشاف السياقي والنصوص الأصلية- الشواهد) وفي التمثيل لاستعمالات المداخل المختلفة (من واقع المدونة). ومن أمثلة المشروعات الجديدة معجم كامبريدج للمحتوى الأكاديمي Cambridge Academic Content Dictionary الذي صدر في عام 2009 الذي اعتمد مصادر رسمية وشبه رسمية للمعاييروالاختبارات المقننة وماشابه ذلك في اختيار مداخله.

كذلك يستخدم الحاسوب أحيانا في التحكم في لغة التعريف ، كما فعلت لونغمان في معجمها Longman Dictionary of Contemporary English ، حيث حددت هذه اللغة بالألفي كلمة الأكثر شيوعا في اللغة.

نجد الشيء نفسه في معجم كامبريدج للمحتوى الأكاديمي المذكور آنفا والموجه للطلاب كما يبدو، حيث  يذكر محرره أن "تعريفات المعجم كتبت باستخدام مفردات كامبريدج للتعريفات Cambridge Defining Vocabulary ، وهي قائمة من حوالي 2500 كلمة الشائعة والتي يعرفها الطلاب. وقد تم تطوير هذه القائمة بالاستفادة من الأقسام المتعلقة بالإنجليزية الأمريكية من مدونة كامبريدج الدولية Cambridge International Corpus ، وهي قاعدة بيانات تحوي أكثر من مليار كلمة مكتوبة ومنطوقة." (مقدمة المعجم المذكور)

2-     دراسات المصطلحية (علم المصطلح (terminology :

دراسة المصطلحات : التعرف عليها ومعرفة شيوعها في النصوص المختلفة. (انظر Bowker, Lynne and Pearson, Jennifer (2002) ، خاصة الفصلين 8 و 9 )

وانظركذلك الدراسة الممتازة التي قدمها عبدالمحسن الثبيتي في: الندوة الدولية الأولى عن الحاسب واللغة العربية : الأوراق البحثية ، وكذلك الدراسة المقدمة من عزالدين غازي في الندوة ذاتها، وكتاب  Bowker, Lynne and Pearson, Jennifer (2002). Working with Specialized language: A practical guide to using corpora. )

 ولعل أفضل كتاب شامل بالعربية يعالج دور المدونات في دراسة المصطلحات الكتاب الذي ترجمته د. ريما بركة عن الفرنسية بعنوان : علم المصطح : مبادئ وتقنيات (انظر ماري-كلود لوم ، 2012 ، خاصة الفصول الرابع والخامس والسادس).

 

ب- اللسانية العامة:

1- الدراسات الصوتية:

لعل أفضل مثال لهذا النوع من الأعمال المبنية على المدونات اللغوية ماقام به رائد هذا النوع من الدراسات في هذا المجال ، الدكتور علي حلمي موسى ، حيث يتحدث عن العلاقة بين الصوامت والصوئت في العربية من الوجهة الاحصائية .يقول في معرض كلامه:

"والدراسة التي نعرضها اليوم تمت على عينتين من القرآن الكريم إحداهما مكية وهي سورة الأعراف وبعض قصار السور والأخرى مدنية وهي سورة البقرة. ونظراً لأن الدراسة تتم على القرآن كما نسمعه وليس كما نكتبه فقد اتبعت الطريقة الصوتية ... ، حيث نتبع طريقة قراءة حفص مع الوقوف على رؤوس الآيات." (انظرعلي حلمي موسى (2001).

ومن المشروعات المهمة في مجال الأصوات المشروع الذي قام به الدكتور/  الغامدي في مدينة الملك عبد العزيز للعلوم والتقنية في الرياض . (انظر: منصور محمد الغامدي "قاعدة بيانات الصوتيات العربية وقراءة الشفاه".)

ويجدر بنا أن نشير إلى أن أية دراسة إحصائية عربية للجذور في المعاجم هي في واقع الأمر دراسة لأصوات العربية ، خاصة الصوامت ، لأن الجذر يتكون من حروف (أي أصوات ) . عليه فإن جميع أعمال علي حلمي موسى المتعلقة بالمعاجم العربية المعروفة تعتبر دراسات صوتية ، إضافة إلى كونها معجمية.

2-     الدراسة النحوية والصرفية ، خاصة من منظور الاستعمال والوظائف اللغوية:

يمكننا أن ندرس هذا الموضوع من زوايا عديدة ، مثل شيوع التراكيب بعامة أو تراكيب معينة في أنواع من النصوص المختلفة . (انظر لأمثلة على ذلك: الفصلين الثالث والرابع من كتاب Biber, Conrad and Reppen, 1998) وكذلك الفصول 10، 11، 12 ، 16 في كتاب   Aijmer and Altenberg  : English Corpus Linguistics   ).

 

أمثلة للبحوث في المجالات النحوية والصرفية:

1-     شيوع وتوزيع التراكيب النحوية المختلفة (الجمل الإسمية والفعلية ، التركيب الوصفي والإضافي، المبني للمعلوم والمبني للمجهول ، والمبني المجهول الذي يشمل الفاعل في صيغة "بواسطة" أو "مِن قِبَل" فلان أو كذا ...) في اللغة بصورة عامة أوفي النصوص التي تنتمي إلى مجال معين أو منطقة جغرافية أو فترة زمنية وهكذا.

2-     ارتباط التراكيب بألفاظ أوتراكيب أخرى معينة (مثل ما نجد في العلاقة بين كان وأخواتها وصورة اسمائها وأخبارها).

3-     ارتباط بعض التراكيب ، مثل أن المصدرية مقابل المصدر بأفعال معينة ، أو ارتباط بعض الأفعال المتعدية إلى مفعولين بتراكيب معينة (مثلا، اصلهما مبتدأ وخبر أو أصلهما ليس مبتدأ وخبر).

4-     العوامل التي تؤدي إلى اختيارنا لتراكيب وتفضيلنا لها على تراكيب مشابهة في المعنى أو الوظيفة (كالجملة المبنية للمعلوم والجملة المبنية للمجهول في الأساليب الحديثة خاصة).

5-     دراسة المشتقات والصيغ الصرفية المختلفة ومدى شيوعها في نصوص أو أنواع من النصوص المختلفة، وكذلك للتعرف على الأوزان والصيغ المختلفة ، مثل اسم الفاعل وصيغة المبالغة "فعّال" أو المصدر الصناعي ومدى إنتاجية  productivity بعضها (كثرة أو قلة استخدام وزن ما في توليد الكلمات الجديدة مثلا).

6-     دراسة السوابق واللواحق المختلفة (في الإنجليزية مثلا: in-, un-, -tion, -ity, -ic, -ism ) وشيوعها في النصوص المختلفة.

7-     دراسة شيوع أنواع الأفعال المختلفة من جهة ، والصيغ الزمنية المختلفة في أنواع النصوص المختلفة .

8-     معرفة نسبة ورود أقسام الكلمة part of speech المختلفة في المدونة أو في أنواع النصوص المختلفة (مثلا نسبة الأفعال إلى المصادرأو الأسماء في نص أو نوع معين من النصوص).

9-     لعل من المجالات المهمة في النحو العربي دراسة قضية أقسام الكلام وتصنيف الألفاظ العربية من منظور جديد والتثبت من صحة ذلك في ضوء المدونات اللغوية.(انظر ماذكرت أعلاه حول تصنيفيات النحويين لكثير من الأسماء والأفعال والحروف في الفقرة 10 من "إعداد المدونة" أعلاه.)

10- من الدراسات التي لم تلق العناية الكافية ، وجديرة بالبحث في ضوء لسانيات المدونات الصيغ المختلفة التي تعبربها العربية عن الزمن والوجهة tense and aspect ، مثل "كان قد فعل ، قد فعل ، كان يفعل ، سوف يكون قد فعل..." وماشابه ذلك . (انظر1986 Sieny, Mahmoud ).

(انظر Biber et al, 1998 لنماذج من الدراسات في مجالات المعجم والنحو والصرف ، وكذلك ِAijmer & Altenberg, 1991.)

3- التطور التاريخي للغة من حيث المعجم والتراكيب النحوية: تفيدنا المدونات التايخية أو اللغوية عبر العصور في هذا النوع من الدراسات . (انظر "Historical and stylistic investigation" in : Biber, Conrad and Reppen, 1998: 203-229 ). كما أشرنا في مكان آخر من هذه الدراسة ، هناك مدونة تاريخية مشهورة للغة الإنجليزية للفترة مابين 1650 إلى 1990، ARCHER  إعداد باحثين في جامعة Northern Arizona بالولايات المتحدة الأمريكية ، ومدونة Helsinki  للفترة من 850 إلى 1710 من تاريخ اللغة الإنجليزية.

ومما لاشك فيه أن أي معجم تاريخي للغة العربية لايستغني عن مدونة تاريخية شاملة وممثلة للعصور المختلفة ، تقدم قدرا متوازنا من النصوص المختلفة لكل فترة زمنية (بحسب القرون أوالعصور الأدبية) ، يحددها المتخصصون في اللغة والأدب العربي.

 

4 - تحليل الخطاب discourse analysis وتحليل النصوص text analysis:

من المعروف أن هذين الفرعين من اللسانيات يتعاملان مع العلاقات فوق مستوى الجملة ، بما في ذلك قضايا الترابط النصي cohesion والدلالي coherence . و من أمثلة هذا النوع من الدراسات شيوع استخدام الضمائر في النصوص الشفوية مقابل النصوص المكتوبة والمسافة بين الضمير العائد والاسم الذي يعود إليه في هذه النصوص ، وكذلك اختلاف الصيغة الزمنية للأفعال في أجزاء البحوث العلمية المختلفة (المقدمة ، المنهج ، النتائج مثلا). (انظر Biber, Conrad and Reppen (1998):    106-132وكذلك Marcus Callies (2008)  الذي يعطينا نموذجا لدراسة في هذا المجال في لغة متعلمي اللغة ، و(Tottie (1991). انظر أيضا "أعمال مبنية على المدونات اللغوية العربية" لأمثلة عربية في هذا المجال.

5- التداولية pragmatics و أعمال الكلام speech acts.

 من الأمثلة على هذا النوع من الدراسات البحث الذي قامت به عبير الطويل وزملاؤها في الأردن عن "المراوغة hedging" في الخطاب السياسي في العربية والإنجليزية. (Taweel, Abeer et al. (2011)). انظر أيضا "أعمال مبنية على المدونات اللغوية العربية" لأمثلة عربية أخرى في هذا المجال.

جــ- اكتساب اللغة وتعليمها:

1- اكتساب اللغة الأولى والتطور اللغوي للأطفال:

كانت دراسات النمو اللغوي للأطفال تعتمد على الملاحظات الشخصية لعدد محدود من الأطفال على مدى بضع سنوات أحيانا. ولكنها كانت محدودة من حيث العينات التي تخضع للبحث. أما مع توافر مدونات لغوية لآلاف الأطفال من أعمار مختلفة ، فقد أصبح بالإمكان دراسة الموضوع على نطاق أوسع ، إضافة إلى إمكانات المقارنة بين مئات الأطفال من عمر واحد أو أعمار مختلفة ، مما يعطي للاستنتاجات مصداقية أعلى . كما يفيد ذلك إذا ما أجريت الدراسة على مدونات للغات مختلفة أن نتعرف على ما يسمى بالظواهراللغوية العالمية language universals بصورة أدق وأفضل.

لعل من أهم المدونات اللغوية لمثل هذه الدراسة مدونة "CHILDES" من إعداد قسم علم النفس في جامعة Carnegie Mellon في الولايات المتحدة الأمريكية .  (انظر"Language acquisition and development" in Biber et al.(1998): 172-202) ، حيث يورد المؤلفون أمثلة على الدراسات التي أجريت على التطور اللغوي لدى الأطفال ، ويذكرون أمثلة على الملامح المميزة لكتابات التلاميذ مقارنة بالبالغين.

 

1-     اكتساب (تعلم) اللغة الثانية:

كنا قد أشرنا إلى أن هناك مدونات / قواعد معلومات للغات المتعلمين التي يستفاد منها في هذا المجال. (انظرمثلا: John Osborne (2008); C Cosme (2008)

2-     تعليم اللغات:

من أبرز نماذج الاستفادة من المدونات في تعليم اللغات المساهمة في اختيار محتوى المادة التعليمية (من مفردات وعبارات وتراكيب) وفي إعداد المراجع المعجمية والنحوية ، كما فعل الناشر كولنز Collins في مجموعة المراجع المبنية على مدونة COBUILD تحت هذا المسمى. يضاف إلى ذلك الاستخدام المباشر للمدونات في تعليم مفردات اللغة وتراكيبها . بل إن هناك اتجاها حديثا في تعليم اللغات يسمى المنهج المعجمي lexical approach في تعليم اللغات ، يعتمد إلى درجة كبيرة على المدونات اللغوية (انظر: Richards and Rogers ( ) Approaches and Methods in Language Teaching أي مذاهب وطرائق في تعليم اللغة.)

جدير بالذكرأن هناك كتابان صدرا مؤخرا بعنوان : من المدونة إلى صف الدراسة From Corpus to Classroom… (O'Keefe et al, 2007) ، وأنماط نصية : الكلمات المفتاحية وتحليل المدونات فى تعليم اللغة Textual Patterns: Key words and corpus analysis in language education by M. Scott and Ch. Tribble (2006)  كذلك تخصص سوزان هنستون الفصول 6و7و8 من كتابها لهذا الموضوع S Hunston, 2002 ).

 

د-  الترجمة والتحليل التقابلي وتحليل الأخطاء:

 

1- دراسات الترجمة :

نجد هنا الاستفادة من المدونات المتوازية خاصة في دراسة خصائص لغة الترجمة والمترجمين ، وكذك في دراسات المتقابلات في هذه المدونات . وجدير بالذكر أن هناك توجها للاستفادة من هذه المدونات في تطوير برامج الترجمة الآلية (كما فعلت شركة IBM المعروفة) ، حيث تدرس الاحتمالات الاحصائية للترجمات المتقابلة في هذه المدونات لتطبيقها في الترجمة الآلية. من أمثلة المدونات التي تتعلق بالعربية المدونة التي طورتها جامعة الكويت لهذا الغرض    . E-A Parallel Corpus (2002)

(انظر Hunston (200): 123-127 وكتاب Olohan (2004) Introducing Corpora in Translation Studies)

 

2- التحليل التقابلي    : contrastive analysis

من الفوائد المعروفة لما يسمى المدونات المقارنة أو المتناظرة    comparable corporaإجراء الدراسات التقابلية بين اللغات وبين التنوعات اللغوية . (انظرعلى سبيل المثال كتاب Linking up contrastive and learner corpus research. ) ولا شك أن هذا يندرج تحته الدراسات المقارنة بين اللهجات المختلفة، إضافة إلى المقارنة بين اللغات ، وبين لغة المتعلمين ولغة أهل اللغة الأصليين.

3-  تحليل الأخطاء:

لاشك أن هذا المجال قد يكون أول مجال في علم اللغة التطبيقي يستخدم النصوص التي ينتجها الدارسون ، ما يسمى بمدونة المتعلمين learner corpus. وهناك أعداد متزايدة من مثل هذه المدونات لدارسي اللغات المختلفة من غير أهلها من خلفيات ومستويات وبيئات مختلفة ، مما يتيح للباحث التعرف على الأخطاء الشائعة لدى الناطقين بلغة ما أو بلغات مختلفة ، كذلك استنتاج التطور اللغوي لدى المتعلمين . ومن المعروف أن  تحليل الأخطاء بطبعه  يعتمد على أمثال هذه المدونات أساسا في عمله ، كما هو واضح من أي دراسة في تحليل الأخطاء في شتى اللغات.

 

و-  مجالات لسانية أخرى :

 

1-     الأسلوبية:

 

يذكر بايبر وزميلاه أن من أمثلة الدراسات الأسلوبية الدراسات التي تجرى لتحديد هوية المؤلف (المجهولة أو المشكوك فيها) بمقارنة النص بنصوص أخرى معروفة المؤلف ، وكذلك الدراسات التي تهدف إلى التعرف على الخصائص الأسلوبية لبعض النصوص. (Biber et al., 1998: 223) (انظر أيضا D Crystal (1991) ). ويجب أن لانسى فوائد المدونات في خدمة الكتاب ، لتحسين أسلوبهم في التعبير. تذكرهنستون أن بعض الباحثين "استخدموا المعلومات المستقاة من مدونة عامة في تقديم المشورة لكتاب الوثائق الرسمية الموجهة للقارىء العادي ، من حيث الاستعمال الأنسب للغة" ((Hunston, 2002: 135

جدير بالذكر أن هناك دورية قديمة تعنى بهذا النوع من الدراسات ، تسمى الحوسبة الأدبية واللغوية  Literary and Linguistic Computing، وهي في سنتها السابعة والعشرين هذا العام (2012).

 

2-     الأيديولوجية (العقائد الفكرية) والثقافة وعلاقتهما باللغة :

 تناقش الباحثة Susan Hunston في القسم المعنون "دراسة الأيديولوجيا والثقافة Studying ideology and culture (pp. 109-123)  من كتابها أمثلة لهذا النوع من الدراسات ، حيث تقول أن "المدرسة السائدة في بحث العلاقة بين اللغة والعقائد (الأيديولوجيا) هي اللسانيات النقدية critical linguistics أو تحليل الخطاب النقدي critical discourse analysis الذي يدرس اللغة ليس بوصفها منظومة مستقلة ولكن بوصفها شيئ يتدخل intervenes  في المجتمع ، غالبا  بترسيخ فرضيات وقيم ذلك المجتمع ..." وتذكر أن أحد رواد هذا النوع من الدراسات (فاولر Fowler ) ذكر أن "هناك ثلاثة جوانب للسانيات النقدية هي:

- دراسة النصوص في سياق الظروف الاجتماعية التي أنتجت فيها.

- الكشف عن الأيديولوجية المتضمنة implicitly coded وراء الكلام والأفكار المذكورة صراحة overt propositions.

- "تحدي الحس العام common sense بالتنبيه إلى أن كان بالإمكان أن نمثل شيئا ما بطريقة مختلفة لها مضمون مختلف". Hunston (2002). Corpora in Applied Linguistics: 109).

(انظر الكتاب القيم : Hunston, Susan (2002). Corpora in Applied Linguistics ، حيث تناقش الباحثة المجالات المختلفة من اللسانيات التطبيقية التي تستفيد من المدونات اللغوية. وكذلك ، انظر McEnery et al., 2006 "Corpora and applied linguistics", pp. 80-124 ) .

ولعل أهم دراسة صدرت عن اللغة العربية رسالة الدكتوراة لرجب جمعان الزهراني ، والتي يقول عنها الباحث في ملخصها: " تدرس هذه الأطروحة التمظهرات الأيديوجية ideological representations للخطاب السلفي في السعودية من الفترة 1980-2000 وتحاول أن تجيب عن االسؤال التالي:  ما مدى وشكل تجانس الخطاب السلفي في السعودية  في الفترة بين 1980 و2000."  وذلك في الأطروحة التي حصل بها على الدكتوراة مؤخرا (ديسمبر 2013) من جامعة لانكاستر في بريطانيا. انظر Alzahrani, Rajab Jamaan (2013). Corpus-Based Critical Discourse Analysis of the Ideological Representations and Legitimation in the Salafi Discourse in Saudi Arabia (1980-2000)" A Ph. D. dissertation. Lancaster University, U.K

3-     اللسانيات القضائية forensic linguistics:

من المجالات الطريفة في الاستفادة من المدونات "اللسانيات القضائية forensic linguistics"  أي دراسة اللغة لأغراض قانونية وقضائية ، مثل قضايا التزوير وتحديد هوية المجرمين. وتذكر هنستون أن هناك حزمة برمجية تسمى CopyCatch (اضبط النسخ!) يقارن نص "المشتبه بهم" بنص من إنتاج غيرهم (النص الضابط  control text)، وتذكر أن Finlay (2002)" تحدد عددا من الملامح المهمة في تمييز النصوص المشبوهة من النصوص الضابطة" (Hunston, 2002: 133) . ويجدر بالذكر في هذا السياق ما أشار إليه اللساني التطبيقي كارل جيمس في كتابه : تحليل الأخطاء Error Analysis من أن تحليل الأخطاء اللغوية يمكن استعماله للغرض نفسه .

ولاستعراض لأهم الأعمال العربية المبينة على المدونات ، ينظرالفصل الخاص بذلك لاحقا في هذه الدراسة.

قبل أن نختم هذا الفصل ، أود التنبيه إلى أن خير مصدر للأمثلة المختلفة لدراسات لسانيات المدونات هو المجلة الدولية المعروفة باسم : المجلة الدولية للسانيات المدونات International Journal of Corpus Linguistics.

 

ز-  دراسات ومشروعات اللسانيات الحاسوبية أو تطبيقاتها:

يلاحظ أن عددا من المدونات المختلفة كان وراؤها خدمة البحث اللساني الحاسوبي ، كما هو واضح من الدراسات ذات الطبيعة الإحصائية ونظرية الاحتمالات ، كما في "تحليل إحصائي لدعم التعرف الآلي على الكتابة العربية" وكما هو الحال مع مدونتي CALLFRIEND, CALLHOME للهجة المصرية اللذين كان الغرض منهما تطوير برنامج للتعرف على الكلام ، ومدونة الحياة Al-Hayat Corpus (200) لأغراض الهندسة اللغوية واسترجاع المعلومات (انظر Al-Sulaiti, 2010) ، كذلك مشروع آي بي إم للترجمة الألية ، كما أشرنا أعلاه. ويستطيع الباحث أن يلاحظ ذلك في كثير من دراسات اللسانيات الحاسوبية. (للأمثلة العربية في هذا المجال ، ينظرنبيل على وعبد الغني أبو العزم  والعناتي وجبر (2007) للدراسات المنشورة والتي قدمت في ندوات تعريب الحاسوب المختلفة.)

ويذكر الباحثان كيلغاريف وغرينفينستيت أن بوادر الارتباط الرسمي بين المدونات واللسانيات الحاسوبية يرجع رسميا إلى العام 1993 (Kilgarriff, Adam and Grefenstette (2003)).


المراجع

 

أحمد الشيبان وبدر العبد القادر (2013) :" البيان والتبيين : دراسة أسلوبية في ضوء المدونات باستخدام المكشاف السياقي". بحث غير منشور مقدم في مادة "الحاسوب واللغة"في معهد تعليم اللغة العربية ، جامعة الإمام محمد بن سعود الإسلامبة ، الرياض.

أحمد مختار عمر (1988) البحث اللغوي عند العرب مع دراسة في التأثير والتأثر، ط6 . القاهرة: عالم الكتب.

أفراح عبدالعزيز التميمي (2013)  "نظرات فيالثلاثمائة لفظة الأكثر شيوعا في المدونة العربية" بحث غير منشور مقدم في مادة "الحاسوب واللغة"في معهد تعليم اللغة العربية ، جامعة الإمام محمد بن سعود الإسلامبة ، الرياض.

التعابير الاصطلاحية في ضوء النظريات اللسانية الحديثة : دراسة تطبيقية على مدونة صحيفة الجزيرة. الرياض: جامعة الأميرة نورة.

ثناء محمد سالم (2012) "الأبعاد التداولية للتعبيرالاصطلاحي" في : التعابير الاصطلاحية في ضوء النظريات اللسانية الحديثة : دراسة تطبيقية على مدونة صحيفة الجزيرة ، صص 17-128، الرياض: جامعة الأميرة نورة.

جيلالي بن يشو "حوسبة المعجم العربي: الواقع والآفاق" في : مجلة أرتين – المرجع الأول لطلاب الأدب. Art-En.com (تاريخ الوصول 22/2/2013)

داود عبده (1431هـ) في اللغة والحاسوب: الترجمة وتدقيق الإملاء بين الإنسان والآلة. عمان: دار جرير للنشر والتوزيع.

داود عطية عبده، المفردات الشائعة في اللغة العربية، الرياض: جامعة الملك سعود، 1399هــ.

دراسات في علم اللغة النصي: مقاربة تطبيقية على مدونة صحيفة الجزيرة (2012) الرياض: جامعة الأميرة نورة.

رأفت الكمار (2007) الحاسوب وميكنة اللغة العربية . القاهرة : دار الكتب العلمية للنشر والتوزيع.

رائدة المالكي وهند القحطاني (2012) "العلاقات الدلالية للتعبيرات الاصطلاحية في مجال الرياضة" في : التعابير الاصطلاحية في ضوء النظريات اللسانية الحديثة : دراسة تطبيقية على مدونة صحيفة الجزيرة ، صص 129-177.

السجل العلمي : مؤتمر المحتوى العربي في الانترنت: التحديات والطموحات (5-7/11/1432هـ) جامعة الإمام محمد بن سعود الإسلامية ، الرياض. المجلد الثاني. الرياض: جامعة الإمام محمد بن سعود الاسلامية.

السجل العلمي لندوة استخدام اللغة العربية في تقنية المعلومات المنعقدة في مكتبة الملك عبدالعزز بالرياض (8-12 /11/ 1412هـ). الرياض: مكتبة الملك عبدالعزيز .

السجل العلمي لندوة تقنية المعلومات والعلوم الشرعية والعربية المنعقدة في جامعة الإمام محمد بن سعود الاسلامية (16-17/2/1428هـ) الرياض: جامعة الإمام محمد بن سعود الاسلامية.

سعد بن هادي القحطاني. "تحليل اللغة العربية بواسطة الحاسب الآلي" مجلة علوم اللغة ، م 5، ع 3، ص 228- (القاهرة : دار غريب.)

صالح فهد العصيمي (2013) لسانيات المتون وعلوم اللغة ، في: مجلة كلية الآداب والعلوم الإنسانية (فاس ، المغرب) العدد 19 ، السنة الخامسة والثلاثون ، صص 37-67.

عبدالرحمن بن حسن العارف "توظيف اللسانيات الحاسوبية في خدمة الدراسات اللغوية العربية: جهود ونتائج" في : مجلة مجمع اللغة العربية الأردني، العدد 73.

عبدالرحمن حاج صالح (1999) "ورقة حول مشروع الذخيرة اللغوية " في : مجلة اللسان العربي ، العدد 48.

عبدالغني أبو العزم " اللغة العربية والمعالجة الآلية: برامج صخر نموذجا") في الموقع: www.aljabriabed.net/n31_04abualazm.(2).htm

عبدالغني أبو العزم، الحاسوب والصناعة المعجماتية، مجلة اللسان العربي، العدد 46،  1998م،  صص28-39 .

عبدالله شرف الغامدي و بدرية سليمان الفرهود (1428هـ) أداة ويب معتمدة على عملية التحليل الهرمي للحصول على معجم عربي موحد لتقنية المعلومات . في: الندوة الدولية الأولى عن الحاسب واللغة العربية : الأوراق البحثية ، صص 39-50.

عبدالله يحي الفيفي (2012 ) المدونات اللغوية لمتعلمي اللغة العربية : نظام لتصنيف و ترميز الأخطاء اللغوية. في : السجل العلمبي للمؤتمر الدولي لعلوم وهندسة الحاسوب في اللغة العربية في دورته الثامنة (26-28 ديسمبر، 2012) جامعة القاهرة.

عبدالمحسن عبيد الثبيتي (2007) "استخدام ذخائر النصوص لاستخلاص المصطلحات المتخصصة" في : الندوة الدولية الأولى عن الحاسب واللغة العربية : الأوراق البحثية ، صص 31-38.

عبدالملك السلمان ومنصور الغامدي وحسن الصبي (1428هـ) نظام حاسوبي لرومنة الأسماء العربية. في : الندوة الدولية الأولى عن الحاسب واللغة العربية : الأوراق البحثية ، صص 215-228 .

عز الدين غازي (1428هـ) قواعد المعطيات المعرفية للمصطلحية العربية : مشروع مقترح. في : الندوة الدولية الأولى عن الحاسب واللغة العربية : الأوراق البحثية ، صص 23-30.

علي حلمي موسى  و عبدالصبور شاهين .(1973) دراسة إحصائية لجذور تاج العروس. باستخدام الكمبيوتر . الكويت: جامعة الكويت.

علي حلمي موسى (1971) دراسة إحصائية لجذور معجم الصحاح باستخدام الكمبيوتر . الكويت: جامعة الكويت.

علي حلمي موسى (1972). دراسة إحصائية لجذور لسان العرب باستخدام الكمبيوتر . الكويت: جامعة الكويت.

علي حلمي موسى (2001) "حوسبة التراث العربي" محاضرة ألقيت في مجمع اللغة العربي الأردني في 17 نيسان (أبريل) ، 2001. /www.majma.org.jo/majma/index.php/2009-02-10-09-35-28/260-19-1.html

علي حلمي موسى (2007) ألفاظ القرآن الكريم : دراسة علمية تكنولوجية. القاهرة : الشركة المتحدة للطباعة والنشر والتوزيع.

علي سليمان الصويغ (1987) "كشافات النصوص وتطبيقاتها في نصوص كشافات القرآن والحديث" في : مجلة المكتبات والمعلومات العربية. س 7، ع3 ، صص 5-52.

عمرمهدوي (1432هـ) المقاربة الحاسوبية للصرف العربي : قراءة في الحصيلة والآفاق. في : السجل العلمي لمؤتمر المحتوى العربي ، صص999-1027.

ليلى بايزيد (2012) "الترابط النصي في المقال الموسوم (فتاة مهمة ) لسليمان العودة بين الشكل والمضمون" في : دراسات في علم اللغة النصي: مقاربة تطبيقية على مدونة صحيفة الجزيرة (2012) الرياض: جامعة الأميرة نورة ، 295-364.

ماري-كلود لوم (2012) علم المصطلح : مبادئ وتقنيات ، ترجمة د. ريما بركة . بيروت : المنظمة العربية للترجمة .

 محمد حسن عبد العزیز، محمد یونس الحملاوي والمعتز بالله السعید طه (2008) المعجم الحاسوبي للغة العربیة ، بحث مقدم في : الاجتماع الثاني لخبراء المعجم الحاسوبي للغة العربیة المنعقد بمدينة الملك عبدالعزيز للعلوم والتقنية في الرياض (أبريل 2008).

محمد حسين أبو الفتوح : قائمة معجمية بألفاظ القرآن الكريم ودرجات شيوعها بيروت : مكتبة لبنان.

محمد محمد حلمي هليل (2008)"نحو معجم عربي معاصر"   من بحوث الاجتماع الثاني لخبراء المعجم الحاسوبي للغة العربية. الرياض: مدينة الملك عبدالعزير للعلوم والتقنية.

محمد حلمي هليل وسعد مصلوح وحشان العجمي (2000 ، تحرير) بحوث الندوة الدولية للمعاجم اللغوية العامة والمختصة .(المنعقدة في الكويت في 14-17 مارس ، 1999)  الكويت: جامعة الكويت.

محمد حلمي هليل وسعد مصلوح وحشان العجمي (2000 ، تحرير) بحوث الندوة الدولية للمعاجم اللغوية العامة والمختصة .(المنعقدة في الكويت في 14-17 مارس ، 1999)  الكويت: جامعة الكويت.

محمد الحناش "برنامج لساني-حاسوبي للتعرف الآلي على التعابير المسكوكة في اللغة العربية" في : مجلة التواصل اللساني ، ملحق سلسلة الندوات ، المجلد 3، سنة 1996، ص 89.

محمد عاليم (1428هـ) المعجم العربي في ضوء اللسانيات الحاسوبية. في : الندوة الدولية الأولى عن الحاسب واللغة العربية : الأوراق البحثية ، صص 157-166.

محمد علي الزركان (1993) "اللسانيات و برمجة اللغة العربية في الحاسوب"،  في: وقائع المؤتمر الدولي الأول حول اللغة العربية والتقنيات المتقدمة ، الرياض ، 10-14/5/1992، الرياض: مكتبة الملك عبدالعزيز، 1993م ،  صص 55-.

محمد فتحي الجلاب (1432هـ) الاستخلاص الآلي للمحتوى العربي على شبكة الإنترنت بين الواقع والمأمول ، في : السجل العلمي لمؤتمر المحتوى العربي ، صص 853-89.

محمد مراياتي ، يحي مير علم ، محمد حسن طيان (1996) المعجم الحاسوبي: إحصاء الأفعال العربية في المعجم الحاسوبي. بيروت: مكتبة لبنان.

محمود إسماعيل (الصيني)(1412هـ) . نحو معجم عربي للتطبيقات الحاسوبية. في : السجل العلمي لندوة استخدام اللغة العربية في تقنية المعلومات المنعقدة في مكتبة الملك عبدالعزز بالرياض (8-12 /11/ 1412هـ) ، صص 511-521.

محمود إسماعيل (الصيني) (1991) الترجمة الآلية:  إمكاناتها وحدودها": المجلة العربية للثقافة (تونس) ، ع 21 (سبتمبر) 1991م ، 132- .144

محمود إسماعيل (الصيني) (1989)المعاجم في الترجمة الآلية" في:  اللسانيات العربية والإعلامية. تونس :مركز الدراسات الاقتصادي ة والاجتماعية، 1989م ، 183- .196

محمود إسماعيل صالح (الصيني)  "بنوك المصطلحات الآلية والمعاجم الألكترونية": السجل العلمي للندوة الثانية لتعريب الحاسوب (27- 3. مارس 1994م) ، 311- .334

محمود إسماعيل صالح (2009) "الحاسوب في خدمة المترجمين" ، دراسة مقدمة إلى : مؤتمر الترجمة والتعريب في المملكة العربية السعودية ، الرياض (28-30 ديسمبر 2009).

محمود إسماعيل صالح (2012) الحاسوب في البحث اللغوي : لسانيات المدونات اللغوية أنموذجا. الرياض: جامعة الأميرة نورة .

مروان البواب (2009) أثر التقانات الحديثة في تجديد المعجم العربي (تاريخ الإضافة 18/3/2009) www.aluka.net

مروان البواب (2012) محركات البحث في النصوص العربية. من بحوث المؤتمر السابع لمجمع اللغة العربية بدمشق (تاريخ الإضافة 23/9/2012م) www.aluka.net/ literature_language/0/7728/

منصور محمد الغامدي "قاعدة بيانات الصوتيات العربية وقراءة الشفاه" www26.brinkster.com/mghamdi

مها سليمان الربيعة (1433هـ) الدليل المرجعي للذخيرة النصية الفصحى لجامعة الملك سعود. ksucorpus.ksu.edu.sa/ar/

مؤمن النشرتي (1432هـ) التحديات التي تواجه محركات البحث في استرجاع المحتوى العربي على الإنترنت: دراسة تحليلية ، في : السجل العلمي لمؤتمر المحتوى العربي ، صص 715-814.

نبيل عليى (1987) اللغة العربية والحاسوب : مجلة عالم الفكر، م 18، ع 3 ، ص 72—

نبيل علي (1988) اللغة العربية والحاسوب . الكويت: مؤسسة تعريب .

نبيل علي (1990) نظم المعلومات : المشكلات والحلول. في : ندوة "استخدام الحاسوب في العلوم الشرعية" ، صص 207-227.

نبيل علي (1994) العرب وعصر المعلومات، سلسلة عالم المعرفة، العدد 184، المجلس الوطني للثقافة والفنون والآداب، الكويت. (ينظر الفصل التاسع من الكتاب.)

ندوة "استخدام الحاسوب في العلوم الشرعية" تحت إشراف مجمع الفقه الإسلامي ( 24-26 ربيع الآخر ، 1411هـ). جدة: البنك الإسلامي للتنمية .

الندوة الدولية الأولى عن الحاسب واللغة العربية : الأوراق البحثية (29/10-2/11/ 1428هـ/ 10-12/11/2007). الرياض: مدينة الملك عبدالعزيز للعلوم والتقنية.

نعمان بوقرة (2012) "استراتيجيات الإقناع في الخطاب الصحفي السعودي- دراسة نصية تداولية" في : دراسات في علم اللغة النصي: مقاربة تطبيقية على مدونة صحيفة الجزيرة (2012) الرياض: جامعة الأميرة نورة، 19-90.

نهاد الموسى (2000) العربية: نحو توصيف جديد في ضوء اللسانيات الحاسوبية. بيروت: المؤسسة العربية للدراسات والنشر.

نوال الثنيان (2012) "الإحالة الضميرية- دراسة نحوية نصية" في : دراسات في علم اللغة النصي: مقاربة تطبيقية على مدونة صحيفة الجزيرة (2012) الرياض: جامعة الأميرة نورة، 193-293.

نوال الحلوة (2012) " أثرالتكرار في التماسك النصي- مقاربة معجمية تطبيقية" في : دراسات في علم اللغة النصي: مقاربة تطبيقية على مدونة صحيفة الجزيرة (2012) الرياض: جامعة الأميرة نورة، 91-190.

نوال الفلاج (2012) "ظاهرة الاقتران الدلالي – دراسة معجمية تطبيقية" في : التعابير الاصطلاحية في ضوء النظريات اللسانية الحديثة : دراسة تطبيقية على مدونة صحيفة الجزيرة، صص 177-271.

وفاء فايد (2000) "بعض مظاهر تغير الصيغ الصرفية في العربية المعاصرة" في: بحوث الندوة الدولية للمعاجم اللغوية العامة والمختصة .(المنعقدة في الكويت في 14-17 مارس ، 1999)

وفاء كامل فايد (2007) المتطلبات اللغوية لمعالجة التعابير الاصطلاحية العربية معالجة آلية، في: الندوة الدولية الأولى عن الحاسب واللغة العربية : الأوراق البحثية ، صص 11-22.

وفاء كامل فايد (2007) معجم التعابير الاصطلاحية في العربية المعاصرة. القاهرة: ؟؟

 وليد أحمد العناتي "اللسانيات الحاسوبية العربية: رؤية ثقافية" الموقع: www.aljabriabed.net/n82_03alinati.(1).htm

وليد العناتي وخالد الجبر (2007) دليل الباحث إلى اللسانيات الحاسوبية العربية . عمان : دار جرير للنشر والتوزيع.

يحي هلال (1990) الحاسوب في خدمة الحديث النبوي الشريف . في : ندوة "استخدام الحاسوب في العلوم الشرعية" ، صص 329-342.

المراجع الأجنبية:

 

Abdou, Ashraf (2011) Arabic Idioms: A Corpus Based Study. London and New York: Routledge.

Aijmer, K, and Altenberg, B (1991, eds.). English Corpus Linguistics. London and New York: Longman.

Al-Ansary, S. (2003). NP-Structure Types in Spoken and Written Modern Standard Arabic (MSA) Corpora. In D. Parkinson & S. Farwaneh (Eds.), Perspectives on Arabic Lin­guistics XV: Papers from the Fifteenth Annual Symposium on Arabic Linguistics (pp. 149–180). Salt Lake City.

Al-Ansary, Sameh, Nagi, Magdy and Adly, Noha Building an International Corpus of Arabic (ICA): Progress of Compilation Stage at: www.bibalex.org

 

Al-Muhanna,  Amin. (2004). Scientific and technological terms transfer into Arabic: A corpus-based study of Arabic noun+noun and noun+adjective compounds. Ph. D. thesis, UMIST, Manchester.

Al-Saif, Amal and Katja Markert: The Leeds Arabic Discourse Treebank: Annotating Discourse Connectives in Arabic at: www.comp.leeds.ac.uk/markert/Papers/LREC2010-LADTB.pdf

Al-Sulaiti, Latifa and Atwell, Eric. (2006). "The design of a corpus of contemporary Arabic." International Journal of Corpus Linguistics., vol. 11, pp. 135-171.

Al-Sulaitie, Latifa(2010). Arabic Corpora. At: http://www.comp.leeds.ac.uk./latifa/arabic_corpora.htm

Alzahrani, Rajab Jamaan (2013). "A Corpus-Based Critical Discourse Analysis of the Ideological Representations and Legitimation in the Salafi Discourse in Saudi Arabia (1980-2000)" A Ph. D. dissertation. Lancaster University, U.K.

Atkins, Sue, Jeremy Clear and Nicholas Ostler. (1993) Corpus Design Criteria, in Literary and Linguistic Computing, 7 (1), Pp.1-16.

Biber, Douglas, Conrad, Susan and Reppen, Randy (1998). Corpus Linguistics: Investigating language structure and use. Cambridge: CUP.

Bowker, Lynne and Pearson, Jennifer (2002). Working with Specialized language: A practical guide to using corpora. London & New York: Routlege.

Buckwalter, Tim and Parkison, Dilworth (2011). A Frequency Dictionary of Arabic: Core Vocabulary for Learners. New Yok and London: Routledge, Taylor, Francis Group

Callies, M. (2008) "Easy to understand but difficult to use? Raising constructions and information packaging in the advanced learner variety" in : Gilquin, G, Papp, S. and Diez-Bedmar, M. (2008.), pp. 201-226.

Cosme, Ch. (2008) "Participle clauses in learner Englihs"  in : Gilquin, G, Papp, S. and Diez-Bedmar, M. (2008.), pp.

Crystal, David (2001) Language and the Internet, Cambridge: Cambridge University Press.

Crystal, David. (1991). "Stylistic profiling" In Aijmer and Altenberg (1991), pp. 221-238.

Dukes, Kais and Nizar Habash "Morphological Annotation of Quranic Arabic" at: http://www.kaisdukes.com/papers/qmorph-lrec2010.pdf

Dukes, Kais, Eric Atwell and Abdul-Baqee Sharif, "Syntactic Annotation Guidelines for the Quranic Arabic Dependency Treebank" at: http://www.comp.leeds.ac.uk/scams/papers/qsyntax-lrec2010.pdf

Elewa, Abdul-Hamid (2004) "Collocation and Synonymy in Classical Arabic: A Corpus-Based Study" A Ph. D. thesis, University of Manchester.

Facchenetti, Roberta (2007) Corpus Linguistics 25 Years on. (Language and Computers 62) (Language & Computers: Studies in Practical Linguistics). Eiditions Rodopi

Francis, N.W. and Kucera, H. (1979). Brown Corpus Manual: Manual of Information to accompany A Standard Corpus of Present Edited American English for use with Digital Computers, Revised and Amplified. Available at: http://icame.uib./brown/bcm.html#bc2

Garside, R., G. Leech and G. Sampson (eds., 1987). The Computational Analysis of English: A corpus-based approach. London: Longman.

Ghazali, S. & Braham, A. (2001). Dictionary Definitions and Corpus-Based Evidence in Modern Standard Arabic. Arabic NLP Workshop at ACL/EACL,Toulouse,France. (http://www.elsnet.org/arabic2001/ghazali.pdf)

Gilquin, G, Papp, S. and Diez-Bedmar, M. (2008.). Linking up contrastive and learner corpus research. Amsterdam and New York: Rodopi.

Granger, Sylviane (ed.) (1998) Learner English on Computer. London & New York: Addison-Wesley-Longman.

Habash, Nizar, Reem Faraj and Ryan Roth. "Syntactic Annotation in the Columbia Arabic Treebank" at http://www.elda.org/medar-conference/pdf/25.pdf

Harley, Trevor (2008) The Psychology of Language: From data to theory, third edition. Hove and New York: Psychology Press (Taylor & Francis Group).

Hassan, Haslina and Nuraihan Mat Daud (2011). Corpus Analysis of Conjunctions: Arabic Learners' Difficulties with Collocations. In: Workshop on Arabic Corpus Linguistics (WACL), 11th -12th April 2011, Lancaster University, UK. At:  http://ucrel.lancs.ac.uk/wacl/slides-HASSAN-DAUD.pdf

Holt,  R. (2004) Dialogue on the Internet: Language Civic Identity and computer mediated communication,  London: Praeger

Hunston, Susan (2002) Corpora in Applied Linguistics. Cambridge: Cambridge University Press.

Kamal, Eman (2008) The Structure of Arguments in English and Arabic Newspaper Editorials: A Contrastive Study." An unpublished Ph. D. dissertation, King Saud University, Riyadh.

Kennedy, G.D. (1998) An Introduction to Corpus Linguistics. London: Longman.

Kilgarriff, Adam and Grefenstette (2003)"Web as Corpus" in Computational Linguistics, Vol. 29. at: www.kilgariff.co.uk./Publications/2003-KilgGrefesnstette-WACIntro.pdf

Lawler, J. and H.A. Dry (eds. 1998). Using Computers in Linguistics: A Practical Guide. London and New York: Routledge.

McEnery, T. & Wilson, A (2001) English Corpus Linguistics, 2nd  Ed Edinburgh: Edinburgh University Press.

McEnry, Tony, Xiao, Richard and Tono, Yukio (2006). Corpus-Based Language Studies: An advanced resource book. London & New York: Routledge.

Meyer, C (2002) English Corpus Linguistics: An Introduction. Cambridge: Cambridge University Press.

MOSES Machine Translation System. At http://www.statmt.org/moses

Myers, G. (2010) Language of Blogs and Wikis, London: Continuum International Publishing Group.

O'Keeffe, Anne, McCarthy, Michael and Carter, Ronald (2007). From Corpus to Classroom: Language Use and Language Teaching. Cambridge: CUP.

Olohan, Maeve (2004). Introducing Corpora in Translation Studies. London: Routledge

Osborne, John (2008), "Adverb placement in post-intermediate English: a contrastive study of learner corpora" in Gilquin, G, Papp, S. and Diez-Bedmar, M. (2008.), 1270146.

Parkinson, D. (1985). Constructing the social context of communication: terms of address in Egyptian Arabic. Berlin/New York/Amsterdam: Mouton de Gruyter.

Parkinson, D. (2003). Future Variability: A Corpus Study of Arabic Future Particles. In D. Parkinson & S. Farwaneh (Eds.), Perspectives on Arabic Linguistics XV: Papers from the Fifteenth Annual Symposium on Arabic Linguistics (pp.191–211). Salt Lake City.

Parkinson, D. & Farwaneh, S. (Eds.) (2003). Perspectives on Arabic Linguistics XV: Papers from the Fifteenth Annual Symposium on Arabic Linguistics, Salt Lake City. . Amsterdam: John Benjamins Publishers.

Sawalha, M. and Atwell, E. (2008). "Comparative Evaluation of Arabic Language Analysers and Stemmers" in: Coling 2008: Posters and Demonstrations, pp. 107-110.

Scholfied, P. (1995). Quantifying Language: A Researcher’s and Teacher’s Guide in Computing Language Data and Reducing it to Figures. Clevedon, U.K.: Multilingual Matters.

Scott, M. and Ch. Tribble. (2006) Textual Patterns: Key words and corpus analysis in language education. Amsterdam and Philadelphia: John Benjamins Publishing Company.

Second Workshop on Arabic Corpus Linguistics at Lancaster University (July, 2013) See: http://www.comp.leeds.ac.uk/eric/wacl/wacl2proceedings.pdf

Sieny, Mahmoud (1986) "Tense and Aspect in English and Arabic: Communicative and Functional Equivalence" in : Bulletin of the College of Arts, King Saud University, Vol. 13, 41-59.

Sinclair, J. (ed., 1987). Looking Up: An account of the COBUILD Project in lexical computing. London and Glasgow: Collins ELT.

Sinclair, J. (1991) Corpus, Concordance and Collocation. Oxford: Oxford University Press

Smith, M. (2009) Online Communication: Linking Technology, Identity and Culture. London: Routledge.

Stubbs, M. (1996) Text and Corpus Analysis: Computer Assisted Studies of Language and Culture. Oxford: Blackwell.

Taweel, Abeer Q., Saidat, Emad M Rafayah, Hussein A., & Saidat, Ahmad M.(2011). Hedging in Political Discourse, in The Linguistics Journal. June 2011 Volume 5 Issue 1, 169-196.

Taylor, S. (2003). Comparing Frequencies of Lexical Productions in Arabic Words. In D. Parkinson & S. Farwaneh (Eds.), Perspectives on Arabic Linguistics XV: Papers from the Fifteenth Annual Symposium on Arabic Linguistics (pp. 181–189). Salt Lake City.

Thorndike, Edward. L. and Lorge, Irving (1972). The Teacher's Word Book of 30,000 Word. New York: Columbia University, Teachers College Press.

van Mol, Mark (2000a). The development of a new learner’s dictionary for Modern Standard Arabic: the linguistic corpus approach. In U. Heid, S. Evert, E. Lehmann & C. Rohrer (Eds.), Proceedings of the ninth EURALEX International Congress (pp. 831–836). Stutt­gart, 8–12 August. (http://www.ilt.kuleuven.ac.be/ilt/arabic/_pdf/stuttgart.pdf)

van Mol, Mark (2000a). The development of a new learner’s dictionary for Modern Standard Arabic: the linguistic corpus approach. In U. Heid, S. Evert, E. Lehmann & C. Rohrer (Eds.), Proceedings of the ninth EURALEX International Congress (pp. 831–836).Stutt­gart,8–12August. (http://www.ilt.kuleuven.ac.be/ilt/arabic/_pdf/stuttgart.pdf)

van Mol, Mark (2000b). Exploring annotated Arabic corpora: preliminary results. (http://www. ilt.kuleuven.ac.be/ilt/arabic/_pdf/tunis.pdf)

van Mol, Mark (2003a). Evolution of MSA, the Case of Some Complementary Particles. In D. Parkinson & S. Farwaneh (Eds.), Perspectives on Arabic Linguistics XV: Papers from the Fifteenth Annual Symposium on Arabic Linguistics (pp. 135–147). Salt Lake City.

van Mol, Mark (2003b). Variation in Modern Standard Arabic in radio news broadcasts, a syn­chronic descriptive investigation into the use of complementary particles. Bel­gium: Peeters.

van Mol, M. & Paulussen, H. (2001). AraLat: a relational database for the development of bi­lingual Arabic dictionaries. In S. Lee (Ed.), Proceedings of Asialex 2001, Asian Bilingual­ism and the Dictionary (pp. 206–211). Seoul, August 2001. (http://www.ilt.kuleuven.ac.be/ilt/arabic/_pdf/asialex.pdf)

West, Michael (1953). A General Service List of English Words: with Semantic Frequencies and a Supplementary word-list for the Writing of Popular Science and Technology, 11th Edition. London: Longman, Green.

Whitelock, P., M.M. Wood, H.L. Somers, R. Johnson and P. Bennett (eds., 1987). Linguistic Theory and Computer Applications. London and New York: Academic Press.

Whitney, Paul (1998.) The Psychology of Language. Boston and New York: Houghton Miflin Company.

Wynne, M. (2005) ( Ed.) Developing Linguistic Corpora: A Guide to Good Practice. (AHDS Guides to Good Practice) At: http://www.ahds.ac.uk/creating/guides/linguistic-corpora//index.htm

 Related links

Two generally useful URLs to follow are:
http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm
http://devoted.to/corpora
The first of these URLs is an on-line accompaniment to the McEnery & Wilson Corpus Linguistics textbook. The second URL is a collection of useful URLs covering a wide range of topics of interest to people using, or interested in using corpora.

For those interested in exploring the role of corpora in teaching, Tim Johns' data driven learning page (http://web.bham.ac.uk/johnstf/timconc.htm) is a valuable resource. Michael Barlow's page (http://www.ruf.rice.edu/~barlow/corpus.html) is also valuable, both because it contains some information regarding teaching and language corpora and because it contains a host of links to corpora in a number of languages, amongst other things.

Mike Scott's homepage is a good place to visit to explore a popular concordancer, WordSmith (http://www.liv.ac.uk/~ms2928/homepage.html) while the possibility of using the Sara programme, released with the British National Corpus, is best explored by visiting http://www.hcu.ox.ac.uk/BNC/.

 

هناك 67 تعليقًا:

  1. السلام عليكم ورحمة الله وبركاته جزاك الله خيرا دكتور على هذا النشر والمعلومات القيمة وانا لدي بحث عن هذا الموضوع وهو الالفاظ العلمية في المدونة الالكترونية دراسة لغوية كيف لي ان اجرد تلك الالفاظ دكتور وما الفرق بين المدونة اللغويةمثل المدونة المكتوبةWritten Corpora
    والمدونة المنطوقة Spoken Corpora وبين المدونات الالكترونية Blogs ولدي اسئلة اخر وجزاكم الله خير الجزاء
    الطالبة منى عريبي محمد
    طالبة دراسات / لغة عربية
    جامعة سامراء
    العراق

    ردحذف
  2. من اخطر النظافة اللى من غيرها ياتى الامراض الكثيرة نظافة المسابح لابد على تنظيف السابح تنظيف جيد جدا وافضل الشكات التى تنظف المسابح هى شركة تنظيف مسابح بالرياض وايضا تنظيف وتسيك المجارى وهى شركة تسليك مجارى بالدمام وايضا يوجد ثلاث اشياء يجب تنظيفهم تنظيف جيد جدا لان يسكن بيهم بعض الحشرات التى تجلب الامراض الشيديد وقد تؤدى التى الموت فى بعض الاوقات هى تنظيف الكنب وتنظيف الموكيت وتنظيف السجاد ولدينا شركات لتنظيف هذا تنظيف ممتاز وهم
    شركة تنظيف موكيت بالدمام شركة تنظيف كنب بالدمام وشركة تنظيف سجاد بالدمام
    وللاتصال وطلب الخدمة 0508400941

    ردحذف
  3. شركة سيرفس تاون للخدمات العامة أفضل شركة عزل اسطح بمكة حيث نقوم بعزل الاسطح بافضل مواد العزل ونقدم ايضا خدمات العزل الاخرى فى شركتنا فى شركة عوازل بمكةومنها عزل الفوم والعزل الحرارى والعزل المائى


    شركة عزل اسطح بمكة
    شركة عزل حرارى بمكة
    شركة عزل مائى بمكة
    شركة عزل فوم بمكة
    شركة عزل بمكة

    ونقدم ايضا فى شركتنا الخدمة الاكثر طلبا فى مكة خدمة تنظيف الخزانات عبرشركة تنظيف خزانات بمكةالشركة الرائدةفى مجال تنظيف وتعقيم وغسيل وتطهير الخزانات بمكة بافضل مواد التنظيف التى تستخدم فى ازالة الرواسب وجعلة نظيفا وامنا لكى تحصل على مياة صحية

    شركة تنظيف خزانات بمكة
    أفضل شركة تنظيف خزانات بمكة
    شركة تعقيم خزانات بمكة
    http://www.service-town.com/%D8%B4%D8%B1%D9%83%D8%A9-%D8%AA%D9%86%D8%B8%D9%8A%D9%81-%D8%AE%D8%B2%D8%A7%D9%86%D8%A7%D8%AA-%D8%A8%D9%85%D9%83%D8%A9/

    ونقدم خدمات اخرى كثيرة فى شركتنا مثل خدمات التنظيف العامة وخدمات كشف التسربات
    وخدمات مكافحة الحشرات فقط زوروا موقعنا التالى :

    http://www.service-town.com/

    ردحذف
  4. يا آخر لطيف، أنا حقا يتمتع بقراءة هذا المنصب. لا بد لي من إضافة شيء جديد يتعلق هذا المنصب الذي هو
    زراعة الشعر في دبي


    . زيارة والحصول على مزيد من التفاصيل حول هذا الموضوع.

    ردحذف
  5. شركة النور الدولية شركة صيانة مسابح بمكة الشركة الاولى فى مجال صيانة المسابح وحل جميع مشاكل المسابح ونقوم بحل مشاكل المسابح من عملية تنظيف وصيانة ونقوم بتنظيف المسابح فى منزلك او فللتك ونقوم بتنظيف المسابح عبر شركة تنظيف مسابح بمكةداخل الفنادق والقرى السياحية فاترك لنا مهمة عناء تنظيف وصيانة المسابح بمكة وكذالك نقوم بانشاء المسابح عبرشركة انشاء مسابح بمكة
    صيانة مسابح بمكة


    ردحذف
  6. شركة نظافة عامة بمكة
    فإذا لاحظت أن منزلك بحاجة إلى التنظيف و التعقيم كما أن مفروشاتك داخل الشقق والمنازل والفلل والنظافة العامة التى تقدمها شركة نظافة بمكة لكل شىء داخل المنزل قد اتسخت و كنت لا تجد الوقت الكافي للقيام بأعمال التنظيف المنزلية أو لا تجد الجهد لذلك فقط قم بالاتصال تتميز شركتنا عن باقي شركات نظافة بمكة بسرعة الأداء و جودة التنظيف.
    معنا تقوم بتوفير الوقت و المجهود مع شركة التقوى 0540505502.
    أفضل شركة نظافة بمكة

    ردحذف
  7. شركة مكافحة بق الفراش بجدة
    الاهتمام جيدا بتهوية المكان كل يوم لتفادي تراكم حشرات على المفروشات
    المختلفة وعلى رأسها بق الفراش .
    • استخدام الطرق التقليدية في الوقاية من الحشرات مثل رش مبيدات يوميا في الأركان لعدم ظهور أي نوع من الحشرات بها .
    • التأكد من إغلاق مختلف النوافذ قبل الذهاب إلى النوم كي لا يتم السماح لأي حشرة بالتسلل في وقت الليل .
    شركة مكافحة البق بجدة

    ردحذف
  8. شركة تنظيف خزانات بجدة
    شركة الياسمينة المتخصصة فى مجال نظافة الخزانات وغسيلها فى مدينة جدة وتعتبر رقم واحد فى هذا المجال الملىء بشركات نظافة وعزل خزانات بكثرة ولاكننا نتميز بالدقة والجودة فى عملية كشف التسربتت عبر : شركة كشف تسربات المياه بجدة ونقدم أفضل خدمات عزل الخزانات بأفضل العمالة المدربة على أعلى مستوى عبر شركة عزل خزانات بجدة .

    ردحذف
  9. شركة نور الهدى 0509344560 أفضل شركة متخصصة فى الخدمات العامة فى مكة المكرمة وخاصة خدمات التنظيف التى تقدمة شركة تنظيف بمكة وتقوم بتنظيف المنازل والشقق وافلل والبيوت والخيام وبيوت الشعر وتعتبر شركة نظافة بمكة أفضل شركات النظافة العامة فى مكة ونقوم أيضا فى شركتنا بتقديم خدمات أخرى متميزة اولها خدمة التنظيف بالبخار للمجالس والموكيت والسجاد والكنب والانتريهات والستائر والمفروشات عبر شركة تنظيف بالبخار بمكة ليس هذا فقط بل ونقدم خدمة تنظيف وعزل الخزانات لكى تحصل على مياه نقية عبر شركة تنظيف خزانات بمكة افضل العمالة المدربة وارخص الاسعار .

    ردحذف
  10. شركة كشف تسربات المياه بمكة مجموعة الرحمه 0542001472 أفضل شركات كشف تسربات المياه بمكة المكرمة
    شركة كشف تسربات المياه بمكة
    لابد لك من أن تدرك جيداً أن هنالك أنواع متعددة من التسربات فليست فقط مشكلة التسرب مقتصرة على التسربات المتواجدة بأنابيب ومواسير الصرف الصحي، بل يمكن تعريف التسرب بكونه كل تسرب للماء بغير مكانه الصحيح خاصة إن كان ذلك التسرب سيتسبب بالضرر والأذى.
    كشف تسربات المياه بمكة

    ردحذف
  11. بالتالي سنتعرف اليوم على أنواع مختلفة من التسربات التي رغم خطورتها لا تتطرق الكثير من الشركات إلى الاهتمام، فعلى سبيل المثال التسربات التي قد تصيب الخزانات التي تزداد الأضرار عنها بدرجة مضاعفة على المنازل أو المباني المتواجدة بها.
    شركة كشف تسربات المياه بالدمام
    شركة كشف تسربات بالدمام
    أرخص شركة كشف تسربات بالدمام
    أفضل شركة كشف تسربات بالدمام
    شركة كشف تسربات المياه بالخبر
    كشف تسربات المياه بالخبر
    شركة كشف تسربات بالخبر
    كشف تسربات بالخبر
    http://www.service-town.com/water-leak-detection-company-in-khobar/
    شركة كشف تسربات المياه بالقطيف

    ردحذف
  12. تهنئة حارة من القلب لأخي العالم الجليل الدكتور محمود إسماعيل صالح بهذه المدونة العلمية النافعة، متمنيا له موفور الصحة والهناء وموصول العمل والعطاء.
    علي القاسمي

    ردحذف
  13. نحن شركة سيرفس تاون للخدمات المنزلية رائدة فى مجال الخدمات المنزلية وخبرة تفوق ال20 عاما وخاصة خدمات نقل العفش داخل وخارج المملكة العربية السعودية وتعتبر أفضل شركة نقل عفش واثاث بالسعودية حيث نقوم بنقل وتخزين العفش من خلال أفضل السيارات المجهزة الى اى مكان ونملك مستودعات مجهزة على مستوى عالى وعلى درجة كبيرة من الامان للمحافظة على الاثاث ونملك فريق من العمالة مدربة على أعلى مستوى من الخبرة والكفاءة
    شركة نقل عفش بالطائف
    شركة نقل عفش بينبع
    شركة نقل عفش بالمدينة المنورة
    كيفية احتيار شركة نقل عفش بمكة رخيصة
    افضل شركه نقل اثاث داخل مكة

    ردحذف
  14. شركة نقل عفش بمكة
    شركة جوهرة سيلى 0500079574 فكلما كانت الشركة قديمة في مجال نقل العفش والأثاث المنزلي وكلما كانت الشركة تمكنت من القيام بتنفيذ عدد كبير من العمليات كلما امتلكت الخبرة اللازمة التي يمكن من خلالها التعامل مع أي مشكلة من المشاكل أثناء تنفيذ عملية نقل العفش والأثاث المنزلي بالصورة التي تجعل العملية تتم بشكل سهل وبدون أي نوع من المشاكل التي يمكن إن تؤدي إلى قلق أصحاب المنزل أثناء تنفيذ العملية.
    شركات نقل عفش بمكة

    http://www.service-town.com/transfer-company-in-makkah/

    ردحذف
  15. نقدم لكم أفضل شركات نقل العفش فى مدينة جدة شركة اهل الخليج شركة نقل عفش بجدة خدمة ممتازة بأرخص الاسعار ونملك أفضل عمالة فنية مدربة على مستوى عالى من الخبرة والكفاءة فى مجال نقل الاثاث المنزلى والمكتبى

    ردحذف
  16. أزال المؤلف هذا التعليق.

    ردحذف
  17. مرحبًا ، أنا سعيد جدًا الآن لأنني حصلت اليوم على مبلغ قرضي بقيمة 60.000 دولار من هذه الشركة الجيدة بعد أن حاولت عدة شركات أخرى ولكن دون جدوى هنا رأيت إعلان شركة Joan Finance وقررت تجربته واتبعت جميع التعليمات. وهنا أنا سعيد اليوم ، يمكنك أيضًا الاتصال بهم إذا كنت بحاجة إلى قرض سريع ، فاتصل بهم الآن عبر هذا البريد الإلكتروني: (contact@joanfinancefirm.com) أو whatsapp: +919144909366


    شكرا

    ردحذف
  18. Hey guys, India is neither a country nor a nation. It is a multinational subcontinent. Foreign citizens can come to India and see this country's beauty. And they can fill India e tourist visa application form online yourself.

    ردحذف

  19. سعر حقن الركبة الهيالورونيك في مصر
    سعر حقن الركبة الهيالورونيك
    دكتور عظام تخصص اصابات ملاعب
    اقرب دكتور عظام
    اضرار حقن الكورتيزون في المفصل
    افضل مركز علاج طبيعي في القاهرة
    افضل مركز علاج طبيعي في الجيزة
    افضل مركز علاج طبيعي في المهندسين
    حقن الركبة بالمادة الجيلاتينية
    سعر حقن الجيلاتين للركبة
    دكتور عظام تخصص اصابات ملاعب
    سعر حقن الركبة الهيالورونيك في مصر
    سعر حقن الركبة الهيالورونيك
    علاج الرباط الصليبي الامامي بدون جراحه

    اقرب دكتور عظام
    افضل دكتور عظام تخصص ركبة
    افضل جراح عظام في مصر
    افضل دكتور تغيير مفصل الركبة في مصر
    تكلفة عملية تغيير مفصل الركبة في مصر
    سعر عملية تغيير مفصل الركبة
    تاهيل الركبة بعد عملية الرباط الصليبي
    منظار غضروف الركبة
    تكلفة عملية منظار الكتف
    اسعار عملية منظار الكتف في مصر
    عملية تغيير مفصل الحوض
    احسن دكتور عظام في مصر
    افضل دكتور عظام ومفاصل في مصر
    اكبر دكتور عظام في القاهره
    افضل دكتور عظام في القاهره
    احسن دكتور عظام في القاهرة
    افضل دكتور عظام في المهندسين
    دكتور عظام فى المهندسين

    ردحذف
  20. لقد ساعدتني مؤسسات الائتمان الائتمانية حقًا في الحصول على قرض شخصي بسهولة. لقد منحوني الفرصة لاقتراض 25000 دولار دون التعرض لخطر فقدان المنزل أو السيارة. حقًا، أنتم شركة محترفة وصديق مالي عظيم للأشخاص الذين يحتاجون إلى المساعدة. اتصل بهذه الشركة اليوم إذا كنت بحاجة إلى قرض عاجل، اتصل بالبريد الإلكتروني: Loancreditinstitutions00@gmail.com على Whatsapp: +393512640785
    البريد الإلكتروني: Loancreditinstitutions00@yahoo.com
    واتس اب : +393512114999
    واتس اب : +393509313766
    شكرا لمؤسسات الائتمان القروض

    ردحذف