مدونات لغوية عربية
ظهرت في الآونة الأخيرة مجموعة من المدونات اللغوية العربية ، بعضها مجاني وبعضها يتطلب إجراءات خاصة مثل دفع الرسوم . ونورد أدناه هذه المدونات .
أولا: (ترجمة لقائمة لطيفة السليطني المؤرخة في 20 فبراير، 2010)
أولا: (ترجمة لقائمة لطيفة السليطني المؤرخة في 20 فبراير، 2010)
اسم المدونة
|
صنعها
|
الوسط
|
الحجم
|
الغرض
|
مصدر المادة النصية
|
مدونة باك -ولترالعربية 1968-2003
|
تم ولتر
|
نصوص مكتوبة
|
3:2.5
بليون كلمة
|
معجمى
|
المصادر المنشورة على الشبكة
|
مُدَوَّنة ليوفان
|
الجــــامعة الكاثوليكية في بلجيكا
|
نصوص مكتوبة ومنطوقة
|
3
مليون منها 700.000 منطوقة
|
لعمل قاموس هولندي عربي والعكس لمتعلمي اللغة
|
مصادر من الإنترنت ، الإذاعة والتلفاز ، كتب
دراسة للمرحلة الإبتدائية
|
مدونة نيوزواير العربية 1994
|
جامعة بنسلفانا
|
مكتوبة
|
80
مليون كلمة
|
في التعليم وتطوير تقنياته
|
وكالة فرنسا للصحف ووكالة شينخوا و أمة بريس
|
مدونة كول فرند 1995
|
جامعة بنسلفانا
|
محادثات
|
60
محادثة تليفونية
|
تطوير تقنيات اللغة
|
ناطقون باللهجة المصرية
|
مدونة نيميجن 1969
|
مكتوبة
|
أكثر من 2 مليون كلمة
|
لعمل معجم هولندي عربي والعكس لمتعلمي اللغة
|
مجلات وروايات
|
|
كول هوم 1997
|
جامعة بنسلفانا
|
محادثات
|
120
محادثة تليفونية
|
التعرف على اللغة من خطوط الهاتف
|
ناطقون باللهجة المصرية
|
كلارا 1997
|
جامعة تشالرز براغ
|
مكتوبة
|
50
مليون كلمة
|
للعمل المعجمي
|
الدوريات العلمية والكتب ومصادر من الإنترنت
من 1995 حتى تاريخه
|
مصر 1999
|
جامعة جون هوبكينز(واشنطن)
|
مكتوبة
|
غير محدد
|
الترجمة الآلية
|
مدونة ثنائية اللغة للقرآن الكريم
|
الأخبار الإذاعية وكلام2000
|
جامعة بنسلفانا و إل دي سي
|
منطوقة
|
110
برنامج إذاعي
|
التعرف على الكلام
|
إذاعة صوت أمريكا
|
مدونة دينار2000
|
جامعة نيميجن بهولندا و جامعة ليون دو
الفرنسية بالتعاون مع سوتيتيل(التونسية)
|
مكتوبة
|
100
مليون كلمة
|
أغراض معجمية ومعالجة اللغات الطبيعية عامة
|
غير معروفة
|
مدونة النهار 2001
|
إي إل آر إيه
|
مكتوبة
|
140
مليون كلمة
|
أغراض بحثية عامة
|
صحيفة النهار اللبنانية
|
مدونة الحياة 2002
|
إي إل آر إيه
|
مكتوبة
|
18.6
مليون كلمة
|
هندسة اللغة واسترجاع المعلومات
|
صحيفة الحياة اللبنانية
|
جيجا ورد العربية
|
جامعة بنسلفانا
|
مكتوبة
|
400
مليون كلمة
|
معالجة اللغات الطبيعية- استعادة البيانات-
نمذجة اللغة
|
وكالة الأنباء الفرنسية ، ووكاتي أنباء النهار
والحياة ووكالة أنباء شينخوا
|
مدونة متوازية عر/ إنج 2003
|
جامعة الكويت
|
مكتوبة
|
3
مليون كلمة
|
تدريس الترجمة والمعجمية
|
منشورات المجلس الوطني الكويتي
|
مدونة اللغة العلمية العامة 2004
|
اج مانشستر
|
مكتوبة
|
106
مليون
|
دراسة المركبات في العربية
|
|
مدونة العربية الفصحى 2004
|
اج مانشستر
|
مكتوبة
|
5
مليون
|
تحليل معجمي
|
www.muhaddith.org and
www.alwaraq.com
|
مدونة متعددة اللغات 2004
|
اج مانشستر
|
مكتوبة
|
107
مليون (منها 1 مليون عربية)
|
الترجمة
|
صفحات تقنية المعلومات
|
مدونة سوتيتل (التونسية)
|
سوتيتل لتقنية المعلومات (تونس)
|
مكتوبة
|
8
مليون كلمة
|
معجمي
|
مواد أكاديمية أدبية ومجلات علمية
|
مدونة
قيد الإنشاء:
المدونة الدولية للعربية
|
مكتبة الإسكندرية
|
مكتوبة
|
100 مليون كلمة
|
بحث لغوي عام
|
أنواع مختلفة من المصادر المتاحة علي الشابكة
تمثل مناطق عربية
|
المصدر: http://www.comp.leeds.ac.uk/latifa/arabic_corpora.htm
ثانيا:
مدونات إضافية:
يضاف إلى
المدونات المذكورة أعلاه المدونات التالية :
المصادر:
مدينة الملك عبدالعزيز للعلوم والتقنية (الرياض)
مها سليمان الربيعة (1433هـ) الدليل
المرجعي للذخيرة النصية الفصحى لجامعة الملك سعود. ksucorpus.ksu.edu.sa/ar/
عبدالغني أبو العزم " اللغة العربية والمعالجة الآلية: برامج
صخر نموذجا") في الموقع: www.aljabriabed.net/n31_04abualazm.(2).htm
مدونة متعلمي العربية
مدونتا الوطن والخليج ، مراد عباس ، على الرابط
التالي :
مدونة العربية arabiCorpus ، الموقع:
http://arabicorpus.byu.edu
مدونة مسكوك ، الموقعين :
http://maskouk.sourceforge.net/index.php?content=doc
(1) KALIMAT: A
Multipurpose Arabic Corps, (2) Multi-document Summaries Corpus
انظر:
www.lancs.ac.uk/staff/elhaj/corpora.htm
للمعلومات التي يقدمها الدكتور الحاج من جامعة لانكاسترعن المدونتين أعلاه.
ويذكرالكاتب أنه يمكن تنزيل المدونتين من الموقع المذكور والذي يعرف بكل منهما
بإيجاز.
من المشروعات الخاصة باللغة العربية
المحكية مدونة "تونسية: مدونة العربية التونسية التي للباحثتين كارين ماكنيل وفايزة ميلاد . انظر الموقع:
www.tunisiya.org
ثالثا: مدونات عربية موسومة
لعل من أهم المدونات العربية
الموسومة (بها تحشية صرفية ونحوية) مايلي:
(1) مدونة القرآن الكريم ، وهي موسومة صرفيا
ونحويا وبها شبكة دلالية للمفاهيم ontology
وهي من إعداد فريق من الباحثين من جامعة
ليدز (مجموعة البحث اللغوي )، وهي في نسختها الرابعة في الأول من مايو 2011.
الموقع:
(2)
مدونة جامعة بنسلفانيا المشكولة والموسومة بأقسام الكلام والمحللة نحويا ، من
إعداد باحثين من جامعة بنسلفانيا بمدينة فيلادلفيا الأمريكية برئاسة محمد
المعموري، وتسمى Penn Arabic
Treebank . (انظر المقال المذكور أدناه.)
Arabic Treebank: Part 1 v
3.0 (POS with full
vocalization + syntactic analysis). Authors: Mohamed Maamouri (project head),
Ann Bies, Tim Buckwalter ...
(3) مدونة جامعة كولومبيا
الموسومة صرفيا ونحويا CATiB ، وهي من إنتاج
باحثين من جامعة كولومبيا في نيويورك.
انظر مقالة Nizar Habash, Reem Faraj and Roth
Syntactic Annotation in the Columbia Arabic
Treebank وكذلك مقالهم : CATiB:
The Columbia Arabic Treebank (2009) in: Proceedings of the ICL-IJNLP 2009
Conference Short Parpers.
(4) مدونة براغ الموسومة نحويا Prague Arbic Dependency Treebank من إعداد فريق بحث في جامعة تشارلس Charles Universtiy في براغ Prague.
تشتمل المدونة على 113 ألف وخمسمائة كلمة
فعلية ، معظم نصوصها من إصدارات وكالات للأنباء. انظر الموقع:
http://ufal.mff.cuni.cz/padt/PADT_1.0/docs/index.html
|
ليست هناك تعليقات:
إرسال تعليق