أهلا بكم في مدونة الدكتور محمود إسماعيل صالح

السبت، 4 يناير 2014


مدونات لغوية عربية

 ظهرت في الآونة الأخيرة مجموعة من المدونات اللغوية العربية ، بعضها مجاني وبعضها يتطلب إجراءات خاصة مثل دفع الرسوم . ونورد أدناه هذه المدونات .

أولا: (ترجمة لقائمة لطيفة السليطني المؤرخة في 20 فبراير، 2010)

 

اسم المدونة
صنعها
الوسط
الحجم
الغرض
مصدر المادة النصية
مدونة باك -ولترالعربية 1968-2003
تم ولتر
نصوص مكتوبة
3:2.5  بليون كلمة
معجمى
المصادر المنشورة على الشبكة
مُدَوَّنة ليوفان
الجــــامعة الكاثوليكية في بلجيكا
نصوص مكتوبة ومنطوقة
3 مليون منها 700.000 منطوقة
لعمل قاموس هولندي عربي والعكس لمتعلمي اللغة
مصادر من الإنترنت ، الإذاعة والتلفاز ، كتب دراسة للمرحلة الإبتدائية
مدونة نيوزواير العربية  1994
جامعة بنسلفانا
مكتوبة
80 مليون كلمة
في التعليم وتطوير تقنياته
وكالة فرنسا للصحف ووكالة شينخوا و أمة بريس
مدونة كول فرند 1995
جامعة بنسلفانا
محادثات
60 محادثة تليفونية
تطوير تقنيات اللغة
ناطقون باللهجة المصرية
مدونة نيميجن 1969
 
مكتوبة
أكثر من 2 مليون كلمة
لعمل معجم هولندي عربي والعكس لمتعلمي اللغة
مجلات وروايات
كول هوم 1997
جامعة بنسلفانا
محادثات
120 محادثة تليفونية
التعرف على اللغة من خطوط الهاتف
ناطقون باللهجة المصرية
كلارا 1997
جامعة تشالرز براغ
مكتوبة
50 مليون كلمة
للعمل المعجمي
الدوريات العلمية والكتب ومصادر من الإنترنت من 1995 حتى تاريخه
مصر 1999
جامعة جون هوبكينز(واشنطن)
مكتوبة
غير محدد
الترجمة الآلية
مدونة ثنائية اللغة للقرآن الكريم
الأخبار الإذاعية وكلام2000
جامعة بنسلفانا و إل دي سي
منطوقة
110 برنامج إذاعي
التعرف على الكلام
إذاعة صوت أمريكا
مدونة دينار2000
جامعة نيميجن بهولندا و جامعة ليون دو الفرنسية بالتعاون مع سوتيتيل(التونسية)
مكتوبة
100 مليون كلمة
أغراض معجمية ومعالجة اللغات الطبيعية عامة
غير معروفة
مدونة النهار 2001
 إي إل آر إيه
مكتوبة
140 مليون كلمة
أغراض بحثية عامة
صحيفة النهار اللبنانية
مدونة الحياة 2002
إي إل آر إيه
مكتوبة
18.6 مليون كلمة
هندسة اللغة واسترجاع المعلومات
صحيفة الحياة اللبنانية
جيجا ورد العربية
جامعة بنسلفانا
مكتوبة
400 مليون كلمة
معالجة اللغات الطبيعية- استعادة البيانات- نمذجة اللغة
وكالة الأنباء الفرنسية ، ووكاتي أنباء النهار والحياة  ووكالة أنباء شينخوا
مدونة متوازية عر/ إنج 2003
جامعة الكويت
مكتوبة
3 مليون كلمة
تدريس الترجمة والمعجمية
منشورات المجلس الوطني الكويتي
مدونة اللغة العلمية العامة 2004
اج مانشستر
مكتوبة
106 مليون
دراسة المركبات في العربية
مدونة العربية الفصحى 2004
اج مانشستر
مكتوبة
5 مليون
تحليل معجمي
www.muhaddith.org and
www.alwaraq.com
مدونة متعددة اللغات 2004
اج مانشستر
مكتوبة
107 مليون (منها 1 مليون عربية)
الترجمة
صفحات تقنية المعلومات
مدونة سوتيتل (التونسية)
سوتيتل لتقنية المعلومات (تونس)
مكتوبة
8 مليون كلمة
معجمي
مواد أكاديمية أدبية ومجلات علمية

 مدونة قيد الإنشاء:

المدونة الدولية للعربية
مكتبة الإسكندرية
مكتوبة
100 مليون كلمة
بحث لغوي عام
أنواع مختلفة من المصادر المتاحة علي الشابكة تمثل مناطق عربية

المصدر: http://www.comp.leeds.ac.uk/latifa/arabic_corpora.htm

 

ثانيا: مدونات إضافية:
يضاف إلى المدونات المذكورة أعلاه المدونات التالية :
المدونة اللغوية العربية
مدينة الملك عبدالعزيز للعلوم والتقنية (الرياض)
نصوص مكتوبة
 732,780,509 مليون كلمة
لأغراض مختلفة
مصادر متنوعة قديمة وحديثة وتمثل مناطق جغرافية مختلفة
للذخيرة النصية الفصحى لجامعة الملك سعود
مها سليمان الربيعة
نصوص مكتوبة
50602412 كلمة
أغراض مختلفة
مصادر تراثية مختلفة
مكنز صخر
شركة صخر
نصوص مكتوبة
متوقع ، 500 مليون كلمة
تطوير برمجيات حاسوبية لغوية
نصوص نثرية معاصرة
مدونة متعلمي  العربية
جامعة أريزونا
نصوص مكتوبة
 
تحليل أخطاء المتعلمين
كتابات دارسين أجانب على مدى 15 عاما
مدونة وطن 2004
مراد عباس
نصوص مكتوبة
 
معالجة اللغات الطبيعية
5000 مقالة من الوطن
مدونة خليج 2004
مراد عباس
نصوص مكتوبة
4.1 ميقا بايت
معالجة اللغات الطبيعية
 حوالي 20000 مقالة من الخليج
المدونة العربية arabiCorpus
جامعة بريغهام يونغ (الأمريكية)
نصوص مكتوبة ومنطوقة
173.600.000
كلمة
أغراض مختلفة
صحافة ، أدب حديث ،نثر ، عامية مصرية
مدونة مسكوك (arabcrunch)
طه الزروفي (الجزائر)
نصوص مكتوبة، متلازمات لفظية
 
بحث لغوي
وكيبيديا العربية ومكتبة ثواب
 
المصادر:
 
مدينة الملك عبدالعزيز للعلوم والتقنية (الرياض)
 
مها سليمان الربيعة (1433هـ) الدليل المرجعي للذخيرة النصية الفصحى لجامعة الملك سعود. ksucorpus.ksu.edu.sa/ar/
 
عبدالغني أبو العزم " اللغة العربية والمعالجة الآلية: برامج صخر نموذجا") في الموقع: www.aljabriabed.net/n31_04abualazm.(2).htm
مدونة متعلمي العربية
مدونتا الوطن والخليج ، مراد عباس ، على الرابط التالي :
مدونة العربية arabiCorpus ، الموقع:
http://arabicorpus.byu.edu
مدونة مسكوك ، الموقعين :
http://maskouk.sourceforge.net/index.php?content=doc
 (1) KALIMAT: A Multipurpose Arabic Corps, (2) Multi-document Summaries Corpus انظر:
www.lancs.ac.uk/staff/elhaj/corpora.htm للمعلومات التي يقدمها الدكتور الحاج من جامعة لانكاسترعن المدونتين أعلاه. ويذكرالكاتب أنه يمكن تنزيل المدونتين من الموقع المذكور والذي يعرف بكل منهما بإيجاز.
من المشروعات الخاصة باللغة العربية المحكية مدونة "تونسية: مدونة العربية التونسية التي للباحثتين  كارين ماكنيل وفايزة ميلاد . انظر الموقع:
www.tunisiya.org
 
ثالثا: مدونات عربية موسومة
لعل من أهم المدونات العربية الموسومة (بها تحشية صرفية ونحوية) مايلي:
(1) مدونة القرآن الكريم ، وهي موسومة صرفيا ونحويا وبها شبكة دلالية للمفاهيم ontology
وهي من إعداد فريق من الباحثين من جامعة ليدز (مجموعة البحث اللغوي )، وهي في نسختها الرابعة في الأول من مايو 2011. الموقع:
(2) مدونة جامعة بنسلفانيا المشكولة والموسومة بأقسام الكلام والمحللة نحويا ، من إعداد باحثين من جامعة بنسلفانيا بمدينة فيلادلفيا الأمريكية برئاسة محمد المعموري، وتسمى Penn Arabic Treebank . (انظر المقال المذكور أدناه.)
Arabic Treebank: Part 1 v 3.0 (POS with full vocalization + syntactic analysis). Authors: Mohamed Maamouri (project head), Ann Bies, Tim Buckwalter ...
 (3) مدونة جامعة كولومبيا الموسومة صرفيا ونحويا  CATiB ، وهي من إنتاج باحثين من جامعة كولومبيا في نيويورك.
انظر مقالة Nizar Habash, Reem Faraj and Roth
Syntactic Annotation in the Columbia Arabic Treebank وكذلك مقالهم : CATiB: The Columbia Arabic Treebank (2009) in: Proceedings of the ICL-IJNLP 2009 Conference Short Parpers.
(4) مدونة براغ الموسومة نحويا Prague Arbic Dependency Treebank  من إعداد فريق بحث في جامعة تشارلس Charles Universtiy  في براغ Prague.
تشتمل المدونة على 113 ألف وخمسمائة كلمة فعلية ، معظم نصوصها من إصدارات وكالات للأنباء. انظر الموقع:
http://ufal.mff.cuni.cz/padt/PADT_1.0/docs/index.html
 

 

ليست هناك تعليقات:

إرسال تعليق