أهلا بكم في مدونة الدكتور محمود إسماعيل صالح

السبت، 4 يناير 2014



 مصطلحات لسانيات ا لمدونات اللغوية :

 إنجليزي-عربي مع التعريفات

وقائمة عربية-إنجليزية

د/ محمود إسماعيل صالح (أستاذ اللسانيات التطبيقية)
لعل من أهم المستجدات في ميدان البحث اللغوي ما يعرف بلسانيات المدونات اللغوية corpus linguistics ونظرا لحداثة هذا العلم ، فنجد أنه لا بد للقارىء العربي أن يلجأ إلى مصادر أجنبية للتعرف على تفاصيل هذا العلم . لذلك رأيت أن أعرض أهم مصطلحاته ، لعلها تعين القارئ العربي لهذه المصادر. وقد جاء المسرد من جزءين : المسرد الإنجليزي العربي ، مع الشرح الموجز، متبوعا بقائمة عربية إنجليزية ، يمكن أن يفيد منها القارئ في الرجوع إلى الشروحات في القسم الأول.


 أولا: المسرد الإنجليزي-العربي

 

محاذاة:   alignment

وضع الترجمة (عادة ، على مستوى الجملة أو العبارة أو الكلمة ) بجوار مقابلتها في لغة أخرى ، غالبا في ذاكرات الترجمة والمدونات المتوازية.

قائمة ألفبائية:  alphabetical list

قائمة ألفاظ مرتبة حسب حروف الهجاء ، مقابل قائمة مرتبة حسب تكرار الكلمات.

تحشية الضمير العائد:  anaphoric annotation

وسم نصوص المدونة بالمعلومات الخاصة بالضمائر والأسماء التي تعود عليها.


المدونة التي تم وسمها بالمعلومات اللغوية (نحوية أو دلالية مثلا).


في لسانيات المدونات، يقصد بها تزويد النصوص بالمعلومات اللغوية، وتكون داخل النص.

يزود النص بالتحشية:   annotate

الذكاء الاصطناعي:  Artificial Intelligence (AI)

فرع من فروع علوم الحاسوب يستعمل لحل المشكلات ، عن طريق محاكاة السلوك الإنساني في التعامل مع المعرفة.

مطابقة الواقع :  authenticity

أي تكون المادة اللغوية مستقاة من نصوص حقيقية، وليست مصطنعة.

مدونة متوازنة:  balanced corpus

مدونة جمعت نصوصا وفق معايير تحقق التوازن بين أنواع النصوص المختلفة من حيث النوع والجنس الأدبي والتخصص...

طقم أساس للواسمات:  base tagset

مجموعة أساسية من الرموز تستخدم في وسم النصوص.  ومن أشهرها "مشروع تشفير النصوص Text Encoding Initiative (TEI)  .

كشاف سياقي ثنائي اللغة:  bilingual concordance

كشاف سياقي يشتمل على نتائج البحث في مدونة متوازية ، يعرض للمقاطع النصية مع مقابلاتها، إما جنبا إلى جنب أو فوق بعضها البعض.

مصطلح محتمل:  candidate term

كلمة أو عبارة يشتبه في كونها مصطلحا عثر عليه برنامج استخراج المصطلحات.

سي إي إس:  CES

اختصار لمعيار تشفير المدونات Corpus Encoding Standard . وهو تطبيق للغة إس جي إم إل SGML وينسجم بشكل عام مع سي إي إس.

محرف:  character

هو الرمز الذي يشير إلى حرف أو رقم في الحاسوب أو أي رمز آخر(نجده في لوحة المفاتيح).

:  character encoding

نظام استخدام قيم رقمية لتمثيل المحارف (الحروف أو الأرقام والرموز الآخرى).


البرمجيات التي تشمل التحليل الصرفي وتحديد البيئة المعجمية وما شابه ذلك.

مصاحب لفظي:  collocate

الكلمات التي تسبق أوتأتي بعد كلمة معينة (مثلا: حبة خردل ، لانقول مثلا قطعة خردل).

يصاحب لفظيا: with  collocate

تسبق أوتأتي بعد كلمة معينة (مثلا: نجد في القرآن الكريم أن "ذرة" يصاحبها لفظ "مثقال" , وليس "وزن" فالعبارة هي :"مثقال ذرة".).

مصاحبة لفظية:  collocation

مجموعةالكلمات التي تتلازم في وقوعها في النصوص (مثل: باقة من الزهور، فريق من اللاعبين ، قطيع من الماشية، سرب من الطيور). ويذكر بعضهم بأن المسافة بين الكلمتين لا تتعدى أربع كلمات عادة (مثل، قطيع كبير جدا من الماشية).

تلازم نحوي:  colligation

أنماط المصاحبة اللفظية بناء على معايير نحوية وليست دلالية ، مثل ورود كلمة ما مع فئة نحوية من الكلمات (أفعال أو أسماء أوحروف مثلا).

مدونة متشابهة:  comparable corpus

مدونة للمقارنة بين أكثر من لغة ، ويشتمل على عدد من المدونات في كل لغة تشبه في تكوينها composition pattern مدونات اللغة الأخرى، أي تستخدم فيها نفس معايير اختيار النصوص.

مدونة مقارنة:  comparative corpus

مدونة تشتمل على مكونات أو نصوص من لهجات لغة واحدة.

جمعcompilation    :

جمع النصوص مثلا.

اللسانيات الحاسوبية:  Computational Linguistics (CL)

فرع من اللسانيات تطبق فيه تقنيات ومفاهيم حاسوبية للتعامل مع المشكلات الصوتية واللغوية الأخرى.ويتطلب معرفة جيدة بالبرمجة الحاسوبية.

كشاف سياقي:  concordance


مكشاف سياقي :concordancer

برنامج لإعداد الكشاف السياقي . ويقوم عادة بعمليات أخرى مثل إحصاء الكلمات وترتيبها وفق تكرارها تصاعديا أو تنازليا. ويسميه البعض بالمنقاب.

سياق: context

الكلمات المحيطة بالكلمة المقصودة.

بحث بالسياق:  context search

نوع من البحث يتيح لنا البحث عن نمط بحث (كلمة مثلا) في جوار نمط بحث آخر (مثلا : ابحث عن كلمة "بصري" في جميع الحالات التي ترد فيها في مدى خمس كلمات من "قارىء").

مدونات : جمع مدونةcorpora  :

مدونة:corpus

مجموعة من النصوص اللغوية في صورة محوسبة / رقمية. ويطلق عليها البعض اسم الذخيرة ، كما أن هناك حالات قليلة نجد فيها كلمة مكنز(الخاطئة).

توازن المدونة:  corpus balance

اشتمال المدونة على النصوص المطلوبة بشكل عينات متوازنة.

ترويسة المدونة: corpus header

المعلومات الببليوغرافية والتصنيف وأية معلومات عن المدونة.

لسانيات المدونات (اللغوية):  Corpus Linguistics

فرع من اللسانيات يعتمد في دراساته على المدونات اللغوية، أي النصوص المكتوبة والمنطوقة للعة. (انظر الشرح في صلب الدراسة.)

معالجة المدونة:  corpus processing

مصطلح يشير إلى جميع العمليات التي يقوم بها الباحث اللساني بالمدونة.

 سياق/ نص مصاحب : co-text

يقصد به أي مادة لغوية ترد فيها الكلمة أوالعبارة المعنية ، أي سياق لغوي.

جدولة مقطعية :cross-tabulation

جدول يبين شيوع ظاهرة لغوية في عدد من العينات.

مدونة تاريخية:    diachronic corpus

مدونة تشتمل على نصوص من عصور مختلفة ، وتسمى أحيانا historical corpus.

إزالة الغموض: disambiguation

ما يفعله الباحث مثلا من عمليات تعين في إزالة اللبس أو الغموض ، كما في المشتركات اللفظية أو اللبس التركيبي ، ويشمل مثلا تحديد المعنى المقصود وفقا للسياق أو تحديد نوع الكلمة أو قسم الكلام الذي تنتمي إليه (فعل أو صفة أو اسم مثلا).

تحشية خطابية:  discoursal annotation

تحشية تضاف في داخل النص لتحديد جوانب من ملامح الخطاب ، مثل العلاقات بين الجمل أو الفقرات أو الضمائر والأسماء التي تعود عليها وغيرذلك.

وسم مطابق  :ditto tag

وسم بنفس السمة :ditto tagging

وسم جميع مكونات التعبيرة الاصطلاحية بنفس السمة لبيان انتمائها إلى نفس الوحدة التعبيرية.

دي تي دي :DTD

اختصارلعبارة Document Type Definition أي تحديد نوع الوثيقة. هونوع من المعلومات المشفرة التي تخبر المستعمل أو البرنامج الحاسوب عن العناصر التي يحتويها النص وكيف تتجمع مع بعضها البعض، ويتكون من طقم أساسي من السمات ، إضافة إلى أطقم من السمات الخاصة التي يختارها المستعمل التي يختارها مما يتم إعداده وفقا لمجموعة القواعد المذكورة في التعليمات العامة لمبادرة تشفير النصوص (TEI Guidelines) .

تشفير:  encoding

مصطلح يطلق على عملية تمثيل البيانات النصية واللغوية (أي التحشية والسمات) بصيغة معينة في المدونة ، والتي يجب أن تكون وفقا لمعايير معروفة حتى يسهل إعادة الاستفادة من مجموعات النصوص وتبادلها بين الباحثين.

وسم الأخطاء  error tagging:

عملية إعطاء رموز في النص تبين أنواع الأخطاء في مدونة متعلمي اللغة ، للاستفادة منها عند تحليل الأخطاء في المدونة .

قائمة شيوع:  frequency list

القائمة التي تورد كلمات النص حسب شيوعها أو تكرارها في النص ، مع بيان عدد مرات ورودها. ويمكن ترتيب القائمة في ثلاث صور مختلفة: (1) حسب شيوع الكلمات تنازليا ، أي من الأكثر شيوعا إلى الأقل شيوعا ، (1) حسب شيوع الكلمات تصاعديا، أي من الأقل شيوعا إلى الأكثر شيوعا، (3) حسب الألفاظ مرتبة ألفبائيا ، مع ذكر تكرار كل كلمة بجوارها.

شيوع/ تكرارfrequency  :

مرات ورود ظاهرة ما (مثلا، كلمة أو تركيب أو ملمح) في النص أو المدونة.

إعراب كامل:  full parsing

إعراب جمل النص بالتفصيل، أي بيان الوظيفة النحوية لكل كلمة أو تركيب فيه.

مدقق عام للنص:  general text checker

برنامج يدقق الجوانب العملية في النص ، مثل تعليمه بصورة مناسبة وبيان بدايات الجمل مثلا ونهاياتها.

جنس أدبي/ نوع:  genre

المقصود به نوع النص ، من حيث هو شفوي أومكتوب أوهو أدبي (قصصي ، مسرحي، شعري) أوعلمي وتقني أوإعلامي (صحفي ، إذاعي) ...إلى غيرذلك. ويلاحظ أن المصطلح يستعمل في لسانيات المدونات بمعنى أكثرعمومية من "الجنس الأدبي".

ترويسة :header

مصطلح يطلق على مايرد في بداية النص ، مثل اسم المؤلف والعنوان والمصدر...إلخ.

تحليل تحاوري :interactive analysis

التحليل الذي يشترك فيه الحاسوب مع الإنسان (اللساني مثلا)، حيث يقوم الحاسوب بجزء من التحليل ويقوم الإنسان بالجزء الآخرمن التحليل (مثل فك اللبس).

كلمة مفتاحية: keyword.

الكلمة الهدف أي المقصودة ، موضوع الفحص أو التحليل.

سياق غني بالمعلومات:  knowledge-rich context

سياق يشتمل على تعريف أوشرح لمصطلح أو مفهوم ما.

كويك (الكلمة المفتاحية في سياقKWIC (Key-Word In Context

الصيغة التي ترد فيها الكلمة في الكشاف السياقي، حيث ترد الكلمة المفتاحية أو الهدف في وسط السطر مسبوقة ومتبوعة بعدد من الكلمات.

LDC (Linguistic Data Consortium )    إل دي سي (مجموعة المعطيات اللغوية)  مجموعة مفتوحة من الجامعات والمكتبات والشركات ومختبرات البحث الحكومية ، مقرها في كلية العلوم والآداب بجامعة بنسلفانيا بالولايات المتحدة الأمريكية. ويمكن للباحث عن كثير من  المدونات اللغوية أن يصل إليها من خلال هذه المؤسسة.

هندسة لغوية : language engineering

تهدف الهندسة اللغوية إلى تيسير استخدام التطبيقات المختلفة وزيادة احتمالات التواصل بين لغات العالم بدمج الطرق الجديدة لمعالجة اللغة الشفوية والمكتوبة، مثل إنشاء الوثائق وإدارتها وخدمات المعلومات والاتصالات والترجمة واكتساب اللغات الأجنبية.

موارد/ مصادر لغوية:   language/linguistic resources

مصطلح عام يطلق على الموارد أو المصادر مثل مدونات اللغة المنطوقة أو المكتوبة وقوائم الشيوع وقائمة الألفاظ والأدوات المستخدمة للحصول على المعلومات اللغوية.

مدونة المتعلمين:learner corpus: a corpus of language produced by مدونة تشتمل على نصوص من إنتاج دارسي اللغة من غير أهلها (غالبا).

مرتِّب أو مفروز حسب اليسار:    left sorted

يعني في الإنجليزية ، مرتب حسب الكلمة السابقة للكلمة الهدف. أما في العربية فيقصد به وفق الكلمة التالية لها.

كلمة أساس / جذع :lemma

الكلمة في أبسط صورها المجردة من الزوائد (مثل الاسم المفرد النكرة والفعل في صيغة الماضي للمفرد المذكر الغائب) ، وهو ما نجده في مداخل المعجم المبني على الألفاظ.

تجريد الكلمة :lemmatization

إعادة الكلمة إلى صورتها الأساس ، أي حذف الزوائد ورد الكلمة المتصرفة إلى صورتها الأساس (مثل تحويل يكتبان ويكتبون واكتب ... إلى الفعل "كتب" وتحويل الاسم في صيغتي المثنى والجمع إلى المفرد).

وحدة معجمية:  lexeme

غالبا ما يطلق على الكلمة الأساس. ويستخدم البعض المصطلح ليشمل التعبيرة الاصطلاحية (المسكوكة) التي تؤدي معنى معجميا معينا.

قاعدة بيانات معجمية:lexical data base (LDB)

قاعدة بيانات للألفاظ مخزنة وفقا للأسس المتبعة في قواعد البيانات ، من حيث اشتمالها على سجلات records وحقول fields تحتوى على بيانات تعيننا في استرجاع المعلومات.

lexical resources/data مصادر/ بيانات معجمية:

مصطلح يطلق على البيانات المعجمية المخزنة حاسوبيا والتي نستفيد منها في البحث المعجمي أو في إنتاج المعاجم.

lexicography  صناعة المعاجم/ المعجمية:

إعداد المعاجم المختلفة: ويشمل استخدام المدونات لحصر مداخل المعجم وجمع المعلومات الدلالية والإملائية والصرفية والشواهد ...إلخ ، وعرضها في صورة منتظمة (مرتبة ألفبائيا أوحسب الموضوعات) مع كافة وسائل الشرح اللازمة لبيان معاني المداخل واستعمالاته. ويقصد بالمصطلح نفسه العلم الذي يدرس هذا الفن.

معجم :lexicon

كلمة مرادفة لقاموس أو معجم ، أي قائمة بألفاظ اللغة ومعلومات عنها، وتستعمل بدلا عنهما عندما تكون محوسبة. ويستخدم في اللسانيات النظرية ليشير إلى القاموس الذهنيdictionary  mental لمتحدث اللغة.

اللغة للأغراض العامة:  LGP

اختصار لعبارة language for general purposes اللغة غير المتخصصة بمجال معين .

اللغة لأغراض خاصة: LSP

اختصار لعبارة language for special purposes اللغة التي تستخدم في معالجة مجالات المعرفة المتخصصة ، أو التي تستخدم لأغراض خاصة مثل اللغة لأغراض أكاديمية التي يحتاج إليها مثلا الطالب الجامعي.

تعليم النص:  mark-up

علامات أورموز تستخدم في النص لتقديم معلومات عنه ، مثل مصدره ومؤلفه وتاريخ المصدر، وكذلك السمات المعجمية والنحوية. غير أن هناك من يرى قصر المصطلح على المعلومات خارج النص (كالمصدر والتاريخ) ، مقابل تحشية annotation التي تكون في داخل النص.

بيانات عن (شيء ما)  :metadata

يطلق على البيانات أو المعلومات عن شئ ما (كلمة أوجملة أو نص) ولايكون جزءا منه.

ومن أمثلتها اللغة التي نستخدمها في كتب النحو مثلا لوصف التراكيب اللغوية ، وتسمى metalanguage (حرفيا: لغة ماورائية).

مدونة مراقبة (التطور):  monitor corpus

مدونة يتم تحديثها سنويا لمتابعة أية مستجدات على اللغة ، وتستخدم لتحديث المعاجم.

مدونة أحادية اللغة:  monolingual corpus

مدونة تشتمل على نصوص من لغة واحدة.

مدونة متعددة اللغات:multilingual corpus

مدونة تشتمل على عينات من النصوص في لغات مختلفة.

معالجة اللغات الطبيعية:    Natural Language Processing (NLP)

معالجة اللغة البشرية والتعامل معها حاسوبيا لأغراض مختلفة.

عنصر هدف/ عقدة :node

العنصر(كلمة أو تعبير) قيد الدراسة. وفي التحليل الشجري للجمل ، يعني المصطلح العقدة التي تتفرع منها التراكيب المختلفة.

تسوية :  normalization

إجراء يقوم به الباحث للتسوية إحصائيا بين نصين مختلفين في الحجم عند مقارنة عدد الكلمات فيها ، وذلك  بذكرعدد الكلمات في كل مائة أو ألف كلمة في كل نص. فيقال مثلا أن كلمة ما ترد كذا مرة في كل مائة أو ألف كلمة في كل نص.

OLAC (Open Language Archives Community)   مجتمع الأرشيفات اللغوية المفتوح

شراكة دولية من المؤسسات والأفراد الذين ينتجون مكتبة افتراضية على مستوى العالم للمصادر اللغوية

مدونة متوازية (محاذية)  : parallel (aligned) corpus  

مدونة تشتمل على نصوص متوازية أي تمت محاذاة جملها أوعباراتها في لغتين ، وغالبا ما يكون أحد النصين ترجمة للأخرى . ويستفاد منها في تطوير برمجيات الترجمة الآلية الإحصائية ومايسمى بذاكرات الترجمة،  وكذلك في دراسة بعض قضايا الترجمة مثل لغة الترجمة ودقة الترجمة والتحليل التقابلي إلى غير ذلك.

معرِب نحوي :parser/syntactic parser

برنامج يقوم بإعراب الجمل ، وذلك بالتعرف على أنواع الكلمات والوحدات التركيبية ووظائفها في الجملة.

إعراب :  parsing

تحليل الجملة نحويا ، كما أشرنا أعلاه.

مدونة معرَبَة : parsed corpus

مدونة تم تحليلها نحويا ، أو إعراب الجمل فيها، مع وسم النص نحويا.

واسم لأقسام الكلام :part-of-speech tagger

برنامج يقوم بتعيين نوع الكلمة (قسم الكلام) آليا. فيسم كل كلمة مبينا نوعها، اسما كانت أم فعلا أم حرفا ، مثلا. وهو مطلوب في كثيرمن أنواع البحث المعجمي وفي الإعراب الآلي.وتسمى العملية وسم قسم الكلام part-of-speech tagging.

كتابة صوتية  : phonetic transcription

كتابة النصوص الصوتية باستخدام رموزصوتية تمثل الكلام  ، مثل الألفبائئة الدولية IPA. وقد يشمل تسجيل الملامح فوق القطعية ، مثل النبر والتنغيم والوقف.

وسم موجه نحو المشكلة: problem-oriented tagging

نوع من التحشية للنص بغرض حل مشكلة أو مشكلات محددة يرغب الباحث في معالجتها.

أدوات (بحث) مشاعة:public domain tools

أدوات بحث متاحة للاستعمال العام ، و  لا تتطلب تصريحا بذلك.

أدوات استعلام: query(ing) tools

أدوات تستعمل للاستعلام واسترجاع البيانات والمعلومات، مثل محركات البحث search engines.

مدونة خام : raw corpus

مدونة لم تتم تحشيتها بأية سمات.

إمكانية الاستعادة :recoverability

إمكانية استعادة النص الأصل من المدونة التي تمت تحشيتها annotated.

مدونة مرجعية: reference corpus

مدونة صممت بناء على معايير متفق عليها ، وتشمل اللغة المحكية والمكتوبة والرسمية وغير الرسمية ، تمثل مستويات اللغة المختلفة. وتعتبر معيارا مرجعيا . من ثم يحب أن لايقل عدد كلماتها عن خمسين مليون كلمة.

تمثيل (اللغة):representativeness

اشتمال المدونة على نوع اللغة التي يفترض أن تمثلها ، مما يتيح تعميم الاستنتاجات المستخلصة من دراستها.

مرتِّب يمينا :  right sorted

يعني في الإنجليزية ، أن الكشاف السياقي مرتب حسب الكلمة اللاحقة للكلمة المفتاحية أو الهدف. أما في العربية فيقصد به وفق الكلمة السابقة لها.

مدونة عينة :  sampled corpus

مدونة محدودة ، يتم اختيارها بعناية فائقة وتدرس بالتفصيل.

مدونة مشبّعة :saturated corpus

مدونة بلغت حدا تصبح زيادة الألفاظ النوعية الجديدة محدودا إليها عند إضافة أية نصوص جديدة.

محرك بحث:  search engine

برنامج يعيننا في البحث عن كلمات أوعبارات معينة في المدونة أو الشابكة (الانترنت)، مثل Google .

نمط بحث:   search pattern

أي عنصر لغوي نبحث عنه ، سواء أكان كلمة أم عبارة.

تحشية دلالية :  semantic annotation

تحشية لبيان العلاقات والملامح الدلالية (معاني الكلمة) ، مثل بيان أن "عين" للبصر أو التوكيد.

إحصاء دلالي: semantic count

إحصاء المعاني المختلفة للكلمات وتكرارها في النص.

المعنى الناتج :semantic prosody

المعنى الذي ينتج من التفاعل بين الكلمة ومصاحباتها اللفظية.

إس جي إم إل : SGML  Markup Language

اختصار للمصطلح : لغة التعليم العامة المعيارية Standard Generalized Markup Language التي تعتبر معيارا دوليا لتشفير النصوص المحفوظة إلكترونيا.

إعراب جزئي:  skeleton parsing

إعراب يتجاهل التفاصيل المتبعة في الإعراب الكامل للنص ، ويسمى أحيانا بالإعراب السطحي.

ترتيب:     sort(ing)

تنظيم الكلمات مثلا في ترتيب معين.

مدى:  span

عدد الكلمات السابقة للكلمة المفتاحية أو الهدف واللاحقة له (مثلا أربع كلمات سابقة وأربع كلمات لاحقة).

مدونة خاصة:  special corpus

مدونة تصمم لغرض محدد ، مثل نص معين (القرأن الكريم مثلا)، من ثم لا تعتبر ممثلة للغة بصورة عامة.

مدقق إملائي: spelling checker

برنامج يراجع الصحة الإملائية لكلمات النص.

مدونة محكية:  spoken corpus

مدونة للغة المحكية ، يراعى فيها عادة الكتابة الصوتية للنص.

قائمة الاستبعاد: stop list

قائمة الكلمات التي نريد من الحاسوب أن يستبعدها عند إحصاء تكرار الكلمات ، وهي غالبا الكلمات الوظيفية مثل حروف الجر والضمائر وسائر الأدوات (نظرا لعلمنا بشيوعها).

سلسلة : string

سلسلة أومجموعة متتابعة من الحروف أوالمحارف.

مدقق أسلوبي:style checker

برنامج لتدقيق الجوانب الأسلوبية للنص.

مدونة فرعية  subcorpus :

جزء مقتطع من المدونة يتسم بخصائص معينة.

مدونة تزامنية synchronic corpus :

مدونة تشتمل على نصوص من فترة زمنية معينة ، مقابل مدونة تاريخية diachronic corpus

سمة :tag

كلمة أو رمز أوعلامة تضاف إلى كلمة ما أو أية وحدة لغوية أخرى تعطي معلومات عنها (مثلا: كتب-اسم ، كتب-فعل).

وسم: tagging

عملية إضافة سمات للوحدات اللغوية تعين في عملية التحليل اللغوي للنص أوالمدونة.

طقم السمات :tagset

مجموعة السمات المستخدمة في وسم المدونة.

إرشادات التي إي آي:TEI Guidelines

الإرشادات الخاصة بتشفير النصوص الإلكترونية بطريقة موحدة أو معيارية، لتبادل المدونات بين الباحثين ولأغراض مختلفة ، مثل استرجاع المعلومات والنشر الإلكتروني، مكتوبة بلغة الإس جي إم إل SGML.

تي إي آي:  TEI

اختصار لمصطلح مبادرة تشفير النصوص Text Encoding Initiative.

استخراج المصطلح:     term extraction

تحليل النص أو المدونة بغرض استخراج المصطلحات منها.

بنك المعطيات المصطلحية:  terminological data bank (TDB)

بنك للمصطلحات والمعلومات المتعلقة بها ، مثل التعريفات والمقابلات في لغات مختلفة.

نظام معالجة المصطلحات: terminological management system

الأدوات المستعملة في تسجيل البيانات أو المعطيات المصطلحية وترتيبها واسترجاعها بطريقة علمية منهجية.

قواعد المعطيات المصطلحية:  terminology databases

قواعد معلومات تشتمل على المصطلحات وكل مايتعلق بها من معلومات، غالبا بطريقة مفصلة، و نعتمد عليها في إنشاء بنوك المصطلحات. لكن هناك من يرى بأن بنك المصطلحات قد يشتمل على عدد من قواعد المعطيات المصطلحية.

تقسيم النص: text chunking

مصطلح يطلق على تقسيم الجمل إلى فقرات في ضوء تحليل مبدئي.

نوع النص:  text type

التخصص الذي ينتمي إليه النص ، مثلا: أدبي أو علمي ...

كلمة فعليةtoken   :
الكلمة الواردة في النص أو المدونة بأية صورة (تصريف ، مثل: كتبوا، يكتبون، نكتب، كتبا ...و قلم ، قلمان ، أقلام...).

بنك الشجرات التركيبية:  treebank

مصطلح يطلق أحيانا على المدونات المعرَبَة أي الموسومة نحويا أو إعرابيا. ويأتي المصطلح من كلمة tree وهي الشجرة في التحليل النحوي الذي يبدأ بالجملة ، ثم مايتفرع منها من مكونات ، ويمكن أن نمثلها بالشجرة المقلوبة

كلمة نوعية:  type

الكلمة الأساس التي ترد في أشكال مختلفة ، وتعتبر هذه الصور المختلفة أمثلة للكلمة النوعية نفسها. ويقابلها الكلمة الفعلية token.

نسبة الكلمة النوعية للكلمات الفعلية :type-token ratio

العلاقة التناسبية بين الكلمة الواحدة وعدد صورها التي وردت في النص. ويعتبر النص غنيا بالكلمات كلما قلت هذه النسبة ، حيث إن ذلك يعد مؤشرا على استخدام المؤلف لعدد أكبر من الألفاظ ، بدلا من تكرار نفس الألفاظ.

مدونة غيرمحشاة :  unannotated corpus

يطلق هذا المصطلح على المدونة الخام raw كما وردت في الأصل،والتي لم يضف إلى نصوصها أية سمات.

المحرف غير المحدد:wildcard:

المحرف character  ، مثل النجمة أوعلامة الاستفهام (* ؟)،الذي يستعمل بدلا من أي محرف أوأكثر عند البحث عن الأنماط المختلفة ( مثل ب* بمعنى ب متبوعا بأي عدد من الحروف، ليورد لنا الحاسوب جميع الكلمات التي تبدأ بحرف الباء).

قائمة الكلمات:wordlist

الكلمات الواردة في النص أو المدونة ، غالبا مع معلومات عن مرات تكرارها.


ثانيا: القائمة العربية-الإنجليزية

لمعرفة معاني المصطلحات ، انظر المسرد المشروح أعلاه والمرتب حسب الألفاظ الإنجليزية.

 

إحصاء دلالي: semantic count

أدوات (بحث) مشاعة:public domain tools 

أدوات استعلام:  query(ing) tools

أدوات اللسانيات الحاسوبية:  CL tools

إرشادات التي إي آي: TEI Guidelines

إزالة الغموض: disambiguation

إس جي إم إل: SGML  Markup Language 

استخراج المصطلح:     term extraction

إعراب كامل:full parsing

إعراب جزئي:  skeleton parsing

إعراب:  parsing

LDC (Linguistic Data Consortium )  إل دي سي (مجموعة المعطيات اللغوية)  

إمكانية الاستعادة:recoverability

بحث بالسياق:  context search

بنك الشجرات التركيبية:  treebank

بنك المعطيات المصطلحية:  terminological data bank (TDB)

بيانات عن (شيء ما)  :metadata

تجريد الكلمة:lemmatization 

تحشية الضمير العائد:  anaphoric annotation

تحشية خطابية:  discoursal annotation

تحشية دلالية:  semantic annotation

تحشية/ تعليقات:  annotation

التحليل التحاوري:interactive analysis  

ترتيب:     sort(ing)

ترويسة المدونة: corpus header

ترويسة:  header

تسوية:    normalization

تشفير المحارف:  character encoding

تشفير:  encoding

تعليم النص:  mark-up

تقسيم النص: text chunking

تلازم نحوي:  colligation

تمثيل (اللغة):  representativeness

توازن المدونة:  corpus balance

تي إي آي:  TEI

جدولة مقطعية :cross-tabulation

.جمعcompilation    :

دي تي دي:DTD 

ذكاء اصطناعي:  Artificial Intelligence (AI)

زود النص بالتحشية:   annotate

سلسلة :string:

سمة:  tag

سي إي إس:  CES

سياق غني بالمعلومات:  knowledge-rich context

سياق:  context

شيوع/ تكرارfrequency  :

صاحب لفظيا: with  collocate

      lexicography صناعة المعاجم/ المعجمية:

طقم أساس للواسمات:  base tagset

طقم السمات:tagset

عنصر هدف/ عقدة:node 

قائمة الاستبعاد: stop list

قائمة ألفبائية:  alphabetical list

قائمة الكلمات: wordlist

قاعدة بيانات معجمية:lexical data base (LDB)   

قواعد المعطيات المصطلحية:  terminology databases

كتابة صوتية:phonetic transcription

كشاف سياقي ثنائي اللغة:  bilingual concordance

كشاف سياقي:  concordance

كلمة أساس:lemma

الكلمة المفتاحية: keyword.

كلمة فعليةtoken   :
كلمة نوعية:  type

كويك (الكلمة المفتاحية في سياق:    (KWIC (Key-Word In Context

اللسانيات الحاسوبية:  Computational Linguistics (CL)

لسانيات المدونات (اللغوية):  Corpus Linguistic   اللغة لأغراض خاصة: LSP

اللغة للأغراض العامة:  LGP

OLAC (Open Language Archives Community)   مجتمع الأرشيفات اللغوية المفتوح

محاذاة:   alignment

محرف غير محدد:wildcard

محرك بحث:  search engine

مدقق أسلوبي:style checker

مدقق إملائي: spelling checker

مدقق عام للنص:  general text checker

مدونات : جمع مدونة.corpora:

مدونة أحادية اللغة:  monolingual corpus

مدونة المتعلمين:learner corpus:

مدونة بها تحشية:  annotated corpus

مدونة تاريخية:    diachronic corpus

مدونة تزامنية:synchronic corpus

مدونة خاصة:  special corpus

مدونة خام: raw corpus

مدونة عينة:  sampled corpus

مدونة غيرمحشاة:  unannotated corpus

مدونة فرعية:subcorpus

مدونة متشابهة:  comparable corpus

مدونة متعددة اللغات:multilingual corpus 

مدونة متوازنة:  balanced corpus

مدونة متوازية (محاذاة):   parallel (aligned) corpus  multilingual.

مدونة محكية:  spoken corpus

مدونة مراقبة (التطور):  monitor corpus

مدونة مشبّعة:saturated corpus  

مدونة معرَبَة:parsed corpus 

مدونة مقارنة:  comparative corpus

مدونة:corpus

مدونةمرجعية: reference corpus

مدى:  span

مرتِّب حسب اليسار:    left sorted

مرتِّب حسب اليمين:    right sorted

مصاحب لفظي:  collocate

مصاحبة لفظية:  collocation

مصطلح محتمل:  candidate term

مطابَقة الواقع:   authenticity

معالجة اللغات الطبيعية:  Natural Language Processing (NLP)

معالجة المدونة:  corpus processing

معجم:lexicon 

معرِِب (نحوي):parser/syntactic parser  

lexical resources/data مصادر/ بيانات معجمية: 

semantic prosody المعنى الناتج: 

موارد/ مصادر لغوية:   language/linguistic resources

نسبة الكلمة النوعية للكلمات الفعلية:type-token ratio:

نص: co-text

نظام معالجة المصطلحات: terminological management system

نمط بحث:   search pattern

 نوع النص:  text type

هندسة لغوية: language engineering

واسم لأقسام الكلام:part-of-speech tagger  

وحدة معجمية:  lexeme

وسم الأخطاء:error tagging

وسم بنفس السمة:ditto tagging  

وسم مطابق :ditto tag

وسم موجه نحو المشكلة: problem-oriented tagging

وسم: tagging

 

هناك 13 تعليقًا:

  1. شكرااالكم دكتور ، هل تقصد المدونة الرقمية ؟

    ردحذف
  2. ما شاء الله
    جزاك الله خيرا على الإفادة يا دكتور.
    ولو تكرمت تعطيني مصادر للغويات الحاسوبية من فضلك؟

    ردحذف