مصطلحات لسانيات ا لمدونات اللغوية :
إنجليزي-عربي مع التعريفات
وقائمة عربية-إنجليزية
د/ محمود إسماعيل صالح (أستاذ اللسانيات
التطبيقية)
لعل من أهم المستجدات في ميدان البحث اللغوي ما يعرف بلسانيات المدونات اللغوية corpus linguistics ونظرا لحداثة هذا العلم ، فنجد أنه لا بد للقارىء العربي أن يلجأ إلى مصادر أجنبية للتعرف على تفاصيل هذا العلم . لذلك رأيت أن أعرض أهم مصطلحاته ، لعلها تعين القارئ العربي لهذه المصادر. وقد جاء المسرد من جزءين : المسرد الإنجليزي العربي ، مع الشرح الموجز، متبوعا بقائمة عربية إنجليزية ، يمكن أن يفيد منها القارئ في الرجوع إلى الشروحات في القسم الأول.
محاذاة: alignment
وضع الترجمة (عادة
، على مستوى الجملة أو العبارة أو الكلمة ) بجوار مقابلتها في لغة أخرى ، غالبا في
ذاكرات الترجمة والمدونات المتوازية.
قائمة
ألفبائية: alphabetical list
قائمة ألفاظ مرتبة
حسب حروف الهجاء ، مقابل قائمة مرتبة حسب تكرار الكلمات.
تحشية الضمير
العائد: anaphoric annotation
وسم نصوص المدونة
بالمعلومات الخاصة بالضمائر والأسماء التي تعود عليها.
مدونة بها تحشية: annotated corpus
المدونة التي تم وسمها بالمعلومات اللغوية (نحوية أو دلالية مثلا).
تحشية/ تعليقات: annotation
في لسانيات المدونات، يقصد بها تزويد النصوص
بالمعلومات اللغوية، وتكون داخل النص.
يزود
النص بالتحشية: annotate
الذكاء
الاصطناعي: Artificial Intelligence (AI)
فرع من فروع علوم
الحاسوب يستعمل لحل المشكلات ، عن طريق محاكاة السلوك الإنساني في التعامل مع
المعرفة.
مطابقة
الواقع : authenticity
أي
تكون المادة اللغوية مستقاة من نصوص حقيقية، وليست مصطنعة.
مدونة
متوازنة: balanced corpus
مدونة جمعت نصوصا
وفق معايير تحقق التوازن بين أنواع النصوص المختلفة من حيث النوع والجنس الأدبي
والتخصص...
طقم أساس
للواسمات: base tagset
مجموعة أساسية من
الرموز تستخدم في وسم النصوص. ومن أشهرها
"مشروع تشفير النصوص Text Encoding Initiative (TEI) .
كشاف سياقي ثنائي
اللغة: bilingual concordance
كشاف سياقي يشتمل
على نتائج البحث في مدونة متوازية ، يعرض للمقاطع النصية مع مقابلاتها، إما جنبا
إلى جنب أو فوق بعضها البعض.
مصطلح محتمل: candidate term
كلمة أو عبارة
يشتبه في كونها مصطلحا عثر عليه برنامج استخراج المصطلحات.
سي إي إس: CES
اختصار لمعيار
تشفير المدونات Corpus
Encoding Standard . وهو تطبيق للغة
إس جي إم إل SGML وينسجم بشكل عام مع سي إي إس.
محرف: character
هو الرمز الذي يشير
إلى حرف أو رقم في الحاسوب أو أي رمز آخر(نجده في لوحة المفاتيح).
: character encoding
نظام استخدام قيم
رقمية لتمثيل المحارف (الحروف أو الأرقام والرموز الآخرى).
أدوات اللسانيات
الحاسوبية: CL
tools
البرمجيات التي تشمل التحليل الصرفي وتحديد البيئة المعجمية وما شابه
ذلك.
مصاحب لفظي: collocate
الكلمات التي تسبق أوتأتي بعد كلمة معينة (مثلا: حبة خردل ، لانقول مثلا
قطعة خردل).
يصاحب لفظيا: with collocate
تسبق أوتأتي بعد كلمة معينة (مثلا: نجد في القرآن الكريم أن
"ذرة" يصاحبها لفظ "مثقال" , وليس "وزن" فالعبارة
هي :"مثقال ذرة".).
مصاحبة لفظية: collocation
مجموعةالكلمات التي تتلازم في وقوعها في النصوص (مثل: باقة من الزهور،
فريق من اللاعبين ، قطيع من الماشية، سرب من الطيور). ويذكر بعضهم بأن المسافة بين
الكلمتين لا تتعدى أربع كلمات عادة (مثل، قطيع كبير جدا من الماشية).
تلازم نحوي:
colligation
أنماط المصاحبة اللفظية بناء على معايير نحوية
وليست دلالية ، مثل ورود كلمة ما مع فئة نحوية من الكلمات (أفعال أو أسماء أوحروف
مثلا).
مدونة
متشابهة: comparable corpus
مدونة
للمقارنة بين أكثر من لغة ، ويشتمل على عدد من المدونات في كل لغة تشبه في تكوينها
composition
pattern مدونات اللغة الأخرى، أي
تستخدم فيها نفس معايير اختيار النصوص.
مدونة
مقارنة: comparative corpus
مدونة
تشتمل على مكونات أو نصوص من لهجات لغة واحدة.
جمعcompilation :
جمع النصوص مثلا.
اللسانيات
الحاسوبية: Computational Linguistics (CL)
فرع من اللسانيات تطبق
فيه تقنيات ومفاهيم حاسوبية للتعامل مع المشكلات الصوتية واللغوية الأخرى.ويتطلب
معرفة جيدة بالبرمجة الحاسوبية.
كشاف
سياقي: concordance
قائمة تورد جميع ألفاظ أوعبارات النص في سياقاتها (أي مسبوقة بعدد من
الكلمات ومتبوعة بعدد منها). وهو مايعرف بمصطلح الكلمة المفتاحية في سياق Key Word in Context (KWIC).
مكشاف سياقي :concordancer
برنامج لإعداد الكشاف السياقي . ويقوم عادة
بعمليات أخرى مثل إحصاء الكلمات وترتيبها وفق تكرارها تصاعديا أو تنازليا. ويسميه
البعض بالمنقاب.
سياق:
context
الكلمات
المحيطة بالكلمة المقصودة.
بحث بالسياق: context search
نوع من البحث يتيح
لنا البحث عن نمط بحث (كلمة مثلا) في جوار نمط بحث آخر (مثلا : ابحث عن كلمة
"بصري" في جميع الحالات التي ترد فيها في مدى خمس كلمات من
"قارىء").
مدونات : جمع مدونةcorpora :
مدونة:corpus
مجموعة
من النصوص اللغوية في صورة محوسبة / رقمية. ويطلق عليها البعض اسم الذخيرة ، كما
أن هناك حالات قليلة نجد فيها كلمة مكنز(الخاطئة).
توازن
المدونة: corpus balance
اشتمال
المدونة على النصوص المطلوبة بشكل عينات متوازنة.
ترويسة
المدونة: corpus
header
المعلومات
الببليوغرافية والتصنيف وأية معلومات عن المدونة.
لسانيات المدونات
(اللغوية): Corpus Linguistics
فرع من اللسانيات
يعتمد في دراساته على المدونات اللغوية، أي النصوص المكتوبة والمنطوقة للعة. (انظر
الشرح في صلب الدراسة.)
معالجة
المدونة: corpus processing
مصطلح يشير إلى جميع
العمليات التي يقوم بها الباحث اللساني بالمدونة.
سياق/ نص
مصاحب : co-text
يقصد
به أي مادة لغوية ترد فيها الكلمة أوالعبارة المعنية ، أي سياق لغوي.
جدولة
مقطعية :cross-tabulation
جدول
يبين شيوع ظاهرة لغوية في عدد من العينات.
مدونة
تاريخية: diachronic corpus
مدونة تشتمل على
نصوص من عصور مختلفة ، وتسمى أحيانا historical corpus.
إزالة الغموض: disambiguation
ما يفعله الباحث
مثلا من عمليات تعين في إزالة اللبس أو الغموض ، كما في المشتركات اللفظية أو
اللبس التركيبي ، ويشمل مثلا تحديد المعنى المقصود وفقا للسياق أو تحديد نوع
الكلمة أو قسم الكلام الذي تنتمي إليه (فعل أو صفة أو اسم مثلا).
تحشية خطابية: discoursal annotation
تحشية تضاف في داخل
النص لتحديد جوانب من ملامح الخطاب ، مثل العلاقات بين الجمل أو الفقرات أو
الضمائر والأسماء التي تعود عليها وغيرذلك.
وسم
مطابق :ditto tag
وسم بنفس السمة :ditto tagging
وسم جميع مكونات
التعبيرة الاصطلاحية بنفس السمة لبيان انتمائها إلى نفس الوحدة التعبيرية.
دي تي دي :DTD
اختصارلعبارة Document Type Definition أي تحديد نوع الوثيقة. هونوع من المعلومات المشفرة
التي تخبر المستعمل أو البرنامج الحاسوب عن العناصر التي يحتويها النص وكيف تتجمع
مع بعضها البعض، ويتكون من طقم أساسي من السمات ، إضافة إلى أطقم من السمات الخاصة
التي يختارها المستعمل التي يختارها مما يتم إعداده وفقا لمجموعة القواعد المذكورة
في التعليمات العامة لمبادرة تشفير النصوص (TEI Guidelines)
.
تشفير: encoding
مصطلح يطلق على عملية تمثيل البيانات النصية
واللغوية (أي التحشية والسمات) بصيغة معينة في المدونة ، والتي يجب أن تكون
وفقا لمعايير معروفة حتى يسهل إعادة الاستفادة من مجموعات النصوص وتبادلها بين
الباحثين.
وسم
الأخطاء error tagging:
عملية
إعطاء رموز في النص تبين أنواع الأخطاء في مدونة متعلمي اللغة ، للاستفادة منها
عند تحليل الأخطاء في المدونة .
قائمة شيوع: frequency list
القائمة التي تورد
كلمات النص حسب شيوعها أو تكرارها في النص ، مع بيان عدد مرات ورودها. ويمكن ترتيب
القائمة في ثلاث صور مختلفة: (1) حسب شيوع الكلمات تنازليا ، أي من الأكثر شيوعا
إلى الأقل شيوعا ، (1) حسب شيوع الكلمات تصاعديا، أي من الأقل شيوعا إلى الأكثر
شيوعا، (3) حسب الألفاظ مرتبة ألفبائيا ، مع ذكر تكرار كل كلمة بجوارها.
شيوع/
تكرارfrequency :
مرات ورود ظاهرة ما
(مثلا، كلمة أو تركيب أو ملمح) في النص أو المدونة.
إعراب كامل: full parsing
إعراب جمل النص
بالتفصيل، أي بيان الوظيفة النحوية لكل كلمة أو تركيب فيه.
مدقق عام
للنص: general text checker
برنامج يدقق
الجوانب العملية في النص ، مثل تعليمه بصورة مناسبة وبيان بدايات الجمل مثلا
ونهاياتها.
جنس أدبي/
نوع: genre
المقصود به نوع
النص ، من حيث هو شفوي أومكتوب أوهو أدبي (قصصي ، مسرحي، شعري) أوعلمي وتقني
أوإعلامي (صحفي ، إذاعي) ...إلى غيرذلك. ويلاحظ أن المصطلح يستعمل في لسانيات
المدونات بمعنى أكثرعمومية من "الجنس الأدبي".
ترويسة :header
مصطلح يطلق على
مايرد في بداية النص ، مثل اسم المؤلف والعنوان والمصدر...إلخ.
تحليل
تحاوري :interactive
analysis
التحليل
الذي يشترك فيه الحاسوب مع الإنسان (اللساني مثلا)، حيث يقوم الحاسوب بجزء من
التحليل ويقوم الإنسان بالجزء الآخرمن التحليل (مثل فك اللبس).
كلمة
مفتاحية: keyword.
الكلمة الهدف أي
المقصودة ، موضوع الفحص أو التحليل.
سياق غني
بالمعلومات: knowledge-rich context
سياق يشتمل على
تعريف أوشرح لمصطلح أو مفهوم ما.
كويك
(الكلمة المفتاحية في سياقKWIC (Key-Word In Context
الصيغة التي ترد
فيها الكلمة في الكشاف السياقي، حيث ترد الكلمة المفتاحية أو الهدف في وسط السطر
مسبوقة ومتبوعة بعدد من الكلمات.
LDC
(Linguistic Data Consortium ) إل دي سي
(مجموعة المعطيات اللغوية) مجموعة مفتوحة من
الجامعات والمكتبات والشركات ومختبرات البحث الحكومية ، مقرها في كلية العلوم
والآداب بجامعة بنسلفانيا بالولايات المتحدة الأمريكية. ويمكن للباحث عن كثير
من المدونات اللغوية أن يصل إليها من خلال
هذه المؤسسة.
هندسة لغوية : language engineering
تهدف الهندسة
اللغوية إلى تيسير استخدام التطبيقات المختلفة وزيادة احتمالات التواصل بين لغات
العالم بدمج الطرق الجديدة لمعالجة اللغة الشفوية والمكتوبة، مثل إنشاء الوثائق
وإدارتها وخدمات المعلومات والاتصالات والترجمة واكتساب اللغات الأجنبية.
موارد/ مصادر
لغوية: language/linguistic resources
مصطلح عام يطلق على
الموارد أو المصادر مثل مدونات اللغة المنطوقة أو المكتوبة وقوائم الشيوع وقائمة
الألفاظ والأدوات المستخدمة للحصول على المعلومات اللغوية.
مدونة
المتعلمين:learner
corpus: a corpus of language produced by مدونة تشتمل على
نصوص من إنتاج دارسي اللغة من غير أهلها (غالبا).
مرتِّب
أو مفروز حسب اليسار: left sorted
يعني
في الإنجليزية ، مرتب حسب الكلمة السابقة للكلمة الهدف. أما في العربية فيقصد به
وفق الكلمة التالية لها.
كلمة
أساس / جذع :lemma
الكلمة
في أبسط صورها المجردة من الزوائد (مثل الاسم المفرد النكرة والفعل في صيغة الماضي
للمفرد المذكر الغائب) ، وهو ما نجده في مداخل المعجم المبني على الألفاظ.
تجريد
الكلمة :lemmatization
إعادة
الكلمة إلى صورتها الأساس ، أي حذف الزوائد ورد الكلمة المتصرفة إلى صورتها الأساس
(مثل تحويل يكتبان ويكتبون واكتب ... إلى الفعل "كتب" وتحويل الاسم في
صيغتي المثنى والجمع إلى المفرد).
وحدة معجمية: lexeme
غالبا ما يطلق على
الكلمة الأساس. ويستخدم البعض المصطلح ليشمل التعبيرة الاصطلاحية (المسكوكة) التي
تؤدي معنى معجميا معينا.
قاعدة بيانات
معجمية:lexical
data base (LDB)
قاعدة بيانات
للألفاظ مخزنة وفقا للأسس المتبعة في قواعد البيانات ، من حيث اشتمالها على سجلات records
وحقول fields تحتوى على بيانات تعيننا في استرجاع المعلومات.
lexical
resources/data مصادر/ بيانات معجمية:
مصطلح يطلق على البيانات المعجمية المخزنة حاسوبيا
والتي نستفيد منها في البحث المعجمي أو في إنتاج المعاجم.
lexicography صناعة المعاجم/
المعجمية:
إعداد المعاجم
المختلفة: ويشمل استخدام المدونات لحصر مداخل المعجم وجمع المعلومات الدلالية
والإملائية والصرفية والشواهد ...إلخ ، وعرضها في صورة منتظمة (مرتبة ألفبائيا
أوحسب الموضوعات) مع كافة وسائل الشرح اللازمة لبيان معاني المداخل واستعمالاته.
ويقصد بالمصطلح نفسه العلم الذي يدرس هذا الفن.
معجم :lexicon
كلمة مرادفة لقاموس
أو معجم ، أي قائمة بألفاظ اللغة ومعلومات عنها، وتستعمل بدلا عنهما عندما تكون
محوسبة. ويستخدم في اللسانيات النظرية ليشير إلى القاموس الذهنيdictionary
mental
لمتحدث اللغة.
اللغة للأغراض
العامة: LGP
اختصار لعبارة language for general purposes اللغة غير المتخصصة بمجال معين .
اللغة لأغراض خاصة:
LSP
اختصار لعبارة language for special purposes اللغة التي تستخدم في معالجة مجالات المعرفة
المتخصصة ، أو التي تستخدم لأغراض خاصة مثل اللغة لأغراض أكاديمية التي يحتاج
إليها مثلا الطالب الجامعي.
تعليم
النص: mark-up
علامات
أورموز تستخدم في النص لتقديم معلومات عنه ، مثل مصدره ومؤلفه وتاريخ المصدر،
وكذلك السمات المعجمية والنحوية. غير أن هناك من يرى قصر المصطلح على المعلومات
خارج النص (كالمصدر والتاريخ) ، مقابل تحشية annotation
التي تكون في داخل النص.
بيانات
عن (شيء ما) :metadata
يطلق على البيانات
أو المعلومات عن شئ ما (كلمة أوجملة أو نص) ولايكون جزءا منه.
ومن أمثلتها اللغة
التي نستخدمها في كتب النحو مثلا لوصف التراكيب اللغوية ، وتسمى metalanguage (حرفيا: لغة ماورائية).
مدونة مراقبة
(التطور): monitor corpus
مدونة يتم تحديثها
سنويا لمتابعة أية مستجدات على اللغة ، وتستخدم لتحديث المعاجم.
مدونة أحادية
اللغة: monolingual corpus
مدونة تشتمل على
نصوص من لغة واحدة.
مدونة متعددة
اللغات:multilingual
corpus
مدونة تشتمل على
عينات من النصوص في لغات مختلفة.
معالجة اللغات
الطبيعية: Natural Language Processing (NLP)
معالجة اللغة
البشرية والتعامل معها حاسوبيا لأغراض مختلفة.
عنصر هدف/ عقدة :node
العنصر(كلمة أو
تعبير) قيد الدراسة. وفي التحليل الشجري للجمل ، يعني المصطلح العقدة التي تتفرع
منها التراكيب المختلفة.
تسوية : normalization
إجراء يقوم به
الباحث للتسوية إحصائيا بين نصين مختلفين في الحجم عند مقارنة عدد الكلمات فيها ،
وذلك بذكرعدد الكلمات في كل مائة أو ألف
كلمة في كل نص. فيقال مثلا أن كلمة ما ترد كذا مرة في كل مائة أو ألف كلمة في كل
نص.
OLAC
(Open Language Archives Community) مجتمع الأرشيفات
اللغوية المفتوح
شراكة دولية من
المؤسسات والأفراد الذين ينتجون مكتبة افتراضية على مستوى العالم للمصادر اللغوية
مدونة متوازية
(محاذية) : parallel (aligned) corpus
مدونة تشتمل على
نصوص متوازية أي تمت محاذاة جملها أوعباراتها في لغتين ، وغالبا ما يكون أحد
النصين ترجمة للأخرى . ويستفاد منها في تطوير برمجيات الترجمة الآلية الإحصائية
ومايسمى بذاكرات الترجمة، وكذلك في دراسة
بعض قضايا الترجمة مثل لغة الترجمة ودقة الترجمة والتحليل التقابلي إلى غير ذلك.
معرِب نحوي :parser/syntactic parser
برنامج يقوم بإعراب
الجمل ، وذلك بالتعرف على أنواع الكلمات والوحدات التركيبية ووظائفها في الجملة.
إعراب : parsing
تحليل
الجملة نحويا ، كما أشرنا أعلاه.
مدونة
معرَبَة : parsed
corpus
مدونة
تم تحليلها نحويا ، أو إعراب الجمل فيها، مع وسم النص نحويا.
واسم لأقسام الكلام
:part-of-speech
tagger
برنامج يقوم بتعيين
نوع الكلمة (قسم الكلام) آليا. فيسم كل كلمة مبينا نوعها، اسما كانت أم فعلا أم
حرفا ، مثلا. وهو مطلوب في كثيرمن أنواع البحث المعجمي وفي الإعراب الآلي.وتسمى
العملية وسم قسم الكلام part-of-speech tagging.
كتابة صوتية : phonetic transcription
كتابة النصوص
الصوتية باستخدام رموزصوتية تمثل الكلام ،
مثل الألفبائئة الدولية IPA. وقد يشمل تسجيل الملامح
فوق القطعية ، مثل النبر والتنغيم والوقف.
وسم موجه نحو
المشكلة: problem-oriented
tagging
نوع من التحشية
للنص بغرض حل مشكلة أو مشكلات محددة يرغب الباحث في معالجتها.
أدوات (بحث) مشاعة:public domain tools
أدوات بحث متاحة
للاستعمال العام ، و لا تتطلب تصريحا
بذلك.
أدوات استعلام: query(ing) tools
أدوات تستعمل
للاستعلام واسترجاع البيانات والمعلومات، مثل محركات البحث search engines.
مدونة خام : raw corpus
مدونة لم تتم
تحشيتها بأية سمات.
إمكانية الاستعادة :recoverability
إمكانية استعادة
النص الأصل من المدونة التي تمت تحشيتها annotated.
مدونة مرجعية: reference corpus
مدونة
صممت بناء على معايير متفق عليها ، وتشمل اللغة المحكية والمكتوبة والرسمية وغير
الرسمية ، تمثل مستويات اللغة المختلفة. وتعتبر معيارا مرجعيا . من ثم يحب أن
لايقل عدد كلماتها عن خمسين مليون كلمة.
تمثيل
(اللغة):representativeness
اشتمال
المدونة على نوع اللغة التي يفترض أن تمثلها ، مما يتيح تعميم الاستنتاجات
المستخلصة من دراستها.
مرتِّب
يمينا : right sorted
يعني
في الإنجليزية ، أن الكشاف السياقي مرتب حسب الكلمة اللاحقة للكلمة المفتاحية أو
الهدف. أما في العربية فيقصد به وفق الكلمة السابقة لها.
مدونة عينة : sampled corpus
مدونة محدودة ، يتم
اختيارها بعناية فائقة وتدرس بالتفصيل.
مدونة مشبّعة :saturated corpus
مدونة بلغت حدا
تصبح زيادة الألفاظ النوعية الجديدة محدودا إليها عند إضافة أية نصوص جديدة.
محرك بحث: search engine
برنامج يعيننا في
البحث عن كلمات أوعبارات معينة في المدونة أو الشابكة (الانترنت)، مثل Google
.
نمط بحث: search pattern
أي عنصر لغوي نبحث
عنه ، سواء أكان كلمة أم عبارة.
تحشية دلالية : semantic annotation
تحشية لبيان
العلاقات والملامح الدلالية (معاني الكلمة) ، مثل بيان أن "عين" للبصر
أو التوكيد.
إحصاء دلالي: semantic count
إحصاء المعاني
المختلفة للكلمات وتكرارها في النص.
المعنى
الناتج :semantic
prosody
المعنى
الذي ينتج من التفاعل بين الكلمة ومصاحباتها اللفظية.
إس
جي إم إل : SGML
Markup Language
اختصار
للمصطلح : لغة التعليم العامة المعيارية Standard Generalized Markup Language التي تعتبر معيارا دوليا لتشفير النصوص المحفوظة
إلكترونيا.
إعراب جزئي: skeleton parsing
إعراب يتجاهل
التفاصيل المتبعة في الإعراب الكامل للنص ، ويسمى أحيانا بالإعراب السطحي.
ترتيب: sort(ing)
تنظيم الكلمات مثلا
في ترتيب معين.
مدى: span
عدد الكلمات
السابقة للكلمة المفتاحية أو الهدف واللاحقة له (مثلا أربع كلمات سابقة وأربع
كلمات لاحقة).
مدونة خاصة: special corpus
مدونة تصمم لغرض محدد
، مثل نص معين (القرأن الكريم مثلا)، من ثم لا تعتبر ممثلة للغة بصورة عامة.
مدقق إملائي: spelling checker
برنامج يراجع الصحة
الإملائية لكلمات النص.
مدونة محكية: spoken corpus
مدونة للغة المحكية
، يراعى فيها عادة الكتابة الصوتية للنص.
قائمة الاستبعاد: stop list
قائمة الكلمات التي
نريد من الحاسوب أن يستبعدها عند إحصاء تكرار الكلمات ، وهي غالبا الكلمات
الوظيفية مثل حروف الجر والضمائر وسائر الأدوات (نظرا لعلمنا بشيوعها).
سلسلة
: string
سلسلة أومجموعة
متتابعة من الحروف أوالمحارف.
مدقق أسلوبي:style checker
برنامج
لتدقيق الجوانب الأسلوبية للنص.
مدونة
فرعية subcorpus :
جزء
مقتطع من المدونة يتسم بخصائص معينة.
مدونة
تزامنية synchronic
corpus :
مدونة تشتمل على
نصوص من فترة زمنية معينة ، مقابل مدونة تاريخية
diachronic corpus
سمة :tag
كلمة أو رمز
أوعلامة تضاف إلى كلمة ما أو أية وحدة لغوية أخرى تعطي معلومات عنها (مثلا:
كتب-اسم ، كتب-فعل).
وسم: tagging
عملية إضافة سمات
للوحدات اللغوية تعين في عملية التحليل اللغوي للنص أوالمدونة.
طقم السمات :tagset
مجموعة السمات
المستخدمة في وسم المدونة.
إرشادات التي إي
آي:TEI
Guidelines
الإرشادات الخاصة
بتشفير النصوص الإلكترونية بطريقة موحدة أو معيارية، لتبادل المدونات بين الباحثين
ولأغراض مختلفة ، مثل استرجاع المعلومات والنشر الإلكتروني، مكتوبة بلغة الإس جي
إم إل SGML.
تي إي آي: TEI
اختصار
لمصطلح مبادرة تشفير النصوص Text Encoding Initiative.
استخراج المصطلح: term extraction
تحليل النص أو
المدونة بغرض استخراج المصطلحات منها.
بنك المعطيات
المصطلحية: terminological data bank (TDB)
بنك للمصطلحات
والمعلومات المتعلقة بها ، مثل التعريفات والمقابلات في لغات مختلفة.
نظام معالجة
المصطلحات: terminological
management system
الأدوات المستعملة
في تسجيل البيانات أو المعطيات المصطلحية وترتيبها واسترجاعها بطريقة علمية
منهجية.
قواعد المعطيات
المصطلحية: terminology databases
قواعد معلومات
تشتمل على المصطلحات وكل مايتعلق بها من معلومات، غالبا بطريقة مفصلة، و نعتمد
عليها في إنشاء بنوك المصطلحات. لكن هناك من يرى بأن بنك المصطلحات قد يشتمل على
عدد من قواعد المعطيات المصطلحية.
تقسيم النص: text chunking
مصطلح يطلق على
تقسيم الجمل إلى فقرات في ضوء تحليل مبدئي.
نوع
النص: text type
التخصص
الذي ينتمي إليه النص ، مثلا: أدبي أو علمي ...
كلمة
فعليةtoken :
الكلمة الواردة في النص أو المدونة بأية صورة (تصريف ، مثل: كتبوا، يكتبون، نكتب، كتبا ...و قلم ، قلمان ، أقلام...).
الكلمة الواردة في النص أو المدونة بأية صورة (تصريف ، مثل: كتبوا، يكتبون، نكتب، كتبا ...و قلم ، قلمان ، أقلام...).
بنك الشجرات
التركيبية: treebank
مصطلح
يطلق أحيانا على المدونات المعرَبَة أي الموسومة نحويا أو إعرابيا. ويأتي المصطلح
من كلمة tree وهي الشجرة في التحليل النحوي الذي يبدأ بالجملة ،
ثم مايتفرع منها من مكونات ، ويمكن أن نمثلها بالشجرة المقلوبة
كلمة
نوعية: type
الكلمة
الأساس التي ترد في أشكال مختلفة ، وتعتبر هذه الصور المختلفة أمثلة للكلمة
النوعية نفسها. ويقابلها الكلمة الفعلية token.
نسبة
الكلمة النوعية للكلمات الفعلية :type-token ratio
العلاقة التناسبية
بين الكلمة الواحدة وعدد صورها التي وردت في النص. ويعتبر النص غنيا بالكلمات كلما
قلت هذه النسبة ، حيث إن ذلك يعد مؤشرا على استخدام المؤلف لعدد أكبر من الألفاظ ،
بدلا من تكرار نفس الألفاظ.
مدونة غيرمحشاة : unannotated corpus
يطلق هذا المصطلح
على المدونة الخام raw كما وردت في الأصل،والتي لم
يضف إلى نصوصها أية سمات.
المحرف
غير المحدد:wildcard:
المحرف
character ، مثل
النجمة أوعلامة الاستفهام (* ؟)،الذي يستعمل بدلا من أي محرف أوأكثر عند البحث عن
الأنماط المختلفة ( مثل ب* بمعنى ب متبوعا بأي عدد من الحروف، ليورد لنا الحاسوب
جميع الكلمات التي تبدأ بحرف الباء).
قائمة
الكلمات:wordlist
الكلمات الواردة في
النص أو المدونة ، غالبا مع معلومات عن مرات تكرارها.
ثانيا: القائمة العربية-الإنجليزية
لمعرفة معاني المصطلحات ، انظر المسرد المشروح
أعلاه والمرتب حسب الألفاظ الإنجليزية.
إحصاء دلالي: semantic count
أدوات (بحث) مشاعة:public domain tools
أدوات استعلام: query(ing) tools
أدوات اللسانيات الحاسوبية: CL tools
إرشادات التي إي آي: TEI Guidelines
إزالة الغموض: disambiguation
إس جي إم إل: SGML Markup Language
استخراج
المصطلح: term extraction
إعراب كامل:full parsing
إعراب جزئي: skeleton parsing
إعراب: parsing
LDC
(Linguistic Data Consortium ) إل دي سي (مجموعة
المعطيات اللغوية)
إمكانية الاستعادة:recoverability
بحث بالسياق: context search
بنك الشجرات التركيبية: treebank
بنك المعطيات المصطلحية: terminological data
bank (TDB)
بيانات عن (شيء ما) :metadata
تجريد الكلمة:lemmatization
تحشية الضمير العائد: anaphoric annotation
تحشية خطابية: discoursal annotation
تحشية دلالية: semantic annotation
تحشية/ تعليقات: annotation
التحليل التحاوري:interactive analysis
ترتيب: sort(ing)
ترويسة المدونة: corpus header
ترويسة: header
تسوية: normalization
تشفير المحارف: character encoding
تشفير: encoding
تعليم النص: mark-up
تقسيم النص: text chunking
تلازم نحوي: colligation
تمثيل (اللغة): representativeness
توازن المدونة: corpus balance
تي إي آي: TEI
جدولة مقطعية :cross-tabulation
.جمعcompilation :
دي تي دي:DTD
ذكاء اصطناعي: Artificial Intelligence (AI)
زود النص بالتحشية: annotate
سلسلة :string:
سمة: tag
سي إي إس: CES
سياق غني بالمعلومات: knowledge-rich context
سياق: context
شيوع/ تكرارfrequency :
صاحب لفظيا: with collocate
lexicography صناعة المعاجم/
المعجمية:
طقم أساس للواسمات: base tagset
طقم السمات:tagset
عنصر هدف/ عقدة:node
قائمة الاستبعاد: stop list
قائمة ألفبائية: alphabetical list
قائمة الكلمات: wordlist
قاعدة بيانات معجمية:lexical data base (LDB)
قواعد المعطيات المصطلحية: terminology databases
كتابة صوتية:phonetic transcription
كشاف سياقي ثنائي اللغة: bilingual concordance
كشاف سياقي: concordance
كلمة أساس:lemma
الكلمة المفتاحية: keyword.
كلمة فعليةtoken :
كلمة نوعية: type
كلمة نوعية: type
كويك (الكلمة المفتاحية في سياق:
(KWIC
(Key-Word In Context
اللسانيات الحاسوبية: Computational Linguistics
(CL)
لسانيات المدونات (اللغوية): Corpus Linguistic اللغة لأغراض خاصة: LSP
اللغة للأغراض العامة: LGP
OLAC
(Open Language Archives Community) مجتمع الأرشيفات
اللغوية المفتوح
محاذاة: alignment
محرف غير محدد:wildcard
محرك بحث: search engine
مدقق أسلوبي:style checker
مدقق إملائي: spelling checker
مدقق عام للنص: general text checker
مدونات : جمع مدونة.corpora:
مدونة أحادية اللغة: monolingual corpus
مدونة المتعلمين:learner corpus:
مدونة بها تحشية: annotated corpus
مدونة تاريخية: diachronic corpus
مدونة تزامنية:synchronic corpus
مدونة خاصة: special corpus
مدونة خام: raw corpus
مدونة عينة: sampled corpus
مدونة غيرمحشاة: unannotated corpus
مدونة فرعية:subcorpus
مدونة متشابهة: comparable corpus
مدونة متعددة اللغات:multilingual corpus
مدونة متوازنة: balanced corpus
مدونة متوازية (محاذاة): parallel (aligned) corpus multilingual.
مدونة محكية: spoken corpus
مدونة مراقبة (التطور): monitor corpus
مدونة مشبّعة:saturated corpus
مدونة معرَبَة:parsed corpus
مدونة مقارنة: comparative corpus
مدونة:corpus
مدونةمرجعية: reference corpus
مدى: span
مرتِّب حسب اليسار: left sorted
مرتِّب حسب اليمين: right sorted
مصاحب لفظي: collocate
مصاحبة لفظية: collocation
مصطلح محتمل: candidate term
مطابَقة الواقع: authenticity
معالجة اللغات الطبيعية: Natural Language Processing
(NLP)
معالجة المدونة: corpus processing
معجم:lexicon
معرِِب (نحوي):parser/syntactic parser
lexical
resources/data مصادر/ بيانات معجمية:
semantic
prosody المعنى الناتج:
موارد/ مصادر لغوية: language/linguistic resources
نسبة الكلمة النوعية للكلمات الفعلية:type-token ratio:
نص: co-text
نظام معالجة المصطلحات: terminological management system
نمط بحث: search pattern
نوع النص: text type
هندسة لغوية: language engineering
واسم لأقسام الكلام:part-of-speech tagger
وحدة معجمية: lexeme
وسم الأخطاء:error tagging
وسم بنفس السمة:ditto tagging
وسم مطابق :ditto tag
وسم موجه نحو المشكلة: problem-oriented tagging
وسم: tagging
شكرااالكم دكتور ، هل تقصد المدونة الرقمية ؟
ردحذفما شاء الله
ردحذفجزاك الله خيرا على الإفادة يا دكتور.
ولو تكرمت تعطيني مصادر للغويات الحاسوبية من فضلك؟
Kocaeli
ردحذفDenizli
Bartın
Kocaeli
Adana
0PWY3Y
van
ردحذفelazığ
zonguldak
uşak
sakarya
GYQN
goruntulu show
ردحذفücretli
LZEGP
6D291
ردحذفMaraş Parça Eşya Taşıma
Bilecik Evden Eve Nakliyat
Ağrı Parça Eşya Taşıma
Kırşehir Parça Eşya Taşıma
Muş Parça Eşya Taşıma
3DB88
ردحذفAnkara Lojistik
Ünye Koltuk Kaplama
Siirt Lojistik
Bursa Lojistik
Burdur Şehirler Arası Nakliyat
Yozgat Evden Eve Nakliyat
Kars Şehir İçi Nakliyat
Tokat Şehirler Arası Nakliyat
Maraş Şehirler Arası Nakliyat
3870D
ردحذفÇerkezköy Çatı Ustası
Karaman Evden Eve Nakliyat
Kalıcı Makyaj
buy testosterone propionat
Ardahan Evden Eve Nakliyat
order anapolon oxymetholone
order testosterone enanthate
Btcturk Güvenilir mi
Afyon Evden Eve Nakliyat
49A09
ردحذفOkex Güvenilir mi
Afyon Lojistik
Artvin Evden Eve Nakliyat
Mamak Parke Ustası
Bitlis Evden Eve Nakliyat
Bayburt Evden Eve Nakliyat
Bolu Şehir İçi Nakliyat
Eskişehir Lojistik
Bilecik Parça Eşya Taşıma
2ACE5
ردحذفBitlis Lojistik
Ünye Fayans Ustası
Elazığ Lojistik
Düzce Şehir İçi Nakliyat
Isparta Parça Eşya Taşıma
Nevşehir Şehirler Arası Nakliyat
Karabük Parça Eşya Taşıma
Nevşehir Lojistik
Etlik Fayans Ustası
FBEAA
ردحذفBitcoin Üretme
Binance Hesap Açma
Bitcoin Madenciliği Nasıl Yapılır
Coin Nasıl Kazılır
Kripto Para Oynama
Bitcoin Giriş Nasıl Yapılır
Kripto Para Madenciliği Nasıl Yapılır
Coin Nedir
Bulut Madenciliği Nedir
3DF4E
ردحذفburdur ücretsiz sohbet uygulaması
canlı sohbet siteleri ücretsiz
Ardahan Sohbet Chat
hatay canlı sohbet siteleri
Çanakkale Görüntülü Sohbet Kadınlarla
sesli sohbet
muş ücretsiz sohbet uygulaması
siirt sesli sohbet odası
bartın canlı görüntülü sohbet uygulamaları
3377F
ردحذفMefa Coin Hangi Borsada
Coin Para Kazanma
Tesla Coin Hangi Borsada
Facebook Grup Üyesi Hilesi
Keep Coin Hangi Borsada
Soundcloud Reposts Satın Al
Görüntülü Sohbet Parasız
Kripto Para Üretme
Baby Doge Coin Hangi Borsada
01B397510D
ردحذفşov siteleri