Project Details
Abstract Arabic
نظراً لزيادة التشغيل الآلي في العالم العربي، فإن هناك كميات كبيرة من الوثائق العربية موجودة في شكل رقمي في مختلف المنظمات وبما أن العديد من هذه الوثائق موجودة أيضا في فئات ذات مستويات متعددة. بالإضافة إلى هذا، فإنه مع زيادة استخدام الانترنت باللغة العربية وتراكم كميات كبيرة من النص غير المنظم باللغة العربية بالخدمات المتاحة على الانترنت. وتعتبر هذه كميات كبيرة من الوثائق تنتمي إلى مجموعات مختلفة مثل التعليم والانتخابات وغيرها. كما تحتوي هذه الوثائق أيضا مستويات أدق من التصنيف العام مثل التعليم الطبي والتثقيف القانوني. حتى ولو كان هناك بعض الأعمال السابقة التي تمت في شأن تصنيف النص العربي، كما هو الحال بالنسبة لنظام تصنيف المستوى الواحد، فإن هذا لا يعكس واقع تنظيم البيانات الحالية. ومن أجل جعل الاستخدام الاسلم لهذه زيادة المعلومات الرقمية، فهناك حاجة ملحة إلى آلية تصنيف متعدد المستويات من النص العربي. كما أن سرعة استرجاع المعلومات هو أيضا محور مهم جدا ومثال ذلك تعامل المهن الطبية مع حالات غير عادية لا بد أن تكون قادرة على التدقيق بسرعة من خلال البيانات الطبية للكشف عن تفاصيل سجلات المرضى السابقة مثل استكشاف أعراض مماثلة سابقة. ويهدف هذا المشروع إلى تطوير تقنيات للتصنيف سريع واسترجاع الوثائق العربية موجودة في شكل فئات متعددة المستويات. وحيث لا يوجد قاعدة بيانات للوثائق العربية متاحة للباحثين وللجمهور مع نظام تصنيف متعدد المستويات، فنحن نعتزم أيضا لإعداد قاعدة بيانات للوثائق العربية (كوربوس العربية) والتعليق عليه لفئات لمستويات متعددة للبيانات. وفي مرحلة لاحقة سيتم طرح هذا البحث والتصنيف على الانترنت للمساعدة في زيادة النشاط في مجال البحث باللغة العربية التي تعرقل حالياً بسبب عدم وجود نوعية جيدة من تصنيف البيانات.
Abstract English
Due to increased automation in the Arab world, there are large amounts of Arabic documents present in digital format in various organizations. Many of these documents are also present in multi-level categories. In addition to this, with the increased usage of internet in Arabic, there are large amounts of unstructured Arabic text available online. These large amounts of documents belong to different groups such as education and elections. These documents also contain finer levels of categorization, such as medical education and legal education. Even though there has been some previous work done on Arabic text categorization, it is for a single level categorization scheme. This does not reflect the reality of current data organization. In order to make proper use of this increasing digital information, there is a pressing need for automatic multi-level categorization of Arabic text. Many times, the speed of information retrieval is also very important e.g. a medical professional dealing with an unusual case should be able to quickly sift through the available medical data to uncover details of previous patients with similar symptoms. This project aims to develop techniques for fast categorization and retrieval of Arabic documents present in the form of multi-level categories. As there is no publicly available Arabic corpus with a multi-level categorization scheme, we also intend to compile an Arabic corpus and annotate it with category data for multiple levels. At a later stage, this corpus will be put online to help in increasing activity in Arabic language research, which is currently hampered by the lack of
good quality annotated corpora.
Status | Finished |
---|---|
Effective start/end date | 1/02/15 → 15/10/17 |
Fingerprint
Explore the research topics touched on by this project. These labels are generated based on the underlying awards/grants. Together they form a unique fingerprint.