OSAC: Open Source Arabic Corpora

 

OSAC: Open Source Arabic Corpora

English translation is below

اطلاق ادوات التحليل الصرفي واكبر بيانات نصية للغة العربية

 

ادوات التحليل الصرفي

تم اطلاق ادوات التحليل الصرفي (التجذير / التجذير الخفيف) (stemming / light stemming) للغة العربية ضمن ادوات تعليم الالة وتنقيب البيانات الرائدة والمفتوحة المصدر (Weka & RapidMiner Miner).  فكرة التجذير تعتمد على ازالة الاحرف المزيدة من الكلمة ومن ثم تحويل الكلمة للجذر، اما التجذير الخفيف يعتمد على ازالة الاحرف المزيدة من الكلمة فقط من دون التحويل الكلمة للجذر الاصلي.  ويمكن تحميل ادوات التحليل الصرفي ضمن (http://rapid-i.comRapidMiner)  و (Weka http://www.cs.waikato.ac.nz/ml/weka 

يقوم التجذيربإرجاع الكلمة لجذرها بينما يقوم التجذير الخفيف بإزالة الأحرف المزيدة من الكلمة حيث يحافظ على معنى الكلمة لان فكرته تستند على ان تصريفات الجذر تعطي كلمات بمعاني مختلفة على الرغم من انها من نفس الجذر، لذلك يهدف التجذير الخفيف الي اختزال السمات / الكلمات المفتاحية مع المحافظة على المعنى، على عكس التجذير الذي يمكن ان يؤثر على معاني الكلمات. لمزيد من المعلومات يمكنك الرجوع لـ:

Motaz K. Saad and Wesam Ashour, "Arabic Morphological Tools for Text Mining", EEECS’10 the 6th International Symposium on Electrical and Electronics Engineering and Computer Science, pp. 112-117, European University of Lefke, Cyprus, 2010.

Khoja S., Garside R., "Stemming Arabic text", Computer Science Department, Lancaster University, Lancaster, UK, 1999.

لتحميل الادوات، استخدم update manager في RapidMiner و package manager في Weka. 

 

كما تم اطلاق اكبر بيانات بيانات نصية عربية OSAC: Open Source Arabic Corpora 

وتحتوي على المجموعات التالية:

BBC Arabic : تم تجميع هذه المجموعة من موقع بي بي سي العربي وتحتوي على 4,763 مستند نصي تنتمي لفئة من سبع فئات (اخبار الشرق الاوسط 2356 ، اخبار العالم 1489 ،  اقتصاد واعمال 296،  رياضة 219 ، صحافة عالمية 49 ، علوم وتكنولوجيا  232، فنون وثقافة 122 )  تحتوى المجموعة على 1,860,786 مليون كلمة و 106,733 كلمة مفتاحية بعد ازالة الكلمات المستبعدة.

 

CNN Arabic : تم تجميع هذه المجموعة من موقع سي ان ان العربي وتحتوي على 5,070 مستند نصي تنتمي لفئة من ست فئات (اخبار الشرق الاوسط 1462، اخبار العالم 1010،  اقتصاد 836، رياضة 762، ترفيه 474 ، علوم وتكنولوجيا  526، فنون وثقافة 122 )  تحتوى المجموعة على 2,241,348 مليون كلمة و 144,460 كلمة مفتاحية بعد ازالة الكلمات المستبعدة.

 

Open Source Arabic Corpus (OSAc) (small c)) تم تجميع هذه المجموعة من عدة مواقع وتحتوي على 22,429 مستند نصي تنتمي لفئة من احد عشر فئة (الاقتصاد، التاريخ، الترفية، التعليم والاسرة، دين وفتاوى، رياضة، صحة، فضاء، قانون، قصص، وصفات طبخ) تحتوى المجموعة على 18,183,511 مليون كلمة و 449,600 كلمة مفتاحية بعد ازالة الكلمات المستبعدة.

لمزيد من المعلومات عن المدونة / البيانات النصية العربية واستخدامها، يمكنك الرجوع لـ: 

Motaz K. Saad and Wesam Ashour, "OSAC: Open Source Arabic Corpora", EEECS’10 the 6th International Symposium on Electrical and Electronics Engineering and Computer Science, pp. 118-123, European University of Lefke, Cyprus, 2010.

 يمكن تحميل مجموعات البيانات النصية من على http://sourceforge.net/projects/ar-text-mining/files/Arabic-Corpora 

ملاحظة: هذة البيانات النصية للاغراض البحثية فقط. 

الباب مفتوح للبحاثين لاستخدام الادوات ومجموعة البيانات، كما ان الباب مفتوح للمساهمة في تطويرها.

 


Arabic morphological analysis tools has been released !
within Weka  http://www.cs.waikato.ac.nz/ml/weka and RapidMiner http://rapid-i.com
Performs Stemming / Light Stemming for Arabic words using the Stemming / Light Stemming algorithms. 
Stemming reduces words to their stems. Light stemming, in contrast, removes common affixes from words without reducing them to their stems. The main idea for using light stemming is that many word variants do not have similar meanings or semantics although these word variants are generated from the same root. Thus, root extraction algorithms affect the meanings of words. Light stemming aims to enhance feature/keyword reduction while retaining the words meanings. It removes some defined prefixes and suffixes from the word instead of extracting the original root.
For more information, please refer to: 
Motaz K. Saad and Wesam Ashour, "Arabic Morphological Tools for Text Mining", EEECS’10 the 6th International Symposium on Electrical and Electronics Engineering and Computer Science, pp. 112-117, European University of Lefke, Cyprus, 2010.

Khoja S., Garside R., "Stemming Arabic text", Computer Science Department, Lancaster University, Lancaster, UK, 1999.

 

To use the tools, use Package Manager in Weka and Update Manager in RapidMiner. 

 
Open Source Arabic Corpora (OSAC) have been released !
You can download it from 
http://sourceforge.net/projects/ar-text-mining/files/Arabic-Corpora
The corpora include:
– BBC Arabic corpus: collected from bbcarabic.com, includes 4,763 text documents. Each text document belongs to 1 of 7 categories (Middle East News 2356, World News 1489, Business & Economy 296, Sports 219, International Press 49, Science & Technology 232, Art & Culture 122). The corpus contains 1,860,786 (1.8M) words and 106,733 district keywords after stopwords removal.

– CNN Arabic corpus:
 collected from cnnarabic.com, includes 5,070 text documents. Each text document belongs to 1 of 6 categories (Business 836, Entertainments 474, Middle East News 1462, Science & Technology 526, Sports 762, World News 1010). The corpus contains 2,241,348 (2.2M) words and 144,460 district keywords after stopwords removal.

– Open Source Arabic Corpus (OSAc) (small c): collected from multiple sites, includes 22,429 text documents. Each text document belongs to 1 of 11 categories (Economics, History, Entertainments, Education & Family, Religious and Fatwas, Sports, Heath, Astronomy, Low, Stories, Cooking Recipes). The corpus contains about 18,183,511 (18M) words and 449,600 district keywords after stopwords removal.

To use Open Source Arabic Corpora (OSAC), please refer to:
Motaz K. Saad and Wesam Ashour, "OSAC: Open Source Arabic Corpora", EEECS’10 the 6th International Symposium on Electrical and Electronics Engineering and Computer Science, pp. 118-123, European University of Lefke, Cyprus, 2010. 


OSAC 
can be download from: http://sourceforge.net/projects/ar-text-mining/files/Arabic-Corpora
For other Arabic Corpora, Please refer to http://aracorpus.e3rab.com orhttp://aracorpus.e3rab.com/index.php?content=english

Note: This corpora for research purposes only. 
Contributions are welcomed !