NADA: New Arabic Dataset for Text Classification

Nada Alalyani; Souad Larabi Marie-Sainte

doi:10.14569/ijacsa.2018.090928

Back

NADA: New Arabic Dataset for Text Classification

Journal article

Open access

NADA: New Arabic Dataset for Text Classification

Nada Alalyani and Souad Larabi Marie-Sainte

International journal of advanced computer science & applications, Vol.9(9), pp.206-212

2018

DOI: https://doi.org/10.14569/ijacsa.2018.090928

Abstract

Computer Science

Computer Science, Theory & Methods

Science & Technology

Technology

In the recent years, Arabic Natural Language Processing, including Text summarization, Text simplification, Text Categorization and other Natural Language-related disciplines, are attracting more researchers. Appropriate resources for Arabic Text Categorization are becoming a big necessity for the development of this research. The few existing corpora are not ready for use, they require preprocessing and filtering operations. In addition, most of them are not organized based on standard classification methods which makes unbalanced classes and thus reduced the classification accuracy. This paper proposes a New Arabic Dataset (NADA) for Text Categorization purpose. This corpus is composed of two existing corpora OSAC and DAA. The new corpus is preprocessed and filtered using the recent state of the art methods. It is also organized based on Dewey decimal classification scheme and Synthetic Minority Over-Sampling Technique. The experiment results show that NADA is an efficient dataset ready for use in Arabic Text Categorization.

Files and links (1)

url

https://doi.org/10.14569/ijacsa.2018.090928View

Published (Version of record) Open

Metrics

1 Record Views

Details

Title: NADA: New Arabic Dataset for Text Classification
Creators - without role: Nada Alalyani - King Saud University
Souad Larabi Marie-Sainte - Prince Sultan University
Publication Details: International journal of advanced computer science & applications, Vol.9(9), pp.206-212
Publisher: Science & Information Sai Organization Ltd
Number of pages: 7
Grant note: Machine Learning Research
Identifiers: 9927387308331
Academic Unit: Prince Sultan University; King Saud University
Language: English
Resource Type: Journal article