Issues of Dialectal Saudi Twitter Corpus

Meshrif Alruily

doi:10.34028/iajit/17/3/10

Back

Issues of Dialectal Saudi Twitter Corpus

Journal article

Open access

Peer reviewed

Issues of Dialectal Saudi Twitter Corpus

Meshrif Alruily

International arab journal of information technology, Vol.17(3), pp.367-374

01/05/2020

DOI: https://doi.org/10.34028/iajit/17/3/10

Abstract

Computer Science

Computer Science, Artificial Intelligence

Computer Science, Information Systems

Engineering

Engineering, Electrical & Electronic

Science & Technology

Technology

Text mining research relies heavily on the availability of a suitable corpus. This paper presents a dialectal Saudi corpus that contains 207452 tweets generated by Saudi Twitter users. In addition, a comparison between the Saudi tweets dataset, Egyptian Twitter corpus and Arabic top news raw corpus (representing Modern Standard Arabic (MSA) in various aspects, such as the differences between formal and colloquial texts was carried out. Moreover, investigation into the issues and phenomena, such as shortening, concatenation, colloquial language, compounding, foreign language, spelling errors and neologisms on this type of dataset was performed.

Files and links (1)

url

https://doi.org/10.34028/iajit/17/3/10View

Published (Version of record) Open

Metrics

1 Record Views

Details

Title: Issues of Dialectal Saudi Twitter Corpus
Creators - without role: Meshrif Alruily - Al Jouf University
Publication Details: International arab journal of information technology, Vol.17(3), pp.367-374
Publisher: Zarka Private Univ
Number of pages: 8
Identifiers: 9912377008331
Academic Unit: Al Jouf University
Language: English
Resource Type: Journal article