Tipo de recurso
Corpora
Descripción
OCA es un corpus en árabe sobre comentarios de películas. Este corpus ha sido generado a partir de comentarios en árabe obtenidos de diferentes páginas web que se muestran en la siguiente tabla:
| Nombre | Página web | Sistema voto | Positivos | Negativos |
|---|---|---|---|---|
| Cinema Al Rasid | http://cinema.al-rasid.com/ | 10 | 36 | 1 |
| Film Reader | http://filmreader.blogspot.com/ | 5 | 0 | 92 |
| Hot Movie Reviews | http://hotmoviews.blogspot.com | 5 | 45 | 4 |
| Elcinema | http://www.elcinema.com | 10 | 0 | 56 |
| Grind House | http://grindh.com | 10 | 38 | 0 |
| Mzyondubai | http://www.mzyondubai.com | 10 | 0 | 15 |
| Aflamee | http://aflamee.com | 5 | 0 | 1 |
| Grind Film | http://grindfilm.blogspot.com/ | 10 | 0 | 8 |
| Cinema Gate | http://www.cingate.net | Bad/Good | 0 | 1 |
| Emad Ozery Blog | http://emadozery.blogspot.com | 10 | 0 | 1 |
| Fil Fan | http://www.filfan.com | 5 | 81 | 20 |
| Sport4Ever | http://sport4ever.maktoob.com | 10 | 0 | 1 |
| DVD4ArabPos | http://dvd4arab.maktoob.com | 10 | 11 | 0 |
| Gamraii | http://www.gamraii.com | 10 | 39 | 0 |
| Shadows and Phantoms | http://shadowsandphantoms.blogspot.com | 10 | 0 | 50 |
| Total | 250 | 250 |
Algunas estadísticas sobre OCA corpus: Este corpus fue generado en Octubre de 2010. Algunas estadísticas sobre él se muestran en la siguiente tabla:
| Negativos | Positivos | |
|---|---|---|
| Total documentos | 250 | 250 |
| Total tokens | 94,556 | 121,392 |
| Media de tokens en cada comentario | 378 | 485 |
| Total sentencias | 4,881 | 3,137 |
| Media de sentencias en cada comentario | 20 | 13 |
Rushdi-Saleh, M., Martín-Valdivia, M. T., Alfonso Ureña-López, L. & Perea-Ortega, J. M. (2011). OCA: Opinion corpus for Arabic. Journal of the American Society for Information Science and Technology.
http://dx.doi.org/10.1002/asi.21598
Para cualquier consulta sobre el corpus envía un email a Mohammed Saleh o José M. Perea
Archivos