Cross-lingual analysis and annotation of parallel and comparable corpora

Le groupe “Corpus multilingues et plurilingues” du consortium CORLI a le plaisir de vous inviter à une journée scientifique sur le thème :

“Analyse cross-lingue et annotation de corpus multilingues parallèles et
comparables : tendances actuelles et futures”
“Cross-lingual analysis and annotation of parallel and comparable corpora:
Current and future trends”

Le vendredi 30 novembre 2018 à l’Université Paris Diderot

Coordination : Natalie Kübler (Paris Diderot), Maria Zimina (Paris Diderot),
Evangelia Adamou (CNRS) et Antonio Balvet (Université de Lille)

Description :
Des questions d’ordre méthodologique subsistent sur la pratique d’annotation
de corpus multilingues et plurilingues, ainsi que sur l’impact potentiel des
nouveaux outils et méthodes d’analyse cross-lingue de corpus parallèles et
comparables (les corpus LSP, les corpus avec l’alternance codique, les corpus
oraux arborés, etc.).

Parallèlement, la recherche sur les corpus multilingues et plurilingues est
confrontée à de nombreux défis car la plupart des outils et logiciels
disponibles pour le traitement des langues ou des paires de langues
spécifiques diffèrent les uns des autres de manière importante, comme les
méthodes d’annotation et les jeux d’étiquettes utilisés dans les workflows
existants. Ces divergences compliquent l’élaboration d’un cadre méthodologique
solide pour des systèmes unifiés d’analyse de corpus multilingues.

Nous encourageons les propositions de communication des chercheurs,
praticiens, représentants de la société civile et toutes les personnes
susceptibles d’être intéressées par la recherche sur l’analyse de données
linguistiques multilingues. Le but principal de ce Workshop CORLI est de
réunir des chercheurs et professionnels issus d’horizons théoriques et de
disciplines très variés, afin d’encourager la discussion et d’aborder les
questions suivantes :

– Identifier les points qui doivent être abordés en priorité pour gérer des
projets de recherche impliquant le traitement de corpus multilingues oraux et
écrits.
– Partager les bonnes pratiques et les expériences concernant la conception,
l’utilisation et l’évaluation de corpus multilingues et plurilingues dans le
cadre de projets linguistiques spécifiques (terminologie, phraséologie,
traduction, analyse de discours, alternance codique, etc.).
– Comprendre et construire des cadres méthodologiques pour l’annotation multi-
niveaux et l’analyse multilingue de corpus parallèles et comparables avec
prise en compte des outils et méthodes spécifiques et leurs contributions aux
projets spécifiques.
– Comprendre comment développer et mettre en œuvre l’analyse cross-lingue de
corpus multilingues en utilisant le traitement automatique des langues, les
analyses qualitatives et quantitatives.
– Comprendre et être capable de sélectionner les unités d’analyse appropriées
aux outils et méthodes de traitement.
– Comprendre comment diffuser et utiliser les corpus alignés et annotés dans
plusieurs langues.

Courte bibliographie :
Çetinoğlu, Özlem, Sarah Schultz & Thang Vu. (2016). Challenges of
computational processing of code-switching. In Mona Diab, Pascale Fung,
Mahmoud Ghoneim, Julia Hirschberg & Thamar Solorio (eds.) Proceedings of the
Second Workshop on Computational Approaches to Code Switching, Austin, Texas,
1–11. Association for Computational Linguistics.
Guzmán, Gualberto A., Jacqueline Serigos, Barbara E. Bullock & Almeida J.
Toribio. (2016). Simple tools for exploring variation in code-switching for
linguists. In Mona Diab, Pascale Fung, Mahmoud Ghoneim, Julia Hirschberg &
Thamar Solorio (eds.), Proceedings of the Second Workshop on Computational
Approaches to Code Switching, Austin, Texas, 12– 20. Association for
Computational Linguistics.
Sailer, Manfred & Stella Markantonatou (eds). (2018). Multiword Expressions:
Insights from a Multi-lingual Perspective. Language Science Press, Berlin.
Sharoff, Serge. (2018). Language adaptation experiments via cross-lingual
embeddings for related languages. In Proc LREC, Miyazaki, Japan, May 2018.
Rehm, Georg, Daniel Stein, Felix Sasaki & Andreas Witt (2018). Language
technologies for a multilingual Europe. Translation and Multilingual Natural
Language Processing. Language Science Press, Berlin.
Tiedemann, Jörg. (2011). Bitext Alignment, Synthesis Lectures on Human
Language Technologies. San Rafael, Morgan & Claypool Publishers.
Tiedemann, Jörg (2017). Cross-Lingual Dependency Parsing for Closely Related
Languages – Helsinki’s Submission to VarDial 2017. CoRR abs/1708.05719 (2017).
Zweigenbaum, Pierre, Serge Sharoff & Reinhard Rapp. (2018). A Multilingual
Dataset for Evaluating Parallel Sentence Extraction from Comparable Corpora.
In Proc LREC, Miyazaki, Japan, May 2018.

Membres du comité scientifique :
Evangelia Adamou (CNRS), Nicolas Ballier (Paris Diderot), Antonio Balvet
(Université de Lille), Geneviève Bordet (Paris Diderot), Chris Gledhill
(Université Paris Diderot), Nicolas Frœliger (Paris Diderot), Clive Hamilton
(Paris Diderot), Olivier Kraïf (Université Grenoble Alpes), Natalie Kübler
(Paris Diderot), Alexandra Mestivier (Paris Diderot), Mathieu Valette
(INALCO), Maria Zimina (Paris Diderot).

Date du Workshop CORLI : 30 novembre 2018
Date limite de soumission d’une proposition : 1er octobre 2018.

Procédure* :
Les personnes qui souhaitent participer au Workshop CORLI doivent envoyer un
résumé de leur communication (environ 500 mots) et un court CV à :
Natalie Kübler : nkubler@eila.univ-paris-diderot.fr
Maria Zimina : mzimina@eila.univ-paris-diderot.fr

Les membres du CORLI qui souhaitent assister à cette manifestation sans
présenter une communication peuvent adresser un message aux coordinateurs du
Workshop en expliquant brièvement pourquoi les thématiques ont retenu leur
attention. Les personnes à contacter sont :
Natalie Kübler : nkubler@eila.univ-paris-diderot.fr
Maria Zimina : mzimina@eila.univ-paris-diderot.fr

*La prise en charge est possible pour un nombre limité de participants. La
préférence sera donnée aux étudiants et chercheurs qui n’ont pas réussi à
obtenir le financement de leur organisme de rattachement.

Leave a comment