Alignement de corpus multilingues, repérage d'entités nommées et UNITEX

translation_articles_icon

ProZ.com Translation Article Knowledgebase

Articles about translation and interpreting
Article Categories
Search Articles


Advanced Search
About the Articles Knowledgebase
ProZ.com has created this section with the goals of:

Further enabling knowledge sharing among professionals
Providing resources for the education of clients and translators
Offering an additional channel for promotion of ProZ.com members (as authors)

We invite your participation and feedback concerning this new resource.

More info and discussion >

Article Options
Your Favorite Articles
Recommended Articles
  1. ProZ.com overview and action plan (#1 of 8): Sourcing (ie. jobs / directory)
  2. Réalité de la traduction automatique en 2014
  3. Getting the most out of ProZ.com: A guide for translators and interpreters
  4. Does Juliet's Rose, by Any Other Name, Smell as Sweet?
  5. The difference between editing and proofreading
No recommended articles found.

 »  Articles Overview  »  Technology  »  Software and the Internet  »  Alignement de corpus multilingues, repérage d'entités nommées et UNITEX

Alignement de corpus multilingues, repérage d'entités nommées et UNITEX

By M_a_r_i_n_a | Published  08/25/2006 | Software and the Internet | Recommendation:RateSecARateSecARateSecARateSecARateSecI
Contact the author
Quicklink: http://glg.proz.com/doc/860

On appelle corpus multilingues des corpus électroniques constitués de groupes de textes, généralement des textes source et leurs traductions (effectuées manuellement). L’alignement de corpus signifie la mise en correspondance de ces textes multilingues, c’est-à-dire un stockage conjoint des textes originaux avec leurs traductions existantes, utilisés parmi d'autres à des fins d’automatisation de certaines étapes de la traduction ou d’enrichissement de lexiques. L’alignement s’appuie sur le repérage d’un certain nombre d’éléments d’un type défini (chapitres, paragraphes, phrases, syntagmes, mots ou morphèmes) et la création de liens entre ces éléments dans le texte original et leur traduction dans les autres versions.

Parmi ces éléments venant à l'assistance de l'alignement de textes, on parlera dans cet article de la dite entité nommée, "séquence lexicale faisant référence à une entité du monde concret" comme définie par Thierry Poibeau. La préparation à l'alignement consiste à mettre en rapport ces entités nommées (par exemple les dates, les noms de lieu, les noms de personne ou d'organisme) reconnues dans les différentes traductions du même texte-source. Les entités nommées repérées servent par la suite comme points d’ "ancrage" sur lesquels s’appuient des méthodes statistiques d’alignement au niveau des phrases, des paragraphes…

UNITEX est un logiciel utilisé, parmi d'autres, pour la reconnaissance des "entités nommées". UNITEX reconnaît des entités linguistiques en usant d'un ensemble de schémas traitant de phénomènes linguistiques isolés, à l'aide de repères grammaticaux, morphosyntaxiques et lexicaux. Les repères lexicaux peuvent être des amorces telles que "le ministre", pour la reconnaissance d'un nom de personne, ou "le mont", pour la reconnaissance d'un nom de lieu. Un schéma simple de reconnaissance d'un nom de personne est par exemple "Monsieur ou Madame, suivi d'un mot commençant par une majuscule, puis éventuellement suivi par un deuxième mot commençant par une majuscule". Des entités nommées susceptibles d'être reconnues par ce schéma sont "Monsieur Zola", "Monsieur Emile Zola", "Madame Marie", "Madame Marie Curie"... L'utilisateur définit manuellement ce type de schémas (appelés "graphes"), à l'aide d'UNITEX, puis les projète sur le texte pour extraire les informations qui intéressent son étude.

L'extraction est assistée par un ensemble de dictionnaires de noms propres ou de syntagmes nominaux, souvent comportant des informations grammaticales, sémantiques et flexionnelles. Un tel dictionnaire est intégré au logiciel, mais l'utilisateur peut également définir, en fonction de son texte et de son domaine de travail, des dictionnaires isolés, par exemple pour les noms de mois et de jour, les noms de famille et prénoms, les noms géographiques, les noms des personnages s'il s'agit d'un roman...

Chaque langue pose des problèmes spécifiques au répérage des entités nommées, dépendant de ses particularités, qu'elles soient grammaticales, syntaxiques, orthographiques, lexicales ou autres.


Références:
-Thierry Poibeau, Extraction automatique d'information: Du texte brut au web sémantique, 2003, éd. Lavoisier.
-Logiciel UNITEX: http://www-igm.univ-mlv.fr/~unitex/

Marina's Homepage:
http://www.inamarr.com



Copyright © ProZ.com, 1999-2024. All rights reserved.
Comments on this article

Knowledgebase Contributions Related to this Article
  • No contributions found.
     
Want to contribute to the article knowledgebase? Join ProZ.com.


Articles are copyright © ProZ.com, 1999-2024, except where otherwise indicated. All rights reserved.
Content may not be republished without the consent of ProZ.com.