Rubrique : articles


Lien e-mail pour envoyer l'article (version originale uniquement)

La Bible comme Ressource pour les Logiciels de Traduction

Une proposition de développement des systèmes de traduction automatique (TA) en utilisant une ressource linguistique inexploitée

JEFF ALLEN




L'équipe du projet DIPLOMAT du Centre pour la Traduction Automatique (Center for Machine Translation) de l'Université de Carnegie Mellon travaillait sur la mise en place de systèmes de traduction automatique (TA), de reconnaissance vocale, et de synthèse vocale pour des langues aux données éparses dans un environnement à déploiement rapide afin de développer plusieurs systèmes prototypes de TA bidirectionnel dans une période de neuf à douze mois. Le genre de système de traduction en question (un système indépendant de la langue) avait besoin de quantités considérables de données textuelles pour former un moteur de traduction à base d'exemple en direction de plusieurs langues différentes. Plutôt que de réinventer le tour de collecte de données pour des langues aux données éparses, j'ai suggéré l'idée de former rapidement un nouveau système sur l'un des plus grands ensembles de textes parallèles jamais créés : la Bible.

Dans une période de quelques heures, nous avons téléchargé des versions de la Bible (la Revised Standard Version, la Bib-la en créole haïtien) disponibles en domaine public sur le site de la Bible Online. Nous avons pu convertir les formats des fichiers pour les utiliser sous Unix et avons aligné automatiquement les traductions parallèles verset par verset. Nous avons aussi mené une vérification d'échantillons avec les membres haïtiens de l'équipe pour s'assurer que le processus d'alignement avait été correctement effectué.

Le système de traduction anglais <> créole haïtien a été développé et déployé par ce projet-ci comme l'un des premiers à bénéficier de manière significative de ces techniques de recherche en utilisant les textes bibliques pour les langues représentées minoritairement. La Bible a été une ressource textuelle, parmi plusieurs, utilisée pour plusieurs systèmes de traduction bidirectionnels développés par le projet DIPLOMAT (www.lti.cs.cmu.edu/Research/Diplomat/).

Cela s'est passé il y a environ cinq ans. J'ai découvert depuis ce moment-là que d'autres chercheurs exploraient également l'idée de traiter la Bible comme un corpus multilingue pour des buts informatiques. Certains considéraient l'idée d'utiliser un corpus biblique multilingue comme lexique de traduction pour les objectifs de TA. D'autres envisageaient l’utilisation de la Bible pour la gestion documentaire et la reconnaissance optique. Le projet biblique sur l'internet nommé Polyglot Bible contient actuellement l'Évangile de Luc en grec, en ancien espagnol, en espagnol contemporain, en latin, en portugais, en français, en italien, en roumain, en vieil anglais, en allemand, en anglais contemporain, etc. Ce projet permet aux utilisateurs de l'internet d'effectuer une recherche par passages spécifiques ou par mots-clé, provoquant ensuite l’affichage du texte parallèle dans n'importe laquelle des 30 langues présentes sur le site (http://mdavies.for.ilstu.edu/bible/). Au-delà de la compilation de la Bible Polyglotte, Mark Davies a mené des recherches sur la syntaxe de l'ancien espagnol en utilisant un corpus électronique de la Bible en cette langue et qui possède plusieurs millions de mots dans l'objectif d'enseigner la linguistique espagnole (http://mdavies.for.ilstu.edu/personal/publications.htm#11). Existe aussi le projet ARTFL qui contient un ensemble de Bibles multilingues (www.lib.uchicago.edu/efts/ARTFL/public/bibles/index.html). Un autre projet envisage une recherche sur l'annotation des corpus et l'équivalence en traduction. La recherche sur les réseaux neuronaux a été aussi en voie de réalisation il y a plusieurs années, selon Michel PHILIPPE (Editions CLE), avec un essai sur le développement d’un système de traduction utilisant le logiciel Gensim/Neuronline G2.

En février 2002, quelqu'un m'a indiqué qu'il existait un site internet sur le film Jésus qui a été réalisé en quelques centaines de langues, et il se posait des questions quant à la valeur de ces textes et bandes sonores pour former les systèmes de traitement du langage naturel. Il est évident que l'idée avait déjà été exploitée. En effet, ces ressources avaient été utilisées avec succès quatre à cinq années auparavant et certaines implémentations limitées avaient été faites en utilisant la Bible aussi bien que les manuscrits et les bandes sonores du Film Jésus pour développer des systèmes TA et le traitement de la parole.

En même temps, la question suivante avait été posée de la part de Claudia GDANIEC sur la liste de diffusion appelée MT-List : "Qui peut me dire s'il y a des documents avec des traductions multi-référentielles qui pourraient être utilisés pour évaluer les systèmes de TA (quel que soit la langue )?"

Cette question est tout à fait particulière parce que les traductions multiples de référence sont en fait plusieurs versions différentes traduites en direction d’une seule langue à partir du même texte source. De telles traductions sont, bien sûr, souvent difficiles à identifier et à localiser du fait du manque de besoin de traduire (ou retraduire) un seul document à plusieurs reprises ou de plusieurs façons différentes.

Ce principe semble aller à l'encontre du bon sens dans l'industrie de la traduction, où l'effort est placé sur la meilleure traduction possible d'un document en une seule fois, suivi par l'alignement des textes sources et cibles par un outil de mémoire de traduction et finalement l'usage du texte parallèle qui en résulte comme matériel de référence pour toutes les révisions futures, du document et des documents apparentés. Le besoin de créer une traduction complètement différente basée sur un même texte source déjà traduit est plutôt et probablement dû à un premier essai de traduction qui a échoué de par sa qualité trop mauvaise pour être exploité et révisé. La Bible se distingue considérablement à cet égard car le grand nombre de versions traduites disponibles pour la Bible ne reflètent pas un problème de pauvreté en termes de qualité de traduction, mais plutôt démontrent qu'il existe une vaste gamme de besoins et d’attentes parmi ses lecteurs.

Traductions, Paraphrases et Versions Localisées

Pour bien comprendre la valeur que peut représenter la Bible pour l'industrie des logiciels de traduction, il serait bon de savoir en premier lieu quelles traductions de la Bible choisir avant de les utiliser. Ces choix nous demandent également de bien comprendre la raison pour laquelle existent des traductions multiples de la Bible pour chaque langue cible.

Une première distinction à faire est la différence qui réside entre une traduction et une paraphrase. Dans le métier de la traduction de la Bible, une "traduction" suit plus ou moins étroitement la syntaxe et la signification des mots dans les langues originales : l'hébreu et l'araméen pour l'Ancien Testament et le grec pour le Nouveau Testament. Cependant, une "paraphrase" essaye d'expliquer et de dire dans les mots de la langue cible ce que les textes bibliques veulent signifier. Voilà qui est particulièrement important pour des passages difficiles à comprendre et ambigus. Les versions localisées connues en tant qu’équivalents culturels essayent de placer les textes bibliques dans les contextes locaux spécifiques de la société moderne.

Pour un texte qui doit être compréhensible dans la langue cible tout en se voulant rester fidèle à la grammaire et au style de la langue source, aucune traduction dans la langue cible n'est cependant vraiment "littérale" si on la compare à son texte d’origine. Cela devient surtout une évidence lorsque l'on constate que les langues originales de la Bible utilisent un ordre de mots et une grammaire bien différents de ceux des langues cibles dans lesquelles la Bible est traduite à l'heure actuelle. L'emploi d'un seul mot grec ou hébreu ne peut pas toujours aboutir à la même traduction "littérale" en anglais (ou en français, espagnol, quechua, sango ou croate) dans tous les contextes potentiels où peut apparaître le mot.

Arriver à une traduction au plus proche de la vraie "traduction littérale" est ce qui est présenté dans une version interlinéaire, ce qui fournit simplement une glose linguistique dans la langue cible pour chaque mot ou chaque groupe de mots rencontrés en langue originale. Le Nouveau Testament Interlinéaire grec/anglais (abrégé IGNT selon son titre en anglais) est la référence la plus utilisée par les théologiens, pasteurs, prêtres et autres spécialistes de la Bible pour leurs études sur l'étymologie, les formes grammaticales et le contexte linguistique général des mots de la Bible. Par contre, une traduction "littérale" interlinéaire ne reflète pas vraiment le fait que la Bible - étant une collection ou compilation de lettres, d’histoires, de poésies et de prophéties - avait pour but d'être lue par son premier lectorat dans la langue d’origine. Une traduction littérale interlinéaire peut donc être utilisée comme outil pour identifier et étudier des points spécifiques, mais ce n'est pas une version qui présente le texte d'une manière compréhensible et gracieuse dans la langue cible.


Texte du Nouveau Testament Interlinéaire grec

Au sein du groupe des versions de la Bible que nous avons nommé "traductions", nous pouvons cependant faire une sous-distinction entre une traduction d’équivalence formelle et une traduction d'équivalence dynamique.

Une traduction d'équivalence formelle ( connue aussi comme étant "littérale" par certains érudits) a tendance à être plus orientée vers une analyse mot-pour-mot et reflète dans la traduction en langue cible aussi étroitement que possible, la forme linguistique des textes hébreux ou grecs originaux . Les exemples de versions anglaises les plus connues de cette catégorie sont les suivantes: la New American Standard Bible (NAS/NASB), Revised Standard Version (RSV) (paru en 1947), la New King James Version (NKJV) (paru en 1982) et l'Authorized Version/King James Version (AV/KJV) de 1769.

Une traduction d'équivalence dynamique (connue aussi comme "idiomatique") est plus orientée vers une analyse pensée-pour-pensée en rendant des mots et des expressions bibliques par des équivalents clairs et contemporains dans les langues cibles. Certaines caractéristiques clefs d'une traduction d'équivalence dynamique sont les suivantes: 1) la cohérence contextuelle est prioritaire par rapport à la traduction mot pour mot; 2) l'équivalence dynamique a la priorité sur la correspondance littérale; et 3) les formes linguistiques acceptées par l'auditoire moderne ont la priorité sur les formes (grammaire et style) des langues traditionnelles. En général, ce genre de traduction met une forte priorité sur la signification présente dans la langue source qui est à communiquer en corrélation avec la compréhension du lectorat de la langue cible. L'exemple type de la Bible en anglais est la New International Version (NIV) de 1985.

Toutes les traductions cibles de la Bible dans les langues contemporaines utilisent en général le concept d'équivalence dynamique jusqu'à un certain degré. Il ne s'agit pas de savoir si vraiment ce concept est suivi ou non, mais plutôt de connaître la quantité de sa fréquence dans une version en comparaison avec d'autres versions.

Chacun de ces deux types de traduction a aussi bien des avantages que des inconvénients potentiels. Les traductions d'équivalence formelle sont plus précises en ce qui concerne la terminologie et la structure de la langue originale, mais la traduction peut sembler maladroite dans le style d'expression moderne des langues cibles et peut du coup être difficile à la lecture et à la compréhension. Les traductions d'équivalence dynamique sont souvent beaucoup plus faciles à lire et se focalisent sur la conservation dans la traduction du sens voulu de la langue originale vers la langue cible, mais l'on peut perdre dans des phrases "difficiles à comprendre" un peu de la signification du texte originel en favorisant la compréhension de ces phrases dans la langue cible.


Abréviations des Traductions des Bibles
AV/KJV = Authorized Version/King James Version 1769
BBE = Bible in Basic English 1965
CEV = Contemporary English Version 1995
DBY = (ang) Darby Bible 1884 ; (fr) La Bible Darby 1991
GNB = Good News Bible
IGNT = Interlinear Greek New Testament (à partir de la Scrivener Textus Receptus de 1894)
JER = La Bible de Jéruselem 1998
LIV/LB/TLB = Living Bible 1967
LSG = Bible Louis Segond 1910
NAS/NASB = New American Standard Bible
NEG = La Bible nouvelle édition de Genève 1979
NIV = New International Version 1985
NKJV = New King James Version 1982
OST = La Bible d'Ostervald revisée 1996
PDV = La Bible Parole de Vie 2000
PHIL = Philips New Testament in Modern English 1972
PVV = Parole Vivante Nouveau Testament
ROTHRAM = 1902 Rotherham's Emphasized Bible
RSV = Revised Standard Version 1947
SEM = La Bible du Semeur 2000
SER = La nouvelle version Segond revisée 1978 (Colombe)
TOB = Traduction oecuménique de la Bible 1988
WEY = 1912 Weymouth New Testament Translation
YLT = Young's Literal Translation 1898

Les Versions Périphrastiques

La deuxième catégorie principale de versions est connue sous le nom de Bible périphrastique, semblables aux versions d'équivalence dynamique et encore plus concernées par la clarté dans la langue cible qu'attachées à la formulation exacte. De plus, elles ne sont pas souvent des traductions faites directement à partir des textes originaux grecs et hébreux, mais peuvent résulter de la consultation et de la compilation d'une ou plusieurs traductions existantes. Ces versions favorisent la lisibilité et la compréhension, y compris l'utilisation simplifiée et limitée du vocabulaire, pour des locuteurs natifs aussi bien que non-natifs de la langue cible. Ayant pour objectif la communication des idées avec des expressions familières modernes en langue contemporaine, elles peuvent donner l'impression que la Bible a été réellement rédigée au vingtième siècle. Par exemple, le mot du Psaume 119:105 qui est traduit comme lamp dans le KJV et les versions NAS est traduit comme torche électrique dans la TLB/LB de 1967. Les torches électriques n'existaient évidemment pas il y a quelques milliers d'années, mais l'emploi d'une torche électrique à l'heure actuelle correspond tout à fait à la signification exprimée dans le texte.

L’avantage de telles versions est la lisibilité du texte et la capacité pour les lecteurs de notre époque de comprendre quelques concepts, qui existaient il y a des siècles, par des interprétations équivalentes de la société moderne. L'inconvénient connu de telles versions est qu'elles peuvent compromettre la signification du texte source. Quelques exemples de ce genre de traduction pour la Bible en anglais sont la Good News Bible (GNB) et la TLB.

Équivalence Culturelle

La traduction d'équivalence culturelle est un exemple de traduction qui se veut contextualiser à l'extrême. Bien que je n’en ai moi-même jamais lu et que je ne connaisse personne qui détienne une telle version, on m'a informé qu'il existait une Cotton Patch Bible (Bible pour ceux qui cultivent le coton) qui place le récit biblique dans le contexte du Sud des Etats-Unis. Cette version traduit apparemment le fleuve du Jourdain par le fleuve Mississippi.

La valeur de telles versions consiste seulement à aider les personnes à saisir le contexte original de leur lieu moderne, mais de telles versions dévient certainement des textes originaux de par la signification voulue. Si le mot roi est traduit par président ou Premier ministre, si le Mont Sinaï devient le Mont Blanc et si la route de Damas devient l'Autoroute du Soleil (Autoroute A6), le texte biblique peut alors être facilement mal interprété par chaque lecteur individuel qui inconsciemment appliquerait des connotations actuelles basées sur son expérience personnelle avec ces équivalents modernes et lieux spécifiques qui l’entourent.

Traduction Parfaite contre Traduction Appropriée

La raison primordiale pour expliquer la théorie et la pratique de la traduction biblique est de montrer que l'existence des traductions multiples du même texte source peut, en effet, être intentionnelle et avoir une valeur importante pour différentes catégories de lecteurs. Malgré la recherche utopique d'une "traduction parfaite" à l’annonce purement commerciale, ce qui pourrait induire en erreur les personnes peu sensibilisées avec la pratique de la traduction, il serait certainement mieux de parler d’une traduction plus appropriée ou moins appropriée selon les critères de son lectorat/auditoire et de ses attentes. Les besoins et les attentes des lecteurs guident entièrement le processus de la traduction. Basé sur ces critères établis, on peut juger que le produit de traduction fini sera fort approprié, approprié, moins approprié, et cetera. De même, chacune des versions actuelles de la Bible est appropriée sur le plan de ses objectifs qui ont été fixés.

Les versions littérales interlinéaires sont valables pour étudier la terminologie et les questions grammaticales des langues originales. Les versions d'équivalence formelle donnent une traduction en langue cible, mais essayent de retenir la structure grammaticale de la langue source et la meilleure interprétation terminologique. Les versions d'équivalence dynamique visent à fournir une traduction pensée-pour-pensée au niveau de la phrase entière. Les périphrases donnent des équivalents plus ou moins modernes pour des phrases "difficiles à comprendre". Ceux qui sont impliqués dans le processus de traduction pour chacune de ces versions ont essayé de préserver la signification des textes originaux au mieux en gardant un équilibre avec la manière de décrire les mots et les idées dans la langue cible et selon une approche de traduction donnée. Le résultat montre que chaque version est une ressource riche d'informations linguistiques (la grammaire, la sémantique, etc.) selon l'approche de traduction empruntée.


Echantillons de Textes de Plusieurs Traductions

1 Corinthiens 7:21
BFC : Étais-tu esclave quand Dieu t’a appelé? Ne t’en inquiète pas; mais si une occasion se présente pour toi de devenir libre, profites-en.
DBY : As-tu été appelé étant esclave, ne t’en mets pas en peine; toutefois, si tu peux devenir libre, uses-en plutôt.
JER: Étais-tu esclave, lors de ton appel? Ne t’en soucie pas. Et même si tu peux devenir libre, mets plutôt à profit ta condition d’esclave.
LSG : As-tu été appelé étant esclave, ne t’en inquiète pas; mais si tu peux devenir libre, profites-en plutôt..
NEG : As-tu été appelé étant esclave, ne t’en inquiète pas; mais si tu peux devenir libre, profites-en plutôt.
OST : As-tu été appelé étant esclave? ne t’en mets point en peine; mais si tu peux devenir libre, profites-en plutôt.
PDV : Quand Dieu t’a appelé, est-ce que tu étais esclave? Ne sois pas inquiet pour cela! Mais si tu peux devenir un homme libre, profites-en!
PVV : Étais-tu esclave lors de ton appel? Ne te fais pas de souci à ce sujet. Même si tu peux devenir libre, vois les avantages de ta condition présente et mets-les à profit.
SEM : Étais-tu esclave lorsque Dieu t’a appelé? Ne te fais pas de souci à ce sujet. Mais si tu peux devenir libre, alors profites-en.
SER : As-tu été appelé en étant esclave, ne t’en inquiète pas; mais si tu peux devenir libre, profites-en plutôt.
TOB : Étais-tu esclave quand tu as été appelé? Ne t’en soucie pas; au contraire, alors même que tu pourrais te libérer, mets plutôt à profit ta condition d’esclave.

Matthieu 27:45
BFC : À partir de midi, il y eut des ténèbres sur toute la terre jusqu’à trois heures.
DRB : Mais, depuis la sixième heure, il y eut des ténèbres sur tout le pays, jusqu’à la neuvième heure.
JER : À partir de la sixième heure, l’obscurité se fit sur toute la terre, jusqu’à la neuvième heure.
LSG : Depuis la sixième heure jusqu’à la neuvième, il y eut des ténèbres sur toute la terre.
NEG : Depuis la sixième heure jusqu’à la neuvième, il y eut des ténèbres sur toute la terre.
OST : Or, depuis la sixième heure, il y eut des ténèbres sur tout le pays, jusqu’à la neuvième heure.
PDV : À partir de midi, il fait nuit dans tout le pays jusqu’à trois heures de l’après-midi.
PVV : À partir de midi et jusqu’à trois heures de l’après-midi, tout le pays fut plongé dans l’obscurité.
SEM : À partir de midi, et jusqu’à trois heures de l’après- midi, le pays entier fut plongé dans l’obscurité.
SER : Depuis la sixième heure jusqu’à la neuvième heure il y eut des ténèbres sur toute la terre.
TOB : À partir de midi, il y eut des ténèbres sur toute la terre jusqu’à trois heures.

Traductions Fiables

Menant des recherches durant des années sur les différentes traductions bibliques, j'ai découvert que toutes les versions traduites directement ainsi que les versions périphrastiques ont été compilées et éditées par des équipes de locuteurs natifs, par des spécialistes en langues et traductions, par des linguistes et souvent par des érudits bibliques. À ma connaissance, aucun nouveau projet de traduction de la Bible n’est mené par un simple individu. Tout ceci a du sens dans la mesure où le texte original lui-même représente environ 800 000 mots répartis sur environ 60 000 phrases. Un traducteur travaillant à plein temps, avec un rythme journalier de 3500 mots traduits en moyenne, aurait besoin de 230 jours de travail, au minimum, pour finir une tâche d’un tel volume.

Nous devons nous rappeler, cependant, que ces traductions sont faites à partir de l'ancien grec et de l'ancien hébreu dont aucune de ces deux langues n’est parlée aujourd'hui en tant que langue maternelle. Ce n'est donc pas l’affaire d'une personne bilingue qui déciderait un jour de gagner sa vie en faisant ce travail de traduction (ce qui se passe dans le milieu de l'industrie de la traduction). Bien des savants et érudits reconnus pour leurs études sur l'ancien hébreu et l'ancien grec participent aux nouveaux projets de traduction en direction des langues internationales comme l'anglais, le français et l'allemand. Ces spécialistes sont souvent détenteurs de doctorats en théologie ou en divinité (c'est-à-dire quatre années d'études pour une licence de théologie spécialisée dans la Bible, suivies de quatre années pour une maîtrise de théologie en divinité et encore de quatre années supplémentaires pour obtenir un doctorat de théologie en divinité), sans compter les nombreuses années passées à enseigner ces langues dans des facultés bibliques. Le temps de préparation d'étude de ces langues s’étend sur 10 à 20 ans. Comme indiqué dans la Préface du NIV, "la New International Version est une nouvelle traduction complète des Ecritures Saintes, faite par plus d'une centaine de spécialistes travaillant avec les meilleur textes sources disponibles en hébreu, en araméen et en grec." Ce projet de traduction a démarré en 1965 pour permettre la première édition publiée en 1973; et il faut savoir qu'il y avait un rédacteur en chef et quatre rédacteurs en chef adjoints. Il n'est pas surprenant qu'une telle traduction pour une nouvelle version de la Bible en anglais, faite par un si grand groupe de spécialistes reconnus, prenne presque une dizaine d'années pour achever un tel travail.

Quant aux traductions menées pour des langues modernes moins répandues, le nombre de langues est considérable : plus de 700 langues en Indonésie, plus de 800 en Papouasie Nouvelle Guinée, plus de 500 au Nigeria, plus de 200 en Australie et plus de 150 aux Philippines.

Trois organisations importantes sont impliquées dans le travail de traduction de la Bible : l'Organisation Wycliffe pour la Traduction de la Bible, la New Tribes Mission et la SIM. Les projets de traduction pour les langues les moins répandues sont entrepris et menés par des spécialistes qui ont suivi deux à trois années d'études intensives en linguistique au niveau du troisième cycle universitaire (p. ex. les cours offerts par la Société Internationale de Linguistique (SIL) sur la linguistique, les langues à tradition orale, la traduction de la Bible, l'alphabétisation, la communication multiculturelle, etc.). La durée moyenne d'un projet de traduction avec deux à quatre linguistes à plein temps prend environ 15 ans pour qu’il soit achevé.

Ces traductions de Bible ne sont certainement pas des projets à court terme qui finissent par la production de traductions de basse qualité et de textes non-révisés dus tous deux à une forte pression exercée pour le respect des échéances déjà trop courtes. Ce sont plutôt des projets à long terme faits à partir d'une excellente analyse des besoins, c'est-à-dire une enquête sociolinguistique qui couvre la compréhension mutuelle entre les dialectes, la survie de la langue en question, et d'autres facteurs importants. Le but final est de fournir la meilleure traduction possible pour une langue donnée à partir de toutes les ressources disponibles qui peuvent être allouées. Fondé en 1936, l'Organisation Wycliffe a achevé à l'aube de l'an 2000 la traduction complète du Nouveau Testament pour plus de 500 langues différentes, ainsi que des traductions partielles des Ancien et Nouveau Testaments pour plus d'un millier d'autres langues.

De plus, les nombreuses organisations bibliques, comme la Société Biblique américaine et la Société Biblique Internationale, qui sont plus ou moins responsables de l'assurance qualité, de la diffusion et des droits d'auteur pour presque toutes les Bibles imprimées, existent depuis le 19ème siècle.

Tout nouveau projet de traduction de la Bible pour une langue internationale est soumis à un cycle d'évaluation rigoureux pour répondre au niveau d'acceptation fixé pour toutes les autres traductions existantes. La Contemporary English Version (CEV), paru en 1995, par exemple, évoque dans son introduction : "les traductions brouillons faites dans les premières étapes du projet ont été envoyées pour l'étape de révision à un certain nombre d’érudits bibliques, de théologiens et d’éducateurs recouvrant une grande variété de traditions d'église. De plus, les traductions brouillons ont été également expédiées à toutes les Sociétés Bibliques anglophones et à plus de quarante consultants de traduction de Sociétés Bibliques Unies à travers le monde entier. C'était le Conseil d'Administration de la Société Biblique américaine qui a rendu son approbation finale pour le texte selon la recommandation faite par son Conseil de Traduction."

Les projets de traduction menés par Wycliffe durent plusieurs années avec des révisions de traduction multiples par des locuteurs natifs locaux aussi bien que des consultants externes expérimentés dans la traduction biblique. Pourriez-vous vous assurez que votre fournisseur de traduction préféré (même celui qui est certifiée ISO 9001:2000) passe par un tel examen profond et une évaluation rigoureuse lorsque les cycles de traduction sont réduits et soumis à une forte pression de production, surtout en fin de chaîne avec les étapes d’informatisation et de documentation?

Face au besoin de développer et de former la version alpha d'un prototype de système de traduction, commenceriez-vous par cinq méga-octets de textes électroniques de la Bible publiés en 1994 dans la langue bahasa moderne (langue d'Indonésie) après une traduction et une période de revue de 15 ans par une organisation reconnue ? Ou essayeriez-vous plutôt de trouver des textes existants en bahasa et décider ensuite d'utiliser dix documents différents portant sur la santé et l'éducation prenant 10 - à 20 pages, chacun traduit pendant une période de deux semaines par cinq à dix fournisseurs de traduction différents ? Et le mois suivant, si vous deviez développer un système prototype pour le shuar (langue de l’Equateur), utiliseriez-vous les textes électroniques de la Bible achevés en 1982 en shuar moderne, ou conduiriez-vous la même recherche et le même processus d'identification pour des documents disponibles en shuar ? Trouver même 10 documents dans une telle langue peut prendre des mois.

Si les seuls documents disponibles pour une langue donnée se trouvent sous la forme de copies, le processus et le temps pour scanner, réviser et corriger manuellement les documents page par page est extrêmement coûteux dans le temps, particulièrement pour des langues où un logiciel de reconnaissance optique n'est pas encore disponible.

Et que feriez-vous si vous trouviez une mine d'or de textes électroniques concernant une langue, mais que vous découvriez que les documents ont été crées et envoyés par courrier électronique au début des années 1990, et que les auteurs avaient enlevé toutes les marques d'accent dans les textes ? Cela s’est déjà vu à l’inverse de simplement déplacer la marque d'accent immédiatement à gauche ou à droite de la lettre sur les emplacement des caractères, afin d'éviter la création de caractères hiéroglyphiques comme =E10 ou =E11 que beaucoup d'entre nous ont souvent vu en lisant les messages électroniques non-anglais pendant la première génération d'internautes des années 90. Créer un script pour automatiquement réinsérer les accents est une tâche presque impossible sans avoir une base de données type pour cette langue. Quelques processus semi-automatiques peuvent être mis en place à partir des livres de grammaire ou des articles de linguistique concernant la langue en question, mais des formes multiples (p. ex., si les mots se, and existent tous et sont communs dans la langue) peuvent aboutir à un processus automatisé moins efficace et plus prédisposé aux erreurs que la correction faite manuellement.

Puisque que la Bible est un texte source au contenu complètement figé et qu'un travail de traduction et de révision intense ainsi que des méthodes d'assurance qualité sont suivis pour toutes les versions en langues cibles, nous pouvons manifester un haut niveau de confiance quant à la qualité du travail qui a été investi dans ces traductions de Bible. Il est important de souligner que des textes de haute qualité passant par les stades de révision sont essentiels pour alimenter logiciels et systèmes de traduction. Par conséquent, les versions différentes de la Bible dans une même langue cible sont d’une grande valeur pour le travail de développement de ces systèmes.

Traductions Multi-référentielles

L'introduction du présent article a mentionné le besoin de traductions multi-référentielles. Premièrement, un bon nombre de personnes supposent que la Bible est uniquement disponible en vieil anglais avec les formes archaïques de thee, thou et ye utilisées partout dans le texte entier. Si c'était le cas, je ne suggérerais pas même l'idée d'utiliser la Bible pour la formation de systèmes de traduction pour les langue modernes. Comme nous l’avons vu dans cet article, il existe une vaste gamme de versions couvrant les différents besoins des lecteurs et mettant en évidence les nombreuses façons distinctes d'exprimer les mêmes concepts sémantiques dans des habillages différents grammaticaux et terminologiques. Les exemples présentés dans cet article présentent des différences grammaticales, sémantiques et stylistiques qui peuvent se révéler pour un seul verset.

Ces différentes phrases fournissent un riche échantillon permettant de mener des recherches empiriques sur des textes multi-référentiels et d’obtenir des analyses statistiques sur des segments (c'est-à-dire, des mots et des expressions) à travers l'ensemble des bases de données de la Bible. Un exemple type est le fréquence et la variation de contextes grammaticaux dans lesquels se trouve le mot sur, particulièrement dans toutes les parties de phrases où ce mot a la même signification. Ceci montre l'importance de la base de données multi-référentielle. Quoique des travaux en utilisant un moteur de recherche sur internet puissent trouver et donner tous les contextes dans lesquels le mot existe, ce genre de recherche se résume le plus souvent à de la statistique. La base de données fournit une valeur ajoutée de type sémantique pour déterminer combien d’exemples offrent une signification sous-jacente spécifique en les comparant directement avec d'autres manières d'exprimer la même idée. Une autre tentative serait une recherche de fréquence sur les mots jusqu'à, à et jusqu'à, aussi bien que sur d'autres variantes apparentées, basées sur des contextes sémantiquement semblables et présentant des contrastes.

Je n'entrerai pas dans les détails de toutes les analyses linguistiques potentielles que peuvent fournir ces phrases, mais évidemment une grande quantité de données est à même d’être glanée uniquement à partir de quelques échantillons afin de formuler le même concept de différentes façons. Ces analyses fournissent des dérivés de statistiques linguistiques et des sous-produits que le logiciel de traduction et d'autres développeurs de technologie en langage naturel recherchent et utilisent pour mettre en oeuvre certaines améliorations dans leurs outils de traduction. De telles analyses peuvent fortement améliorer, par exemple, la fonction Apprentissage Automatique dans un outil TM, ou déterminer de nouveaux algorithmes de traduction qui seraient à rajouter dans un logiciel de traduction. Je dirais même que les développeurs de logiciels-traducteurs devraient d'abord épuiser le potentiel linguistique d'informations disponibles dans ces bases de données avant de s’essayer aux textes trouvés sur Internet pour construire des hypothèses linguistiques dans le but d’établir des règles de traduction.

Fréquence des Mots

Chaque mot de l'Ancien et du Nouveau Testament, en prenant en considération son statut morphologique et grammatical, peut être tracé au travers de l'outil de référence de la Concordance biblique de Strong. Chaque élément lexical se trouve référencé selon un système de référence numérique. Ces numéros sont alors associés à un lexique qui est disponible en anglais ainsi qu’en français. Les calculs opérés sur les usages circonstanciés de mots ont aussi été compilés par éléments lexicaux dans cette concordance. Un tel outil est extrêmement utile pour tout genre de recherches technologiques visant la traduction. A savoir qu'une version électronique de cette concordance est disponible dans le logiciel Bible Online.


La Concordance biblique de Strong fournit des informations morphologiques et grammaticales

Combien de Mots et Combien de Versions ?

Les recherches à mener en utilisant des systèmes de traduction personnalisés requièrent normalement des centaines de méga-octets de textes parallèles pour pouvoir produire des résultats utiles, bien qu'un grand volume de données ne soit pas nécessaire pour des données de traduction multi-référentielle. Une Bible entière (Ancien et Nouveau Testaments) en caractères latins d'octet simple se monte à environ cinq méga-octets de texte simple de type ASCII. Le nombre de versions électroniques de la Bible disponible pour chaque langue cible est sans cesse revu à la hausse. La version actuelle de la Bible OnLine (BOL Millenium v1.11) comprend plus de 60 versions de la Bible sur un seul CD.

Prenant en compte le nombre de versions disponibles sous format électronique pour les deux langues internationales principales (11 versions pour le français et 18 versions pour l'anglais), il est possible d'aligner les textes verset par verset et de produire presque 200 combinaisons de versions parallèles pour chaque verset. Multiplier deux cent versions parallèles par environ 60 000 phrases (qui d'ailleurs contiennent environ 800 000 mots) démontre clairement la quantité impressionnante de texte disponible pour mener des recherches sur les structures syntaxiques et sémantiques afin de développer, former et améliorer des logiciels et systèmes de traduction.

Conclusion

La Bible est un document traduit qui fournit un potentiel de travail important dans le domaine des recherches fondamentales en traduction et le développement des logiciels et systèmes de traduction. Etant le document le plus traduit dans l'histoire de l'homme, la Bible en tant que document de sources-texte unique avec des traductions multiples de référence pour chaque langue cible est une riche banque de données linguistiques permettant d’envisager dans les recherches et le développement du langage naturel pour des systèmes et outils divers : la traduction automatique (à l’aide de règles, d'exemples et de statistiques), la mémoire de traduction, la gestion terminologique, les dictionnaires électroniques multilingues, la compréhension automatique des messages, l'identification lexicale automatique, la recherche documentaire, le résumé de textes, l'indexation de documents, la détection thématique, l'extraction de données, le traitement de texte multilingue, les correcteurs d'orthographe, les vérificateurs grammaticaux, et la synthèse vocale.

Plus de 60 versions électroniques de la Bible sont actuellement disponibles pour 30 langues; des centaines d'autres projets de traduction de la Bible sont en cours. La Bible pourrait devenir une ressource importante d'informations linguistiques pour les applications linguistiques futures. Un point clé à envisager serait des canaux d'offres et de demandes adéquats pour de tels textes bibliques, surtout des arrangements pour l’usage des licences par les utilisateurs qui s’étendraient à des besoins variés (s’étendant du court terme au long terme) pour le secteur de la recherche et du développement. globe.gif


Références
ALLEN, Jeff. 2000. What about statistical-based MT?: Comments on the DARPA call for MT proposals. Paru dans International Journal for Language and Documentation (IJLD), Issue 7, Oct./Nov. 2000, pp. 41-42.
Bible Online Edition Millennium. 18 janvier 2002. Version 1.11. Ontario, Canada: Timnathserah Inc.
BRUCE, F.F. 1984. The Books and the Parchments: How we got our English Bible. Fleming H. Revell Co., New Jersey.
CONSTABLE, Peter, et Gary SIMONS. 2000. Language identification and IT: Addressing problems of linguistic diversity on a global scale. SIL Electronic Working Papers 2000-2001. (www.sil.org/silewp/2000/001/)
KANUNGO, Tapas, et Philip RESNIK. The Bible, truth, and multilingual OCR evaluation. Dans le actes du colloque de la SPIE Conference on Document Recognition and Retrieval (VI), San Jose, Californie, (USA), 27-28 janvier 1999. (www.cfar.umd.edu/~kanungo/pubs/bible.ps)
LENZO, Kevin, Christopher HOGAN, et Jeff ALLEN. 1998. Rapid-deployment text-to-speech in the DIPLOMAT system. Présenté au 6ème International Conference on Spoken Language Processing (ICSLP98). 30 novembre - 4 décembre 1998, Sydney, Australie.
MELAMED, I. Dan. 1998. Manual annotation of translational equivalence: The Blinker project. IRCS technical report #98-07, Université de Pennsylvanie. (ftp://ftp.cis.upenn.edu/pub/melamed/papers/blinker.ps.gz)
RESNIK, Philip, Mari Broman OLSEN et Mona DIAB. Creating a parallel corpus from the book of 2000 tongues. Text Encoding Initiative 10th Anniversary User Conference (TEI-10), Providence, Rhode Island (USA), novembre 1997. (http://umiacs.umd.edu/~resnik/pubs/tei97.ps.gz)
RESNIK, Philip, et Mari Broman OLSEN. 1999. The Bible as a parallel corpus: Annotating the book of 2000 tongues. Paru dans Computers and the Humanities.

Ressource de traductions bibliques sur la toile
Pour plus de renseignements sur la théorie et la pratique de la traduction de la Bible, voir les sites suivants :
  www.anchorlife.org/bible/html/study_bible.htm
  www.lcms.org/cic/allthose.htm
Pour plus de renseignements sur la traduction de la Bible et les organisations affiliées, voir les sites suivants :
  www.ntm.org/intl.shtml
  http://www.sim.org/
  www.wycliffe.org/features/500thNT/home.htm
  http://www.americanbible.org/
  http://www.onlinebible.net/
  www.jesusfilm.org/languages/index.html
  www.sil.org/translation/transinsil.htm



Jeff ALLEN est responsable des départements de documentation technique et d’assurance qualité / testing de produit à Mycom International. Il est aussi membre du conseil éditorial de MultiLingual Computing & Technology. Il peut être contacté à jeff.allen@free.fr


Cet article est traduit de la version originale parue dans #51 Volume 13 Issue 7 de la revue MultiLingual Computing & Technology éditée par MultiLingual Computing, Inc., 319 North First Ave., Sandpoint, Idaho, USA, (+1) 208-263-8178, Fax: (+1) 208-263-6310. La traduction est fournie par Frédéric SCHMITT et Jeff ALLEN et publiée par CLE Editions (e-mail : CLE Editions) / site internet : CLE Editions.



http://www.multilingual.com/

info@multilingual.com ©1998-2003, Copyright mondial MultiLingual Computing, Inc.
Il est interdit de reproduire intégralement ou partiellement le présent article sans autorisation écrite.