Blogger: poetaselvaggio

Contatti:

poeta.selvaggio(at)gmail.com

Feeds

Pulsanti

GeoURL

Ricerche nel blog

Contatore

visitato *loading* volte

Crediti

La foto del Golden Gate Bridge è di Francesco Meschia

lunedì, 21 maggio 2007
Automatic for the people

Non sono contrario alla traduzione automatica, la vedo come interessate ricerca informatica e linguistica. I sistemi di traduzione automatica sono di vario tipo, ma data la mia scarsa preparazione in materia mi manterrò sul vago; credo che lo sviluppo informatico unito allo studio delle lingue appositamente per la traduzione automatica porterà a risultati rispettabili. In ogni caso ci dobbiamo già abituare. Microsoft e altri utilizzano la traduzione automatica e avvertono il lettore quando il tale articolo è tradotto automaticamente (si veda questo esempio); Google lancerà presto il cross language information retrieval, che tradurrà le parole che si cercano in un'altra lingua, e i risultati saranno tradotti nella propria lingua, grazie alla statistical machine translation. (Per chi vuole saperne di più: Global by Design  e le news del Gruppo L10N).

Ho sempre pensato (e spesso detto pubblicamente) che la traduzione automatica può essere utile per avere un'idea generale di un testo in una lingua sconosciuta. Un'idea approssimativa finché si vuole, ma per lo meno un punto di partenza per capire almeno l'argomento. Non immaginavo però che io stesso e questo blog saremmo stati messi alla prova. Ogni tanto qualcuno prova a tradurre un post con Google, ma in questi giorni (e nello stesso giorno) qualcuno si è cimentato con il post Trados vede (e talvolta provvede) (i più maliziosi avranno già capito chi può voler leggere il post in inglese...), usando prima Google e poi un altro sistema che vedremo dopo.

Ecco i primi paragrafi originali, in cui imposto l'argomento del post:

Trados vede (e talvolta provvede)

Questa è la storia di un'avventura che ha come protagonisti un software di traduzione assistita, un suo utente e la blogosfera.

Tre mesi fa il mio SDL Trados 7.1 decide che non è più il caso di funzionare, e si pianta ogni volta che faccio una qualsiasi operazione. Per lavorare sono costretto a riutilizzare il 6.5, con qualche problema, visto che le memorie in 7.1 non possono essere aperte con il 6.5.

Cerco sulla knowledge base del sito di Trados, non trovo nulla, e allora mi decido a contattare direttamente l'assistenza, compilando con diligenza il modulo online. Ricevo immediatamente una risposta: poiché non hai un contratto di assistenza, non possiamo garantirti una tempistica certa per la risposta. Per carità, capisco perfettamente, ma sono in coda e prima o poi sarà il mio turno. Dopo qualche giorno vengo contattato telefonicamente dal support, ma il mio entusiasmo è immediatamente spento quando capisco che è una telefonata che ha lo scopo di vendere il servizio di assistenza. E il mio problema in sospeso? Lo risolveremo, non ti preoccupare.

Ed ecco cosa combina Google:

Wild Poet

Trados sees (and sometimes it supplies)

This is the history of an adventure that has like protagonists a software of assisted translation, a its customer and the blogosfera.

Three months ago my SDL Trados 7,1 decides that it is not more the case than to work, and every plant time that I make one whichever operation. In order to work they are forced to re-use the 6,5, with some problem, inasmuch as the memories in 7.1 cannot be opened with the 6.5.

I try on knowledge the base of the situated one of Trados, I do not find null, and then I decide myself to contact directly the attendance, compiling with diligenza the module online. I receive one immediately answer: since you do not have an attendance contract, we cannot guarantee one to you tempistica sure for the answer. For charity, I understand perfectly, but they are in tail and sooner or later it will be my turn. After some day I come by telephone contacted from the support, but my enthusiasm immediately is extinguished when I understand that it is a telephone call that has the scope to sell the servicing. And my suspended problem in? We will resolve, not to worry to you.

Un inglese ci capisce qualcosa? Forse. Il software è evidentemente in difficoltà con le espressioni idiomatiche e le espressioni fisse (mi sarei aspettato il contrario): vede e provvede, non è il caso di, si pianta, per carità, in coda. Non capisce alcune parole, che sono lasciate in italiano: blogosfera, diligenza, tempistica. Non capisce il "vengo" nel passivo: "I come contacted". Non è in grado di disambiguare alcuni termini nel contesto: sito, nulla, assistenza, modulo. Non riesce a disambiguare "sono" tra prima persona singolare e terza plurale: "[io] sono in coda" = they are in tail.

Visto il risultato alquanto deludente, il curioso lettore inglese ci prova con questo sito, e con questi risultati

It writes poetry Wild

Trados sees (and sometimes provides)

This is the story of an adventure that has like protagonists a software of translation assisted, an its user and the blogosfera.

Three months does my SDL Trados 7.1 decides that is not more the case of to work, and plant every time that I do an any operation. To work I am compelled to re-use 6.5, with some problem, seen that the memories in 7.1 do not be able to be open with 6.5.

I seek on the basic knowledge of the site of Trados, I do not find nothing, and then I decide to contact myself directly the assistance, compiling with diligence the online form. I receive immediately a reply: since you have not a contract of assistance, we cannot guarantee you a timing certainty for the reply. For charity, I understand perfectly, but I am in tail and first or then it will be my shift. After some day I come contacted by phone from the support, but my enthusiasm immediately is extinguished when I understand that is a telephone call that has the purpose of to sell the service of assistance. And my problem in suspended? We will resolve it, do not worry you.

Il risultato pare nettamente migliore. A parte il fantasioso titolo It writes poetry Wild. Permangono i problemi sulle espressioni idiomatiche (piantarsi, per carità), il "vengo" passivo non capito, qualche "chunk" viene inserito indipendentemente dal contesto grammaticale: an any operation, do not be able, purpose of to sell; tre mesi fa diventa "three months does". Ma sito, diligenza, modulo, assistenza, tempistica sono tradotti relativamente bene, e la parte dell'assistenza pare comprensibile. Non l'ho citato qui, ma Riccardo Schiaffino diventa "Riccardo Fling", mentre Google lo lascia non tradotto.

Quello che blocca la traduzione automatica è la creatività di chi scrive: ambiguità semplici per il lettore umano sono insormontabili per la macchina, giochi di parole e metafore diventano un guazzabuglio incomprensibile, parole diffuse ma non presenti nel dizionario interno del software non vengono tradotte (e se un nome o cognome è anche un nome comune, il protagonista da "Bush" diventa un cespuglio qualsiasi). Insomma sembrano esserci due limiti che dovrebbero essere in contrasto tra loro: creatività ed espressioni fisse e idiomatiche. Perché, e questo frega la traduzione automatica, le espressioni fisse tanto fisse non lo sono.

Ma cosa sarebbe successo se avessi scritto un testo non ambiguo e lineare? Ho fatto una prova.

Trados ti controlla (e talvolta risolve i problemi)

Questa è la storia di un'avventura. I protagonisti sono un software di traduzione assistita, un utente e il mondo dei blog. Tre mesi fa il mio software SDL Trados 7.1 cominciò a non funzionare tutte le volte che volevo usarlo. Fui costretto a utilizzare il 6.5 nuovamente, e questo era un problema, poiché le memorie per 7.1 non possono essere utilizzate con il 6.5. Io decisi di fare ricerche utilizzando la knowledge base del sito Internet di Trados; ma non trovai nessun risultato. Allora contattai direttamente il supporto tecnico, e compilai il modulo online. Ricevetti una risposta immediatamente: tu non hai un contatto di supporto tecnico, perciò non sappiamo quando risponderemo alla tua domanda. Lo so, ma ho inserito tutti i dati e riceverò una risposta prima o poi. Alcuni giorni dopo fui contattato telefonicamente dal support, ma purtroppo il support telefonava per vendere il servizio di supporto tecnico. Io domandai: quando risolverete il mio problema? Mi risposero: risolveremo il problema presto.

Google:

Trados controls to you (and sometimes it resolves the problems)

This is the history of an adventure. The protagonists are a software of assisted translation, a customer and the world of the blog. Three months ago my software SDL Trados 7,1 began not to work every time that I wanted to use it. I was forced to use the 6,5 newly, and this was a problem, since the memories for 7,1 cannot be used with the 6.5. I am decided to make searches using knowledge the base of the situated Internet di Trados; but I did not find no result. Then I contacted the technical support directly, and compiled the module online. I received one immediately answer: you do not have a contact of technical support, therefore we do not know when we will answer to your question. I know, but I have inserted all the data and I will receive one sooner or later answer. Some days after I was contacted by telephone from the support, but unfortunately the support it telephoned in order to sell the service of technical support. I asked: when you will resolve my problem? They answered to me: we will resolve the problem soon.

FreeTranslation.com di SDL:

Trados monitors you (and sometimes resolves the problems)

This is the story of an adventure. The protagonists are a software of translation assisted, an user and the world of the blog.  Three months does my software SDL Trados 7.1 began not to work all the times that I wanted to use it. Fui compelled to use 6.5 again, and this was a problem, since the memories for 7.1 cannot be used with 6.5. I decided to do searches using the basic knowledge of the internet site of Trados; but I did not find not any result.  Then I contacted directly the technical support, and I compiled the online form.  Ricevetti a reply immediately: you have not a technical contact of support, so not sappiamo when we will answer to your question.  I know it, but I introduced all of the data and I will receive a first reply or then. Some next day fui contacted by phone from the support, but unfortunately the support telephoned to sell the technical service of support. I asked: when you will resolve my problem?  They answered me: we will resolve the problem soon.

In questo caso Google sembra migliore, non lascia nulla di non tradotto, mentre FreeTranslation.com ha qualche problema con i passati remoti, ma entrambe le versioni sono molto più chiare, per quanto necessitino di qualche modifica. Entrambe suonano piuttosto rigide (stile esercizio scolastico), ma credo che il senso si capisca abbastanza bene. Va comunque detto che il testo semplificato è tarato su Google, mentre FreeTranslation.com dice: questo è il risultato automatico, se non sei soddisfatto ci sono opzioni a pagamento o la traduzione umana.

Il primo passo per avere una traduzione automatica decente sta nello scrivere bene il testo da tradurre. "Bene" è un concetto relativo allo scopo del testo: senza ambiguità e facendo in modo che il dizionario del software contenga le parole del nostro settore. Non è così facile scrivere senza ambiguità perché per noi è sempre chiaro che "egli chiese" è passato remoto di chiedere e non plurale di "chiesa", ma per la macchina no.

Posso immaginare che testi tecnici, grammaticalmente semplici e non ambigui, potranno (possono?) essere tradotti in maniera decente, se i ricercatori si concentreranno su microlingue e non su macrotraduzioni.

Postato da: nicpoeta, 21/05/2007 21:27 | link | commenti (4)
semanticamente, intraduzioni


Commenti
#1   21 Maggio 2007 - 22:26
 
Questo post meriterebbe un commento molto più articolato, e lungo, ma lo spazio è poco e devo necessariamente essere sintetico. Purtroppo, come diceva Mark Twain, “It usually takes more than three weeks to prepare a good impromptu speech”.

Uno dei problemi implicitamente sollevati è quello del cosiddetto “pre-editing”. Posso assicurare, per esperienza diretta, che è possibile, anzi piuttosto semplice, redigere un testo chiaro e non necessariamente elementare, in funzione della traduzione automatica ed è assolutamente conveniente.
Peraltro, linguaggi controllati come l’AECMA Simplified English sono nati proprio per quello scopo.

Quello che, curiosamente, o forse no, manca ai traduttori, per formazione e disposizione, è proprio l’approccio redazionale ed è per questo che in molti manifestato un divertito scetticismo. Gli stessi, però, spesso dimenticano di operare essi stessi “per segmenti” e che è in funzione di questo modus operandi che sono nati i programmi di gestione delle memorie di traduzione tradizionali. La tendenza evolutiva è verso sistemi basati su corpus, che seguono il principio del confronto della mente umana: segmento prima e segmento dopo. Questo tipo di approccio permette di integrare davvero terminologia e memorie, se applicato a una macchina, di imparare dalla propria esperienza perché, man mano che si traduce, il corpus di riferimento si arricchisce, e i termini da indici semantici diventano cognitivi. Ma il discorso è lungo e complesso e forse è il caso che mi fermi qui. Posso solo suggerire la lettura del resoconto di una tavola rotonda cui ho preso parte a Bologna un paio di anni fa sull’argomento e che è disponibile nell’area Pubblicazioni del sito del Gruppo L10N. Allora, però, ancora non esistevano implementazioni di statistical machine translation...

Luigi Muzii
utente anonimo

#2   22 Maggio 2007 - 11:49
 
Al commento precedente aggiungo l'invito di andare a vedere il sito di Uwe Mugge, i cui contenuti testuali sono redatti in funzione degli strumenti di traduzione automatica offerti gratuitamente da Google.
Mugge, che è autore di un interessante volume sui contratti nell'industria della traduzione, si serve di un linguaggio controllato (il CLOUT) e Google può così tradurre il sito in 15 lingue.

Luigi Muzii
utente anonimo

#3   22 Maggio 2007 - 21:14
 
Una decina di anni fa tenni un seminario dal titolo "Corpus, computer e traduzione. I corpora computerizzati come supporto alla traduzione". All'epoca non mi occupavo di memorie di traduzione, ma ritenevo che i corpora potessero essere utili in vari settori del lavoro linguistico, non ultimo la traduzione, anche automatica. Non erano idee nuove allora, la ricerca linguistica e la linguistica computazionale si incrociavano in vari modi e facevano intravvedere sviluppi.
Mi pare di capire che la machine translation segua in qualche modo gli sviluppi della linguistica. La linguistica generativa può aver influito nello studio di parsers e nell'inserimento del dizionario come modulo, la linguistica dei corpora, con l'analisi di dati linguistici effettivamente prodotti, è uscita dalla testa del parlante e si è concentrata sulla produzione (lascio perdere termini svianti come competenza ed esecuzione). Da questa analisi si può derivare un bagaglio di conoscenza per far tradurre un computer. Ma anche qui di lavoro ce n'è da fare: i corpora vanno costruiti (anche se ora è estremamente più semplice - ed è grazie alla compilazione di un corpus che conobbi mia moglie!), vanno validati (immagino che se serve per un sistema di traduzione il corpus debba essere "corretto" e non una produzione naturale dei parlanti), taggati, indicizzati ecc.
Quanto all'inglese semplificato, le ricerche sono estremamente utili per la machine translation. Mi chiedo se esista qualcosa di simile per l'italiano.
Ho guardato il sito muegge.cc, e trovo le regole di scrittura interessanti perché in parte confermano il contenuto del mio post, e infatti tentano di evitare i vari tipi di ambiguità.
Blogger: Contattami Guarda il mediablog (foto, audio e video) di questo utente. Blocca questo utente nicpoeta

#4   22 Maggio 2007 - 21:48
 
Se gli americani, ahimé, riscoprono ogni giorno l'acqua calda, noi siamo ancora alle selci.
Per anni la linguistica computazionale, come tante altre iniziative nate sotto ombrelli "accademici" è stata un orticello da coltivare per se stessi, gli amici e gli amici degli amici. Quando i finanziamenti si procuravano per le idee e i progetti abbiamo avuto cose fantastiche, la maggior parte ora finite a mare. Basi pensare proprio a Torino e alle innovazioni, vere, che da lì sono venute in campo tecnologico.
Io sono abbastanza vecchio per ricordarmi ricercatori di università di grande fama trattati come appestati perché realizzavano prototipi anziché speculare.
La cosa più triste è che il nostro è uno dei paesi in cui si traduce di più, ma peggio, ma dove ancora vige il vecchio chiagne e fotte. Si fanno e si replicano pomposi quanto inutili convegni su temi che servono solo ad accumulare titoli che altrove non varrebbero la carta su cui sono presentati, ma non si fa uno sforzo uno per coordinarsi per essere attivi in settori in cui sarebbe possibile creare vere opportunità di occupazione.
Siamo così provinciali che se Renato Beninatto è in transito nel nostro paese, anziché darne l'annuncio urbi et orbi, ce lo teniamo stretto come una reliquia.
Quindi no, un linguaggio controllato per l'italiano non c'è. Del resto non c'è neanche una guida di stile italiana. In compenso siamo pieni di gente che, tra uno strafalcione e una lectio magistralis, riempie montagne di pagine di blog per "insegnare" a scrivere e comunicare.
Il Simplified English l'hanno predisposto i tecnici AECMA perché mentre i "linguisti" speculavano, loro risolvevano problemi.
La guida di stile per la traduzione più consultata al mondo è un adattamento del Chicago Manual of Style, quella di Lesina esiste solo su carta è obsoleta e di difficile consultazione.
Abbiamo imparato a esigere la vita facile rinunciando alla nostra ricchezza: oggi ho appreso che, per scelta del passato governo, il nostro paese è fuori dal consorzio Airbus. Il Piemonte, la Val d'Aosta e la Liguria possono chiedere l'annessione alla Francia; la Lombardia può chiedere di diventare una provincia di Campione d'Italia; l'Alto Adige, magari sostenuto dal Trentino, può proporre l'Anschluss all'Austria; potrebbe farlo anche il Friuli. Ma io che vivo a Roma, che speranze ho?


Luigi Muzii
utente anonimo

Commenti