Seo na rudaí nár éirigh leo éalú ó m'fhillteán dréachtaí, agus cúpla rud fánach eile le cois...

Eoin P. Ó Murchú ag caint i gceanncheathrú Twitter faoi na meáin shóisialta agus an Ghaeilge.

Monday 14 September 2020

Inneall aistriúcháin ad hoc a úsáid mar chéim réamhaistriúcháin agus úrscéal á aistriú ó Ghaeilge na hAlban go Gaeilge

(Bearnaí i litríocht na Gaeilge a líonadh: Réiteach úr?)


Sa pháipéar seo fiosróidh mé an raibh an t-inneall aistriúcháin Intergaelic inghlactha agus fóinteach mar uirlis réamhaistriúcháin le húrscéal a aistriú ó Ghaeilge na hAlban. Inneall aistriúcháin bunaithe ar chorpas milliún focal Gàidhlig agus milliún focal Gaeilge é seo. Chruthaigh Kevin Scannell é le cur ar chumas Gaeilgeoirí téacsanna Gàidhlig a léamh faoi chló na Gaeilge. D’eascair an t-inneall as clár a ceapadh le seantéacsanna Gaeilge a chaighdeánú.  Air Cuan Dubh Drilseach le Tim Armstrong an t-úrscéal a thriall mé, úrscéal ficsean eolaíochta a bhfuil ról lárnach ag dul chun cinn na teicneolaíochta ann.

D’fhiosraigh mé ar shroich an t-aistriúchán a chruthaigh an t-inneall bunchaighdeán feabhais le haghaidh iar-eagarthóireachta agus ar spáráil sé am, agus an méid ama a spáráladh. Chuige sin d’aistrigh mé leath an leabhair le cabhair an innill agus rinne mé iar-eagarthóireacht ar an méid sin. Déanfaidh mé comparáid idir sleachta áirithe den aistriúchán a rinneadh gan chabhair, agus den aistriúchán a rinneadh le cabhair an innill.

Chomh maith leis sin, déanfaidh mé plé ar chóras mar seo a úsáid le ficsean a aistriú chun bearnaí áirithe i litríocht na Gaeilge a líonadh. Luafaidh mé go sonrach na deacrachtaí téarmaíochta agus gnéithe den obair a raibh castacht ag baint leo.
 

Pictiúirí
Tagairt ó mo dhuine

Aiste

Cén fáth?

An féidir é a dhéanamh?
Bunchaighdeán feabhais le haghaidh iar-eagarthóireachta?
An spárálann sé am, agus cén %?
Inghlactha?

Ríomhairí á dhéanamh amach anseo…
Bímis ar thús cadhnaíochta



Is é Air Cuan Dubh Drilseach an chéad úrscéal do dhaoine fásta san fhicsean eolaíochta GD
Faightear ann leiriú ar dhaoine atá ag streachailt in éadan sochaí shárchaipitlíoch
Ról lárnach ag cumhacht na teicneolaíochta ann, cuí, meititéacsúil (téamaí)
2013 - Saltire Society First Book of the Year Award
2016 - Scot Lit Fest – 5 úrscéal is tábhachtaí GD

An t-inneall: Intergaelic

Kevin Scannell, Ollamh le Ríomheolaíocht, SAM
Ar dtús - caighdeánú ar théacsanna réamhchaighdeánacha Gaeilge
Ar deireadh - uirlis léitheoireachta GD don Ghaeilgeoir (NÍ AISTRIÚCHÁN GAEILGE)

Bearnaí i litríocht na Gaeilge a líonadh: Réiteach úr?

Inneall aistriúcháin mar chéim réamhaistriúcháin agus úrscéal á aistriú ó Ghaeilge na hAlban go Gaeilge

ficsean eolaíochta, seánra ar imeall na canóine

Dul trí thairseach úr na teicneolaíochta

Cén fáth?!

An féidir é a dhéanamh?
Bunchaighdeán feabhais le haghaidh iar-eagarthóireachta?
An spárálann sé am, agus cé méid?
Inghlactha?

Ríomhairí á dhéanamh amach anseo
Bímis ar thús cadhnaíochta

Plean Cainte
 
An Leabhar

 
Air Cuan Dubh Drilseach (ACDD) le Tim Armstrong

An chéad úrscéal san fhicsean eolaíochta crua Gàidhlig (GD)

Daoine ag streachailt in éadan sochaí shárchaiplíoch
Ról lárnach ag cumhacht na teicneolaíochta ann

2013 - Saltire Society First Book of the Year Award
2016 - Scot Lit Fest - ar na cúig úrscéal is tábhachtaí i nGD
 
An t-inneall: Intergaelic

 



Kevin Scannell, Ollamh le Ríomheolaíocht, Ollscoil St Louis

Inneall aistriúcháin hibrideach
Ar dtús - caighdeánú ar théacsanna réamhchaighdeánacha Gaeilge
Ansin - an sprioc - uirlis léitheoireachta don léitheori gailee (NÍ aistriúchán Gaeilge) NB

⦁    Rialacha sg -> sc, chd -> cht
⦁    Staidreamh
⦁    Corpas - 1,000,000 focal Gàidhlig - 950,000 focal Gaeilge.

Bailíodh téacsanna dátheangacha Gàidhlig / Gaeilge
⦁    an Bíobla, úrscéalta
⦁    bogearraí, filíocht, liostaí focal, tweetanna dátheangacha
 
suntasach - % ard den iomlán GA / GD atá ar fáil
bídeach i gcomparáid le corpais na mórtheangacha


An-amhras ann i dtaobh innill aistriúcháin Google Translate (GT)
Intergaelic >>> Google translate
Ach tá saineolas de dhíth - bun/sprioctheanga
Cleas beag chun luas a chur faoi
Ní féidir é gan seo.
Buanna: Teangacha gaolmhara GD GA
Cáineadh ar GT = Béarlachas
Ní féidir peaca an Bhéarlachais a chasadh le hIntergaelic, níl Béarla aige!
Réamhaistriúchán + eagarthóireacht

Próiseas na hAnailíse (caighdeán a sheiceáil níos tapúla?)

1. Giotaí den leabhar a aistriú gan an t-inneall
2. Réamhaistriúchán le Intergaelic
3. Ceartú agus eagarthóireacht ar thoradh an innill
 
Roinnt abairtí aistrithe go foirfe ag Intergaelic
Roinnt eile - athscríobh ar fad



Comparáid idir sleachta
Sliocht ó ACDD lch 1
 
 
Bun-Ghàidhlig    Aistriúchán gan inneall    Amh-ábhar an innill    Ábhar an innill tar éis eagarthóireachta
Leis an làimh eile, thilg e clach chruinn an-àirde anns an iom-tharraing aotroim, agus ghlac e a-rithist i, le brag beag air a bhois.  Bha an triùir nan suidhe ann an cearcall cruinn an taca teine fhosgailte: Sàl, Rìosa agus Sabhair, agus iad aig beul na h-oidhche air a’ ghealaich bhig, Roghail, a bha na dachaigh dhaibh.  Gu h-àrd, bha a’ phlanaid dhearg, Na Hasta, a’ coimhead sìos air an triùir mar shùil mhòir anns na speuran.    Leis an láimh eile, chaith sé cloch chruinn in airde sa imtharraingt lag agus rug greim uirthi arís le buille éadrom ar a bhos. Bhí an triúr suite i gciorcal timpeall ar thine oscailte: Sàl, Rìosa agus Sabhair sa chlapsholas ar an ngealach bheag, Roghail, a mbaile. Lastuas bhí an pláinéad, Na Hasta, ag breathnú anuas ar an triúr mar a bheadh súil mhór spéire ann.    Leis an lámh eile, chaith sé cloch chruinn in airde san imtharraingt éadroim, agus ghlac sé arís í, le bróg beag ar a bhois. Bhí an triúr ina suí i gciorcal cruinn an taca tine oscailte: Sàl, Rìosa agus Sabhair, agus iad ag béal na hoíche ar an ngealach bhig, Roghail, a bhí na baile dóibh. Go hard, bhí an phláinéad dhearg, Na Hasta, ag breathnú síos ar an triúr mar shúil mhóir sna spéartha.    Leis an láimh eile, chaith sé cloch chruinn in airde san imtharraingt lag, agus ghlac de phlimp ina bhois í. Bhí an triúr acu ina suí i gciorcal cruinn timpeall ar thine bheag: Sàl, Rìosa agus Sabhair, é ina chlapsholas ar an ngealach bheag, Roghail, a bhí mar bhaile acu. Bhí an pláinéad dearg, Na Hasta, in airde ag breathnú anuas ar an triúr mar a bheadh súil mhór sna spéartha.
 
 Scar na píosaí seo agus dathanna
dáileán
 
Aistriú gan inneall

Aistriúchán níos scaoilte
Athchruth ar abairtí
Ord na bhfocal/stuchtúr níos athraithe ná an t-inneall
‘a mbaile’ v.  ‘a bhí mar bhaile acu’ = fadálach
 
 
Ábhar an innill (amh)

Intuigthe go maith
Measartha glan ó thaobh na teanga
Cumas measartha ard GD/GA chun aistriúchán seo a chruthú

⦁    ‘an taca’ gan aistriú
⦁    ‘Brag’ go ‘bróg’
⦁    ‘béal na hoíche’ is fearr ‘clapsholas’
⦁    ‘Ar an ngealach bhig’ /mhóir’ seantabharthach
⦁    ‘Na’ in áit ‘ina’
⦁    Inscne ‘an phláinéad’
⦁    ‘Sna spéartha’ iolra seo aisteach sa Ghaeilge
⦁    Gnéithe níos caolchúisí

 
Ábhar an innill tar éis eagarthóireachta

Éagsulachtaí ón aistriú a rinneadh gan an t-inneall
Go leor cosulachtaí
Níos scaoilte i gcomparáid lenar tháinig ón inneall
#Níor fhan go dlúth leis an rud a thug an t-inneall

‘rug greim uirthi arís le buille éadrom ar a bhos’
‘agus ghlac de phlimp ina bhois í’.
 
Athcheartú fós le déanamh ar téacs seo/ an aistriúchán ó bhonn
~An méid céanna ar an dá cheann
 
 
Anailís Staitisticiúil Ríomhtheangeolaíochta (Asiya) Universitat Politècnica de Catalunya
 
 
Córais éagsúla scórála #
BLEU is coitianta
Cé chomh cosúil is atá ábhar an innill (amh) le haistriúchán ó bhonn?
Comhchoibhneas le breith an duine
Níl sé spleách ar theanga, aon teanga
Oibiachtúil

Meaitseáil dhíreach/carn focal/

BLEU ó 0 (% mar an gcéanna) go 100 (% comhionann leis an aistriúchán ó bhonn).
> 30% = intuigthe

De ghnáth BLEU de 40-45% nó > is fiú iar-eagarthoireacht a dhéanamh air

35%  i gcás roinnt den sliocht thuas

Is fiú a dheanamh fós

Níl aon aistriúchán mar an t-aistriúchán is fearr, áfach

Mórán aistriúchán féideartha ann

D’fhéadfadh aistriúchan sármhaith scór íseal a fháil mura mbeadh sé cosúil leis an aistriú ó bhonn


 


Anailís eile
Ábhar an innill v. ábhar an innill in eagar
>50% de na focail mar an gcéanna
Tar éis an tríú dréacht

 
Comparáid Luais

Sleachta éagsúla ~300 focal a aistriú roinnt seachtainí óna chéile.
 
sprioc - a bheith sásta leis an sliocht aistrithe mar chéad dréacht.
Iarracht an méid céanna dúthrachta a chaitheamh leis an dá phíosa

Foláireamh - ní raibh an chuid seo den tástáil dall - b’fhearr duine seachtrach

tuilleadh aistritheoirí/tuilleadh ábhair = níos iontaofa
 
Tastáil Ama 1 (caib 1)     Tastáil 2 (caib 2)    Tastáil 3  (caib 3)    Iomlán
20.39 nóiméad (inneall)    16.20 (inneall)    22.15 (inneall)    59.14 nóiméad

24.49 (gan inneall)    32.10 (gan inneall)    28.03 (gan inneall)    85.02 nóiméad

Intergaelic + eagarthóireacht 31% níos tapúla ná aistriú ó bhonn

Leath eile an leabhair aistrithe le cabhair Intergaelic, níos fusa, níos tapúla.
Roinnt foláireamh (am breise ar ullmhú don inneall is mar sin de)

Ní cursaí ama amháin atá tábhachtach anseo

Caitheadh an t-am i mbealaí éagsúla sa dá bhealach

Le hábhar an innill - níos lú ama ag clóscríobh - formhór na bhfocal ann cheana = níos mó ama ag machnamh

~an méid céanna atheagarthóireachta le déanamh ar an dá théacs

Cáineadh
Aistriú ó bhonn = Gaeilge níos nádúrtha? Saoirse, imeacht níos mó ón mbunstuchtúr, fad abairtí

Éasca an struchtúr a chum an t-inneall a fhágáil san aistriúchán, má tá sé “sách maith”

Ach…

Uaireanta bhuaigh an t-inneall orm…
Corruair agus focal ilchiallach ann roghnaigh sé an míniú ceart.
‘dealanach’ shíl mise ‘tintreach’, “thuig” an t-inneall gur ‘leictreonach’ a bhí ann

Gnéithe nach gcabhraíonn an t-inneall leo

Ainmneacha dílse
Teidil caibidlí
Amhráin
Canúint - Carachtair agus canúintí faoi leith
Intriachtaí / focail nach bhfuil san fhoclóir

Briathra
GD aimsir láithreach = aimsir fháistineach; comhthéacs tábhachtach
An Fhaí Chéasta/Saorbhriathar “Chaidh an talla a thogail…”

Ainmfhocail
⦁    “Landáil siad i bpasáiste fada folamh. Bhí an halla díreach” ach ‘trannsa’ faoi dhó sa GD
⦁    focail ilchiallacha ‘clár’
Cairde bréagacha
Éasca sleamhnú uait, agus an chiall sách cosúil

⦁    Geal/bán
⦁    luath/tapa
⦁    An té/an bhean
⦁    Mullach/díon
⦁    Lorg/aimsiú

Tá liosta de na cairde bréagacha déanta amach, bunaithe ar chorpas an innill
‘Bhí an duine cibirniteach gnóthach gnóthach’  - ‘trang, dripeil’ sa GD
Ríomhaistriúchán go ginearálta
Úsáidtear bogearraí aistriúcháin agus téacsleabhair/leabhráin eolais á n-aistriú
Píosaí litríochta níos dúshlánaí/ caolchúisí

Taighdeoirí DCU - innill aistriúcháin do sheánra liteartha faoi leith ach corpas den seánra agat
(beagán ficsean eolaíochta in Intergaelic)
ag brath ar go leor téacsanna éagsúla
Corpas na dteangacha móra -  téacsanna ábhartha amháin

L’Étranger Camus
Aistriúchán go Béarla / Iodáilis
b’fhearr an toradh le hIodáilis. (gaol níos giorra)

Innill aistriúcháin + iar-eagarthóireacht = méadú luais de suas le 42.9%
Ardaítear an caighdeán i gcás roinnt anailíse/teangacha
Caitear leis an ábhar san iar-eagarthóireacht i mbealach éagsúil
Níl Intergaelic chomh tapa sin, corpas níos lú, sprioc éagsúil
Fiú má tá a lán eagarthóireachta le déanamh, má spárálann sé am is fiú é

Éileamh ar aistriúcháin ag méadú
2016 - script Harry Potter ag barr na leabhar mórdhíola sa Fhrainc - script Bhéarla!
Innill aistriúcháin ag feabhsú i gcónaí

Seánraí móreilimh? Seans maith
Glacadh leis san ardlitríocht? Neosfaidh an aimsir...

Todhchaí ann d’aistritheoirí sa ré dhigiteach?

Conclúid
Inneall aistriúcháin hibrideach Intergaelic inghlactha mar inneall réamhaistriúcháin úrscéal ficsean eolaíochta
31% níos tapúla
Sleachta ‘curtha in eagar’ >50% mar an gcéanna le buntoradh an innill
Caighdeán inchurtha  le haistriúchán ó bhonn
Fadhbanna faoi leith le toradh an inill
Inréitithe le dara/tríú dréacht
Seasamh láidir fealsúnaíoch ina choinne?

Obair eile

Anailís níos mine ar ábhar ón inneall / aistriúchán ó bhonn
Bearnaí áirithe i litríocht na Gaeilge a líonadh
Leabhair/ábhar ó GD /Ghaeilge Mhanainn (Gaelg) James Bond (seolta)
Ailt tuairmíochta/nuachta (níos inghlactha)

Dréácht 1 déanta, foilsitheoir sásta i bprionsabal

Tagairtí
Escartín, Carla Parra, Living on the edge: productivity gain thresholds in machine translation evaluation metrics

Coughlin, Deborah, Correlating Automated and Human Assessments of Machine Translation Quality

Cronin, Michael, Translation in the Digital Age.

Toral, Antonio, “Machine-assisted translation of literary text, A case study”, ADAPT Centre / Scoil na Ríomhaireachta, Ollscoil Chathair Átha Cliath.

Guerra Martínez, Lorena, “Human Translation versus Machine Translation and Full Post-Editing of Raw Machine Translation Output”

Scannell, Kevin, Eadar-Ghaeilg: Scottish and Manx Gaelic resources for Irish speakers, University of Notre Dame
Buíochas
Máire Ní Annracháin
Kevin Scannell
Tim Armstrong
Teresa Lynn
Carla Parra Escartín


Táim buíoch de Mháire Ní Annracháin as a cuid comhairle agus cúnamh i dtús an phróisis. Thug Tim Armstrong an-tacaíocht dom ó thús agus d’fhreagair ceisteanna iomadúla uaim. Nára fada uainn an dara leabhar sa tsraith leis An Luingeas Dorcha air Fàire. Táim buíoch freisin de Dharach Ó Scolaí as a mholtaí agus a chúnamh ar fad agus as a bheith oscailte don chur chuige beagán éagsúil, mar a míníodh thuas. Tá moladh mór ag dul do Chaoimhín Ó Scanaill, a chabhraigh liom agus a chruthaigh an t-inneall thuas, chomh maith le huirlisí iomadúla a chabhraíonn linn an Ghaeilge a aclú sa saol digiteach. Chráigh mé daoine éagsúla le ceisteanna iomadúla teanga agus gramadaí. Táim buíoch díobh ar fad, le hEmma Ní Chearúil agus Colm Mac Fhionnghaile a léigh an profa agus le Ciara Ní É, Seaghan Mac an tSionnaigh, Róisín Nic Liam agus Marcus Mac Conghail a léigh sleachta éagsúla.

No comments:

Post a Comment