{"id":1018,"date":"2012-03-02T21:18:47","date_gmt":"2012-03-02T20:18:47","guid":{"rendered":"https:\/\/preblogs.deusto.es\/abaitua\/?p=1018"},"modified":"2014-10-02T07:45:20","modified_gmt":"2014-10-02T05:45:20","slug":"el-traductor-del-gobierno-vasco","status":"publish","type":"post","link":"https:\/\/blogs.deusto.es\/abaitua\/el-traductor-del-gobierno-vasco\/","title":{"rendered":"El traductor del Gobierno Vasco"},"content":{"rendered":"<p>El martes 28 de febrero de 2012 por fin se present\u00f3 el traductor autom\u00e1tico del Gobierno Vasco y como era de esperar se han suscitado multitud de comentarios, en general negativos. En mi calidad de participante en el desarrollo y estudioso de la disciplina, deseo aportar informaci\u00f3n acerca de tres aspectos fundamentales: la calidad, la oportunidad y la propiedad. Empezar\u00e9 por el tercero, que considero el m\u00e1s relevante.<!--more--><\/p>\n<p><strong>La propiedad<\/strong><\/p>\n<p>1.1 Se ha acusado al Gobierno Vasco de haber encargado a una empresa for\u00e1nea (Lucy Software Ib\u00e9rica) el desarrollo de un sistema propietario, conculcando supuestamente su compromiso con las empresas locales y el <em>software libre<\/em>. Pero estas cr\u00edticas son enga\u00f1osas; primero porque los elementos m\u00e1s valiosos del traductor (los recursos ling\u00fc\u00edsitcos, diccionarios biling\u00fces, reglas de transferencia y reglas de generaci\u00f3n) son en realidad \u2014por contrato\u2014 de propiedad p\u00fablica y est\u00e1n en manos del Gobierno Vasco. (M\u00e1s abajo ofrezco datos sobre los centros vascos que participamos en el desarrollo del sistema.)<\/p>\n<p>1.2 El Departamento de Cultura, como propietario de estos recursos, podr\u00eda \u2014y deber\u00eda, en consonancia con las m\u00e1ximas de <em>Open Data<\/em> y Gobierno Abierto que propugna el gobierno de Patxi L\u00f3pez\u2014 liberarlos cuanto antes en su portal <a title=\"Open Data Euskadi\" href=\"http:\/\/opendata.euskadi.net\">http:\/\/OpenData.Euskadi.net<\/a>. Lo mismo deber\u00eda hacer con el Banco de Traducciones, el Banco de Terminolog\u00eda (Euskalterm), las bases de datos onom\u00e1sticas y otros recursos ling\u00fc\u00edsticos (diccionarios, corpus, etc.) que son asimismo de su propiedad.<\/p>\n<p>1.3 Las voces m\u00e1s cr\u00edticas respecto a la propiedad proceden del grupo IXA de la Universidad del Pa\u00eds Vasco, responsable junto a la empresa Eleka del desarrollo del sistema OpenTrad, competidor del financiado por el Gobierno Vasco. Pero dan consejos que para ellos no tienen: Sus propios recursos (bases de datos l\u00e9xicas, lematizadores, gram\u00e1ticas y corpus biling\u00fces) no son p\u00fablicos ni de libre acceso (en contrastada diferencia con los recursos de los otros pares de lengua en OpenTrad). Distribuyen con licencia de software libre una versi\u00f3n reducida de las bases de datos, convirtiendo su software de traducci\u00f3n en una herramienta solo \u00fatil a efectos l\u00fadicos o formativos.<\/p>\n<p>1.4 La liberaci\u00f3n en Open Data Euskadi de todos los recursos ling\u00fc\u00edsticos disponibles supondr\u00eda un excelente acicate para que grupos de investigaci\u00f3n de todo el mundo experimentasen con la lengua vasca propiciando nuevas integraciones de recursos y algoritmos, el desarrollo de prototipos de traducci\u00f3n innovadores, o de otras aplicaciones ling\u00fc\u00edsticas beneficiosas para el desarrollo de contenidos en euskera.<\/p>\n<p><strong>La oportunidad<\/strong><\/p>\n<p>2.1 Karlos del Olmo, pionero en la incorporaci\u00f3n y divulgaci\u00f3n de nuevas tecnolog\u00edas en la traductolog\u00eda vasca y miembro de una de las comisiones que intervinieron en la elaboraci\u00f3n del pliego de licitaci\u00f3n del traductor, ha destacado (en el foro <a title=\"Sustatu.com\" href=\"http:\/\/sustatu.com\/1330506845#1330513294\">Sustatu.com<\/a>) que los t\u00e9cnicos del Gobierno Vasco ya fueron advertidos \u2014por varios expertos, entre los que me encuentro\u2014 de que la tecnolog\u00eda no estaba madura y de que no era previsible obtener un sistema capaz de generar resultados aprovechables. Pero las advertencias resultaron bald\u00edas; la decisi\u00f3n de invertir en el traductor autom\u00e1tico estaba tomada.<\/p>\n<p>2.2 El Gobierno Vasco llevaba d\u00e9cadas so\u00f1ando con un sistema de TA para el euskera; tanto se deseaba que las consejer\u00edas de Cultura e Industria rivalizaban entre ellas para promoverlo. Joseba Bilbao, director en la era Ibarretxe de la Oficina para la Modernizaci\u00f3n Administrativa, otorg\u00f3 a los responsables del Departamento de Cultura (Lorea Bilbao, Patxi Goenaga, Patxi Bazterrika) el pl\u00e1cet para lanzar el proyecto. En Cultura envidiaban la experiencia de sus hom\u00f3logos catalanes que tan buenos resultados hab\u00edan obtenido en la traducci\u00f3n autom\u00e1tica al catal\u00e1n. Pero la lengua vasca no puede compararse con la catalana (en su relaci\u00f3n con el castellano).<\/p>\n<p>2.3 Karlos del Olmo y otros reclaman que podr\u00edan haberse hecho mejores inversiones. Tal vez, pero lo cierto es que en el desarrollo del traductor hemos participado una decena de ling\u00fcistas, lexic\u00f3grafos, traductores e inform\u00e1ticos adscritos a centros vascos (Universidad de Deusto, Centro de Terminolog\u00eda y Lexicograf\u00eda UZEI y otras empresas; adem\u00e1s de colaboradores vascos residentes en Barcelona). La formaci\u00f3n y transferencia de conocimientos ha sido elevada y la colaboraci\u00f3n entre los centros participantes se ha robustecido notablemente.<\/p>\n<p>2.4 Asimismo debe quedar claro que la inversi\u00f3n en el traductor se destin\u00f3 pr\u00e1cticamente en su integridad a costes laborales (395.000 euro dan para poco m\u00e1s de seis n\u00f3minas a tiempo completo, y entre 2008 y 2009 participamos m\u00e1s de diez personas con distintas dedicaciones en el desarrollo de los diversos m\u00f3dulos del sistema).<\/p>\n<p><strong>La calidad<\/strong><\/p>\n<p>3.1 El traductor del Gobierno Vasco no es bueno, pero es considerablemente mejor que los otros dos disponibles (OpenTrad y Google).<\/p>\n<p>3.2 Costar\u00e1 a\u00f1os conseguir un traductor autom\u00e1tico mejor \u2014la tecnolog\u00eda actual todav\u00eda adolece de muchas limitaciones\u2014; pero, en cualquier caso, si se utiliza de forma adecuada, puede llegar a ser una herramientas muy \u00fatil, como se ha demostrado sobradamente.<\/p>\n<p>3.3 La diferencia estructural entre las lenguas vasca y espa\u00f1ola es tan grande que, salvo para frases cortas y de estructura simple, no es posible mecanizar de forma amplia y fiable la traducci\u00f3n entre ellas (a diferencia de otros pares de lenguas). En realidad soy un esc\u00e9ptico de la viabilidad de los sistemas basados en reglas (como Lucy) aplicados a pares tan distantes como el nuestro y me confieso el primer sorprendido al comprobar el elevado grado de aciertos.<\/p>\n<p>3.4 Las mejoras en la tecnolog\u00eda pasan por disponer de m\u00e1s textos traducidos, tantos como sea posible, de los que puedan alimentarse los sistemas que aprenden autom\u00e1ticamente (como el de Google). Por este motivo el proyecto de creaci\u00f3n de un Banco de Traducciones es tan necesario para avanzar en la automatizaci\u00f3n de la traducci\u00f3n al euskera.<\/p>\n<p>3.5 Un truco que el jefe del desarrollo de Lucy, Juan Alberto Alonso, ha evitado intencionadamente \u2014motivo por el que hemos discrepado\u2014 es a\u00f1adir frases hechas (por miles, como yo recomendaba, incluso conteniendo errores ortogr\u00e1ficos frecuentes). Y es que un porcentaje muy alto de los comentarios negativos respecto al traductor tienen que ver con fallos en la traducci\u00f3n de expresiones de este tipo (\u201chorario de ma\u00f1ana y tarde\u201d, \u201cplanta tercera\u201d o \u201cvete a la mierda\u201d.)<\/p>\n<p>3.6 Los avances en traducci\u00f3n autom\u00e1tica discurren en la actualidad hacia la creaci\u00f3n de sistemas h\u00edbridos, que b\u00e1sicamente combinan las dos tecnolog\u00edas: la basada en reglas (Lucy) y el aprendizaje a partir de corpus (Google). El grupo IXA de la Universidad del Pa\u00eds Vasco est\u00e1 realizando importantes avances en esta \u00e1rea (sobre la base de su sistema basado en reglas, Matxin) y pueden presumir de ser uno de los l\u00edderes mundiales en el ensayo experimental de sistemas h\u00edbridos.<\/p>\n<p>Mi consejo es que el Gobierno Vasco siga invirtiendo en tecnolog\u00edas de traducci\u00f3n y haga de su consumo un ejemplo de buenas pr\u00e1cticas, emulando \u2014en la medida de sus posibilidades\u2014 a organismos como la Uni\u00f3n Europea [<a href=\"http:\/\/blog.gts-translation.com\/2012\/02\/26\/made-in-europe-online-translation-resources-you-should-know-about\/\">1<\/a>],[<a href=\"http:\/\/termcoord.wordpress.com\/2012\/02\/27\/machine-translation-at-the-commission\/\">2<\/a>].<\/p>\n<p>En Euskadi contamos con centros punteros que son proveedores de herramientas de traducci\u00f3n (destacan UZEI y Eleka) y con un equipo de investigaci\u00f3n (IXA taldea) que realiza experimentos de relevancia internacional. Sorprende o\u00edr quejas de su parte, porque el apoyo que reciben de las administraciones vascas es extraordinario (y por a\u00f1adidura se anuncia para este a\u00f1o la puesta en marcha de un <em>cluster<\/em> de <a href=\"http:\/\/www.langune.com\/\">industrias de la lengua<\/a> que ellos han promovido). Estos apoyos no deben convertirse en mecenazgos ni monopolios excluyentes y es saludable que todav\u00eda quede margen para que grupos menores, o incluso externos, de vez en cuando tengamos ocasi\u00f3n de aportar piezas complementarias. En este contexto, la liberaci\u00f3n de los recursos p\u00fablicos redundar\u00e1 en beneficio de todos.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>El martes 28 de febrero de 2012 por fin se present\u00f3 el traductor autom\u00e1tico del Gobierno Vasco y como era de esperar se han suscitado multitud de comentarios, en general negativos. En mi calidad de participante en el desarrollo y estudioso de la disciplina, deseo aportar informaci\u00f3n acerca de tres aspectos fundamentales: la calidad, la [&hellip;]<\/p>\n","protected":false},"author":149,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[107,67,9],"tags":[155,152,158,154,157,150,151,147,71,149,148,156,159,70,153],"class_list":["post-1018","post","type-post","status-publish","format-standard","hentry","category-research","category-technology","category-translation","tag-banco-de-traducciones","tag-eleka","tag-espanol","tag-euskalterm","tag-euskera","tag-google-translator","tag-ixa-taldea","tag-lucy-translator","tag-machine-translation","tag-matxin","tag-opentrad","tag-recurso-linguistico","tag-traduccion","tag-traduccion-automatica","tag-uzei"],"_links":{"self":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts\/1018","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/users\/149"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/comments?post=1018"}],"version-history":[{"count":31,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts\/1018\/revisions"}],"predecessor-version":[{"id":1030,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/posts\/1018\/revisions\/1030"}],"wp:attachment":[{"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/media?parent=1018"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/categories?post=1018"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogs.deusto.es\/abaitua\/wp-json\/wp\/v2\/tags?post=1018"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}