140 likes | 298 Views
Hacia la gestión automática de contenidos multilingües en XLIFF. Objetivos gestión de contenidos multilingües para publicación en web reutilización de traducciones (memorias de traducción) creación de fondos: terminología, texto alineado herramientas: segmentadores, alineadores, filtros
E N D
Hacia la gestión automática de contenidos multilingües en XLIFF • Objetivos • gestión de contenidos multilingües para publicación en web • reutilización de traducciones (memorias de traducción) • creación de fondos: terminología, texto alineado • herramientas: segmentadores, alineadores, filtros • filtros: formatos TXT, HTML, XML, TMX, XLIFF • control de flujo: redacción, traducción, publicación Albacete 2002, CLIP
X-Flow: Antecedentes • Corpus LEGE-Bi (1995-2002) • Boletines bilingües (~3 M. palabras, proyectos LEGEBiDUNA) • Proyecto XTRA-Bi (2000-2001) • Segmentación y etiquetado de boletines • SGML XML, TMX • Proyecto XML-Bi (2001-2002) • Recursos (LEGE-Bi+, servidor SARE-Bi, herramientas) • Procedimientos (EFQM) • Proyecto X-Flow (2002-2003) Albacete 2002, CLIP
XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida • Compilación de corpus (extracción) • Herramientas de captura de webs (Teleport Pro, HTTrack) • Boletines Oficiales (BOG, BOB, BOTHA, BON, BOPV) • Prensa diaria bilingüe Albacete 2002, CLIP
XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida • Segmentación en TEI/XML • Disparidad de formatos originales (Word, PDF, HTML, TXT) • Filtros y segmentadores (ad-hoc y generales) • Conversión a XML/TEI P4: subset propio de TEI (TEI-Bi) Albacete 2002, CLIP
XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida • Alineación y reordenación en TMX • Párrafo como unidad de segmentación • Índice de alineación automática: 99% • Posibilidad de alineación de unidades menores (oraciones y nombres propios) con menor fiabilidad • Conversión a TMX (Transit, WordFast, Déjà-Vu, etc.) Albacete 2002, CLIP
Ejemplo de formato TMX: <tu tuid="0100227-p11”> <prop type="project">XTRA-Bi: GAO-BOG</prop> <tuv lang="ES”> <seg>Asimismo, se hace saber que este acuerdo pone fin a la vía administrativa... </seg></tuv> <tuv lang="EU"> <seg>Era berean, erabaki hau behin betikoa da eta amaiera ematen dio administrazio bideari... </seg></tuv> </tu> Albacete 2002, CLIP
XML-Bi: Análisis del flujo documental multilingüe • diseño de procedimientos de optimización de flujo documental para subsanar desfases en la traducción y publicación plurilingüe • distintas fases del ciclo de vida de la documentación, desde concepción inicial hasta la distribución, pasando por la redacción, corrección, traducción, revisión, publicación, archivación, recuperación, extracción y reutilización • estudio de campo: Universidad de Deusto Albacete 2002, CLIP
XML-Bi: Análisis del flujo documental multilingüe • Desarrollos: • Estudio de campo (corpus UD-Bi) • Procedimientos operativos EFQM • Compilación e instalación de corpus LEGE-Bi en intranet (SARE-Bi) • Diseño y adaptación de segmentadores para corpus en formato TEI/XML y de filtros para conversión a TMX • Integración en plataforma web: www.deli.deusto.es/SareBi Albacete 2002, CLIP
SARE-Bi: Gestor de documentación multilingüe sobre XML/TEI • Opciones para el servidor / gestor de corpus: • TEI/XML + XSLT + JavaScript • XML Query Engine, SQL, etc. • XML=Web, web-servers: • Microsoft .Net • WebSphere • ZOPE: • Open Source (www.zope.org) • Code&Syntax (www.codesyntax.com) • Localizer (www.j-david.net/localizer/) Albacete 2002, CLIP
LEGE-Bi <teiHeader>, <front> • <teiHeader> <fileDesc> <encodingDesc> <classDecl> <taxonomy>...</taxonomy> • <text> <front> <DocDate>...</DocDate> <DocAuthor>...</DocAuthor> <head type="place">...</head> <head type"DepSup">...</head> <head type"DepInf">...</head> Albacete 2002, CLIP
X-Flow: Gestor de contenidos multilingüe sobre XLIFF • Objetivos • seleccionar y organizar utilidades informáticas de apoyo a la importación y exportación de contenidos multilingües y de memorias de traducción (sobre los estándar TMX y TBX) • desarrollar un sistema de control de flujo de textos y traducciones basado en los estándar TMX y XLIFF • proporcionar herramientas para el mantenimiento actualizado de contenidos multilingües adaptadas a estos formatos. Albacete 2002, CLIP
¿Qué es XLIFF? • XML Localisation Interchange File Format: • Formato para intercambio de archivos de localización. • Su definición comenzó a finales de 2000 (de la mano de Oracle, Novell, Sun y IBM/Lotus). • Basado en Open Tag, parecido a TMX con innovaciones para el intercambio de información en web. • Primer borrador de mayo de 2001, última especificación de abril de 2002. • Se anuncia como una nueva especificación XML para intercambio de datos para web multilingües. Albacete 2002, CLIP
Referencias • TEI: http://www.tei-c.org • TMX: http://www.lisa.org/tmx • Transit: http://www.star-ag.ch/ • XLIFF: http://www.opentag.com/xliff.htm • DELi: http://www.deli.deusto.es Albacete 2002, CLIP