Glossar der Übersetzungstechnologie: CAT, MÜ, Korpus und Lokalisierung
Eingeordnet in Informatik
Geschrieben am in Deutsch mit einer Größe von 3,75 KB
Grundbegriffe der Übersetzung und Lokalisierung
Lokalisierung (L10N)
Die Lokalisierung ist die Übersetzung von Software oder die Anpassung von Informationsinhalten, die in der Software verarbeitet werden, an spezifische regionale oder sprachliche Gegebenheiten.
Internationalisierung (I18N)
Die Internationalisierung besteht aus der Gestaltung einer Anwendung, sodass sie sich an verschiedene Sprachen und Regionen anpassen kann, ohne dass der zugrunde liegende Code geändert werden muss.
Code
Ein Satz von Instruktionen, Befehlen oder Anweisungen, die in einer Programmiersprache geschrieben sind und deren Ausführung das Programm arbeiten lässt oder eine bestimmte Aufgabe erfüllt.
XML (Extensible Markup Language)
XML ist im Gegensatz zu HTML keine endliche Menge. Es ermöglicht die Formatierung von Text mithilfe eines Stylesheets, wodurch der Text in verschiedenen Kontexten wiederverwendet werden kann. Die Syntax ist streng.
Übersetzungswerkzeuge und -methoden
Computer-Assisted Translation (CAT)
CAT-Tools erleichtern die Arbeit des Übersetzers durch die Nutzung eines Translation Memory (Übersetzungsspeicher) und einer Terminologie-Datenbank. Der Übersetzer führt die eigentliche Übersetzung durch, aber das Tool dient als Unterstützungsinstrument, um Wiederverwendung und Recycling in anderen Situationen oder Übersetzungen zu ermöglichen.
Maschinelle Übersetzung (MÜ)
Bei der Maschinellen Übersetzung übersetzt das Programm selbst. Der Benutzer kann die Ergebnisse verbessern, indem er größere Wörterbücher oder Datenbanken hinzufügt. In einigen Fällen können Regeln angewendet werden, wie zum Beispiel:
- Bearbeiten des Textes (Post-Editing)
- Vorbereiten des Textes (Pre-Editing)
- Versuch, Sätze zu kürzen oder zu zerlegen
Korpora und Sprachmodelle
Korpus (Corpus)
Ein Korpus ist jede Sammlung von Texten oder Textzusammenstellungen, ob verarbeitet oder unverarbeitet.
Korpus-Typen und Funktionen
Motto: Hier finden Sie alle Formen dieses Wortes. Wort: Frage. C schaut auf den Boden.
- Annotiertes Korpus (Markiert): Ermöglicht die Suche nach Schlagwörtern und Wörtern.
- Unmarkiertes Korpus: Ermöglicht nur die Suche nach Wörtern.
- Lematisiertes Korpus: Wird verwendet, um Wörter zu finden und sie als bestimmte Wortart (z. B. Verb) zu behandeln. Es muss mindestens morphologische Informationen enthalten.
Auszeichnungssprache (Markup Language)
Sprachen, die zur Formatierung von Text auf Webseiten oder in Datenbanken verwendet werden (z. B. XML, HTML). Sie ermöglichen es, den formatierten Text zu isolieren.
Beispiel Code: <= 1 Sie tuid <\ TÜV ; DataType
Statistische Maschinelle Übersetzung (SMT)
SMT berechnet die Wahrscheinlichkeit, dass ein bestimmter Zielsatz die korrekte Übersetzung des Ausgangssatzes ist.
Übersetzungsmodell
Sie benötigen ein paralleles Korpus. Das Modell prüft, wie oft jedes Wort auf eine bestimmte Weise übersetzt wird, und berechnet daraus einen Wahrscheinlichkeitsprozentsatz (X% / 100%).
Sprachmodell
Das Sprachmodell basiert auf einem einsprachigen Korpus der Zielsprache. Je häufiger ein Ausdruck im Korpus vorkommt, desto wahrscheinlicher ist er die korrekte Übersetzung.
Interlingua
Interlingua ist eine ausreichend abstrakte Darstellung eines Sprach-Strings, die eine direkte Übertragung von einer Sprache zur anderen ermöglicht.
Das heißt, es ist eine perfekte, wenn auch etwas utopische, zusammenfassende und gemeinsame Sprache (ähnlich wie Esperanto).