Glossar der Übersetzungstechnologie: CAT, MÜ, Korpus und Lokalisierung

Eingeordnet in Informatik

Geschrieben am in Deutsch mit einer Größe von 3,75 KB

Grundbegriffe der Übersetzung und Lokalisierung

Lokalisierung (L10N)

Die Lokalisierung ist die Übersetzung von Software oder die Anpassung von Informationsinhalten, die in der Software verarbeitet werden, an spezifische regionale oder sprachliche Gegebenheiten.

Internationalisierung (I18N)

Die Internationalisierung besteht aus der Gestaltung einer Anwendung, sodass sie sich an verschiedene Sprachen und Regionen anpassen kann, ohne dass der zugrunde liegende Code geändert werden muss.

Code

Ein Satz von Instruktionen, Befehlen oder Anweisungen, die in einer Programmiersprache geschrieben sind und deren Ausführung das Programm arbeiten lässt oder eine bestimmte Aufgabe erfüllt.

XML (Extensible Markup Language)

XML ist im Gegensatz zu HTML keine endliche Menge. Es ermöglicht die Formatierung von Text mithilfe eines Stylesheets, wodurch der Text in verschiedenen Kontexten wiederverwendet werden kann. Die Syntax ist streng.

Übersetzungswerkzeuge und -methoden

Computer-Assisted Translation (CAT)

CAT-Tools erleichtern die Arbeit des Übersetzers durch die Nutzung eines Translation Memory (Übersetzungsspeicher) und einer Terminologie-Datenbank. Der Übersetzer führt die eigentliche Übersetzung durch, aber das Tool dient als Unterstützungsinstrument, um Wiederverwendung und Recycling in anderen Situationen oder Übersetzungen zu ermöglichen.

Maschinelle Übersetzung (MÜ)

Bei der Maschinellen Übersetzung übersetzt das Programm selbst. Der Benutzer kann die Ergebnisse verbessern, indem er größere Wörterbücher oder Datenbanken hinzufügt. In einigen Fällen können Regeln angewendet werden, wie zum Beispiel:

  • Bearbeiten des Textes (Post-Editing)
  • Vorbereiten des Textes (Pre-Editing)
  • Versuch, Sätze zu kürzen oder zu zerlegen

Korpora und Sprachmodelle

Korpus (Corpus)

Ein Korpus ist jede Sammlung von Texten oder Textzusammenstellungen, ob verarbeitet oder unverarbeitet.

Korpus-Typen und Funktionen

Motto: Hier finden Sie alle Formen dieses Wortes. Wort: Frage. C schaut auf den Boden.

  • Annotiertes Korpus (Markiert): Ermöglicht die Suche nach Schlagwörtern und Wörtern.
  • Unmarkiertes Korpus: Ermöglicht nur die Suche nach Wörtern.
  • Lematisiertes Korpus: Wird verwendet, um Wörter zu finden und sie als bestimmte Wortart (z. B. Verb) zu behandeln. Es muss mindestens morphologische Informationen enthalten.

Auszeichnungssprache (Markup Language)

Sprachen, die zur Formatierung von Text auf Webseiten oder in Datenbanken verwendet werden (z. B. XML, HTML). Sie ermöglichen es, den formatierten Text zu isolieren.

Beispiel Code: <= 1 Sie tuid <\ TÜV ; DataType

Statistische Maschinelle Übersetzung (SMT)

SMT berechnet die Wahrscheinlichkeit, dass ein bestimmter Zielsatz die korrekte Übersetzung des Ausgangssatzes ist.

Übersetzungsmodell

Sie benötigen ein paralleles Korpus. Das Modell prüft, wie oft jedes Wort auf eine bestimmte Weise übersetzt wird, und berechnet daraus einen Wahrscheinlichkeitsprozentsatz (X% / 100%).

Sprachmodell

Das Sprachmodell basiert auf einem einsprachigen Korpus der Zielsprache. Je häufiger ein Ausdruck im Korpus vorkommt, desto wahrscheinlicher ist er die korrekte Übersetzung.

Interlingua

Interlingua ist eine ausreichend abstrakte Darstellung eines Sprach-Strings, die eine direkte Übertragung von einer Sprache zur anderen ermöglicht.

Das heißt, es ist eine perfekte, wenn auch etwas utopische, zusammenfassende und gemeinsame Sprache (ähnlich wie Esperanto).

Verwandte Einträge: