DOS in der Statuszeile zeigt an, dass die Zeilen in dieser Datei im Format DOS/WINDOWS abeschlossen sind, also mit Wagenrücklauf (Carriage Return = CR)
und Zeilenumbruch (Line-Feed LF). Es gibt noch UNIX (nur LF) und MAC (nur CR). Dies hat nichts mit dem Zeichensatz für die Darstellung der Bytes in der Datei zu tun.
Wichtiger ist hier U- für Unicode-Datei (2 Bytes pro Zeichen) Little Endian (UTF-16 LE) oder alternativ auch U8- für UTF-8, einer Unicode-Spezialform. Details zu Unicode siehe die
FAQ dazu.
Mit einer Unicode-Datei als Ziel wird schon einmal die Konvertierung von Zeichen, welche mit 2 Byte kodiert sind, auf Zeichen, welche nur mit 1 Byte kodiert sind verhindert. Bei einer solchen Konvertierung muss es zwangsläufig zu Veränderungen kommen, da man mit 1 Byte nur 256 Zeichen kodieren kann, und davon sind die ersten 128 schon fix definiert (ASCII).
Mit der code page (Zeichensatz) wählt man dann die Tabelle aus, die für die Darstellung der Zeichen verantwortlich ist, wobei die verwendete Schriftart diese Tabelle auch noch implementiert haben muss. Da gibt es gerade bei Japanisch nur wenige Schriftarten im Vergleich zu den tausenden Schriftwarten, welche es insgesamt gibt.
Am schönsten sieht man diesen Zusammenhang zwischen Bytecode und Darstellung laut Zeichensatz in Microsoft Word. Dort im Menü Einfügen, Sonderzeichen anwählen und als Schriftart z.B. Arial auswählen. Rechts oben gibt es eine Auswahlbox, mit der man den aktuellen Zeichensatz auswählen kann. Unten sieht man den Zeichencode für das aktuelle Zeichen. Bei Unicode hat jedes Zeichen einen eindeutigen Code. Bei Verwendung von ANSI ist wegen des begrenzten Zahlenbereiches (128 bis 255) durch Wahl des richtigen Zeichensatzes dafür zu sorgen, dass die 128 Bytes grafisch so dargestellt werden, wie man es für die gewählte Sprache erwartet.