'search in files' for japanese strings

'search in files' for japanese strings

5
NewbieNewbie
5

    Feb 13, 2008#1

    I tried to find the two Japanese signs in a text. :oops: This worked well with the search/Find Alt-F3 function.

    When I tried this with the search/find in files-function, the result was zero.
    It seems that there are different methods when searching over multiple files. :cry:
    The view font is Arial unicode MS, script Japanese.

    Greetings from Nuremberg
    Stefan

    6,686585
    Grand MasterGrand Master
    6,686585

      Re: 'search in files' for japanese strings

      Feb 13, 2008#2

      Have you enabled the Unicode Search option in the Find In Files dialog?
      Best regards from an UC/UE/UES for Windows user from Austria

      5
      NewbieNewbie
      5

        Re: 'search in files' for japanese strings

        Feb 14, 2008#3

        Hello Mofi,

        thanks. :D Now it worked well.

        Next, from the output window i used the option 'copy to clipboard'.
        When i inserted the japanese characters from the clipboard into an email, the characters looked strange :evil: .

        It seems that the output window has difficulties to handle unicode chars.

        Greetings from Nuremberg

        Stefan

        6,686585
        Grand MasterGrand Master
        6,686585

          Re: 'search in files' for japanese strings

          Feb 14, 2008#4

          What happens when you copy the output window into a clipboard and paste it into a new Unicode file (U-DOS shown in status bar at bottom of UltraEdit)?

          If that works, the problem is that your email program uses a special code page (typically Windows-1252) which is an ANSI code page (1 char has only 1 byte) and therefore a Unicode to ANSI conversion is run by the email program on paste.

          Simple suggestion: Save the output window content in a UTF-16 file and attach this file to your email.
          Best regards from an UC/UE/UES for Windows user from Austria

          5
          NewbieNewbie
          5

            Re: 'search in files' for japanese strings

            Feb 14, 2008#5

            Hi Mofi,

            this thing with the U-DOS file is not so easy as i thought. 8O

            When i paste the clipboarded output window into the U-DOS file, the same strange characters come. In the view / set code page Menu the code page "1252 (ANSI - Lateinisch I)" is displayed. :roll:

            So for me it seems that the routine which copies the output window to the clipboard has only DOS-support an not U-DOS.


            Greetings from Nuremberg

            Stefan

            6,686585
            Grand MasterGrand Master
            6,686585

              Feb 14, 2008#6

              Continue in German:

              Ich denke nicht, dass dies ein Problem beim Kopieren und Einfügen ist. Was passiert wenn sie unter View - Set Code Page den Zeichensatz auf Japanisch für die Unicode-Datei umstellen. Werden die Zeichen dann richtig angezeigt?
              Best regards from an UC/UE/UES for Windows user from Austria

              5
              NewbieNewbie
              5

                Feb 14, 2008#7

                die folgenden Code pages habe ich gefunden für japanisch

                10001 (MAC - Japanisch)
                50222 (ISO-2022 Japanisch JIS X 0201-1989)
                20290 (IBM EBCDIC - Japanisch (erweitertes Katakana))
                50220 (ISO-2022 Japanisch mit keinem halbbreiten Katakana)
                50221 (ISO-2022 Japanisch mit halbbreitem Katakana)
                932 (ANSI/OEM - Japanisch (Shift-JIS))

                Immer erscheint aber unten DOS als Erkennungszeichen.
                Erst wenn ich den Zeichensatz umschalte auf Arial Unicode MS, werden japanische Zeichen sichtbar. Aber erst dann wenn das japanische Script eingeschaltet ist.
                Irgendwie habe ich den Eindruck, dass DOS oder U-DOS keine Rolle spielt. Obwohl ja japanische Zeichen wohl eher als 2 Byte darzustellen sind, was mit DOS doch gar nicht möglich ist ?


                Greetings from Nuremberg

                Stefan

                6,686585
                Grand MasterGrand Master
                6,686585

                  Feb 14, 2008#8

                  DOS in der Statuszeile zeigt an, dass die Zeilen in dieser Datei im Format DOS/WINDOWS abeschlossen sind, also mit Wagenrücklauf (Carriage Return = CR) und Zeilenumbruch (Line-Feed LF). Es gibt noch UNIX (nur LF) und MAC (nur CR). Dies hat nichts mit dem Zeichensatz für die Darstellung der Bytes in der Datei zu tun.

                  Wichtiger ist hier U- für Unicode-Datei (2 Bytes pro Zeichen) Little Endian (UTF-16 LE) oder alternativ auch U8- für UTF-8, einer Unicode-Spezialform. Details zu Unicode siehe die FAQ dazu.

                  Mit einer Unicode-Datei als Ziel wird schon einmal die Konvertierung von Zeichen, welche mit 2 Byte kodiert sind, auf Zeichen, welche nur mit 1 Byte kodiert sind verhindert. Bei einer solchen Konvertierung muss es zwangsläufig zu Veränderungen kommen, da man mit 1 Byte nur 256 Zeichen kodieren kann, und davon sind die ersten 128 schon fix definiert (ASCII).

                  Mit der code page (Zeichensatz) wählt man dann die Tabelle aus, die für die Darstellung der Zeichen verantwortlich ist, wobei die verwendete Schriftart diese Tabelle auch noch implementiert haben muss. Da gibt es gerade bei Japanisch nur wenige Schriftarten im Vergleich zu den tausenden Schriftwarten, welche es insgesamt gibt.

                  Am schönsten sieht man diesen Zusammenhang zwischen Bytecode und Darstellung laut Zeichensatz in Microsoft Word. Dort im Menü Einfügen, Sonderzeichen anwählen und als Schriftart z.B. Arial auswählen. Rechts oben gibt es eine Auswahlbox, mit der man den aktuellen Zeichensatz auswählen kann. Unten sieht man den Zeichencode für das aktuelle Zeichen. Bei Unicode hat jedes Zeichen einen eindeutigen Code. Bei Verwendung von ANSI ist wegen des begrenzten Zahlenbereiches (128 bis 255) durch Wahl des richtigen Zeichensatzes dafür zu sorgen, dass die 128 Bytes grafisch so dargestellt werden, wie man es für die gewählte Sprache erwartet.
                  Best regards from an UC/UE/UES for Windows user from Austria

                  5
                  NewbieNewbie
                  5

                    Feb 19, 2008#9

                    Hallo Mofi,

                    Klasse Darstellung. Word hat mich mit seinen Details schon immer begeistert, nur gewußt wo!

                    Den ersten Stolperstein mit UTF-16 habe ich schon gehabt mit einer batch-Datei. :twisted: Da die Einstellung UTF-16 irgendwie gemerkt war, hatte der Batch auf einmal diese häßlichen Nullbytes zwischen den Buchstaben, womit cmd nun gar nichts anfangen konnte. Erst das zurückstellen auf UTF-8 durch speichern als.. mit Uedit im UTF-8 Format hat wieder alles bereinigt. :idea:

                    Gruß aus Nürnberg
                    Stefan