HANDEDICT汉德词典
HanDeDict 汉德词典
Suche Änderungen Infos Suchtipps Details Über Download Benutzerliste
DE EN
 

Massenänderung 001: Import der ursprünglichen HanDeDict-Datei

Der Änderungsverlauf aller Einträge, die aus der ursprünglichen HanDeDict-Datei stammen, beginnt mit dieser Version. Als Vorbereitung für den Import wurde die von der Wayback Machine des Internet Archive heruntergeladene Wörterbuch-Datei in das neue, erweiterte Format konvertiert. Ganz konkret wurden folgende Schritte ausgeführt:

  • Jedem Eintrag wurde eine zufällige und eindeutige Kennung zugeordnet, und die Ausgabedatei wurde anhand dieser Kennung sortiert.
  • Die Erstversion wurde in der Syntax des erweiterten Formats deklariert. Als Benutzername für die Änderung wird HanDeDict angegeben. Dieser Benutzer dient als Platzhalter für die ursprünglichen Verfasser des Wörterbuchs. Der Zeitpunkt der Änderung ist der 28.05.2011, was dem Zeitstempel für die letzte Änderung der heruntergeladenen Datei entspricht.
  • Die Deklaration der Erstversion übernimmt den Status des Eintrags aus der Originaldatei. Bei unverifzierten Einträgen stand dort die Abkürzung (u.E.). Einträge mit dieser Kennung zeigen nach der Verarbeitung Stat-New im erweiterten Format an. Verifizierte Einträge, bei denen die Abkürzung (u.E.) nicht vorkommt, wurden mit Stat-Verif gekennzeichnet.
  • Die Syntax der Zeilen der Originaldatei wurde automatisch überprüft. 49 Einträge wurden verworfen, der Großteil davon deshalb, weil sie eine unterschiedliche Anzahl Schriftzeichen und Pinyin-Silben im Schlagwort enthielten. Eine kleinere Anzahl Einträge wurde verworfen, weil sie seltene Schriftzeichen aus einem Unicode-Bereich über 0xffff enthielten, die von HanDeDict @ Zydeo nicht unterstützt werden.

Reproduktion

Wrk10Prepare.cs im Projekt ZD.Tool ist das Skript, das für die Verarbeitung benutzt wurde. So führen Sie das Skript aus:

  1. Kopieren Sie handedict.u8 in einen Unterordner namens _work unter dem Stammverzeichnis der Solution
  2. Kompilieren Sie ZD.Tool und führen Sie es mit dem Argument --10-prepare aus

Output: x-10-handedict.txt enthält die Einträge im erweiterten Format.

Überprüfung

WrkExamine.cs in ZD.Tool ist ein diagnostisches Skript, das vor der Datenverarbeitung ausgeführt wurde. Die Output:

  1. hdd-diag.txt enthält die verworfenen Einträge.
  2. hdd-trip.txt enthält Einträge, die vom CC-CEDICT-Parser von HanDeDict @ Zydeo nicht unverändert verarbeitet und wiedergegeben werden. Diese Datei muss leer sein.
  3. hdd-tags.txt enthält alle Wörter, die in der originalen Wörterbuchdatei in Klammern vorkommen, nach Häufigkeit sortiert. Diese Datei enthält, als eine Teilmenge, alle Labels, die von HanDeDicts ursprünglichen Autoren als Metainformationen verwendet wurden.
OK Mehr erfahren
Diese Website verwendet für einige Funktionen Cookies. Indem Sie die Website benutzen, stimmen Sie der Verwendung von Cookies zu.
mmmmmmmmmm