ich habe für mich eine Übersicht erstellt, welches Unicode-Zeichen zu welcher Kategorie gehört. Muster:
Let = Letter
Dig = Digit
Sym = Symbol
Pun = Punctuation
Sep = Separator
WSp = WhiteSpace
Sur = Surrogate
Ctl = Control
Num Hex Let Dig Sym Pun Sep WSp Sur Ctl
-- ---- ---- --- --- --- --- --- --- --- ---
0032 0020 x x
! 0033 0021 x
" 0034 0022 x
# 0035 0023 x
$ 0036 0024 x
% 0037 0025 x
0 0048 0030 x
1 0049 0031 x
2 0050 0032 x
: 0058 003A x
; 0059 003B x
< 0060 003C x
= 0061 003D x
> 0062 003E x
? 0063 003F x
@ 0064 0040 x
A 0065 0041 x
B 0066 0042 x
Ich könnte mir vorstellen, dass eine solche Liste von allgemeinem Interesse ist (auch international). Sollte ich sie bei CodeProject veröffentlichen, oder habt Ihr andere Vorschläge? Ich kann sie auch auf meiner eigenen Homepage zur Verfügung stellen.Die gesamte Textdatei ist 2.873.038 Bytes groß, als Zip-Datei 464.574 Bytes. Ich habe sie jetzt aufgeteilt:
- Anhang in diesem Post: CharTypes1.Txt von 0x0020 bis 0x7FFF mit 1.461.504 Bytes und Quelltext
- Anhang in meinem nächsten Post: CharTypes2.Txt von 0x8000 bis 0xFFFF mit 1.411.666 Bytes
Jürgen
//Edit: Liste von 0x7FFE auf 0xFFFF verlängert.
//Edit: Download hinzugefügt, Erläuterung angepasst