Taiwani nyak gyarto
Auth Gábor
franko at mail.rgstudio.hu
Tue Aug 19 13:42:03 CEST 2003
Halihó!
2003. augusztus 19. 13.24 dátummal HWSW Famulus ezt írta:
>> Nem kettő bájt az UTF-8, az UTF-16 a két bájt. Az UTF-8 az csak a 7
>> bitbe nem férő karaktereket kódolja át kettő vagy három bájtba.
> Hat ez az az UTF-8 alatt marad a kodtablakkal valo vacakolas amihez
> a szukseges kodtabla vagy megvan az adott kornyezetben vagy nincs...
> Vagyis ez csak az atviteli ut gondokra ad megoldast.
Nem... nem! Ugyanazt le lehet tárolni UTF-8 és UTF-16 módon is. Az
utóbbi kiegyenlített és számolható méretet jelent, mert minden karakter
két bájt lesz, bár nem fér bele minden szükséges karakter. Az UTF-8
helytakarékosabb, viszont nem lehet a szöveg hosszával megmondani, hogy
mennyi helyet igényel. Ugyanúgy Unicode mind a kettő.
> Az UTF-16 (ez lenne az UNICODE ugye ?) eseten viszont
> egyetlen 65536 elemu kodtabla van csak es
> abban megvan (allitolag) a vilag osszes nyelvehez szukseges osszes
> karakter Tehat kodtabla elteres sem lephet fel a forras es cel kozott.
Nem... az UTF-16 nem egyenlő az Unicode-al. A Unicode az egy fogalom,
amely annyit takar, hogy minden egyes nemzet képes legyen az írását és az
írásjeleit megkülönböztetni. Ezért számokat rendelnek a karakterek
képeihez.
Az UTF-xx jelölés ennek a fogalomnak a fizikai megvalósítása. Ugyanis a
gépek bájt alapon tárolnak mindent, nem pedig fogalom alapján. Vagyis
valamilyen módon bele kell illeszteni a tárolt szövegbe ezeket az
összerendeléseket. Lehet közvetlenül számok alapján, de ekkor minden
karakter 4 bájt lenne, ami sok. Ezért van például az UTF-8, amely szerint
minden karakter ami belefér a 7 bitbe, az 8 biten lesz letárolva, ami
nem, ott a 8-ik bit jelzi, hogy kiegészítő bájt kell a karakter
ábrázolásához, de lehet ez akár 3 bájt is jelenleg. Az UTF-16 pedig
minden egyes karaktert két bájton tárol le.
> Mert egyetlen azonos keszlet letezik csak......
> nem pedig kinai, usa, westeuro, easteuro, skandinav
Létezik továbbra is minden nemzetnek megfelelő karakterkészlet, a
Unicode csak lehetőséget ad arra, hogy ezeket egy közös összerendelési
táblázatba gyűjthessük. A számítógépen nem kell, hogy meglegyen minden
egyes nemzet karakterkészlete, elég, ha azok vannak, amelyeket használsz.
Más karakterek helyett üres hely, vagy négyzet jelenik meg. Illetve
némelyik oprendszer letöltést kezdeményezhet a szükséges
karakterkészletre.
> Sved ceg, angol, francia, lengyel, magyar, litvan leanyceggel
> Sok atkozodas utan sem tudjak megoldani, hogy a kozos angol
> munkanyelv mellett a nemzeti nyelven keszult iratok/adatbazisok
> is mindenhol olvashatok/rendezhetok legyenek normalisan
Ezért kell UTF-8 módon adatbázisba menteni... csak ezt nem minden
adatbázismotor támogatja... én ez utóbbit használom... nincs is gondom a
karakterekkel.
--
Frank O'Yanco -=- +36-70/312-1856 -=- ICQ: 49179141
FreeBSD (current stable branch) - Toshiba Satellite 1410
Key fingerprint E99D 1A55 0DF2 3AAC 2A15 FD55 0D71 B88D 35E5 C50D
More information about the Elektro
mailing list