Taiwani nyak gyarto

Auth Gábor franko at mail.rgstudio.hu
Tue Aug 19 13:42:03 CEST 2003


Halihó!

2003. augusztus 19. 13.24 dátummal HWSW Famulus ezt írta:
>>   Nem kettő bájt az UTF-8, az UTF-16 a két bájt. Az UTF-8 az csak a 7
>> bitbe nem férő karaktereket kódolja át kettő vagy három bájtba.
> Hat ez az az UTF-8 alatt marad a kodtablakkal valo vacakolas amihez
> a szukseges kodtabla vagy megvan az adott kornyezetben vagy nincs...
> Vagyis ez csak az atviteli ut gondokra ad megoldast.
  Nem... nem! Ugyanazt le lehet tárolni UTF-8 és UTF-16 módon is. Az 
utóbbi kiegyenlített és számolható méretet jelent, mert minden karakter 
két bájt lesz, bár nem fér bele minden szükséges karakter. Az UTF-8 
helytakarékosabb, viszont nem lehet a szöveg hosszával megmondani, hogy 
mennyi helyet igényel. Ugyanúgy Unicode mind a kettő.

> Az UTF-16 (ez lenne az UNICODE ugye ?) eseten viszont
> egyetlen 65536 elemu kodtabla van csak es
> abban megvan (allitolag) a vilag osszes nyelvehez szukseges osszes
> karakter Tehat kodtabla elteres sem lephet fel a forras es cel kozott.
  Nem... az UTF-16 nem egyenlő az Unicode-al. A Unicode az egy fogalom, 
amely annyit takar, hogy minden egyes nemzet képes legyen az írását és az 
írásjeleit megkülönböztetni. Ezért számokat rendelnek a karakterek 
képeihez.
  Az UTF-xx jelölés ennek a fogalomnak a fizikai megvalósítása. Ugyanis a 
gépek bájt alapon tárolnak mindent, nem pedig fogalom alapján. Vagyis 
valamilyen módon bele kell illeszteni a tárolt szövegbe ezeket az 
összerendeléseket. Lehet közvetlenül számok alapján, de ekkor minden 
karakter 4 bájt lenne, ami sok. Ezért van például az UTF-8, amely szerint 
minden karakter ami belefér a 7 bitbe, az 8 biten lesz letárolva, ami 
nem, ott a 8-ik bit jelzi, hogy kiegészítő bájt kell a karakter 
ábrázolásához, de lehet ez akár 3 bájt is jelenleg. Az UTF-16 pedig 
minden egyes karaktert két bájton tárol le.

> Mert egyetlen azonos keszlet letezik csak......
> nem pedig kinai, usa, westeuro, easteuro, skandinav
  Létezik továbbra is minden nemzetnek megfelelő karakterkészlet, a 
Unicode csak lehetőséget ad arra, hogy ezeket egy közös összerendelési 
táblázatba gyűjthessük. A számítógépen nem kell, hogy meglegyen minden 
egyes nemzet karakterkészlete, elég, ha azok vannak, amelyeket használsz. 
Más karakterek helyett üres hely, vagy négyzet jelenik meg. Illetve 
némelyik oprendszer letöltést kezdeményezhet a szükséges 
karakterkészletre.

> Sved ceg, angol, francia, lengyel, magyar, litvan leanyceggel
> Sok atkozodas utan sem tudjak megoldani, hogy a kozos angol
> munkanyelv mellett a nemzeti nyelven keszult iratok/adatbazisok
> is mindenhol olvashatok/rendezhetok legyenek normalisan
  Ezért kell UTF-8 módon adatbázisba menteni... csak ezt nem minden 
adatbázismotor támogatja... én ez utóbbit használom... nincs is gondom a 
karakterekkel.
-- 
Frank O'Yanco -=- +36-70/312-1856 -=- ICQ: 49179141
FreeBSD (current stable branch) - Toshiba Satellite 1410
Key fingerprint E99D 1A55 0DF2 3AAC 2A15  FD55 0D71 B88D 35E5 C50D



More information about the Elektro mailing list