ekezetek

hwsw famulus hwsw at famulus.hu
Wed Feb 25 22:00:35 CET 2004


Legalabb olvasnal bele a google cimoldal forrasaba...

<meta http-equiv="content-type" content="text/html; charset=UTF-8">

A codepage vilag es az unicode annyiban kulonbozik, hogy
a codepage 1 byte indexel cimzi az adott karaktert az
az unicode meg 2 byte-al......

Ez a 2 byte a ma gyakorlatban irasban hasznalt osszes karaktert lefedi es ha
olyat latsz
valahol hogy iso-8859-2 akkor az egy reszhalmaza lesz  es szarmaztathato
hianytalanul
ha kozben a szo kozepen atvalt iso-8859-1 vagy akarmi masra a szoveg
(szlovak,lengyel,sved) akkor ugrasz a pointerrel es maris jo karaktert kapsz

Mindehhez van 65536 elemu font file is
ami az index alapjan a helyes betukepet teszi eled
es nem zagyvasagot !
(hogy mennyi az csak penzkerdes,
parezer forintert egy CD-nyi kaphato
ill. sw-ekkel is telepul jo par )

Ennek a kenyelemnek az az  ara hogy a szovegben a
teljes 2 byte indexet kell hasznalni, ez teny.
Cserebe barmilyen nyelvre valthatsz barmikor akar a szo kozepen is.

Ne mondd, hogy ez igy nem jo es "tokeletes"....

A 65536 elemu tabla persze lehetne 256 kulon un. codepage tabla
mint manapsag, de akkor is fel kellene mind tenni.

De a vegyes szovegben akkor is kikellene tenni minden nyelv valtaskor
a codepage azonositot....(<EN> bala <HU> kiko <SF> uju <HU>)

Ennek hatranya a szovegben valo kereseskor pl. nyilvanvalo
gyakorlatilag igy nehez keresni es indexelni a vegyes nyelvu szovegre
meg a <tag> kiszurese is feladat marad.

A szovegben valo mozgaskor pedig elobb
mindig meg kell keresni az utolso  <nyelv tag> bejegyzest,
hogy tudjuk igazabol milyen karakter is ami a kurzornal van eppen.

De tudom a sw-es az hulye amikor ilyen gondoktol mentesulni akar
es inkabb egy egyertelmu full tabellat hasznal a kodolasra ......

Mert megiscsak legjobb a DOS az ASM es a CodePage


KJ




More information about the Elektro mailing list