Beszedfelismeres algoritmus
norbimagan
norbimagan at vnet.hu
Tue Jul 6 18:07:59 CEST 2004
Szia Arnold!
>Csinalnek egy spektrumanalizalast a hangmintarol mondjuk. Eltarolnam,
aztan ha x %-ban hasonlit az epp kimondott erre, akkor
>az a keresett szo.
Persze, szerintem is ez lesz a kiindulasi alap. Az FFT utan azonban
vannak meg gondok. Pl. lassabban ejted/gyorsabban ejted, nathasan ejted,
rekedtebben ejted, almosan ejted. A sima FFT+statisztikai szures sajnos
nem lesz jo.
Olyasmiben gondolkodtam, hogy a szavakat szetszedem, s veszem a hosszat
100%-nak. Ezutan a hangmintak spektrumkepeinel is szazalekosan
hasonlitok, es nem valos idoskalan. (Vagyis "hozzanyujtom" a vizsgalt
szohoz a hangmintakat.)
Azutan olyan is kellene, hogy a teljes spektrumkep le/fel transzformalva
is ossze legyen hasonlitva, vagyis ugy, mint a zenei hangoknal egy
hangskala transzformacional. Minden ember beszedeben van egy
dallammenet, vagyis az egymast koveto szavak dallamossaga mas lesz a
mondatban.
Ezenkivul mas szajtartassal ejtve, a spektrumkep is valtozik
kismertekben, pl. az orrureg merete valtozik. (natha, betegseg,
almossag, stb.) Azt is jo lenne tudni, hogy szazalekosan, mely
frekvenciatartomany, milyen aranyban valtozhat az embernel.
Persze ezek meg mindig akkor jok, ha egy mikrofonba szelektivel
beszelunk. Azonban pont ez nincs igy... A kornyezeti hatterzaj meg ehhez
jon hozza. Jellegzetes pontokat kell szerintem tehat talalni a
beszedben, s ezeket figyelni. A maganhangzok figyelesere gondoltam,
illetve olyan szavak osszevalogatasara, mikben a maganhangzok minazata
minel egyedibb. Ezutan mar a statisztika erositese miatt a
massalhangzokat kell beazonositani, de ott mar kb. tudhato, mi
kovetkezik. Ennyivel jobb a kotott szotaras rendszer, mint a
speech2text.
Most ezt nyomozgatom, hatha lesz valami kerulout.... Igy elsore eleg
rettenetesen hangzik a dolog, mi?
>Arnold
Udv.:
Norbi.
More information about the Elektro
mailing list