Home > Article > Silicon-teknologiat kaiuttimista riippumattomille puheenkäsittely- ja tunnistusjärjestelmille meluisissa ympäristöissä

Silicon-teknologiat kaiuttimista riippumattomille puheenkäsittely- ja tunnistusjärjestelmille meluisissa ympäristöissä

Puheentunnistus, teknologiat ja sovelluksettunnistuksen SOC-siru selitetään tässä osiossa. Vankka käsittelyvaihe, joka sisältää slikaatiospesifisen matriisiprosessorin kohinanpoiston perustaa ech-signaalia ja aliavaruutta varten, jota käsitellään edelleen Tämä AsiP-matriisi sol,t, QR-hajotusyksikkö, matriisi Levinison- Durbin Toeplitz matriisin ratkaisija, nopea matriisisiirtomoduuli ALTERA FPGA:n keskustelupohjainen järjestelmä suoritetaan tämän luvun viimeisessä osiossa johdannossa HMM-pohjaiseen speacognition järjestelmäänkolme luokkaa eli eristetty, yhdistämisen tarkkuus erittäin suurelle sanavaralle Yhdistetyn puheen (tai tarkemmin sanottuna puheen) tunnistus on samanlainen kuin eristetty sana Tunnistukset ovat siis mahdollisia tonisoituja Jatkuva puheentunnistus on menetelmä spontaanin puheen tunnistamiseen

Järjestelmä pystyy tunnistamaan tietyn puhujan puheen, kun taas puhujista riippumattomia järjestelmiä voidaan käyttää tunnistamaan minkä tahansa määrittelemättömän puhujan puhe. Tällä hetkellä puhujasta riippumattomat kvantisoijat, joilla on korkea tunnistusjärjestelmä, koulutustietojen on siedettävä kaikenlaista puheen kokoa, korkeampi tunnistettu numeroiden tunnistusjärjestelmä saavuttaa suuremman tarkkuuden tallentamalla tarkempia malleja numeroista Edelleen, jos se kasvaa, järjestelmän laskennallinen suorituskyky heikkenee merkittävästi. Harjoitustiedot on tuotettava. Eristetty sanantunnistusongelma voidaan jakaa kahteen osaan, nimittäin -Etupää Tyypillisesti, the frontInstem olemme myös toteuttaneet häiriön kohinaan. Ensimmäinen vaihe missä tahansa puheentunnistuksessa tulopuhesignaalin poistaminen perustuen tiettyihin objektiivisiin parametreihin, joita kutsutaan myös FrontEnd-parametreiksi. Tulopuhesignaalin mallintaminen sisältää kolme perustoimintoa spektrimallinnuksen, ominaisuuksien poimimisen ja parametrisen muuntamisen ( Kuva 1) Spectertingnt Frequencylule voidaan lisätä etupään käsittelymoduuliin, mikä parantaa

ker Itsenäinen puheenkäsittely ja tunnistus prosessoria voidaan käyttää eri taajuuksilla, joiden perusteella prosessorin laskentakyky voidaan valita. Nios Prosessori, saatavana kolmella eri nopeusasteella ja voi olla exteinction-joukkoja jne. Näin toimimalla on mahdollista osa systerIX:ää

Simuloimalla P (firmware-moduuleita) ohjelmistoobjekteina järjestelmä voidaan kehittää edistyneeseen tilaan ennen kuin sitä täytyy testata todellisessa kohteessa. Toinen tämän lähestymistavan etu on se, että Altera FPGA:t voidaan toteuttaa erillisillä 32-bittisillä käsky- ja dataväylillä. Nios-prosessorissa on 32 32-bittistä yleisrekisteriä ja 16 32-bittistä ohjausrekisteriä, aritmeettinen logiikkayksikkö (ALU), poikkeusyksikkö, käskyvälimuisti ja datavälimuisti. Tämän joustavuuden ansiosta käyttäjä voi tasapainottaa tavoitesovelluksen vaadittu suorituskyky softdatan hinta aAltera on kytketty järjestelmäväylän kautta, joka on varustettu IyO) Kaikki järjestelmälaitteet, joihin ne laitettiin; pinon alimmassa muistipaikassa oleva kohde katkaisee ensin, jos koneen tilarekisterin (MSR) Interrupt EnablE) -bitin arvoksi on asetettu 1 Käskyn sisäänmenon keskeytyksessä on otettava manuaalisesti käyttöön keskeytyksen enablecontrol niosessorissa. C/C++NIOS-työkalussa on gnu-pohjainen sisäänrakennettu C/C++-kääntäjä ja debuggeri puolen sanan (16 bittiä) ja prosessorin luomiseksi (Agarwal 2001) NIOS-prosessori tukee NIOS-prosessia varten tarvittavaa konekoodia. sanarajat, puolisana puolet sanamuotoisilla väyläisännöillä, jotka lisätään samanaikaisesti ja tarjoaa erinomaiset sovitteluominaisuudet eräänlaisella hardyoftware-rajapinnalla, jota kutsutaan custominstructioniksi, joka toimii laitteistopohjaisena ohjeena Nos-prosessorille (A2006) Voimme myös nopeuttaa ohjelmistotoimintoa NIOSissa pystem, Neinstructions differentle Times on integroitava suunnitteluun nopeuttaakseen alkuperäistä ohjelmistoa Verrattuna täydelliseen ohjelmiston suorituskykyyn

Puheentunnistus, tekniikat ja sovellukset Kiihdytys parantaa 20-kertaista suorituskykyä Suunnittelussamme hyödynnetään näitä mukautettuja laskureita, Ethernet-ohjainta, Dcontroller Flash -ohjainta, useonentseja, PLL:itä, HLCD:tä, joka laskee ohjelmistorutiinin suoritusajan tai käytetään tritervaalien tuottamiseen signaalin lähettämiseksi. laitteiston oheislaitteet Laitteisto Kytketty järjestelmään kahdella eri tavalla Laitteistokomponentti voidaan konfiguroida Mukautettu käskykomponenttiprosessori tai käsky, NIOSneljä erilaista mukautettua tekniikkaa, nimittäin yhdistelmä; Monijaksoinen, laajennettu ja sisäinen rekisteritiedostopohjainen mukautettu ohje

Mukautettu ohjemoduuli voidaan myös liittää ja liittää osa mukautetuista ohjesignaaleista ulkoiseen tai liittää THNIOS-järjestelmään Avalon-slave- tai master-liitännän kautta. ■PData BusFig 5 NIOS-arkkitehtuurikiinteän pisteen arkkitehtuuri sananpituuden vaikutuksetKaikki DSP-pohjaiset mallit riippuvat voimakkaasti kelluvasta kiinteään pisteeseen DSP-algoritmia ei ehkä voida toteuttaa liukulukumuodossa Kiinteä pint-analyysi

es kaiuttimesta riippumattomalle puheenkäsittelylle Järjestelmän melu on äärimmäisen tärkeää kvantisointiominaisuuksien epälineaarisen luonteen ymmärtämiseksi. Tämä johtaa tiettyihin rajoituksiin ja oletuksiin kvantisointiesimerkissä, että kvantisoinnin jälkeinen sana-lengia (Meng 2004r signaalit, joiden oletetaan olevan tasaisesti jakautuneita valkoinen ja korreloimaton lisätään aina, kun katkaisu tapahtuu Tämä maksimi malli on dramaattisesti vaikuttanut sanan pituus yhtenäisessä sananpituusrakenteessa, joka pienenee likimäärin, joten ei tarvita erittäin tarkkoja malleja kvantisointivirhetehosta vaaditun signaalin leveyden ennustamiseksi. järjestelmän toteutusta, toteutusta on säädettävä paljon, joten tuloksena oleva toteutus on yleensä herkempi, mikä johtuu äärettömästä tarkkuudesta, määrittelee lähdön/kohinasuhteen. Jotta voidaan ennustaa tietyn sananpituuden ja skaalausmerkinnän kvantisointivaikutus, käytä sanaa. pituusarvot ja kunkin atomioperaation skaalaus lähtöön (Haykin 1992) Tarkka ulostulo ei riipu vain syötteistä, se riippuu myös toteutettavasta algoritmista

Esimerkiksi monimutkaisen FFTch-laskentavaiheen kiinteäpistetoteutus (BFT-pituuksia enemmän tarkkuutta menetetään Ominaisuuksien erotusvaihe toteutettiin Nios-prosessorissa kiinteillä precessiotuloilla Seuraavat kaaviot kuvaavat algoritmin kiinteän pisteen ominaisuudet 6 Kiinteä piste MFCC toteutus

Puunentunnistus, teknologiat ja sovelluksetNo ot sampesnditiaseghi 2004he signaali-kohinasuhde voi vaihdella hieman, sana voi olla venytetty liian pitkäksi tai liian kohina HMM ja vähentää sen todellisesta puheesta HMM (Hermus 2007) Vastaanottimessa on oltava riittävästi ohjelmoitavia parametreja olla uudelleen konfiguroitavissa ottamaan edustusalgoritmiin perustuva Singular Value hajottamaan puhesignaalin ominaisuuksia (Hemkumar 1991)43 FCTSVD-algoritAbut 2005Arvioi havaitun puhesignaalin termitMuotoile hanktrix Hy fromI SIlence. estimoitu matriisi Hx, Hx- käyttäen firvalues6. Laske Frobenius Pakollinen normimetriikka ja virhe on pienempi kuin 0

0098 else goto4 4 Skaalaus kasvaa, muuttujan arvot muodolliset algoritmit kyllästävät, kun taas log-Viterbi-algoritmin käyttämä laitteisto ei kärsi vain yhteenlaskuista kertolaskujen sijaan45 A- ja pi-matriisien HMM-paterserin alkuperäiset estimaatit Howematrixia ei voida alustaa satunnaisilla arvoilla. sillä on vaikutusta konvergenssiin

Kaiuttimien itsenäisen puheenkäsittelyn ja tunnistusjärjestelmän tekniikat Koska jatkuvat piilotetut Markov-mallit BKean ja Variance saadaan segmentaalisella K-keskiarvo-algoritmilla5 Projektimoduulit1 Ensimmäinen moduuli käsittelee siand-ominaisuuksien poimimista (ETULOPEN KÄSITTELYOHJELMISTO EI SUORITETTU)2 comcy:lle ja sovellukselle, jossa järjestelmä otetaan käyttöön (KOULUTUS-OFFLINE SUORITETTU MATLABISSA-refer3 Suurimpaan todennäköisyyteen perustuva sanagnition (RINKKILAITTEISTO)KUVA

perustuu 2c-ohjaimeen (mPu 2 AUDIO Codecter Module for Audio Codec data Retrieval integroidulla SRAMry-ohjaimella laitteiston tunnistusosaan ja tehokkaaseen FSMs4-pohjaiseen moda-hallintayksikköön Puheohjaimessa on seuraavat moduulit buildterbi-pohjainen puheentunnistusyksikkö muistiohjaimilla mallille parametriRAMSItulokehyspuskurit ominaisuuksien tallentamiseen muistiohjaimella ominaisuuksien tallentamista vartenRAM-puskurimallin lähtötallennus Tehokas tilanhallintayksikkö vaihtaa variLED-näyttöyksikön välillä ja näyttää tulokset lopulta6 Mukautettu yksittäisarvojen hajottaminen uniSoftwareHardware Modules interfaced Custom Instructionsv Audio Serial 2 ParallelFFt-pohjainen ominaisuusModule (Avalon Master)M Output Filter Bank KehyspuskuritPuheentunnistus Modentroller tov Ohjelmiston korvaaminen SVD-puheentunnistukselle Taulukko 2 Eristetty sanantunnistusjärjestelmä Laitteisto-/ohjelmistoosio432MHZ125MHZ

5Puheentunnistus, tekniikat ja sovellukset, jotka on määritetty 12-pyynnön kautta, luettavaksi jätetään huomioimatta. Laite määritetään kirjoittamalla tiedot sisäiseen regkonfiguroituun siirtämällä tietoja ja sisäisten rekisterien osoite sarjaportaisesti 12C__data-nastan kautta. pääkelloUD_XCLK, josta AUD_BCLK luodaan), USB-tilan on oltava hFIXED96kHz)12896MHz (44 1kHz 882kHz)

Tässä kuvauksessa käytetään normaalia modekellon generointia taajuudella 18432MHz. Siirto aloitetaan vetämällä MPU__DATA matalaksi, kun taas MPU_CLK on korkea Tietyn sisäisen rekisterin konfiguraation tiedoissa on 3 tavua Tavu 1: ( ADDR 60Jo1 3ADDR[ 60 on LAITTEEN OSOITE, joka on 4ALLaitteesta Ox on r/w-bitti, joka on aina O(kirjoitus, ), koska WM8731 on vain kirjoitustavu 2: ( REG[6O,DATA8 >REG[6 0] on 7-bittinen rekisteriosoite, DATA[8 on MPU_:n MSB. DATA on CODEC:n alentama vahvistuksen välilläSeuraavat toiminnot, joita tarvitaan dperate-asetuksen tekemiseen tarkoituksenmukaisessa Oxo-AUDIO RESET -laitteessa: Kirjoita '0 WM8731 POWER DOWN CTL:ään, 7 bittiä Ota isäntätila käyttöön: ÄÄNILIITTYMÄ FMI53 Kuinka tämä laitteistojärjestelmä toimiiCPU:n kautta. Laitteessa käytetään 12C-liitäntää, jossa on seuraavat WM8731 POWeR DOWn CTL:t.Y WM8731_ANALOG_ PATH-CTL-rekisteri on asetettu micfacilityv WM8731_SAMPLING_ CTL-rekisteri on asetettu arvoon 16h100E äänikoodekin korjaamiseksi käyttötaajuudella ANORMAALI KOODI2MPHZTE. 2: Sarja syöttöbittivirta muunnetaan rinnakkaisdataksi mukautetun Avalon Master Interface -liittymän avulla ja tallennetaan SRAM-moduuliin. Äänen tallennus keskeytyy ulkoisella käyttäjäohjatulla kytkimellä prosessoinnin aloittamiseksi vaiheE CONFIGURED) toimintojen käsittelyn aloittamiseksi usein.4: Ohjelmistossa puhe alkaa ja päätepisteet havaitaan, suoritamme ikkunoita käyttämällä lyhyen ajan Fourier-analyysiä puheen 30 ms kanssa

ker Independent Speech Processing5tep6: Arvioi puhesignaalien välinen etäisyys ja tee klusterointi käyttämällä Mahalanobis distaniin perustuvaa sekoituspohjaista lohkokvantisoijaa

cesteringperformedStep7: Ominaisuudet puretaan ja tallennetaan SpeechRecognition-moduulin INPUT FRAME -puskuriin. Vaihe 8: Vaiheet 1 - 6 jatkuvat, kunnes laitteistomoduuli havaitsee kehyksen lopun, ja jokaisen vaiheen tulos tallennetaan OUTPUT:iin. Jatkuvan piilotetun Markov-mallin toteuttaminen ja on aina kompromissi, joka on olemassa toimintataajuudenIse vaimennus jne. sanan HMm perusteellaKaksi olennaistaalgoritmi1 Outpu2

Log VIterbiementation-Output Todennäköisyyslaskenta on laskennallisesti intensilotit kertoimet ja Lisää operaationtunnistusgorithm on56 LaitteistodesiArkkitehtuurimme (kuva 11) keskittyy kolmeen pääasiaan Teho, Muisti (Läpivirtaus) andalaarikoko Teollisuuden välillä on aina kompromissi. taajuus ja tunnistussanasto, sanatarkkuus, kohinanvaimennus jne.HMM-pohjainen arkkitehtuuri, joka käyttää jatkuvaa hmm:ää toteutukseen (Cho 2002) Kaksi olennaista vaihetta tunnistusalgoritmissa1 Lähtötodennäköisyyden laskentamoodi Ääni tallennetaan SRAM:iin Aterrastorocessorin ominaisuuksille after5 Prosessori alkaa käsitellä näytteitä poimiakseen näytteitä Puheohjaimen ominaisuudet ja täydellinen signaali

Puheenkäsittely49AttribuuttiHeCombCombinationinationLinearMLPDCTetKuva 1 Puheentunnistusjärjestelmän komponentit Taajuus Cepstral-kerroin Lineaarisen ennustavan koodauksen (LPC) analyysin perusajatuksena on, että puhenäyte voidaan approksimoida menneiden puheiden lineaarisena yhdistelmänä minimoimalla summan neliö. erot (äärellisen aikavälin yli) määritetään yksilöllinen kerroinjoukko Puhe mallinnetaan joko kvasijaksollisilla pulsseilla (soinnillisen puheen aikana) tai satunnaiskohinalla (aikana) lineaaristen, ajallisesti vaihtelevien systeritoitujen lähtönä. Lineaarinen ennustemenetelmä tarjoaa vankan , luotettava ja tarkka menetelmä parametrien estimoimiseksi, jotka luonnehtivat lineaarista ajassa vaihtelevaa järjestelmää esittäen äänikanavan Lineaarisessa ennustamisessa (LP) pi1s(n-1)+e(n)Lp()-signaalin s(n)-yhdistelmä on kertoimet, jotka on päätettävä, Nup on ennustajan järjestys, ts

e-kertoimet mallissa, ja e(n)on jäännösmalli, on olemassa useita kertoimien laskentamenetelmiä. Mallin kertoimia, jotka approksimoivat signaalia analyysiikkunan (kehyksen) sisällä, voidaan käyttää ominaisuuksina, mutta yleensä lisäprosessointia sovelletaan mitä korkeampi ordkäytettävät lp-suodattimet ovat paremmin mallin ennuste signaalin Alemman kertaluvun malli toisaalta vangitsee signaalin trendin, mieluiten formantit Tämä antaa tasoittuneen spektrin LI-kertoimet antavat yhtenäisen painotuksen kokonaisuudelle spektri, joka ei ole yhdenmukainen

498Puheentunnistus, teknologiat ja sovelluksetihmisen kuulojärjestelmä Puheen soinnillisille alueille kaikki LPC:n napamallit tarjoavat hyvän lähentymisen äänikanavan spektrin verhokäyrään Soinnittomilla ja nasalisoiduilla puhealueilla LPC-malli on vähemmän tehokas kuin soinnillinen alue.

LPC-prosessoinnissa käytetty laskenta perustuu puheen tuottamiseen ja sen suhteeseen. Cepstraalianalyysillä johdetut ominaisuudet ovat tehokkaampia kuin ne, jotka eivät käytä sitä, ja suodatinpankkimenetelmät ovat parempia kuin LMFC Fitionsin ja MFCC:n kanssa, ne ovat vähemmän riippuvaisia ​​puhujista ja enemmän puhujasta riippumaton InFourier muunnospohjainen mFCC Feature extractioMethod käyttöliittymän käsittelyyn (Kuva 2) Kehyksen estoWindowingcomputationx(k)=∑x(n)ei,0≤k

ker Independent Speech Processinga FFT-rutiini Puhesignaalin ikkunoinnin jälkeen Discrete Fourier Transform (DFT) -muunnoksia käytetään siirtämään nämä aika-alueen näytteet taajuusalueen näytteiksi. Toimintojen suora laskenta, olettaen, että trigonometrinen toiminto toimii samalla kun FFT-algoritmia käytetään vain laajasti puheenkäsittelyä varten puhedatan siirtämiseksi aika-alueelta X(k)=>x(n)eand imry -lähtöihin

Neliöjuuri on monotonisesti kasvava funktio, ja se voidaan määrittää, jos vain suhteellinen suuruus kiinnostaa (lisääntyneen dynaamisen rangete((k)2+Im((A-)2putation) huomioimatta jättäminen vaatii silti kaksi todellista kertolaskua ja hyvin tunnettua approksimaatiota) absoluuttisen arvon funktio on annettuA+jAm≈A-|+Ainless usein käytetty approksimaatio on vain hieman monimutkaisempi toteuttaa, mutta tarjoaa paljon paremman suorituskyvyn (katso tablAr+ jAAYllä oleva approksimaatio wFFT-lähdöt ja niiden spektrisuuruudet on otettu Ihmisen kuulononlineaarisuus ja Mel-suodatinpankit sisällyttämään taajuus epälineaarikolmiosuodatinpankit, joissa on 102 kerrointa tasaisin välein Min- ja thecepstral vektoreissa, erotetaan seuraavan yhtälön 6 perusteella (katso kuva 3)(Mel(F)-Mel(FMel(f)=2595*log, (0*(10)

Puunentunnistus, tekniikat ja sovellukset))f(m-1)≤k≤f(m)H()-f(m)-f(m-1)f(m)≤k≤f(mf0k> f(mFig 3 Mel Filter Pankkisymmetrinen ja todellinen, inDfT on pelkistetty diskreetiksi ko. Tämä muunnos dekorreloi piirteitä, mikä johtaa diagonaalisten kovarianssimatriisien käyttöön fultricesien sijasta samalla kun piirrekertoimia mallinnetaan Gaussin funktioiden linearombinaatioilla. Siksi monimutkaisuus ja laskennalliset kustannukset voidaan vähentää Tämä on erityisesti hyödyllinen puheentunnistusjärjestelmille Koska DCI kerää suurimman osan signaalista sen alemman kertaluvun kertoimiin, hylkäämällä korkeammat kertoimet, voidaan saavuttaa merkittäviä vähennyskustannuksia

Tyypillisesti kertoimien lukumäärä k, sumumittaus vaihtelee välillä 8 ja 13 Thetral kertoimet kokonaisikkunaan minimoimaan nämä herkkyydet. Olemme käyttäneet näiden vektorien punnitsemista kaistanpäästösuodattimella puhekehysten muodostamiseen. Niitä voidaan käyttää kestraalijohdannaisen ingiven kanssa hyväksyttävän tunnistuksen kanssa. tarkkuus kepstraalisen spektrin pätevyys Käytännössä △Cm()≈OCn(u*∑k=Cn(+k)}0≤m≤MMissä H on normalisointitekijä

Tyypillinen piirrevektori: Kuva 4()△c2()△△cM(t-1)△Ac1(t)△Ac2(),△AcM(tOminaisuusvektori koostuu molemmista staattisista poluista Puhesignaalin dynaaminen osaN2+ M2Kuva 4 Delta- ja Delta-Delta-parametrien esitys Laske riittävästi p(o x), havaintosekvenssin todennäköisyys, ottaen huomioon mallivastaava (eli selkeyttää havainnon)

Viterbi-algoritmi löytää optimaaliset malliparametrit A=(A, B, n)top(oI X) Tämä on HMM:n ylivoimaisesti vaikein ongelma. Valitsemme A=(A, B, n) siten, että sen todennäköisyys , p(o A), maksimoidaan paikallisesti käyttämällä iteratiivista proseduuria, kuten Baum-Welchmethod (L Rabiner 1993) Peruspuheentunnistin käsittelee kohinattomia HMM-tiloja ja matriisiprosessia käytetään esikäsittelylohkona luomaan äänettömät HMM-mallit kohinoista ( Vaseghi)jossa Jatkuva hmm mallinnettu mallintamaan hmm-tilojaAodelille on tunnusomaista tilojen lukumäärä N, erillisten havaintosymbolien lukumäärä M,theA, alkuperäinen todennäköisyysmatriisi Ili, havainnointitodennäköisyys piirteen xl tilalle I, b(x)

Puheentunnistus, tekniikat ja sovelluksetloki b, (x,)()=0ax:2(8P,(+loga; )+logb, (x)x(0,(1)+log au)4)3) Terminationlog(P(O/a))=max(Sg(i)+logan)q'=arg max 2(8)(i)+log Havaintovektorien todennäköisyys p(oI A) on maksimoitava eri modparametrille arvot, jotka vastaavat eri sanojen HMM-malleja Eteenpäin- ja taaksepäin-proseduurit, kuten on kuvattu (Karthikeyan -ASICON 2007) Koska Viterbi-algoritmi johtaa alivuotoon erittäin alhaisen todennäköisyyden vuoksi, arvot kerrotaan rekursiivisesti puhekehyksen yli tuulen algoritmi, joka eroaa annetuista menetelmistä in(Karthikeyan-ASICON:n Forward-, Backward- sekä yllä olevan algoritmin viterbiohmiikan täydennys, koska Forward-algoritmi, joka korvataan muokatussa eteenpäin-algoritmissa

olemme käyttäneet muokattua eteenpäin-algoritmia, taaksepäin-algoritmia sekä viterbi-algoritmia3 Baum Welch rehe kolmantena ja säätämällä mallia (A, B,mize todennäköisyys analyyttisesti ratkaista havaintosarjan todennäköisyys Itse asiassa, jos mikä tahansa äärellinen Suurempi valistusdata, ei kuitenkaan ole optimaalista tapaa, valitse A=(A, B, n) siten, että P(o I X) maksimoidaan paikallisesti käyttämällä iteratiivista menettelyä, kuten Baum-Welch-menetelmää.

ker riippumaton puheenkäsittely ja HMM-parametrien tunnistus (iteratiivinen päivitys ja parannus), määritämme ensin Et(i,j), todennäköisyyden olla tilassa Si hetkellä t ja tilassa Si hetkellä t+1, kun otetaan huomioon Mallin ja havainnoinnin peräkkäin joko mlAP-luokittelusääntöjä, meidän on luotava malli thobability p(oj) kullekin mahdolliselle eri luokalle PDIGauss-jakauma Voimme luoda Gaussin mallin vain etsimällä näytekovarimatriisin U(√2P(2o- pU-(o-yTodennäköisyys olla tilassa Si ajanhetkellä t ja tilassa S ajanhetkellä mallin ja havainnointisekvenssin perusteella, le5 i, i)=P(q,= Si, qu+1=SO, N )

4 Cov Mallipohjaisessa puheessa käytetty kovarianssimatriisi NU-yksimuuttuja gauHMM-mallinnusta m-ulotteisella ominaisuudella käyttävä tunnistusongelma voidaan ottaa huomioon seuraavilla tavoilla. cMt),△cl(t)△c2(1)…△△cM(t-1)△Ac1(t)△△c2(1)△△cM(t1)E(t),△E(t)Missä △C(r),△△Cbe esitetään muodossa beloAC(=0C 2a+2kCna△△Cn(t)k*△Cmn(+k)0≤m≤MCcompletematrix (etäisyysmitta mahalanobis-etäisyysTäydellinen kovarianssimatriisi, kun sitä tarkastellaan, johtaa erittäin korkeaan toteutuksen monimutkaisuus, eikä sitä voida saavuttaa helposti olemassa olevalla laitteistollaSekarometrin sidonta (Pihl-1996) Tässä menetelmässä kaikkien tilojen ja muiden tilastollisten ominaisuuksien katsotaan olevan erilaisia ​​yhteisestä kovarianssimatriisista kaikille

Puheentunnistus, teknologiat ja sovellukset GMM-lohkokvantisoinnin aikana saadut klusterit, ja kun otetaan huomioon keskiarvo, ei havainnointitulosta erilaista jokaiselle tilalaitteistolle. Kovarianssit ovat lohkodiagonaali on voimassa, koska ortogonaalimuunnoksen, kuten DCT:n, käyttö korreloi kestraalivektoreita. Aikaeron välillä on korrelaatio. cepstral-vektorit, delta-cepstral-vektorit ja delta-delta-cepstral-vektorit, jotta voimme rakentaa kovarianssimatriisin kolmielementtisenä lohkona, jonka käänteinen matriisi voidaan helposti löytää käyttämällä Singt. Viimeinen menetelmä on pitää kovarianssimatriisia diagonaalisena, mikä tuottaa yksinkertaisimman laitteistoarkkitehtuurin Käänteiset diagonaaliarvot tallennetaan muistipaikkoihin ja suoritetaan vain kertolaskuoperaatioita ja tämä menetelmä on vähemmän intensiivinen

Nykyiset laitteistopohjaiset tunnistimet toteuttavat tämän heikentävät järjestelmän tunnistussuorituskykyä, koska se ei toista tehokkaasti Vector-kvantisoijan tuomaa korrelaatiota. Aiemmin ehdotetut toteutukset perustuvat vain tähän menetelmään (Karthikeyan-ASICON 2007) Missä E(r) edustaa tilastollista Odotus toimii cepstraalivektorissaE(△s123)E△1C1)E(△s1k1)EAMc2,△0täysin diagonaalissa korrelaatio piirrevektoreihin vektorin kvantisadynaamisen piirrevektorijoukon kautta Htarkastele piirrevektoria kahden dynaamisen piirrejoukon joukossa staattinen piirrevektori delta ja delta ominaisuustrix voidaan helposti saada lineartion ratkaisijalla, Singitontrix Aben laskentaa kiihdyttää rinnakkainen kaksipuolinen jacobiethod, jossa on joitain esikäsittelyvaiheita, jotka keskittäisivät Frobenius-normin läheisalgoritmin. Kuitenkin nopeuden vahvistus rinnakkaisen suoritusajan kokonaisajalla mitattuna riippuu ratkaisevasti siitä, kuinka tehokas on hajautetun QR- ja LQfactorizationsven-rinnakkaistektuurin toteutus