Strojni sluh se je v zadnjem desetletju v primerjavi z vizualnimi zaznavnimi sistemi, kljub velikemu potencialu za uporabo v industrijskih in varnostnih okoljih, razvijal manj. V določenih aplikacijah, kot je prediktivno vzdrževanje ali nadzor kakovosti, je zvok ključen vir informacij, saj mikrofoni, za razliko od kamer, ne potrebujejo neposredne vidljivosti in so sposobni zaznati zvok, ki prihaja iz različnih smeri. Sistem lahko, na primer, analizira hrup znotraj strojev, kjer so kamere neuporabne in tako omogoči hitrejše odkrivanje napak. Poleg tega lahko nadzorni sistemi, ki analizirajo zvoke iz okolja, opozorijo na sumljive dogodke, kot so lomljenje stekla, streljanje ali kriki, kar prispeva k večji varnosti.
Čeprav so sistemi za razpoznavanje govora že precej napredni, pa je razpoznavanje okoljskih zvokov še vedno velik izziv zaradi odmevov, hrupa in nestacionarnih zvokov, ki pogosto prihajajo iz več virov hkrati. Obdelava okoljskih zvokov je zahtevnejša, saj gre za nepredvidljive zvoke brez jasne strukture, ki je značilna za govor, ki ga je mogoče razdeliti na foneme.
V tej raziskavi smo se osredotočili na zaznavanje prehodnih zvokov oziroma "tranzientov", kratkih zvočnih impulzov, ki trajajo do 100 milisekund. Takšna obdelava zmanjšuje računske zahteve in odpira možnosti za obdelavo zvoka na vgrajenih napravah, ki jih je mogoče postaviti na terenu. Z zasnovo sistema za zaznavanje in razvrščanje okoljskih zvokov ter lokalizacijo zvočnih virov prispevamo k razvoju rešitev, primernih za uporabo v realnem času, predvsem v industrijskih aplikacijah.
Sistem, ki ga predstavljamo v tej nalogi, je cenovno dostopen in sestavljen iz omrežja 20 digitalnih mikrofonov, povezanih z 9 napravami Raspberry Pi 4B, ki so sinhronizirane s pomočjo standardiziranega protokola za sinhronizacijo, Precision Time Protocol (PTP). Zasnovali smo tudi nov senzor s štirimi mikrofoni za določanje kota prihoda zvoka. Ti senzorji so razporejeni po prostoru, da se optimizira zaznavanje in lokalizacija dogodkov. Vsak Raspberry Pi poganja spektralni zaznavalnik prehodnih zvočnih dogodkov. Zaznani dogodki so potem razvrščeni na vgrajeni napravi s predhodno naučenim globokim nevronskim omrežjem in lokalizirani s pomočjo Gauss-Newtonove nelinearne metode najmanjših kvadratov, ki temelji na meritvah časovnih razlik prihoda (time difference of arrival, TDOA), in razmerja moči prejetega signala (received signal strength indicator, RSSI).
Sorodna dela povezana s to raziskavo lahko razdelimo v tri glavne skupine: zaznavanje prehodnih zvočnih dogodkov (tranzientov), razvrščanje okoljskih zvokov in lokalizacija vira zvoka.
Zaznavanje prehodnih zvočnih dogodkov se osredotoča na odkrivanje hitrih sprememb v amplitudi, fazi in frekvenci zvočnega signala, ki trajajo največ 100 milisekund. Prvi poskusi zaznavanja so temeljili na osnovnih metodah obdelave signalov, kot je uporaba Gaborjevih koeficientov za analizo kratkih časovnih intervalov. Kasneje so se razvile naprednejše metode, ki uporabljajo kratkočasovno Fourierovo transformacijo (STFT) za zaznavanje tranzientov. Sodobne metode vključujejo tudi merjenje energetske porazdelitve signala ali uporabo spektralne ravnosti. Te tehnike, čeprav izvorno razvite za glasbo, so uporabne tudi za okoljske zvoke.
Razvrščanje okoljskih zvokov je v primerjavi z računalniškim vidom še vedno manj raziskano, predvsem zaradi pomanjkanja ustreznih javnih zbirk podatkov. Največje zbirke označenih posnetkov so UrbanSound8K, FSD50K, ESC-50, ESC-10 in AudioSet. Najpogosteje uporabljene značilke za razvrščanje so kepstralne (npr. mel-frekvenčni kepstralni koeficienti, MFCC), časovne in spektralne značilke ter značilke, pridobljene iz spektrogramov. Kepstralne značilke so se pokazale kot koristne na področju razvrščanja govora, medtem ko na področju okoljskih zvokov niso dosegle izjemnih rezultatov, predvsem zaradi nižjega razmerja signal-šum (SNR) in popolnoma drugačne spektralne strukture od govora. Raziskovalci na tem področju so se preusmerili iz klasičnih metod strojnega učenja, kot so metoda podpornih vektorjev (SVM) in prikriti Markovovi modeli (HMM), na uporabo konvolucijskih nevronskih mrež (CNN) in drugih globokih učnih pristopov. Predvsem uporaba globokih vložitev zvoka in prenosa znanja iz modelov za razvrščanje slik sta pokazala obetavne rezultate na področju razvrščanja okoljskih zvokov.
Lokalizacija vira zvoka se ukvarja z določanjem natančne lokacije zvočnih virov v tridimenzionalnem prostoru. Tradicionalni pristopi vključujejo metode za oceno kota prihoda zvoka (angle of arrival, AOA), čas prihoda signala (time of arrival, TOA), časovno razliko prihoda (time difference of arrival, TDOA), razmerja moči prejetega signala (received signal strength indicator, RSSI) in podobno. Novejše raziskave obravnavajo problem lokalizacije z metodami globokega učenja, kjer se uporabljajo arhitekture, ki lahko podajajo zvezne ocene v primeru regresije ali določene oznake razredov vzorčenega prostora. Slabost teh metod je slabša generalizacija modelov, ki ne morejo napovedovati rešitev v prostorih, ki se razlikujejo od postavitev, na katerih se je model učil. Zadnje raziskave so pokazale tudi, da lahko kombinacija različnih meritev, kot sta TDOA in AOA, ter uporaba optimizacijskih algoritmov, kot je metoda Gauss-Newton, zagotovi večjo natančnost pri lokalizaciji zvoka v realnih okoljih.
Naš predlagani sistem je zasnovan kot porazdeljeno senzorsko omrežje in temelji na uporabi računalništva na robu (angl. edge computing), kar pomeni, da se del obdelave podatkov opravi neposredno na lokalnih napravah, ki so najnižje v hierarhiji omrežja. Računalništvo na robu zmanjšuje obremenitev centralnega strežnika, saj naprave kot je Raspberry Pi zvočne podatke obdelajo že lokalno in posredujejo le ključne informacije, na primer zaznane prehodne zvočne dogodke (tranziente). S tem bistveno zmanjšamo potrebo po prenosu velikih količin podatkov, kar posledično zmanjša latenco in omogoča hitrejše odzive sistema. Ta pristop je ključnega pomena za aplikacije, ki želijo doseči delovanje v realnem času. Naslednja pomembna lastnost porazdeljenih omrežij je razširljivost, zato se število mikrofonov lahko poljubno prilagodi glede na potrebe aplikacije.
Najmanjša funkcionalna enota predlaganega sistema je senzor AOA (angle of arrival – kot prihoda zvoka), ki ga sestavljajo štirje mikrofoni, dve napravi Raspberry Pi, piskač, kamera in marker AprilTag. Markerji AprilTag in kamere so v sistem vključeni zato, da se lahko kalibracijski postopek avtomatizira. To pomeni, da se senzorji med seboj zaznajo preko markerjev AprilTag in lahko določijo natančne relativne pozicije, brez da bi monter sistema moral ročno meriti pozicije vseh mikrofonov.
Vsak AOA senzor zajema zvok s štirimi digitalnimi mikrofoni, povezanimi prek serijskega vmesnika I2S (Inter-Integrated Circuit Sound), ki omogoča visokokakovostno prenašanje digitalnih zvočnih podatkov. Ti senzorji pošiljajo že obdelane podatke (zaznane zvočne dogodke) preko omrežja na centralno napravo, ki je prav tako lahko Raspberry Pi, a z dodatno računsko močjo, kot je pospeševalnik Coral.AI, ali navadni računalnik.
Metode uporabljene v tem delu obsegajo štiri glavne korake obdelovalne verige za zaznavanje, razvrščanje in lokalizacijo zvočnih dogodkov.
1. Zaznavanje prehodnih dogodkov: Mikrofon nenehno spremlja zvoke v prostoru, pri čemer naprave Raspberry Pi obdelujejo zvočne signale in zaznavajo prehodne dogodke (tranziente). Na podlagi spektralne analize kratkočasovne Fourierove transformacije sistem zazna hitre spremembe v spektrogramu signala, kar označuje prehodne dogodke.
2. Razvrščanje zvočnih dogodkov: Zaznani tranzienti se pretvorijo v log-spektrograme, ki se nato pošljejo v konvolucijsko nevronsko mrežo (CNN). CNN zvoku bodisi pripiše določen razred bodisi izlušči njegove značilke za nadaljnjo analizo in primerjavo z drugimi avdio kanali. Po končanem učenju je mreža dodatno optimizirana za delovanje na vgrajeni napravi s postopkom kvantizacije, kjer so naučene uteži prevedene iz 32-bitne v 8-bitno ločljivost.
3. Časovna razlika prihoda signala (TDOA): Ko so prehodni dogodki zaznani in povezani med različnimi mikrofoni, sistem izračuna TDOA med signaloma vsakega para mikrofonov s pomočjo posplošene navzkrižne korelacije s fazno transformacijo (GCC-PHAT).
4. Lokalizacija zvočnega vira: Končni korak vključuje kombinacijo meritev kota prihoda zvoka (AOA) s TDOA in RSSI (razmerje moči prejetega signala) za določitev 3D koordinat zvočnega vira. Pri tem uporabljamo Gauss-Newtonovo nelinearno metodo najmanjših kvadratov. Presečišče izmerjenih smeri kota prihoda zvoka poda začetno oceno za iterativni optimizacijski algoritem, ki potem na podlagi meritev TDOA ali RSSI določi kartezične koordinate vira zvoka.
Motivacija za vključitev zaznavalnika tranzientov temelji na analogiji z računalniškim vidom, kjer so robovi na slikah ključni za obdelavo, saj vsebujejo bistvene informacije, hkrati pa zmanjšujejo potrebo po računski moči. Pri zvoku predpostavljamo, da prehodni dogodki nosijo pomembne informacije o spremembah zvočnega prizora, zato se zaznavajo kot "meje" med različnimi zvočnimi dogodki.
Razvrščanje tranzientov poteka z uporabo lahke različice konvolucijske nevronske mreže z arhitekturo MobileNetV2, prilagojene za računalništvo na robu. Takšna arhitektura omogoča učinkovito razvrščanje na nizkocenovnih napravah, kot je Raspberry Pi. Model uporablja log-spektrograme kot vhodne podatke za razvrščanje ali luščenje značilk zvoka, ki se lahko uporabijo za povezovanje enakih zvočnih dogodkov med različnimi kanali.
Izračun TDOA temelji na metodi GCC-PHAT, ki se izkaže za robustno pri obdelavi močno pošumljenih signalov. Metoda izboljšuje natančnost meritev tako, da poudarja fazno komponento signala, kar zmanjšuje vpliv hrupa in odmevov.
Eksperimentalni rezultati kažejo natančnost sinhronizacije v okviru 1 ms, kar pomeni napako v razdalji 34,3 cm. Razvrščanje zvočnih dogodkov modela MobileNetV2 smo ovrednotili v privzeti obliki s polno 32-bitno ločljivostjo in v kvantizirani obliki z 8-bitno ločljivostjo. Po kvantizaciji modela je bila natančnost razvrščanja na UrbanSound8K zbirki nekoliko zmanjšana (iz 55,4% na 44%). Pri testiranju na zasebni zbirki podatkov CTFE je model s polno ločljivostjo dosegel natančnost 97%, kvantiziran model pa 78%. V posebnem eksperimentu je bil model naučen na učnih podatkih iz UrbanSound8K, nato uporabljen za luščenje vložitev vzorcev iz zasebne CTFE zbirke, ki za to mrežo predstavljajo še nevidene dogodke. Globoke vložitve zvočnih dogodkov smo posredovali enostavnejšemu razvrščevalniku, ki uporablja metodo najbližjega soseda. Testnim vzorcem iz CTFE so bile pripisane oznake razreda najbližjega učnega vzorca iz CTFE, pri čemer je bila izbrana metrika razdalja Minkowskega tretjega reda. Razvrščanje takšnih še nevidenih dogodkov iz zbirke CTFE na podlagi vložitev je prineslo visoko natančnost (96%) tudi pri kvantiziranem modelu, kar nakazuje njegovo zmožnost generalizacije in dobro kakovost izluščenih značilk. Ovrednoteno je bilo tudi trajanje inference kvantiziranega modela na napravi Raspberry Pi, opremljeni s pospeševalnikom Coral.AI, in sicer 11,57 ms ± 0,17 ms.
Lokalizacija vira zvoka je bila izvedena z metodo Gauss-Newton na podlagi meritev TDOA in RSSI. Za TDOA je bila dosežena srednja kvadratna napaka (RMSE) 1,36 m, medtem ko je bila za RSSI izračunana RMSE 3,13 m. Metoda, ki temelji na TDOA meritvah, je pokazala boljše rezultate glede na velikost napake in hitrost konvergiranja algoritma. Izvedeni so bili tudi testi pri različnih razmerjih signal-šum (SNR), ki so pokazali, da optimizacijska metoda začne divergirati pri SNR pod 18 dB.
Ta študija predstavlja pomembne dosežke na področju strojnega sluha, predvsem pri razvoju porazdeljenega omrežja senzorjev za lokalizacijo in razvrščanje zvočnih dogodkov v realnem času. Sistem smo uspešno preizkusili v realnih okoljih, kjer se je metoda TDOA izkazala za natančnejšo, s srednjo kvadratno napako 1,36 m v odmevnem prostoru. Pripravljen je bil tudi nov nabor podatkov CTFE, ki vključuje 502 zvočna primera treh kategorij, ki so ploskanje, tleskanje in kliki. Poleg tega smo pripravili kvantizirano globoko nevronsko mrežo, ki je dosegla natančnost 96% pri razvrščanju še nevidenih dogodkov. S tem smo predstavili prvo študijo, ki se v zadnjih letih v Laboratoriju za strojno inteligenco Fakultete za elektrotehniko na Univerzi v Ljubljani osredotoča na zvok, kar odpira nova raziskovalna področja za prihodnost.
|