PHONAK INSIGHT
Phonak Insight
Giugno 2024: Henning Hasemann, Alena Krylova
Gli utenti di apparecchi acustici incontrano spesso difficoltà quando devono confrontarsi con il rumore di fondo. Ad oggi, l'intelligenza artificiale (AI) non è stata utilizzata per affrontare direttamente questo problema. Phonak Audéo Sphere Infinio dotato di Spheric Speech Clarity è una soluzione basata sull'intelligenza artificiale progettata per affrontare la riduzione del rumore, eliminando efficacemente i suoni indesiderati e mantenendo il segnale vocale in tempo reale, con un miglioramento del rapporto Segnale/Rumore fino a 10 dB. Questo risultato è alimentato dal Chip Neurale Integrato Deep Spheric Ottimizzato (DEEPSONICTM) di Phonak e dall'Audio Quality Estimator DNN.
Punti salienti
- Spheric Speech Clarity, introdotto con Phonak Audéo Sphere In昀椀nio, o昀昀re una separazione del parlato dal rumore senza precedenti, sfruttando la potenza delle reti neurali profonde.
- Il chip di elaborazione con reti neurali DEEPSONICTM è impareggiabile nel settore.
- La rete neurale profonda (DNN) Audio Quality Estimator permette di prevedere le valutazioni umane per l'audio su larga scala ed è un fattore chiave per il successo di Spheric Speech Clarity.
Considerazioni per la pratica
- Spheric Speech Clarity distingue il suono desiderato da quello indesiderato, eliminando quest'ultimo dal segnale. Ciò comporta un miglioramento di 10 dB del rapporto Segnale/Rumore (SNR) nelle conversazioni di gruppo complesse (Raufer et al., 2024).
- Uno studio clinico di ricerca sul piano percettivo condotto presso il Phonak Audiological Research Center (PARC) ha dimostrato che il vantaggio tecnico di Spheric Speech Clarity si traduce in un raddoppio della probabilità di comprendere il parlato in uno scenario complesso di parlato in presenza di rumore (rispetto alla condizione senza Spheric Speech Clarity), e la comprensione del parlato aumenta fino al 36,8% rispetto a due dispositivi leader della concorrenza (Wright, A., et al., 2004).
- I risultati dello studio clinico confermano che Spheric Speech Clarity offre benefici percettivi con il doppio della probabilità di comprendere il parlato in un ambiente rumoroso complesso, da qualsiasi direzione (Wright et al., 2024).
- L'Audio Quality Estimator consente di prevedere le valutazioni umane per l'audio su larga scala, supportando la valutazione accurata e affidabile del rumore, della qualità sonora e delle preferenze; ciò è fondamentale per lo sviluppo di approcci di apprendimento profondo che mirano a migliorare la comprensione del parlato, come Spheric Speech Clarity.
- DEEPSONICTM è in grado di accelerare una grande varietà di tipi di reti neurali e offre un'enorme flessibilità per le applicazioni future.
Introduzione
Il rumore ambientale ha sempre rappresentato una sfida e un ostacolo significativi per l'adeguata comprensione del parlato da parte degli utenti di apparecchi acustici. Nonostante i significativi miglioramenti nelle capacità di riduzione del rumore degli apparecchi acustici, la comunicazione in ambienti rumorosi rimane uno degli scenari in cui gli utenti di apparecchi acustici sono meno soddisfatti dei loro dispositivi (Appleton-Huber, 2022). Il mercato degli apparecchi acustici ha visto una quantità notevole di funzioni basate sull'intelligenza artificiale (AI), come i progressi nella classificazione della scena acustica o il supporto all'utente per la configurazione degli apparecchi acustici. Tuttavia, i produttori di apparecchi acustici hanno affrontato il denoising, ovvero il processo di rimozione del rumore da un segnale in tempo reale, utilizzando principalmente tecniche convenzionali di elaborazione del segnale, come i coni direzionali, piuttosto che usare l'intelligenza artificiale (Hasemann & Krylova, 2024).
Nuove scoperte indicano che l'apprendimento profondo, una branca specializzata dell'AI, ha il potenziale per ridurre in modo significativo il rumore di fondo, portando a notevoli miglioramenti nell'intelligibilità del parlato per le persone che utilizzano apparecchi acustici (Diehl et al., 2023).
Spheric Speech Clarity è una soluzione basata su rete neurale profonda (DNN) all'avanguardia, sviluppata da Phonak per affrontare ancora meglio il famigerato problema dell'effetto "cocktail party". Secondo le nostre informazioni, è il modello di questo tipo con le migliori prestazioni a oggi disponibile sul mercato. Abbinato al più recente sistema di apprendimento automatico (ML) AutoSense OS 6.0 (Appleton-Huber, 2015), che riconosce le situazioni acustiche in tempo reale, Spheric Speech Clarity affronta direttamente il compito della riduzione del rumore, distinguendo tra suoni desiderati e indesiderati e rimuovendo questi ultimi dal segnale. Ciò comporta un miglioramento di 10 dB del rapporto Segnale/Rumore (SNR) nelle conversazioni di gruppo complesse (Raufer et al., 2024). A differenza dei sistemi basati su regole che cercano di filtrare i suoni indesiderati, Spheric Speech Clarity emula la percezione umana nel riconoscimento e nell'elaborazione del suono. Questo articolo si propone di approfondire Spheric Speech Clarity, il suo sviluppo e i meccanismi che stanno alla base.
Concetti chiave dell'intelligenza artificiale
L'intelligenza artificiale è una tecnologia informatica che si occupa di simulare nelle macchine alcuni aspetti dell'intelligenza umana, come l'apprendimento, il ragionamento, la risoluzione di problemi e la percezione. Alcuni algoritmi di AI, come i sistemi basati su regole e i sistemi esperti, si basano sulla deduzione logica e/o utilizzano regole e basi di conoscenza predefinite per risolvere i problemi. Gli approcci più moderni all'intelligenza artificiale, come l'apprendimento automatico e, in particolare, l'apprendimento profondo, sono in grado di apprendere comportamenti complessi dagli esempi e di comportarsi correttamente in situazioni nuove (Chatterjee & Zielinski, 2022).
Il "cervello" di un'applicazione di apprendimento automatico è una struttura matematica chiamata modello, che contiene variabili regolabili chiamate parametri. Nel processo di addestramento, il modello viene introdotto a punti di dati esemplificativi, denominati dati di addestramento. Durante questo processo, i parametri sono sottoposti a continui aggiustamenti, che portano gradualmente alla generalizzazione, ovvero alla capacità del modello di fare previsioni accurate su dati non ancora visti. Una volta che l'addestramento è stato completato e il modello ha appreso schemi e relazioni da quei dati, può essere utilizzato per l'inferenza oppure, in altre parole, per l'uso pratico.
Le reti neurali sono un tipo specifico di modello di apprendimento automatico, noto per la sua capacità di modellare compiti simili alla percezione. Come la maggior parte degli altri approcci di apprendimento automatico, l'addestramento si svolge con un gran numero di esempi di input e output previsti. La struttura del modello si ispira ai neuroni dei cervelli biologici. Le reti neurali profonde (DNN) sono reti neurali particolarmente complesse che hanno recentemente guadagnato una grande popolarità grazie alla capacità di modellare relazioni molto complesse tra input e output riuscendo comunque a generalizzare correttamente da esse.
Spheric Speech Clarity
Spheric Speech Clarity, introdotto per la prima volta con Phonak Audéo Infinio Sphere, è un nuovo sistema proprietario
di elaborazione del suono basato su DNN che rivoluziona la comprensione del parlato negli ambienti acustici più difficili.
È la prima tecnologia per apparecchi acustici che sfrutta appieno la potenza dell'intelligenza artificiale per separare il parlato dal rumore.
Questa sezione esamina più da vicino i sistemi coinvolti nell'elaborazione del segnale con Spheric Speech Clarity.
Si concentrerà in particolare sullo scenario uditivo più impegnativo, il "Parlato con rumore di fondo elevato", che implica situazioni con un alto livello di rumore di fondo, in cui l'obiettivo è recuperare il più possibile la comprensione del parlato. I paragrafi seguenti illustrano l'elaborazione del segnale, rappresentata nella Figura 1 da sinistra a destra. Nella fase finale, il segnale viene ulteriormente regolato con le consuete fasi di elaborazione, come l'applicazione del guadagno.
AutoSense OS
L'elaborazione del segnale inizia con AutoSense OS analizzando la scena sonora per determinare il tipo di elaborazione necessaria a massimizzare i benefici per l'utente in un contesto specifico.
Dopo la classificazione della scena, il microfono viene opportunamente regolato in base ai parametri di fitting dell'utente per ripristinare un certo grado di consapevolezza spaziale. L'impostazione predefinita è "direzionale fisso", poiché le misurazioni hanno dimostrato che produce i migliori risultati di elaborazione per la maggior parte degli utenti.
Spheric Speech Clarity
Nella fase successiva, Spheric Speech Clarity identifica e rimuove il rumore indesiderato dal segnale audio, conservando solo il parlato. Questo è il passaggio chiave per migliorare drasticamente la comprensione del parlato. Il cavallo
di battaglia della separazione tra parlato e rumore fornita da Spheric Speech Clarity è una rete neurale profonda con
4,5 milioni di parametri, addestrata appositamente per questo scopo. Spheric Speech Clarity DNN è stata addestrata su
22 milioni di campioni sonori per renderla adatta a tutte le possibili situazioni in cui la chiarezza del parlato è rilevante. Spheric Speech Clarity riceve in ingresso uno spettro completo di 64 frequenze, ciascuna delle quali ha una componente
reale e una immaginaria (lo si può anche pensare in termini di frequenza e fase). Questo spettro contiene le informazioni complete del segnale audio, in modo che l'elaborazione successiva possa lavorare con la massima precisione. Da qui, la DNN calcola una mascherina a 64 frequenze che separa il parlato dal rumore e che viene poi applicata al segnale audio.
DEEPSONICTM
Come discusso in Hasemann & Krylova 2024, fornire hardware con le prestazioni che i modelli di approfondimento profondo richiedono non è un compito facile. Il tipo di calcolo richiesto dipende fortemente dal tipo di rete neurale, come le CNN (Venkatesan & Baoxin, 2017) o le RNN (Dupond, 2019), e in genere non può essere gestito in modo adeguatamente efficiente dai normali chip di trattamento digitale del segnale (DSP).
In pratica, questi calcoli sono di solito piuttosto impegnativi dal punto di vista delle risorse, poiché il termine "profondo" nel nome si riferisce a una lunga sequenza di calcoli. Pertanto, per essere calcolati in modo efficiente, necessitano di un hardware con prestazioni adeguate. Sia lo spazio che la potenza sono notoriamente ridotti negli apparecchi acustici, per cui la progettazione di un hardware in grado di affrontare questo compito rappresenta una sfida considerevole.
Per facilitare lo svolgimento delle 7.700 milioni di operazioni al secondo necessarie per calcolare la DNN in Spheric Speech Clarity, Phonak ha sviluppato DEEPSONICTM, il più avanzato chip di elaborazione con reti neurali profonde in un apparecchio acustico.
Al momento del lancio, DEEPSONICTM ha una potenza di calcolo di 53 volte superiore a qualsiasi altro chip utilizzato nel settore degli apparecchi acustici. È in grado di accelerare una grande varietà di tipi di reti neurali e offre un'enorme flessibilità per le applicazioni future. Nel caso di Spheric Speech Clarity, DEEPSONICTM esegue i calcoli con una velocità di elaborazione di 50 MHz su 420 milioni di transistor.
Reti neurali profonde
Le reti neurali vengono comunemente introdotte usando un'analogia con i neuroni dei cervelli biologici. Sebbene questa analogia non sia sbagliata (dopotutto dà alle reti neurali il loro nome), a volte può sembrare un po' nebulosa o persino misteriosa. Inoltre, i calcoli delle reti neurali artificiali, pur essendo affini, non sono identici a quelli dei cervelli biologici.
Sotto la superficie, un modello di rete neurale è costituito da strati di semplici calcoli come quello mostrato nella Figura 2. Ovvero, si hanno degli input (in questo caso x1, x2, ...) e dei parametri w1,1, w1,2, ...
Un singolo strato è costituito di operazioni molto semplici (in gran parte addizioni e moltiplicazioni), ma la rete neurale completa può diventare molto complessa grazie al concatenamento di più strati. Quando una rete neurale contiene molti strati, viene chiamata rete neurale profonda.
I parametri (w) sono valori numerici determinati durante l'addestramento (v. sotto). I valori degli input (x), invece, sono quelli che entrano nella rete in fase di esecuzione. Nel caso di Spheric Speech Clarity, si tratta dello spettrogramma completo del suono che contiene 64 frequenze e fasi, quindi si avranno valori da x1 a x128.
Flusso di lavoro per l'addestramento e la valutazione
L'addestramento di un modello di rete neurale è un processo di ottimizzazione. Dato un certo numero di esempi (input e output previsto), i parametri vengono ottimizzati in modo tale che il modello "impari" a produrre gli output previsti per tutti gli input dati. Per un modello di riduzione del rumore, gli input di esempio si riferiscono a frammenti di audio rumoroso e gli output attesi al parlato pulito. Se questa operazione viene eseguita correttamente, la rete funzionerà bene anche su input che non ha mai visto prima. In questo caso diciamo che il modello è in grado di generalizzare bene.
È proprio la generalizzazione a rendere questo approccio così utile: esistono combinazioni possibili praticamente infinite di rumori e voci umane che dicono cose diverse. Anche con la serie di dati più grande possibile, non si potrebbe mai sperare di incontrarle tutte durante l'addestramento, quindi è necessario un modello che possa lavorare bene con situazioni che non ha mai visto prima.
Ma come è possibile sapere quanto un modello è in grado di generalizzare bene? Come si fa a stabilire che il modello è stato addestrato a sufficienza e che l'output è "migliore" del parlato rumoroso dell'input? Come possiamo confrontare i diversi modelli tra loro?
Un modo per rispondere a tutte queste domande è ovviamente dato dai vari tipi di studi sugli utenti, in cui gli esseri umani valutano l'audio in determinati modi. Per confrontare molti modelli in diverse fasi di addestramento, questo approccio non risulta ben scalabile, quindi viene integrato con una procedura di valutazione automatica.
La Figura 3 illustra il flusso di lavoro generale (semplificato) della procedura di valutazione: dopo aver creato un set di esempi di parlato rumoroso e pulito, ne viene separata una piccola porzione, che chiamiamo serie di dati di valutazione. Il resto costituisce la serie di dati di addestramento. Successivamente, vengono addestrati diversi modelli utilizzando la serie di dati di addestramento. Per capire quanto sono buone le prestazioni di uno di questi modelli (ad esempio, per decidere se è possibile interrompere l'addestramento), esso viene valutato. Più precisamente, una selezione di esempi di parlato rumoroso viene selezionata dalla serie di dati di valutazione ed esaminata per vedere quale output produce il modello su di essi. Successivamente, viene calcolato un valore (v. sotto) sull'output, ottenendo un punteggio che indica quanto è "buono" il suono restituito da ogni modello.
In base a questo punteggio si decide come procedere e se vale la pena di seguire un determinato approccio. Senza questo passaggio, avremmo poche possibilità di trovare un buon DNN per qualsiasi caso d'uso in cui la generalizzazione è importante.
Formazione
È stato già rilevato che una DNN fondamentalmente è un calcolo matematico con alcuni parametri che vengono ottimizzati in un processo di addestramento. In questa sezione viene analizzato più da vicino la modalità di addestramento delle DNN in generale e di Spheric Speech Clarity in particolare.
In modo leggermente semplificato, la procedura di addestramento di una singola DNN funziona così:
1. Si inizia con parametri del modello casuali
2. Si prende un esempio di input e output desiderati
3. Viene calcolata per questo esempio la discrepanza tra l'output della rete e l'output desiderato
4. Tutti i parametri vengono regolati leggermente in modo da migliorare questa discrepanza
5. Si continua con il secondo passaggio utilizzando un altro esempio
Questo processo viene ripetuto molte volte ed è quindi molto intenso in termini dei calcoli eseguiti. L'addestramento delle DNN richiede hardware costoso nei centri di calcolo e, a seconda del modello, può richiedere mesi di soli calcoli per essere completato.
Nel caso di Spheric Speech Clarity, è necessario un po' di lavoro in più per tenere conto degli effetti dati dall'esecuzione delle DNN su un piccolo chip all'interno di un apparecchio acustico: l'hardware che utilizziamo per addestrare la DNN
è molto diverso dal chip dell'apparecchio acustico che poi la eseguirà. Per risolvere tale problema, dobbiamo adottare misure per garantire che il modello sia addestrato tenendo conto di queste differenze. Infine, un aspetto importante è il consumo di energia. Durante l'addestramento, ci assicuriamo che il modello in sviluppo sia quanto più efficiente possibile
dal punto di vista energetico, in modo che il cliente possa avere la massima durata della batteria nonostante i calcoli complessi che vengono eseguiti.
Audio Quality Estimator
Per la valutazione di un frammento di dati audio, ad esempio durante l'addestramento per Spheric Speech Clarity, è rilevante misurare i seguenti parametri:
- Quanto rumore contiene?
- Quanto è buona la qualità sonora? Vi sono distorsioni?
- Complessivamente, quanto piace il suono?
In uno studio tipico sugli esseri umani, questi dati verrebbero raccolti come punteggi medio di opinione (Mean Opinion Scores, MOS) (ITU-T 2017). Per ottenere il miglior modello possibile per la chiarezza del parlato, è fondamentale misurare accuratamente questi punteggi per una grande quantità di modelli diversi su molte scene sonore differenti. Solo in questo modo è possibile garantire che il prodotto fornisca un parlato chiaro e affidabile in qualsiasi situazione. Misurare la percezione del suono su questi diversi assi permette di scegliere il miglior compromesso tra di essi. A causa del gran numero di misurazioni necessarie per monitorare e controllare il nostro flusso di lavoro per l'addestramento delle DNN per Spheric Speech Clarity, non sarebbe possibile ottenerle tutte direttamente da valutatori umani; è necessario un modo per automatizzarle. Questa idea non è nuova: oggi esiste una varietà di parametri che cercano di misurare le proprietà del suono sopra menzionate o altre simili. Ad esempio, l'algoritmo ESTOI (extended short- time objective intelligibility), proposto da Jensen & Taal 2016, incorpora la classifficazione delle caratteristiche dello spettrogramma in base alla loro importanza per l'intelligibilità del parlato, il che consente di prevedere l'intelligibilità del parlato senza la necessità di test di ascolto umani costosi e dispendiosi in termini di tempo.
Purtroppo, i parametri esistenti non coprono tutti e tre gli aspetti di interesse di cui sopra ed è stato rilevato che non forniscono indicazioni utili per la selezione di buone DNN (piuttosto, il processo di selezione rivelerebbe le debolezze dei parametri). Inoltre, tali parametri sono generalmente invasivi, ovvero richiedono la disponibilità di un riferimento vocale pulito, il che le rende impossibili da utilizzare per le registrazioni rumorose del mondo reale.
Per catturare la percezione umana dell'audio in termini di rumore, qualità sonora e preferenza generale, è stato addestrato un modello di rete neurale profonda, l'Audio Quality Estimator DNN. Mentre la DNN Spheric Speech Clarity è stata addestrata per convertire l'audio rumoroso in audio pulito, questo modello parametrico è stato addestrato per valutare i punteggi di opinione che i valutatori umani darebbero a un dato frammento audio.
Circa 350 valutatori umani hanno valutato il rumore, la qualità sonora e la preferenza generale di 30.000 file, per un totale di quasi 1 milione di valutazioni umane (ogni file è stato valutato da 9 valutatori diversi, vedi Figura 4). Il risultato è un modello DNN in grado di prevedere le valutazioni umane di qualsiasi dato audio senza la necessità di un riferimento vocale pulito nelle categorie "rumore", "qualità sonora" e "punteggio complessivo" in modo più accurato di qualsiasi altro strumento di valutazione disponibile. La Figura 5 mostra un confronto con diversi altri parametri.
Verifica
Riteniamo che il DNN Audio Quality Estimator sia uno dei contributi maggiormente straordinari e unici di Phonak al settore e, insieme al chip DEEPSONICTM, uno dei componenti chiave nel permetterci di portare Spheric Speech Clarity sul mercato.
Oltre a utilizzare l'Audio Quality Estimator durante l'addestramento, nell'ultima fase di sviluppo la DNN Spheric Speech Clarity è stata sottoposta a una lunga e rigorosa serie di test per garantire al cliente un prodotto di alta qualità.
La Tabella 1 fornisce una panoramica della portata dei test sui pregiudizi condotti.
Conclusioni
Sebbene siano stati introdotti numerosi sviluppi basati sull'intelligenza artificiale nel mercato degli apparecchi acustici, ad oggi la tecnologia non è stata sfruttata appieno per affrontare una delle sfide principali per gli utenti:
la comprensione del parlato negli ambienti rumorosi.
Sviluppato da esperti di ingegneria AI di livello internazionale, Phonak Audéo Sphere Infinio porta sul mercato Spheric Speech Clarity, la pionieristica soluzione di apprendimento profondo di Phonak. Spheric Speech Clarity permetterà a milioni di utenti di apparecchi acustici di godersi le interazioni sociali in ambienti rumorosi come bar, ristoranti, incontri sociali o trasporti pubblici.
Questa soluzione software è resa possibile da due sviluppi fondamentali: DEEPSONICTM, il primo chip di elaborazione DNN con una potenza di elaborazione tale da poter essere inserito in un apparecchio acustico e l'Audio Quality Estimator DNN, che consente di prevedere la qualità sonora percepita in frammenti audio su larga scala.
Questo approfondimento ha offerto uno sguardo dietro le quinte sullo sviluppo di Spheric Speech Clarity. Il duro lavoro svolto da Phonak per sviluppare Spheric Speech Clarity migliorerà la vita di innumerevoli persone e stabilirà un nuovo punto di riferimento nel settore come standard di eccellenza.
Bibliografia
Åleskog, C., Grahn, H., & Borg, A. (2022). Recent Developments in Low-Power AI Accelerators: A Survey. Algorithms 2022, 15, 419. https://doi.org/10.3390/a15110419.
Appleton-Huber, J. (2022). What Is Important to Your Hearing Aid Clients... and Are They Satisfied? Retrieved March 18th, 2024, from https://hearingreview.com/hearing-loss/patient- care/counseling-education/what-important-to-your-hearing- aid-clients-are-they-satisfied.
Appleton-Huber, J. (2015). AutoSense OS - Benefit of the next generation of technology automation. Phonak Field Study News tratto da https://www.phonak.com/evidence
Chatterjee, S., & Zielinski, P. (2022). On the Generalization Mystery in Deep Learning. arXiv preprint arXiv:2203.10036.
Diehl, P. U., Singer, Y., Zilly, H., Schönfeld, U., Meyer-Rachner, P., Berry, M., Sprekeler, H., Sprengel, E., Pudszuhn, A. & Hofmann, V. M. (2023). Restoring speech intelligibility for hearing aid users with deep learning. Sci Rep. 13(1), 2719. doi: 10.1038/s41598- 023-29871-8.
Diehl, P. U., Thorbergsson, L., Singer, Y., Skripniuk, V., Pudszuhn, A., Hofmann, V. M., Sprengel, E. & Meyer-Rachner, P. (2022). Non-intrusive deep learning-based computational speech metrics with highaccuracy across a wide range of acoustic scenes. PLoS ONE 17(11): e0278170. https://doi.org/10.1371/ journal.pone.0278170.
Dupond, S. (2019). A thorough review on the current advance of neural network structures. Annual Reviews in Control. 14, 200–230.
Hasemann, H., & Krylova, A. (2024). Artificial intelligence in hearing aid technology. Consultato l'8 maggio 2024,
da https://www.phonak.com/content/dam/phonak/en/ evidence-library/white-paper/technical-paper/PH_Insight_ ArtificialIntelligenceInHearingAidTechnology.pdf. ITU-T Rec. P.10/G.100 (2017) Vocabulary for performance, quality of service and quality of experience.
Jensen, J., Taal, C. H. (2016). An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers, in IEEE/ACM Transactions on Audio, Speech, and Language Processing. 24(11), 2009-2022. doi: 10.1109/ TASLP.2016.2585878.
Raufer, S., Kohlhauer, P., Jehle, F., Kühnel, V., Preuss, M., & Hobi, S. (2024). Spheric Speech Clarity proven to outperform three key competitors for clear speech in noise. Phonak Field Study News tratto da https://www.phonak.com/evidence
Reuther, A., Michaleas, P., Jones, M., Gadepally, V., Samsi, S., & Kepner, J. (2019). Survey and benchmarking of machine learning accelerators. In 2019 IEEE high performance extreme computing conference (HPEC),1-9. IEEE.
Venkatesan, R., & Li, B. (2017). Convolutional Neural Networks in Visual Computing: A Concise Guide. CRC Press. ISBN 978-1- 351-65032-8.
Wright, A., et al “Spheric Speech Clarity applies DNN signal processing to significantly improve speech understanding from any direction and reduce the listening effort.” Phonak Field Study News in preparazione, pubblicazione prevista per agosto 2024.
Wright, A., Kuehnel, V., Keller, M., Seitz-Paquette, K., Latzel, M. (2024) “Spheric Speech Clarity applies DNN signal processing to significantly improve speech understanding from any direction and reduce the listening effort.” Phonak Field Study News tratto da https://www.phonak.com/evidence