Phonak Field Study News
phonak field study news
Raufer, S., Kohlhauer, P., Uhlemayr, F., Kühnel, V., Preuss, M. & Hobi, S. August 2024.
Con Phonak Audéo SphereTM Infinio, Phonak introduce un cambiamento radicale per rispondere all'esigenza numero uno dei clienti:
la comprensione del parlato nel rumore.
Il primo apparecchio acustico al mondo con un chip dedicato all'intelligenza artificiale (AI) che dà priorità al parlato rispetto al rumore proveniente da qualsiasi direzione, in tempo reale. L'architettura proprietaria del chip di Phonak, DEEPSONICTM, ha una potenza di elaborazione 53 volte superiore rispetto all'attuale tecnologia dei chip del settore.* Questo documento illustra i risultati delle misurazioni tecniche che dimostrano che DEEPSONIC offre un livello di parlato nitido e chiaro di gran lunga superiore all'attuale tecnologia acustica.
Introduzione
Negli ultimi 75 anni, Phonak si è impegnata a soddisfare l'esigenza numero 1 dei consumatori: la comprensione del parlato nel rumore. La comprensione del parlato nel rumore è una delle situazioni d'ascolto più difficili per le persone con ipoacusia e uno dei fattori predittivi più importanti della soddisfazione degli utilizzatori per gli apparecchi acustici (Abrams & Kihm, 2015). Gli utenti di apparecchi acustici necessitano di un rapporto Segnale/Rumore (SNR) migliore rispetto agli ascoltatori normoudenti per ottenere le stesse prestazioni di intelligibilità del parlato (Killion, 1997).
Tecnologia dei microfoni direzionali
Un metodo consolidato per migliorare la comprensione del parlato nel rumore è l'utilizzo della tecnologia dei microfoni direzionali, nota anche come beamforming. In questo caso, due microfoni lavorano insieme per aumentare la sensibilità alla direzione anteriore e ridurre la sensibilità a tutte le altre direzioni, formando così un "fascio" virtuale (Derleth et al., 2021).
L'uso di microfoni direzionali comporta vantaggi in termini di SNR per la direzione anteriore (Ricketts, 2005). Il miglioramento dell'SNR si traduce in una migliore intelligibilità del parlato in situazioni rumorose, in cui il discorso target si trova nell'emisfero frontale e il rumore viene presentato lateralmente e posteriormente (Mueller, 2000; Bentler, 2005). Gli apparecchi acustici Phonak utilizzano il microfono direzionale fisso e la tecnologia UltraZoom nei programmi di parlato nel rumore da oltre due decenni.
StereoZoom, introdotto nel 2012 con i prodotti Phonak Quest, è un sistema di beamforming binaurale che combina i segnali di quattro microfoni (due nell'apparecchio acustico sinistro e due nel destro) tramite un collegamento wireless, ottenendo un cono direzionale più stretto con un miglioramento dell'SNR ancora maggiore per la parte anteriore. Vari studi hanno dimostrato una migliore intelligibilità del parlato con StereoZoom rispetto ad altre tecnologie di microfono direzionale degli apparecchi Phonak e della concorrenza (Appleton & König, 2014, Latzel & Appleton-Huber, 2015).
StereoZoom 2.0 (SZ 2.0), introdotto nel 2022 con Phonak Lumity, è stato progettato per bilanciare la consapevolezza spaziale a livelli di rumore più bassi con la concentrazione sul parlato a livelli di rumore più alti, grazie alla transizione da UltraZoom a StereoZoom 2.0 in funzione del livello di rumore. L'intensità di SZ 2.0 si adatta all'ambiente in base al livello di rumore (la messa a fuoco aumenta con l'aumentare del livello di rumore). Rispetto a UltraZoom e StereoZoom, SZ 2.0 offre un SNR migliore in ambienti di ascolto difficili. Gli apparecchi acustici Phonak AudéoTM R Infinio continueranno a utilizzare StereoZoom 2.0 nei programmi di parlato con rumore di fondo elevato.
Separazione del parlato dal rumore basata su DNN
Phonak Audéo SphereTM Infinio è il primo apparecchio acustico al mondo con un chip dedicato all'intelligenza artificiale (AI), DEEPSONICTM, che introduce un cambiamento radicale nella tecnologia dell'udito. Il chip proprietario ospita un algoritmo di rete neurale profonda (DNN) che sopprime in modo significativo il rumore di fondo proveniente da qualsiasi direzione, portando a notevoli miglioramenti nell'intelligibilità del parlato per le persone che utilizzano apparecchi acustici (Diehl et al., 2023). Con DEEPSONIC sono arrivate le capacità tecniche per liberare tutto il potenziale degli algoritmi basati sul deep learning nella tecnologia degli apparecchi acustici.
L'architettura del chip DEEPSONIC è 53 volte più potente rispetto agli attuali standard del settore ed è dedicata a fornire una chiarezza del parlato senza precedenti nel rumore. DEEPSONIC è alla base di Spheric Speech Clarity, la nuova funzione di riduzione del rumore di Phonak basata su DNN che rivoluziona l'elaborazione del segnale negli ambienti acustici più difficili per affrontare il famigerato problema dell'effetto "cocktail party".
AutoSense OS 6.0, negli apparecchi acustici Phonak Audéo Sphere Infinio, è in grado di identificare gli ambienti acustici difficili per passare automaticamente al programma Spheric Speech con rumore di fondo elevato. Spheric Speech con rumore di fondo elevato è la combinazione unica di tecnologia di microfoni direzionali e Spheric Speech Clarity.
Questo Field Study News descrive uno studio tecnico sistematico che esamina le prestazioni di Phonak Audéo Sphere Infinio con Spheric Speech Clarity e Phonak Audéo R Infinio con StereoZoom 2.0 in ambienti di ascolto difficili rispetto ai principali prodotti della concorrenza.
Risultati delle misurazioni tecniche
La Figura 1 presenta la progressione delle tecnologie Phonak e mostra i vantaggi del rapporto Segnale/Rumore (SNR) rispetto a un microfono omnidirezionale. Maggiore è l'SNR, migliore è la capacità dell'apparecchio acustico di separare il parlato dal rumore, con il risultato di un parlato più chiaro per il cliente.
Con un'impostazione fissa del microfono direzionale, è possibile ottenere un vantaggio di 2,9 dB di SNR in situazioni di ascolto realistiche con il parlante di fronte. Con l'introduzione di algoritmi di cancellazione del rumore, come NoiseBlock e la Cancellazione Dinamica del Rumore (DNC), il vantaggio in termini di SNR potrebbe migliorare da 2,9 dB a 5,1 dB.
StereoZoom 2.0, in combinazione con NoiseBlock e DNC, offre un ulteriore miglioramento dell'SNR, per un totale di 6,4 dB.
In questo modo si sottolinea che le note tecnologie all'avanguardia di Phonak in materia di microfoni direzionali e riduzione del rumore sono fondamentali per il successo dei clienti che utilizzeranno gli apparecchi acustici Phonak Infinio.
Spheric Speech Clarity va oltre l'attuale tecnologia acustica. Spheric Speech Clarity, in combinazione con un microfono direzionale fisso, offre un miglioramento dell'SNR senza precedenti, pari a 9 dB a potenza predefinita e 10,2 dB a potenza massima. L'intensità di Spheric Speech Clarity può essere regolata dall'audioprotesista con Phonak Target e dal cliente con myPhonak.
Spheric Speech Clarity non è solo la tecnologia più performante di Phonak fino ad oggi, ma supera anche le prestazioni di
tre concorrenti chiave, consentendo al cliente di concentrarsi su ciò che è rilevante durante le conversazioni in un ambiente di ascolto difficile.
Leader nel settore per la trasmissione di parlato chiaro
La Figura 2 mette a confronto le prestazioni SNR del programma Spheric Speech con rumore di fondo elevato di Phonak Audéo I90-Sphere con il programma Spheric Speech con rumore di fondo elevato (con StereoZoom 2.0) di Phonak Audéo I90-R e con tre apparecchi acustici della concorrenza (livello premium), con e senza tecnologia AI (disponibili sul mercato dal 26 marzo 2024. Vedi i metodi per i dettagli del fitting). Qui viene mostrato il miglioramento dell'SNR rispetto a una condizione senza apparecchio acustico.
Phonak Audéo I90-Sphere offre uno sbalorditivo miglioramento dell'SNR di 5,9 dB in scenari di rumore realistici, seguito da Phonak Audéo I90-R con un miglioramento dell'SNR di 4,8 dB. Spheric Speech Clarity e StereoZoom 2.0 superano rispettivamente i tre dispositivi concorrenti, che mostrano solo miglioramenti dell'SNR tra 2,2 e 3,3 dB.
Spheric Speech Clarity amplia l'accesso al parlato da qualsiasi direzione
Gli esseri umani si affidano all'udito per sapere dove guardare e come posizionare il corpo nell'ambiente circostante, il che aiuta a formare una rappresentazione mentale del mondo uditivo (Derleth et al., 2021). Questo consente di concentrarsi sulle conversazioni, ma anche sulla consapevolezza del parlato indiretto e dei suoni nell'ambiente circostante. Mentre i nostri occhi sono concentrati sul davanti, le nostre orecchie raccolgono informazioni importanti da tutte le direzioni.
Gli ascoltatori con ipoacusia potrebbero sforzarsi di più per mantenere la consapevolezza dell'ambiente circostante rispetto agli ascoltatori normoudenti. Analogamente alla compensazione della ridotta intelligibilità del parlato per migliorare la comprensione, gli sforzi extra che vengono fatti sulle attività uditive come la consapevolezza ambientale possono compromettere la disponibilità delle risorse cognitive dedicate ad altri scopi (Edwards, 2016). Spheric Speech Clarity è stata analizzata in uno studio clinico condotto presso il Phonak Audiological Research Center (PARC) per valutare la comprensione del parlato e lo sforzo uditivo. I risultati di questo studio dimostrano che il beneficio in termini di SNR misurato in questo studio tecnico si traduce in un beneficio percettivo dell'udito in soggetti con ipoacusie da moderate a moderatamente gravi.
I risultati di uno studio su un compito di intelligibilità del parlato complesso, con stimoli tratti dal corpus Coordinate ResponseMeasure (CRM) Task, hanno indicato che i partecipanti avevano una probabilità due volte maggiore di capire ogni parola da qualsiasi direzione (angolo testato 60, 120, 240 e 300 gradi) rispetto alle situazioni con le funzioni disattivate (Wright et al, 2024). Rispetto ai due principali dispositivi concorrenti, Spheric Speech Clarity è stato in grado di fornire una possibilità di comprensione del parlato da 2 a 3 volte maggiore (Wright et al, 2024).
Una riduzione significativa dello sforzo uditivo con Spheric Speech Clarity (rispetto alla funzione disattivata) è stata dimostrata anche in questo studio utilizzando il test per la classificazione categorica adattiva dello sforzo uditivo (ACALES) (Wright et al, 2024).
La Figura 3 presenta i miglioramenti dell'SNR per un segnale vocale da diversi angoli di incidenza, da 0° a 180°.
In questo caso i miglioramenti dell'SNR sono attribuiti alla sola Spheric Speech Clarity, senza l'effetto del filtraggio del microfono direzionale. Il grafico mostra che le prestazioni di Spheric Speech Clarity non dipendono dall'angolo di incidenza del parlante e consentono di accedere al parlato da qualsiasi direzione.
I miglioramenti dell'SNR vanno da 5,8 dB a 6,9 dB e sono entro 1 dB dalla prestazione media complessiva.
Conclusioni
Con Phonak Audéo Sphere Infinio, Phonak introduce un algoritmo basato sul deep learning per rispondere all'esigenza numero uno dei clienti: la comprensione del parlato nel rumore. Phonak Audéo Sphere Infinio è il primo apparecchio acustico al mondo con un chip AI dedicato che separa istantaneamente il parlato dal rumore. Con una potenza di elaborazione 53 volte superiore rispetto all'attuale tecnologia di chip del settore al momento del lancio, l'architettura di chip proprietaria di Phonak, DEEPSONICTM sta alla base della Spheric Speech Clarity per la chiarezza del parlato. Questa tecnologia all'avanguardia offre un livello di parlato nitido e chiaro che va ben oltre le tecnologie acustiche esistenti. Grazie al parlato nitido e chiaro, i test clinici oggettivi indicano non solo una migliore comprensione del parlato e una riduzione dello sforzo uditivo rispetto alle funzioni disattivate, ma anche prestazioni migliori rispetto ai due principali dispositivi concorrenti (Wright et al, 2024). Spheric Speech Clarity e StereoZoom 2.0 sono rispettivamente funzioni dedicate che migliorano l'SNR e superano i tre principali concorrenti in modo comprovato. Phonak Audéo Sphere Infinio e Phonak Audéo R Infinio sono gli ultimi apparecchi acustici premium di Phonak che garantiranno il successo del cliente.
Metodi
Configurazione della misurazione
Tutte le misurazioni sono state effettuate in una stanza trattata acusticamente con un tempo di riverbero (RT60) di 0,15 secondi. 12 altoparlanti Genelec 8020D (Genelec, Finlandia) sono stati disposti in cerchio con un raggio di 1,4 m, con una distanza di 30° tra due altoparlanti. Un manichino KEMAR (GRAS Sound & Vibration, Danimarca) con orecchie antropometriche è stato posizionato al centro degli altoparlanti e orientato verso 0°.
Il centro del canale uditivo del manichino KEMAR era alla stessa altezza degli altoparlanti. Un convertitore RME M-16 DA (Audio AG, Germania) è stato utilizzato per inviare l'audio agli altoparlanti attivi; una scheda audio RME Fireface 802 USB (Audio AG, Germania) è stata utilizzata per registrare l'audio dai microfoni del canale uditivo KEMAR.
Rumore di fondo e parlato target
Come rumore di fondo sono stati utilizzati tre scenari sonori realistici tratti dal database ARTE (Weisser et al. 2019). Gli scenari sono stati presentati ai livelli di pressione sonora (SPL) registrati. Lo scenario del bar è stato utilizzato a un SPL di 71,7 dB SPL, lo scenario della cena a 72,8 dB SPL e lo scenario del punto ristoro a 78,2 dB SPL.
Il rumore di fondo è stato mescolato con il segnale vocale ISTS (Holube et al. 2010) per ottenere un SNR in campo libero di 0 dB SNR per lo scenario del bar, di -3 dB SNR per quello della cena e di -6 dB SNR per quello del punto ristoro.
Gli scenari ARTE sono registrazioni Ambisonics di ordine superiore (HoA). Le registrazioni ARTE sono state decodificate e riprodotte sul piano orizzontale attraverso 12 altoparlanti a una distanza di 1,4 metri. Per superare gli inconvenienti della decodifica HoA standard, come l'aliasing spaziale, è stato utilizzato il metodo Coding and Multi-Parameterization of Ambisonic Sound Scenes (COMPASS) per la decodifica dei segnali di fondo continui (Politis et al. 2018).
Il segnale ISTS è stato convoluto con la risposta all'impulso del rispettivo scenario. Le risposte all'impulso della stanza (RIR) sono state decodificate con il metodo Higher-order Spatial Impulse Response Rendering (HO-SIRR) di McCormack et al. (2020). I tempi di riverbero (RT60) erano di 1,2 secondi per lo scenario del bar, di 0,4 secondi per quello della cena e di 0,9 secondi per quello del punto ristoro. Come descritto in precedenza, la stanza aveva un RT60 di 0,15 secondi, che non è stato preso in considerazione nella decodifica.
Presentazione dello stimolo
La Figura 5 mostra una panoramica della presentazione dello stimolo. Prima di ogni misurazione, sono stati riprodotti
40 secondi di segnale vocale ISTS e il rispettivo rumore di fondo per consentire agli apparecchi acustici di assestarsi.
Il periodo di valutazione è stato di 10 secondi per ogni blocco di inversione di fase Hagerman, cioè i primi 10 secondi del segnale vocale ISTS e il rispettivo rumore di fondo sono stati ripetuti con la rispettiva fase Hagerman, portando a un tempo di acquisizione totale di 70 secondi per ciascuna condizione.
Per i dati della Figura 1-3, il segnale vocale ISTS è stato presentato da 0° azimut. Per la Figura 3, le misurazioni sono state ripetute con il segnale vocale presentato da 0°, 60°, 90°, 120° e 180° azimut.
Metodo di inversione di fase di Hagerman e Olofsson
Hagerman e Olofsson (2004) descrivono un metodo per estrarre le componenti del segnale e del rumore di un segnale audio presentato simultaneamente. Per il test di Hagerman e Olofsson vengono effettuate registrazioni multiple, mentre la fase di un segnale o di un rumore viene invertita tra le misurazioni. Questo metodo di inversione di fase permette di separare il segnale (S') e il rumore (N') all'uscita dell'apparecchio acustico e di calcolare il rapporto Segnale/ Rumore (SNR').
Sono stati riprodotti tre blocchi di valutazione:
Blocco A = S+N
Blocco B = S-N
Blocco C =-S-N
I segnali ricodificati sul manichino KEMAR dopo l'elaborazione dell'apparecchio acustico sono:
Blocco A' = S'+N'+ε
Blocco B' = S'-N'+ε
Blocco C' =-S'-N'+ε,
Dove l'apostrofo " ' " indica l'audio registrato.
Il segnale vocale registrato S', il segnale di rumore N' e l'errore ε vengono estratti come segue:
S' = (A'+B')/2
N' = (A'-B')/2
Errore ε = (A'+C')/2
Il rapporto Segnale/Rumore (SNR) dopo l'elaborazione dell'apparecchio acustico e i termini di errore sono calcolati come segue:
SNR' = 20*log10( rmsSII(S')/rmsSII(N') )
Errore segnale εS = 20*log10(rmsSII(ε)./rmsSII(S')
Errore rumore εN = 20*log10(rmsSII(ε)./rmsSII(N')
L'errore di Hagerman è stato inferiore a -15 dB (ponderato per il SII) per tutte le condizioni di misurazione, compresi i dispositivi della concorrenza.
Ponderazione per il SII
Il beneficio del rapporto Segnale/Rumore (SNR) è stato ponderato in base alla funzione di importanza della banda secondo l'indice di intelligibilità del parlato (SII, ANSI S3.5/1997, Tabella 3).
Fitting degli apparecchi acustici
Per il fitting degli apparecchi acustici è stato utilizzato un audiogramma N3 standard (Bisgaard et al. 2010) e un accoppiamento completamente occluso. Il guadagno reale dell'orecchio occluso (REOG) è stato misurato utilizzando il rumore femminile internazionale (rumore IF, Holube et al. 2010). Per ogni dispositivo il REOG era >15 dB a frequenze comprese tra 100 Hz e 20 kHz. Inoltre, è stata misurata l'inserzione tra 100 Hz e 10 kHz per assicurarsi che l'effetto di occlusione e il guadagno di inserzione fossero simmetrici tra l'orecchio sinistro e quello destro.
Per ogni dispositivo è stata utilizzata la formula prescrittiva e si è scelto il livello di esperienza più alto. Il sistema di gestione dei feedback in ogni dispositivo è stato disattivato, in modo da poter eseguire il metodo di Hagerman e Olofsson (2004). Anche la riduzione del rumore degli impulsi e del rumore del vento è stata disattivata per ogni dispositivo. Per la Figura 2, le opzioni del programma sono state lasciate alle impostazioni predefinite. Il livello massimo di uscita (MPO) è stato impostato al massimo per tutti i dispositivi. È stato applicato un programma manuale per tutti i dispositivi, compresi quelli della concorrenza.
Bibliografia
Abrams, H. B. & Kihm, J. (2015). An introduction to MarkeTrak IX: A New Baseline for the Hearing Aid Market. Hearing Review, 22(6).
ANSI S3.5 1997. Methods for calculation of the Speech Intelligibility Index.
Appleton, J. & König, G. (2014). Improvements in speech intelligibility and subjective benefit with binaural beamformer technology. Hearing Review, 21(11), 40-42.
Bentler, R. A. (2005). Effectiveness of Directional Microphones and Noise Reduction Schemes in Hearing Aids: A Systematic Review of the Evidence. J Am Acad Audiol, 16(07), 473–484.
Bisgaard, N., Vlaming, M. S. M. G., & Dahlquist, M. (2010). Standard Audiograms for the IEC 60118-15 Measurement Procedure. Trends in Hearing, 14(2), 113-120.
Derleth, P., Georganti, E., Latzel, M., Courtois, G., Hofbauer, M., Raether, J., & Kuehnel, V. (2021). Binaural Signal Processing in Hearing Aids. Seminars in Hearing, 42, 206 - 223.
Diehl, P. U., Zilly, H., Sattler, F., Singer, Y., Kepp, K., Berry, M., Hasemann, H., Zippel, M., Kaya, M., Meyer-Rachner, P., Pudszuhn, A., Hofmann, V. M., Vormann, M., & Sprengel, E. (2023). Deep learning-based denoising streamed from mobile phones improves speech-in-noise understanding for hearing aid users. Frontiers in Medical Engineering, 1:1281904. doi: 10.3389/fmede.2023.1281904
Diehl, P.U., Singer, Y., Zilly, H., Schönfeld, U., Meyer-Rachner, P., Berry, M., Sprekeler, H., Sprengel, E., Pudszuhn, A., & Hofmann, V. M. (2023). Restoring speech intelligibility for hearing aid users with deep learning. Sci Rep 13, 2719. https://doi.org/10.1038/s41598-023-29871-8
Edwards, B. (2016). A Model of Auditory-Cognitive Processing and Relevance to Clinical Applicability. Ear and Hearing, 37(1), 85-91.
Hagerman, B., & Olofsson, A. (2004). A Method to Measure the Effect of Noise Reduction Algorithms Using Simultaneous Speech and Noise. Acta Acustica united with Acustica, 90, 356-361.
Holube, I., Fredelake, S., Vlaming, M., Kollmeier, B.
(2010). Development and analysis of an international speech test signal (ISTS). International Journal of Audiology, 49(12), 891–903.
Kates, J. M., Arehart, K. H. (2014). The Hearing-Aid Speech Quality Index (HASQI) Version 2. Journal of the Audio Engineering Society, 62, 3, 99-117.
Killion, M. C. (1997). The SIN report: Circuits haven't solved the hearing-in-noise problem. Hearing Journal, 50(10), 28-32.
Latzel, M., & Appleton-Huber, J. (2015). StereoZoom – Adaptive behaviour improves speech intelligibility, sound quality and suppression of noise. Field Study News, disponibile all'indirizzo https://www.phonak.com/en-int/ professionals/audiology-hub/evidence-library
McCormack, L., Pulkki, V., Politis, A., Scheuregger, O. & Marschall, M., (2020). Higher-Order Spatial Impulse Response Rendering: Investigating the Perceived Effects of Spherical Order, Dedicated Diffuse Rendering, and Frequency Resolution. Journal of the Audio Engineering Society, 68(5), 338-354.
Mueller, G. H., Ricketts, T. A. (2000). Directional-microphone hearing aids: an update. Hearing Journal, 53(5), 10–19.
Politis, A., Tervo S., & Pulkki, V. (2018). COMPASS: Coding and Multidirectional Parameterization of Ambisonic Sound Scenes. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
Ricketts, T. A. (2005). Directional hearing aids: then and now. J Rehabil Res Dev 42(4, Suppl 2), 133–144.
Weisser, A., Buchholz, J. M., Oreinos, C., Badajoz-Davila, J., Galloway, J., Beechey, T., & Keidser, G. (2019). The Ambisonic Recordings of Typical Environments (ARTE) database. Acta Acustica united with Acustica, 105, 4, 695-713.
Wright, A., Kuehnel, V., Keller, M., Seitz-Paquette, K., Latzel, M. (2024). “Spheric Speech Clarity applies DNN signal processing to significantly improve speech understanding from any direction and reduce the listening effort .” Phonak Field Study News tratto da https://www.phonak.com/evidence.