Revisione e valutazione tecnica
La tecnologia 4D Sensor e la Rete Neurale Profonda 2.0 in Oticon Intent
Mette Brændgaard, Valentina Zapata-Rodríguez, Ioana Stefancu, Raul Sanchez-Lopez, Sébastien Santurette. Centre for Applied Audiology Research, Oticon A/S
IN SINTESI
Oticon Intent TM compie un altro grande passo avanti nell’ottimizzazione del supporto uditivo per le persone con perdita uditiva, soprattutto quando ascoltano nel rumore. Questo whitepaper illustra due importanti innovazioni di MoreSound Intelligence (MSI) 3.0: la tecnologia 4D Sensor e la nuova Rete Neurale Profonda (DNN) 2.0. La tecnologia 4D Sensor stima l’intenzione di ascolto dell’utente in una determinata situazione e ambiente combinando i segnali da un nuovo sensore di movimento e dai sensori acustici. Queste informazioni combinate consentono un migliore utilizzo del sistema di aiuto nel rumore per fornire l’aiuto appropriato in base alle intenzioni dell’utente nella specifica situazione di ascolto. Inoltre, la nuova DNN 2.0 è stata sottoposta a un miglior addestramento, con conseguente soppressione del rumore superiore rispetto ai precedenti apparecchi acustici Oticon. Presentiamo anche evidenze tecniche che dimostrano che Oticon Intent supera Oticon Real. Mentre la tecnologia tradizionale può fornire solo un livello fisso di supporto all’interno di un dato ambiente sonoro, Oticon Intent fornisce supporto all’ascolto in base all’intenzione di ascolto dell’utente, offrendo un intervallo di adattamento di 5 dB. I risultati mostrano inoltre che Oticon Intent fornisce il 35% in più di accesso agli indizi vocali rispetto a Oticon Real ed è più efficace nell’attenuare il rumore di fondo e nel preservare i dettagli del parlato, risultando in una scena sonora più chiara per l’utente. Nel complesso, Oticon Intent mostra prestazioni superiori in ambienti rumorosi. Fornisce la quantità adeguata di supporto agli utenti quando ne hanno più bisogno.
Nonostante i progressi nelle strategie di elaborazione del segnale nei moderni apparecchi acustici, le persone con perdita uditiva incontrano ancora difficoltà nel comprendere le conversazioni in ambienti rumorosi. La tecnologia tradizionale regola il livello di supporto in base alla complessità acustica dell’ambiente. Tuttavia, la necessità di una migliore assistenza in situazioni di ascolto complesse rimane un’area che richiede ulteriore sviluppo (Picou, 2020).
Oticon Intent TM, basato sulla nuova piattaforma Sirius TM, introduce una tecnologia che per la prima volta mette in gioco l’intenzione dell’utente durante l’elaborazione del suono. Integrata in MoreSound IntelligenceTM 3.0 (MSI 3.0), questa tecnologia – la tecnologia 4D Sensor – combina quattro diversi tipi di input del sensore utilizzati dall’apparecchio acustico per comprendere e agire in base alle esigenze di ascolto dell’utente. I quattro input del sensore sono: movimenti della testa, movimenti del corpo, attività di conversazione e analisi della scena sonora acustica. Oltre alla nuova tecnologia 4D Sensor, Oticon Intent utilizza una Rete Neurale Profonda di seconda generazione (DNN 2.0) per una chiarezza e un contrasto ancora maggiori in ambienti difficili. Ciò consente a Oticon Intent di offrire un supporto uditivo mirato prevedendo l’intento di ascolto dell’utente, che rappresenta un approccio più completo alle esigenze dell’utente rispetto al solo utilizzo della complessità acustica dell’ambiente e di semplici rilevatori di movimento per disabilitare la direzionalità. Questo documento ti guiderà attraverso gli aspetti tecnici e la valutazione di MSI 3.0,inclusa la nuova tecnologia 4D Sensor e DNN 2.0.
L’elaborazione in MoreSound Intelligence 3.0
MSI 3.0 funge da sistema di aiuto nel rumore in Oticon Intent. Questa sezione descrive ogni parte del flusso di elaborazione in MSI 3.0 (Figura 1) e consiste in una breveintroduzione al flusso, seguita da alcuni dettagli su ciascun componente.
Panoramica del flusso di elaborazione in MSI 3.0
Il flusso di elaborazione in MSI 3.0 inizia con Wind & Handling Stabilizer che riceve il suono dai due microfoni, pulisce il segnale e rimuove i rumori fastidiosi secondo necessità. Ad esempio, il rumore creato dal vento che soffia sulle aperture del microfono o il rumore prodotto dalla manipolazione delle dita o dallo sfioramento dei capelli contro le aperture del microfono.
La parte successiva del flusso è la tecnologia 4D Sensor. Questa parte elabora le informazioni sui suoni nell’ambiente, sui movimenti della testa e del corpo dell’utente e sulla sua attività di conversazione. Questo nuovo ingresso, insieme all’ingresso dei rilevatori di livello e al SNR, già noto dalle versioni esistenti di MSI, viene analizzato, combinato e utilizzato per determinare come le restanti parti del sistema di aiuto dovrebbero elaborare la scena sonora. L’analisi è progettata per determinare l’intenzione dell’utente nella situazione data e per garantire la corretta gestione del suono in ingresso in base alle sue esigenze. Inoltre, è progettato per coinvolgere più o meno supporto a seconda che l’ambiente sia più impegnativo (percorso difficile) o meno impegnativo (percorso facile) per un utente specifico. L’entità del coinvolgimento è personalizzata e definita dal software Oticon Genie 2. All’interno di questo intervallo personalizzato, l’output della tecnologia 4D Sensor configurerà l’aiuto in base alla complessità della situazione e alle intenzioni dell’utente.
Nel percorso Facile, l’Orecchio Esterno Virtuale ricrea i segnali spaziali altrimenti persi quando l’apparecchio acustico viene posizionato dietro l’orecchio. La DNN 2.0 gestisce le fonti di rumore diffuse per aumentare la chiarezza e il comfort dell’utente.
Nel percorso difficile, il Bilanciamento Spaziale basato sull’intenzione gestisce sorgenti sonore distinte e spazialmente separate e offre chiarezza e contrasto ottimali tra il parlato e altre sorgenti sonore. Quindi, l’elaborazione da parte di DNN 2.0 gestisce le restanti fonti di rumore diffuso ottimizzando ulteriormente il contrasto e la chiarezza. Tutto ciò avviene garantendo comunque l’accesso a tutti i suoni circostanti.
Sound Enhancer è la parte finale del flusso di elaborazione in MSI 3.0. Funziona in modo adattivo sul segnale soppresso dal rumore e garantisce la presenza di dettagli sottili nelle frequenze importanti per il parlato appropriata per l’utente.
Le sezioni seguenti approfondiranno i dettagli di ciascuna parte di MSI 3.0.
Wind & Handling Stabilizer
Wind & Handling Stabilizer (WHS) rileva e impedisce al rumore del vento e da contatto di entrare nell’elaborazione del suono nell’apparecchio acustico.
Il vento che soffia crea turbolenza, che viene rilevata mentre si muove attraverso il microfono dell’apparecchio acustico. Questa turbolenza provoca un rumore inaccettabile nell’apparecchio acustico, simile al soffio d’aria su un microfono portatile.
WHS monitora la presenza di rumore non correlato creato dal vento o dal contatto in ciascun microfono dell’apparecchio acustico e determina quale microfono riceve più rumore. WHS monitora i cambiamenti nella presenza del vento e nel rumore da contatto 500 volte al secondo, poiché il rilevatore è costantemente attivo. Il WHS è dinamico, ovvero è attivo solo quando viene rilevato il rumore del vento o da contatto. Per tutte le situazioni, diverse dal vento diretto e dal contatto, il sistema utilizza entrambi i microfoni su tutta la gamma di frequenze.
Tuttavia, quando viene rilevato il vento, è preferibile spegnere un microfono. Viene data priorità al microfono che riceve meno rumore e il microfono con maggiore turbolenza viene momentaneamente disattivato. WHS spegne un microfono solo negli intervalli di tempo e frequenza necessari, garantendo allo stesso tempo che il segnale di ingresso del doppio microfono venga mantenuto per tutto il tempo e in tutti i canali di frequenza possibili.
I tradizionali sistemi di gestione del rumore del vento sono efficaci nell’attenuare il rumore del vento nelle basse frequenze fino a circa 1500 Hz, garantendo il comfort dell’utente. Tuttavia, un ulteriore vantaggio del WHS è l’attenuazione precisa ed efficiente del rumore del vento nelle frequenze sopra 1500 Hz, che è significativamente migliorata rispetto ai precedenti sistemi di gestione del vento. Per ulteriori informazioni su WHS consultare il white paper di Oticon Gade et al. (2023).
Tecnologia a sensori
Da molti anni gli apparecchi acustici sono in grado di rilevare informazioni sui livelli sonori ambientali e sul rapporto segnale-rumore (SNR). Queste informazioni vengono utilizzate per determinare come elaborare i suoni intorno all’utente. Pertanto, agli utenti con le stesse impostazioni in Oticon Genie 2 veniva data la stessa elaborazione e lo stesso aiuto nello stesso ambiente, indipendentemente dalle loro intenzioni di ascolto. Ciò cambia con Oticon Intent con l’aggiunta della tecnologia 4D Sensor – vedere la descrizione dettagliata in “Tecnologia 4D Sensor” più avanti.
Orecchio Esterno Virtuale
Essere in grado di localizzare le sorgenti sonore nell’ambiente spaziale è un’abilità importante che diventa più difficile in presenza di perdita uditiva (Akeroyd, 2014). Abbiamo tutti dimensioni delle orecchie e forme del padiglione auricolare diverse, quindi il suono verrà modificato in modi diversi quando entra nel condotto uditivo, a seconda dell’anatomia dell’orecchio. Ad esempio, a causa della forma dell’orecchio esterno, alcune persone avranno una messa a fuoco più o meno frontale rispetto ad altre. Quando posizioniamo i microfoni degli apparecchi acustici dietro l’orecchio, viene eliminata la capacità di utilizzare i segnali spaziali naturali forniti dal padiglione auricolare. Questa capacità deve essere ricreata mediante l’elaborazione del segnale nell’apparecchio acustico.
L’Orecchio Esterno Virtuale (VOE) e il Bilanciamento Spaziale basato sull’intenzione aiutano a ricreare questa sensazione spaziale rispettivamente in ambienti facili e difficili. VOE contiene tre diversi modelli di padiglione auricolare realistici che ricreano segnali spaziali che aiutano l’utente a ricreare la consapevolezza spaziale in ambienti semplici.
In studi recenti in cui abbiamo caratterizzato 130 paia di orecchie, abbiamo scoperto che la maggior parte delle persone ottiene un’amplificazione naturale di circa 0,5-1 dB nell’area di 2-5 kHz dall’orecchio esterno. Sulla base di queste caratteristiche abbiamo creato un modello di pinna che fosse il più naturale e accurato possibile. Le nostre misurazioni mostrano che l’effetto che il padiglione auricolare ha sul suono può variare da un orecchio all’altro. Ciò implica che la percezione del suono dipende dall’anatomia dell’orecchio esterno. Per tenere conto delle differenze individuali, il VOE ha tre diverse impostazioni con messa a fuoco leggermente più o meno frontale. Queste possono essere impostate nel software di adattamento Oticon Genie 2 in base alle preferenze dell’utente. La messa a fuoco leggermente più frontale è creata da una leggera riduzione del livello specifica per la frequenza da dietro, mentre quella con maggiore consapevolezza consente all’utente di percepire più suoni da dietro.
Bilanciamento spaziale basato sull’intenzione
Il Bilanciamento Spaziale basato sull’intenzione è una funzionalità più potente di VOE quando si tratta di ambienti difficili. Il Bilanciamento Spaziale basato sull’intenzione bilancia rapidamente le distinte sorgenti sonore nell’ambiente utilizzando sia un segnale omnidirezionale che un segnale cardioide posteriore proveniente dai due microfoni. Il segnale omnidirezionale fornisce tutti i suoni della scena sonora, compresi i suoni frontali. Il segnale cardioide posteriore fa lo stesso ma esclude i suoni frontali. I due segnali vengono costantemente confrontati per definire il posizionamento preciso delle sorgenti di rumore. Il Bilanciamento Spaziale basato sull’intenzione utilizza un beamformer MVDR (distorsione con risposta minima a varianza minima) per creare l’equilibrio ottimale per una data scena sonora creando un contrasto maggiore tra i suoni significativi e quelli meno significativi (spesso rumore).
Il Bilanciamento Spaziale basato sull’intenzione aumenta l’SNR sopprimendo le singole fonti di rumore (riducendo il livello nella direzione della fonte di rumore), posizionandoli sullo sfondo e creando così una scena sonora equilibrata.
Per ulteriori informazioni su VOE e Bilanciamento Spaziale vedere Brændgaard (2020).
Rete Neurale Profonda 2.0
DNN 2.0 è addestrata a riconoscere cosa dovrebbe essere enfatizzato (suoni di interesse con molte informazioni) e cosa dovrebbe essere meno evidente (suoni di meno interesse con meno informazioni). L’addestramento è stato migliorato per creare migliore chiarezza e contrasto tra le sorgenti sonore. La descrizione dettagliata dell’addestramento migliorato è descritta nella sezione “DNN di nuova generazione” più avanti.
Sound Enhancer
Normalmente l’effetto massimo di un sistema di soppressione del rumore è un compromesso che funziona ragionevolmente bene per la maggior parte degli utenti. L’elaborazione del suono nell’apparecchio acustico deve garantire che l’utente possa gestire i suoni ambientali mantenendo la sensazione generale della scena sonora.
Sound Enhancer fornisce dettagli sonori dinamici quando la soppressione del rumore è attiva e consente di personalizzare l’uscita tramite tre distinte impostazioni del profilo audio. Le impostazioni sono progettate per migliorare la soppressione del rumore o la chiarezza del parlato o, nell’impostazione predefinita, Bilanciata, una combinazione di queste. In tutte le impostazioni Sound Enhancer fornisce dettagli aggiuntivi nella gamma 1-4 kHz che sono le frequenze primarie per i suoni del parlato.
Per ulteriori informazioni su Sound Enhancer vedere Brændgaard (2020).
La nuova tecnologia in Oticon Intent
Tecnologia 4D Sensor
Oticon Intent introduce la tecnologia 4D Sensor che include nuovi sensori nel sistema di aiuto nel rumore pur mantenendo i tradizionali rilevatori di livello e SNR per determinare l’ambiente sonoro. Questa nuova tecnologia 4D Sensor fornisce input da quattro dimensioni: movimenti del corpo, movimenti della testa, attività diconversazione e ambiente acustico. Queste informazioni vengono utilizzate per determinare l’intenzione di ascolto dell’utente in un dato momento. L’interpretazione dell’intenzione dell’utente viene utilizzata dalla parte restante di MSI 3.0 e garantisce che l’aiuto che viene fornito in ogni situazione di ascolto unica sia quello più adatto in base alle intenzioni dell’utente. Questa sezione descrive i diversi sensori.
Sensori di movimento
Gli studi hanno rivelato che gli ascoltatori tendono ad orientare il proprio corpo in un certo modo nelle situazioni di comunicazione (Hadley et al., 2019, 2020; Hadley e Culling, 2022) e che le nostre intenzioni di ascolto sono mostrate dai movimenti della testa e del corpo (Higgins et al., 2023). Aggiungendo il sensore di movimento ai dati ambientali raccolti anche dall’apparecchio acustico, l’elaborazione del suono e l’aiuto applicato possono avvenire su basi molto più solide e supportare meglio il modo in cui il cervello interpreta il suono (Bianchi/ Eskelund et al., 2024).
L’apparecchio acustico è dotato di un accelerometro integrato per rilevare i movimenti della testa e del corpo dell’utente in due delle quattro dimensioni. L’accelerometro è un sensore di movimento piccolo ed efficiente dal punto di vista energetico, che lo rende la scelta ottimale per l’uso in un apparecchio acustico.
L’accelerometro misura l’accelerazione dei movimenti dell’utente. Più veloce e vigoroso è il movimento, maggiore è l’impatto sull’accelerometro. L’accelerometro misura il movimento lungo tre assi diversi: X, Y e Z (vedere Figura 2).
L’accelerometro è calibrato in base al posizionamento sull’orecchio, pertanto è importante che l’apparecchio acustico sia posizionato correttamente. Il tracciamento dei movimenti dell’utente effettuato dall’accelerometro viene utilizzato nell’interpretazione dell’intenzione dell’utente:
• Il movimento sull’asse Z indica i movimenti di tutto il corpo (come camminare e correre), il che può indicare che la consapevolezza dell’ambiente circostante è essenziale.
• Il movimento sugli assi X e Y indica annuire e girare la testa che possono indicare la partecipazione a una conversazione con più persone.
• Un movimento limitato sugli assi X e Y significa che l’utente è fermo, il che può indicare che è necessaria la massima attenzione per partecipare a una conversazione intima.
Il tipo di movimento insieme all’attività di conversazione e all’ambiente acustico (descritti di seguito) vengono combinati per interpretare l’intenzione dell’utente.
Attività di conversazione
L’attività di conversazione è la terza dimensione nella tecnologia 4D Sensor. L’attività di conversazione contribuisce alla determinazione dell’intenzione dell’utente rilevando l’eventuale presenza del parlato. Se non c’è parlato rilevabile nel semipiano frontale, non c’è conversazione in corso.
L’attività di conversazione viene determinata in base alla modulazione rilevata nel segnale e al calcolo di un rapporto segnale-rumore (SNR) approssimativamente all’interno dell’intervallo SNR in cui le persone con udito normale possono comprendere il parlato.
Ancora una volta, questa analisi viene utilizzata per interpretare l’intenzione dell’utente.
Ambiente acustico
La quarta dimensione nella tecnologia 4D Sensor è l’ambiente acustico. Questo sensore fa parte del sistema per garantire che venga fornito aiuto negli ambienti in cui è necessario. In ambienti facili, con bassi livelli di rumore e un buon SNR, le persone normalmente comunicano bene senza alcun aiuto aggiuntivo da parte dell’apparecchio acustico oltre all’amplificazione.
Questo sensore rileva i livelli sonori in dB SPL. La determinazione se un ambiente sonoro sia facile o difficile viene individualizzata dalle impostazioni di Oticon Genie 2. Queste impostazioni soddisfano la sensazione unica dell’utente di ambienti di comunicazione facili o difficili. Le impostazioni vengono personalizzate in base alle domande di personalizzazione o al valore della soglia di contrasto udibile (ACTTM) come valutazione delle capacità di parlato nel rumore dell’individuo. A seconda del livello di pressione sonora complessivo, il sensore promuove oppure no il sistema di soppressione del rumore per fornire un’ulteriore soppressione del rumore. La soglia per attivare un’ulteriore soppressione del rumore è compresa tra circa 45 e 60 dB SPL a seconda delle impostazioni personali. L’effetto massimo si vede ancora tra circa 62 e 72 dB SPL a seconda dell’impostazione personale.
Risultato della tecnologia 4D Sensor
I sensori monitorano costantemente i movimenti, l’attività di conversazione e i suoni nell’ambiente per fornire l’input corretto al sistema. Ogni sensore porta il risultato della propria analisi. Questi vengono combinati per formare un unico insieme raffinato di parametri per le rimanenti funzionalità di MSI 3.0 (Bilanciamento Spaziale basato sull’intenzione e DNN 2.0) su cui agire. Imposta il livello di supporto richiesto dall’intento dell’utente e dall’ambiente sonoro (vedere Figura 3).
Il sistema di aiuto fornisce la quantità di aiuto adeguata poiché è necessario un supporto diverso da parte dell’apparecchio acustico a seconda di ciò che l’utente sta facendo nella situazione specifica. Quando l’utente, ad esempio, si muove nella stanza, è utile una maggiore consapevolezza dell’ambiente circostante; quando partecipa a una conversazione di gruppo dinamica, è importante intervenire al momento giusto, o quando è impegnato in una con- versazione intima, la massima attenzione è focalizzata sull’interlocutore. Indipendentemente dall’intenzione interpretata e dall’aiuto fornito, i suoni provenienti da tutte le direzioni sono sempre disponibili, ma l’equilibrio tra suoni diversi può variare.
Il sistema esegue un adattamento del supporto in cui effettua una transizione lenta e fluida all’interno dell’intervallo senza salti tra le modalità fisse per garantire suoni chiari e confortevoli per l’utente dell’apparecchio acustico. L’intervallo in cui il sistema di guida può effettuare la transizione dipende dalle singole impostazioni scelte in Oticon Genie 2 e dall’ambiente sonoro.
La Figura 4 mostra l’aumento SNR dell’apparecchio acustico in dB misurato con le impostazioni predefinite. L’intervallo entro il quale può transitare l’adattamento del supporto fornito dalla tecnologia 4D Sensor è rappresentato come area azzurra. La gamma di miglioramento dell’SNR in uscita sull’asse verticale (maggiore contrasto tra parlato e suoni circostanti rispetto a maggiore consapevolezza dei suoni circostanti) varia in funzione dell’input SNR sull’asse orizzontale (complessità dell’ambiente di ascolto). L’aiuto fornito dipende dalle intenzioni dell’utente interpretate dall’analisi dei movimenti della testa e del corpo, dell’attività di conversazione e dell’ambiente acustico. Le linee continue blu scuro riflettono l’adattamento massimo e minimo del supporto. La linea tratteggiata blu è la curva corrispondente alle stesse impostazioni predefinite in Oticon Genie 2 ma con la tecnologia del sensore disattivata, quindi ignorando le intenzioni dell’utente.
Per ulteriori spiegazioni sulle misurazioni presentate nella Figura 4 vedere la sezione “Maggiore adattamento del supporto alle esigenze di ascolto individuali” più avanti.
Fitting con la tecnologia 4D Sensor
La tecnologia 4D Sensor è disponibile nei programmi Generale e Speech in Noise durante l’adattamento di Oticon Genie 2. Affinché la tecnologia 4D Sensor sia disponibile, la funzionalità adattiva in MSI 3.0 deve essere attivata. La funzionalità adattiva e la tecnologia dei sensori sono entrambe attive di default.
DNN di nuova generazione
La struttura di una DNN si ispira al modo in cui è organizzato il nostro cervello, ovvero ai neuroni e alle corrispondenti sinapsi. La rete neurale utilizza l’apprendimento iterativo da un’enorme quantità di dati del mondo reale per conoscere il suono e come elaborarlo. L’apprendimento iterativo della DNN sostituisce i vecchi metodi di elaborazione del suono basati su una serie rigorosa di algoritmi prestabiliti e creati dall’uomo. Il nostro approccio DNN porta l’elaborazione del suono e la gestione del rumore fuori dal laboratorio e nel mondo reale.
Le reti neurali si basano su algoritmi di deep learning. Gli algoritmi di deep learning prendono grandi quantità di dati, definiti campioni di addestramento, e sviluppano un sistema in grado di apprendere da essi. L’unicità delle reti neurali deriva dalla loro somiglianza architettonica con il cervello. All’interno delle reti neurali esiste un’unità base chiamata neurone. Lo scopo di un neurone, proprio come un neurone relè nel cervello, è ricevere informazioni, immagazzinarle e infine trasmetterle al neurone successivo. Un gruppo di neuroni forma uno strato. Più strati specializzati e interconnessi formano la rete neurale composta da uno strato di input all’inizio, strati nascosti al centro e uno strato di output alla fine.
Lo strato di output produce un risultato che è un segnale acustico che possiamo sentire. Questa è la classe più elementare di reti neurali. Gli strati di input e output hanno 24 neuroni corrispondenti ai 24 canali di elaborazione. La soppressione del rumore viene applicata in modo adattivo in base all’input dei diversi sensori menzionati in precedenza.
DNN 2.0 è la rete neurale profonda di nuova generazione sviluppata con cicli di addestramento completamente nuovi. Per fornire informazioni su come è stato eseguito il nuovo addestramento, questa sezione esaminerà le quattro fasi del processo di addestramento. I passaggi sono quelli mostrati nella Figura 5: Ingresso (A) – la DNN riceve l’input sulla scena sonora, Propagazione in avanti (B) – la DNN elabora la scena sonora, Uscita (C) – la DNN produce l’uscita udibile e Propagazione all’indietro (D) – viene fornito feedback per un ulteriore miglioramento dell’elaborazione nella DNN.
Il nostro obiettivo era addestrare la DNN sulle scene sonore in modo che potesse risolvere il compito di bilanciare le sorgenti sonore preservando i segnali e attenuando il rumore. La grande quantità di dati necessari per questa formazione è stata registrata in diverse scene sonore in un’ampia gamma di ambienti di ascolto che rappresentano scene sonore a cui gli ascoltatori sarebbero tipicamente esposti nella loro vita quotidiana. Abbiamo utilizzato un microfono sferico specializzato, in grado di catturare suoni a 360 gradi per fornire alla DNN una scena sonora spazialmente precisa e dettagliata e per addestrarla sull’intera scena sonora.
Rispetto all’addestramento della generazione precedente, i passaggi A, C e D del DNN nel processo di addestramento sono stati migliorati, il che porta al miglioramento del passaggio B.
Durante la fase di input (A), i neuroni ricevono le informazioni di una scena sonora e le memorizzano. I campioni sonori utilizzati per l’addestramento della DNN 2.0 sono diversi rispetto a quelli utilizzati per l’addestramento della DNN della generazione precedente. L’addestramento della DNN 2.0 ha utilizzato principalmente scene sonore complesse per garantire una migliore risposta agli ambienti sonori che la DNN dovrà elaborare nel mondo reale.
Successivamente, la propagazione in avanti (B) prende i dati in input da ciascun neurone e li trasmette allo strato successivo. La quantità di informazioni trasmesse dipende dalla forza della connessione interneuronale. DNN 2.0 ha 24 canali nei livelli di input e output così come il resto dello schema di elaborazione in MSI 3.0. Ciò che accade in questa fase è definito dalla DNN e funziona senza restrizioni da parte degli sviluppatori. Pertanto, fornendo nuovi cicli di addestramento questo passaggio viene aggiornato automaticamente.
Una volta completata la fase di propagazione in avanti, la DNN 2.0 effettua una previsione di output (C) dei suoni che determina e che dovrebbero essere migliorati o soppressi nella scena sonora. Questo output viene analizzato e confrontato con un obiettivo desiderato: una scena sonora reale. L’analisi viene realizzata in 256 canali (rispetto ai 24 canali del DNN della generazione precedente) per garantire che ogni errore commesso nell’elaborazione da parte del DNN 2.0 durante l’addestramento venga catturato e corretto. Il confronto con l’obiettivo viene eseguito utilizzando definizioni migliorate dei parametri di addestramento che enfatizzano la conservazione della parola, l’attenuazione del rumore, la minimizzazione della perdita di energia da suoni simili al parlato, il guadagno stabile, il mantenimento di tutti i suoni chiari e non distorti e la DNN 2.0 si attiva solo quando necessario, come indicato dall’audioprotesista durante l’adattamento (o dalle impostazioni predefinite di Oticon Genie 2).
Come passaggio finale del processo, insegniamo alla DNN 2.0 a imparare dai propri errori e ad adattarsi. Questa azione guida il processo di propagazione all’indietro (D), in cui DNN 2.0 modifica le connessioni individuali tra i neuroni per sopprimere meglio i suoni corretti. Il processo viene ripetuto per tutte le scene sonore finché non viene raggiunto un plateau. L’intero processo di addestramento viene poi ripetuto con nuove scene sonore. Questo processo insegna alla DNN 2.0 a identificare le caratteristiche di ciascun suono e a distinguerli meglio. Nel tempo, la capacità di DNN 2.0 di enfatizzare o sopprimere i suoni significativi e non significativi migliora.
Per una descrizione più dettagliata della costruzione e dell’addestramento di una DNN vedere Brændgaard (2020) e Andersen et al. (2021).
DNN 2.0 è migliorata rispetto a quella di generazione precedente. Produce un output più chiaro preservando più segnali originali. Grazie alla maggiore analisi a 256 canali nel processo di addestramento, DNN 2.0 può anche fornire una maggiore attenuazione (fino a 12 dB in ambienti difficili) senza introdurre distorsioni nel suono. Per ulteriori informazioni sui vantaggi di DNN 2.0 vedere la sezione “Testare la DNN aggiornata” più avanti.
DNN 2.0 è prescritta in Oticon Genie 2 nella sezione Soppressione del Rumore Neurale. L’impostazione predefinita è impostata su 2 dB per ambienti facili e 10 dB per ambienti difficili. Le impostazioni possono essere personalizzate insieme ad altre impostazioni MSI 3.0 in base alle domande di personalizzazione o al valore della soglia di contrasto udibile (ACT) (Santurette & Laugesen, 2023) o in base all’input e alle esigenze del paziente. Le impostazioni possibili sono 0, 2, 4 e 6 dB per ambienti facili e 6, 8, 10 e 12 dB per ambienti difficili.
Valutazione tecnica di Oticon Intent
Per valutare le prestazioni di Oticon Intent, abbiamo condotto una valutazione tecnica sistematica e lo abbiamo confrontato con il nostro dispositivo premium precedente, Oticon Real. L’obiettivo principale era valutare la capacità dell’apparecchio acustico di fornire supporto uditivo per il parlato in situazioni di ascolto complesse. A questo scopo abbiamo allestito una procedura di test controllata in uno studio sonoro trattato acusticamente in cui abbiamo simulato una conversazione intima. Ciò ha comportato il posizionamento di un simulatore di testa e busto (HATS) al centro della stanza, a 1,6 metri di distanza da un altoparlante (0°) che riproduceva un segnale vocale target. Inoltre, due altoparlanti sono stati posizionati a 100° e 260°, come illustrato nella Figura 6, e fungevano da mascheratori. Gli altoparlanti mascheratori presentavano oratori interferenti mescolati con rumore stazionario in forma di parlato (SSN). Il target è stato costantemente riprodotto a 65 dB SPL, mentre il suono dei mascheratori variava da 50 a 75 dB SPL. Ciò ci ha permesso di esplorare una serie di scenari di ascolto da molto semplici a molto complessi.
Abbiamo registrato segnali di parlato nel rumore utilizzando l’HATS con indosso Oticon Intent o Oticon Real. Abbiamo utilizzato microstampi chiusi adattati al condotto uditivo dell’HATS per ridurre al minimo le interferenze derivanti dai suoni non elaborati dall’apparecchio acustico. Entrambi gli apparecchi acustici sono stati regolati per compensare una perdita uditiva moderata basata sull’audiogramma standard N3 (Bisgaard et al., 2010), per un adulto con esperienza a lungo termine ambientata in Genie 2. Tutte le funzionalità sono state mantenute alle configurazioni predefinite basate sulla prescrizione, ad eccezione della gestione del feedbacke del collegamento binaurale che sono stati disattivati. Ciò si è reso necessario a causa dei metodi di registrazione altamente specializzati utilizzati e discussi di seguito. Inoltre, è stata utilizzata l’amplificazione lineare per garantire che i risultati riflettessero solo l’effetto di MSI. Abbiamo esaminato le registrazioni HATS per indagare sulle prestazioni dell’apparecchio acustico su quanto segue:
Aiuto nel rumore: abbiamo utilizzato le misurazioni SNR in uscita per quantificare il contrasto creato tra parlato e rumore per valutare l’efficacia dell’apparecchio acustico nel migliorare la chiarezza del parlato riducendo al contempo il rumore disturbante.
Accesso agli indizi vocali: abbiamo utilizzato un sistema metrico oggettivo di intelligibilità vocale per quantificare l’accesso agli indizi vocali e l’analisi dello spettrogramma per esaminare la capacità dell’apparecchio acustico di preservare i dettagli del parlato in presenza di rumore.
Maggiore adattamento di supporto alle esigenze di ascolto individuali
Grazie alla tecnologia 4D Sensor, Oticon Intent può ora soddisfare le esigenze di ascolto dell’utente in una gamma più ampia di situazioni di ascolto fornendo un contrasto più pronunciato tra i segnali desiderati e il rumore di fondo. Abbiamo valutato questo miglioramento utilizzando misurazioni SNR in uscita. L’SNR in uscita è stato calcolato utilizzando il metodo dell’inversione di fase di Hagerman & Olofsson (2004). L’SNR è stato quindi ponderato su tutte le bande di frequenza utilizzando i pesi dell’indice di intelligibilità del parlato (ANSI S3.5, 1997) corrispondenti alla frequenza centrale di ciascuna banda prima di calcolare l’SNR di uscita.
L’SNR in uscita è stato misurato per Oticon Intent con tecnologia 4D Sensor sia attivata che disattivata, così come per il dispositivo premium della generazione precedente, Oticon Real. La Figura 4 illustra il miglioramento dell’SNR in uscita per vari livelli SNR in ingresso, che rappresentano diverse complessità nell’ambiente di ascolto. I risultati dimostrano che Oticon Intent fornisce un supporto superiore agli utenti, con un miglioramento fino a 5 dB rispetto a Oticon Real durante una conversazione intima in un ambiente di ascolto rumoroso. Quando la tecnologia 4D Sensor è disattivata, un miglioramento fino a 1,5 dB (confrontando la curva blu tratteggiata e la curva grigia tratteggiata nella Figura 4) è principalmente attribuito a DNN 2.0 aggiornata sulla nuova piattaforma Sirius. I risultati presentati nella Figura 4 evidenziano inoltre che Oticon Intent con la tecnologia 4D Sensor attivata fornisce un range di adattamento più ampio fino a 5 dB in base all’intento di ascolto dell’utente. Un SNR di uscita più elevato indica un miglioramento della chiarezza nel parlato, mentre un SNR di uscita inferiore consente un maggiore accesso ai suoni circostanti. Pertanto, Oticon Intent può fornire costantemente agli utenti il livello appropriato di supporto e accesso ai suoni circostanti all’interno dello stesso ambiente di ascolto, sia che siano impegnati in una conversazione intima o che si stiano muovendo nella stanza.
Esaminiamo ora in dettaglio i risultati ottenuti con un SNR di ingresso di 0 dB nella Figura 4. In questa difficile situazione di ascolto, dove l’intensità del segnale vocale target è uguale a quella del rumore di fondo, Oticon Intent ha superato in performance Oticon Real.
Ciò è illustrato nella Figura 7, dove viene mostrato che l’SNR di uscita per Oticon Intent è maggiore di 5 dB quando la tecnologia 4D Sensor è attiva e di 1,5 dB quando è disattivata, rispetto a Oticon Real. Questi risultati evidenziano che Oticon Intent eccelle nel far risaltare il segnale target dal rumore di fondo, rappresentando un miglioramento nella chiarezza del parlato che è stato riscontrato migliorare significativamente la capacità dell’utente di comprendere il parlato (Bianchi/ Eskelund et al., 2024).
Maggiore accesso agli indizi vocali per una migliore comprensione del parlato
Abbiamo utilizzato l’Indice di Intelligibilità del Parlato (SII) (ANSI S3.5, 1997) per valutare l’impatto dei miglioramenti dell’SNR in uscita sull’intelligibilità del parlato. L’SII è una misura dell’intelligibilità del parlato prevista e stima il grado in cui il parlato può essere compreso prendendo in considerazione l’udibilità del segnale vocale. Il SII deriva da fattori di ponderazione come la chiarezza del segnale vocale, la presenza di rumore di fondo e la capacità uditiva dell’ascoltatore. Un valore SII più alto indica un maggiore accesso ai segnali vocali, indicando una maggiore possibilità di intelligibilità.
La Figura 8 mostra il SII in % calcolato con SNR in ingresso di 0 dB per Oticon Real e Oticon Intent con tecnologia 4D Sensor attivata e disattivata. I risultati mostrano valori SII per Oticon Intent del 58% quando la tecnologia 4D Sensor è attiva e del 48% quando è disattivata. A titolo di confronto, il SII calcolato per una persona con soglie uditive normali senza apparecchi acustici raggiungerebbe solo un valore del 40% nella stessa situazione difficile. Rispetto a Oticon Real, i valori SII ottenuti per Oticon Intent rappresentano un aumento relativo sostanziale del 35% in SII con la tecnologia 4D Sensor attivata e un aumento SII del 12% con la tecnologia 4D Sensor disattivata. Nel complesso, questi risultati dimostrano che Oticon Intent offre un accesso superiore agli indizi vocali rispetto a Oticon Real, migliorando la capacità dell’utente di comprendere le parole pronunciate e comunicare in modo più efficace. Ciò porta a un’esperienza di ascolto complessiva migliorata, anche in ambienti difficili.
Miglior chiarezza del parlato e valorizzazione dei dettagli del parlato
Per garantire un supporto ottimale per la comprensione del parlato, è fondamentale che gli apparecchi acustici catturino e preservino accuratamente tutti i dettagli del segnale vocale. Questo può essere studiato utilizzando uno spettrogramma, che fornisce un’analisi dettagliata tempo-frequenza delle registrazioni degli apparecchi acustici. Rappresentato comunemente come una mappa termica, lo spettrogramma illustra la distribuzione della potenza sonora (in dB) per frequenza (sull’asse verticale) nel tempo (sull’asse orizzontale). Nello spettrogramma, l’entità della potenza sonora è rappresentata dalle variazioni di luminosità. Le regioni scure indicano una potenza sonora bassa (aree silenziose) e le regioni luminose indicano una potenza sonora elevata (aree rumorose).
Abbiamo eseguito l’analisi dello spettrogramma per uno scenario molto impegnativo: una conversazione intima in presenza di rumore e di interlocutori in competizione con un SNR di 0 dB. In questo caso, abbiamo voluto confrontare la capacità di preservare i dettagli del parlato in Oticon Intent e Oticon Real. La Figura 9 mostra lo spettrogramma di una frase nel rumore registrata all’uscita di Oticon Real (pannello A) e Oticon Intent con tecnologia 4D Sensor attivata (pannello B), come illustrato nella configurazione sperimentale mostrata nella Figura 7. Entrambi gli apparecchi acustici sono stati adattati utilizzando le impostazioni di prescrizione predefinite. Confrontando gli spettrogrammi, si può osservare che Oticon Intent fornisce una maggiore riduzione del rumore, poiché nello spettrogramma sono visibili più aree scure tra gli elementi del parlato nell’intervallo di frequenze.
Inoltre, il segnale vocale può essere identificato più chiaramente nello spettrogramma ottenuto per Oticon Intent. Si noti ad esempio la rappresentazione più fine e precisa delle armoniche della vocale “a” e una migliore conservazione del suo contenuto frequenziale per Intent nel pannello B. Quindi, Oticon Intent preserva meglio i dettagli del parlato riducendo al contempo più rumore di fondo rispetto a Oticon Real, fornendo così agli utenti una migliore chiarezza del parlato.
Test della DNN aggiornata
Infine, abbiamo messo alla prova DNN 2.0, una straordinaria innovazione di Oticon Intent. Per condurre una valutazione corretta tra DNN 2.0 e la generazione precedente DNN 1.0, abbiamo isolato i loro effetti simulando l’elaborazione del suono utilizzando un SNR di ingresso di 0 dB. La Figura 10 presenta gli spettrogrammi che illustrano il parlato pulito (pannello A) e il parlato nel rumore (pannello B) elaborati dall’apparecchio acustico solo con guadagno (MSI Off). Le regioni scure indicano una bassa potenza sonora (aree silenziose) e le regioni luminose indicano un’elevata potenza sonora (aree rumorose), come la Figura 9. La parte inferiore della Figura 10 mostra come le due versioni della DNN elaborino diverse aree del segnale vocale rumoroso quando è attivata la soppressione del rumore neurale. Le aree attenuate (aree rosse), preservate (aree bianche) e potenziate (aree blu) sono illustrate per DNN 1.0 in Oticon Real (pannello C) e per DNN 2.0 in Oticon Intent (pannello D).
Il confronto tra Oticon Real e Oticon Intent rivela differenze nelle capacità di soppressione del rumore. Lo spettrogramma per DNN 1.0 in Oticon Real (pannello C) mostra che la soppressione del rumore è più limitata oltre 7,5-8 kHz rispetto a Oticon Intent (pannello D). Anche il contrasto creato tra parlato e rumore è maggiore con DNN 2.0 in Oticon Intent che con DNN 1.0 in Oticon Real: sulla stessa scala, aree blu più scure e rosse più scure sono visibili nel pannello D rispetto al pannello C. Inoltre, alcune aree con informazioni vocali non sono completamente migliorate con DNN 1.0, mentre DNN 2.0 si dimostra più efficace nel preservare i dettagli del parlato in tutto l’intervallo di frequenze. Di conseguenza, lo spettrogramma di intenzione nel pannello D rispecchia più da vicino lo spettrogramma del parlato pulito del pannello A. Ad esempio, si osservi come la vocale “a” ha un miglioramento più coerente su tutta la frequenza e la consonante “s” viene migliorata verso frequenze più alte nel pannello D rispetto al pannello C. Nel complesso, DNN 2.0 fornisce quindi anche un migliore contrasto tra parlato e rumore come un miglioramento più preciso dei dettagli del parlato.
Conclusioni
Questo whitepaper ha presentato i due principali progressi tecnologici di MSI 3.0 in Oticon Intent, la tecnologia 4D Sensor e la DNN 2.0. La tecnologia 4D Sensor fornisce all’utente un supporto personalizzato migliore in base alle proprie esigenze uditive in qualsiasi situazione di ascolto. DNN 2.0 fornisce un migliore contrasto tra il segnale target e il rumore di fondo nella scena sonora e una miglior valorizzazione dei dettagli del parlato.
I risultati di una valutazione tecnica hanno mostrato chiaramente che Oticon Intent supera Oticon Real:
• Oticon Intent con la tecnologia 4D Sensor fornisce un adattamento del supporto fino a 5 dB all’interno dello stesso ambiente sonoro in base all’intenzione di ascolto dell’utente.
• Oticon Intent fornisce fino a 1,5 dB in più di SNR in uscita rispetto a Oticon Real con l’inclusione della piattaforma Sirius e DNN 2.0, e un aumento di 5 dB dell’SNR in uscita con l’aggiunta della tecnologia 4D Sensor. Pertanto, Oticon Intent offre agli utenti una miglior chiarezza del parlato e un maggior contrasto tra parlato e rumore di fondo.
• Oticon Intent offre il 35% in più di accesso agli indizi vocali rispetto a Oticon Real, fornendo agli utenti scene sonore più chiare in cui i dettagli del parlato sono meglio preservati e il rumore di fondo viene attenuato.
Ora, con l’aggiunta di un supporto personalizzato in ogni scena sonora, questi vantaggi tecnici consentono agli utenti di svolgere e concentrarsi più facilmente sul compito di interesse, come dimostrato dai numerosi benefici BrainHearing osservati negli studi clinici con utenti di apparecchi acustici (Bianchi/Eskelund et al., 2024; Andersen et al., 2021; Alickovic et al., 2021).
Bibliografia
- Akeroyd, M. A. (2014). An Overview of the Major Phenomena of the Localization of Sound Sources by Normal-Hearing, Hearing-Impaired, and Aided Listeners. Trends in Hearing Vol. 18, pp. 1-7.
- Alickovic, E., Ng, E. H. N., Fiedler, L., Santurette, S., Innes-Brown, H., & Graversen, C. (2021). Effects of hearing aid noise reduction on early and late cortical representations of competing talkers in noise. Frontiers in neuroscience, 15, 636060.
- Andersen, A. H., Santurette, S., Pedersen, M. S., Alickovic, E., Fiedler, L., Jensen, J., & Behrens, T. (2021).
Creating clarity in noisy environments by using deep learning in hearing aids. Seminars in Hearing 42(3), 260-281. - ANSI S3.5. (1997). American national standards methods for the calculation of the articulation index. American National Standards Institute.
- Bianchi, F./Eskelund, K., Zapata-Rodriguez, V., Sanchez Lopez, R., & Gade, P. (2024).
Oticon IntentTM - Clinical evidence. BrainHearingTM benefits of the 4D Sensor Technology. Oticon whitepaper. - Bisgaard, N., Vlaming, M. S., & Dahiquist, M. (2010). Standard audiograms for the IEC 60118-15 measurement procedure. Trends in Amplification, 14(2), 113-120. doi:10.1177/1084713810379609
- Brændgaard, M. (2020). An introduction to MoreSound IntelligenceTM. Oticon tech paper.
- Gade, P.A., Brændgaard, M., Flocken, H., Preszcator, D., & Santurette, S. (2023). Wind & Handling Stabilizer
– Evidence and user benefits. Improved wind and handling noise removal for better clarity. Oticon whitepaper. - Hadley, L. V., Brimijoin, W. O., & Whitmer, W. M. (2019). Speech, movement, and gaze behaviours during dyadic conversation in noise. Scientific reports, 9(1), 1-8.
- Hadley, L. V., Whitmer, W. M., Brimijoin, W. O., & Naylor, G. (2020). Conversation in small groups: Speaking and listening strategies depend on the complexities of the environment and group. Psychonomic Bulletin & Review, 28(2), 632-640.
- Hadley, L. V., & Culling, J. F. (2022). Timing of head turns to upcoming talkers in triadic conversation: Evidence for prediction of turn ends and interruptions. Frontiers in Psychology, 13.
- Hagerman, B., & Olofsson, Å. (2004). A method to measure the effect of noise reduction algorithms using simultaneous speech and noise. Acta Acustica United with Acustica, 90(2), 356-361.
- Higgins, N. C., Pupo, D. A., Ozmeral, E. J., & Eddins, D. A. (2023). Head movement and its relation to hearing. Frontiers in Psychology, 14.
- Picou, E. M. (2020). MarkeTrak 10 (MT10) survey results demonstrate high satisfaction with and benefits from hearing aids. In Seminars in hearing (Vol. 41, No. 01, pp. 021-036). Thieme Medical Publishers.
- Santurette, S., & Laugesen, S. (2023). Audible Contrast Threshold (ACTTM). A language-independent diagnostic test to quantify real-life speech-in-noise ability and personalise help-in-noise settings in hearing aids. Oticon whitepaper.