Новый алгоритм BOSSA: как слуховые аппараты научили выделять голос из шума

Новый алгоритм, вдохновлённый работой мозга, может помочь слуховым аппаратам отсеивать помехи и выделять голос одного человека из толпы.

Когда группа друзей собирается в баре или на ужине, разговоры быстро множатся и переплетаются, разные группы и пары переговариваются друг через друга.

Ориентироваться в этом живом клубке слов — и сосредотачиваться на важных — особенно сложно людям с нарушениями слуха. Даже при наличии слуховых аппаратов шумные беседы могут превратиться в сплошную неразбериху, поскольку аппараты часто не справляются с отсеиванием фонового шума.

Это называется «проблемой коктейльной вечеринки», и исследователи из Бостонского университета считают, что у них может быть решение.

В ходе испытаний учёные обнаружили, что новый алгоритм может повысить точность распознавания слов на 40 процентных пунктов по сравнению с алгоритмами, используемыми в современных слуховых аппаратах.

«Мы были крайне удивлены и воодушевлены величиной улучшения — довольно редко удаётся найти столь значительные улучшения», — говорит Камаль Сен, разработчик алгоритма и доцент кафедры биомедицинской инженерии инженерного колледжа Бостонского университета.

По некоторым оценкам, число американцев с нарушениями слуха приближается к 50 миллионам; к 2050 году около 2,5 миллиардов человек во всём мире, по данным Всемирной организации здравоохранения, будут иметь те или иные нарушения слуха.

«Основная жалоба людей с нарушениями слуха заключается в том, что им трудно общаться в шумной обстановке, — говорит соавтор Вирджиния Бест, доцент-исследователь колледжа здоровья и реабилитационных наук Сарджента при Бостонском университете по специальности «речь, язык и слуховые науки». — Такие условия очень распространены в повседневной жизни, и они важны для людей. Подумайте о разговорах за обеденным столом, общественных собраниях, рабочих встречах. Таким образом, решения, которые могут улучшить общение в шумных местах, могут оказать огромное влияние».

В рамках работы исследователи также проверили способность алгоритмов современных слуховых аппаратов справляться с какофонией коктейльных вечеринок. Многие слуховые аппараты уже оснащены алгоритмами шумоподавления и направленными микрофонами, или формирователями луча, предназначенными для усиления звуков, поступающих спереди.

«Мы решили сравнить наш алгоритм с промышленным стандартом, который используется в слуховых аппаратах», — говорит Сен. Существующие алгоритмы «вовсе не улучшают производительность, а если и делают, то незначительно. Теперь у нас есть данные, подтверждающие то, что люди со слуховыми аппаратами уже знали по опыту».

Сен запатентовал новый алгоритм, известный как BOSSA (Biologically Oriented Sound Segregation Algorithm), и надеется связаться с компаниями, заинтересованными в лицензировании технологии. Он говорит, что прорыв команды BU своевременен, поскольку Apple выходит на рынок слуховых аппаратов — её последние наушники AirPod Pro 2 рекламируются как имеющие функцию слухового аппарата клинического класса: «Если производители слуховых аппаратов не начнут внедрять инновации быстро, они будут вытеснены с рынка, потому что Apple и другие стартапы выходят на рынок».

Последние 20 лет Сен изучал, как мозг кодирует и декодирует звуки, и искал схемы, участвующие в управлении эффектом коктейльной вечеринки. Вместе с исследователями из своей лаборатории естественных звуков и нейронного кодирования он проследил, как звуковые волны обрабатываются на разных этапах слухового пути, от уха до перевода мозгом. Один из ключевых механизмов — тормозные нейроны, клетки мозга, которые помогают подавлять определённые нежелательные звуки.

«Можно представить это как форму внутреннего шумоподавления, — говорит он. — Если есть звук в определённом месте, эти тормозные нейроны активируются». По словам Сена, разные нейроны настроены на разные места и частоты.

Подход мозга лёг в основу нового алгоритма, который использует пространственные подсказки, такие как громкость и время звука, чтобы настраивать его или выключать, усиливая или приглушая слова говорящего по мере необходимости.

«По сути, это вычислительная модель, имитирующая работу мозга, — говорит Сен, связанный с центрами нейрофотоники и системной нейронауки BU, — и фактически разделяющая источники звука на основе звукового ввода».

«В конечном счёте единственный способ узнать, принесёт ли польза слушателю, — это поведенческие исследования, — говорит Бест, эксперт по пространственному восприятию и потере слуха. — И для этого требуются учёные и клиницисты, которые понимают целевую группу».

Бест, ранее работавшая научным сотрудником в Национальных акустических лабораториях Австралии, помогла разработать исследование с участием группы молодых людей с сенсоневральной потерей слуха, обычно вызванной генетическими факторами или детскими заболеваниями. В лаборатории участники носили наушники, имитирующие голоса людей, говорящих с разных близлежащих мест. Их способность выделять отдельных говорящих проверялась с помощью нового алгоритма, текущего стандартного алгоритма и без алгоритма. Бойд помог собрать большую часть данных и был ведущим автором статьи.

Отчёт об их выводах гласит, что «алгоритм, вдохновлённый биологией, привёл к значительному повышению разборчивости в условиях, когда стандартный подход с использованием формирователя луча не дал результатов. Результаты убедительно подтверждают потенциальные преимущества алгоритмов, вдохновлённых биологией, для помощи людям с нарушениями слуха в ситуациях «коктейльной вечеринки»».

Сейчас они находятся на ранних стадиях тестирования улучшенной версии, включающей технологию отслеживания взгляда, чтобы пользователи могли лучше направлять своё слуховое внимание.

Наука, лежащая в основе алгоритма, может иметь значение и за пределами потери слуха.

«Схемы, которые мы изучаем, имеют гораздо более широкое назначение и являются гораздо более фундаментальными», — говорит Сен. «В конечном счёте это связано с вниманием, на котором вы хотите сосредоточиться — вот для чего была создана схема. В долгосрочной перспективе мы надеемся применить это к другим группам населения, например, к людям с СДВГ или аутизмом, которые также испытывают трудности, когда происходит много событий одновременно».

Результаты опубликованы в журнале Communications Engineering.

Поддержка этого исследования была получена от Национальных институтов здравоохранения, Национального научного фонда и фонда Demant.

Источник: Бостонский университет.

Источник

Оставьте комментарий