Asr что это такое: Для чего нужна система ASR в автомобиле

Содержание

принцип действия и особенности функционирования

Антипробуксовочная система ASR (antriebs schlupf regelung) — это, в общем-то, логичное продолжение антиблокировочной системы ABS. Она не только добросовестно выполняет все функции ABS, но еще и не позволяет буксовать ведущим колесам при трогании с места или интенсивном разгоне. Таким образом получается, что ASR при торможении работает как антиблокировочная система, а при движении – как антипробуксовочная.

В целях безопасности для ASR установлена пороговая скорость, чаще всего в 40 – 60 км/час. И, если вы едете со скоростью ниже пороговой, то антипробуксовочная система действует и на тормоза, и на двигатель. Если же вы разгонитесь побыстрее, и пороговую скорость превысите, то ASR в этом случае будет влиять только на двигатель.

Есть три способа, которыми система ASR «помогает» вам справиться с автомобилем. Первый способ – она управляет тормозами ведущих колес. При втором способе она уменьшает крутящий момент двигателя. Третий способ, самый эффективный, это комбинация из первых двух.

Как же устроена система ASR? В отличие от системы ABS, где стоят датчики, модуляторы и блок управления, ASR имеет еще три дополнительных узла. Это источник, создающий давление на тормозную жидкость, и набор электромагнитных клапанов для подключения в нужный момент этого источника вместо главного тормозного цилиндра. И есть также устройство управления двигателем.

Датчики такие же, как у ABS, с той лишь разницей, что раза в два чувствительнее. Минимальная скорость, которую они измеряют, составляет 2-3 км/час вместо 5 км/час.

Электромагнитные клапаны модулируют давление тормозной жидкости в тормозных камерах ведущих колес. Блок управления ASR сконструирован на базе микропроцессорного блока ABS, но для размещения дополнительной программы обладает увеличенным объемом памяти. Программа управляет функциями ASR и выполняет диагностику ее компонентов. Кроме того, для управления дополнительными исполнительными механизмами в блоке ASR предусмотрены усилители мощности.

При желании водитель может легко отключить систему ASR. Это делается при помощи обычного выключателя. В этом случае автомобиль будет проходить повороты с боковым скольжением ведущей оси. Но антиблокировочные функции сохраняются. На приборной панели расположены две дополнительные оранжевые лампочки. Одна горит, подтверждая участие ASR в управлении вашим автомобилем. Другая включится в тот момент, когда вы отключите ASR.

Эксплуатация автомобилей, имеющих систему ASR, свидетельствует о значительном увеличении тягового усилия на дорожных покрытиях с разнородным коэффициентом сцепления. Также было отмечено улучшение курсовой устойчивости при движении на скользких дорогах.

Эта статья полезна для Вас? Да 119 / Нет 9

Порекомендуйте статью друзьям:

Система ASR – что это такое и зачем она нужна?

Устройство автомобиля

15. 03.2019

0 1 минута на прочтение

Безопасность вождения автомашины для современных автоконструкторов является первоочередной задачей.

Для её решения сегодня используется широчайший арсенал электронных и электромеханических систем, которые помогают человеку контролировать процесс управления машиной и делают его более безопасным. Одна из таких систем скрывается под аббревиатурой ASR.

Что представляет собой система ASR?

Существенную опасность для людей представляет пробуксовка колёс – ситуация, когда ухудшается их сцепление с поверхностью дороги. Такие моменты порой заканчиваются уходом авто в занос или вылетом на встречную полосу. Чтобы снизить вероятность возникновения аварийных пробуксовок, немецкими конструкторами была разработана система Antriebsschlupfregelung, сокращённо – ASR. Это название переводится с немецкого как «регулировка пробуксовывания».

Система работает на электрогидравлическом приводе. Впервые она была использована в 1979 году концерном BMW, а сегодня её взяли на вооружение все ведущие автомобильные компании мира. ASR по принципу и результатам действия во многом сходна с AВS, но представляет собой более совершенный и эффективный вариант. Во время торможения она предупреждает блокировку тормозов, а в процессе движения по дороге выполняет антипробуксовочную функцию.

Как функционирует система ASR?

Чтобы колёса не пробуксовывали, система ASR притормаживает их вращение, уменьшает крутящий момент на валу либо применяет оба воздействия одновременно. Выбор зависит от скорости движения машины: если она не достигает 80 км/ч, то ASR выравнивает скорости вращения всех колёс, притормаживая то, которое вращается быстрее прочих. При скорости движения, превышающей 80 км/ч, торможение достигается снижением крутящего момента, передаваемого на колесо.


Управление тормозной системой осуществляет микропроцессорный блок, генерирующий сигналы на основе данных, передаваемых датчиками, расположенными в разных частях автомобиля. Специально разработанная программа обрабатывает эти сигналы и «принимает решение» о необходимости торможения, генерируя соответствующие сигналы, которые передаются на электрогидравлические исполнительные устройства.

Устройство системы ASR

Антипробуксовочная система ASR состоит из множества отдельных элементов, расположенных в различных узлах авто, и включает:

  • микроэлектронный блок управления;
  • различные датчики, отслеживающие параметры движения;
  • модуляторы;
  • электромагнитные клапаны для гидравлики;
  • насос обратной подачи;
  • модуль генерирования сигналов.

С помощью насоса в тормозной системе создаётся дополнительное давление, через клапаны осуществляется нагнетание и сброс излишков давления. При срабатывании системы в салоне загорается лампочка индикации. По желанию водителя система ASR моет быть отключена, однако делать этого не рекомендуется, чтобы не понижать уровень безопасности вождения.

Достоинства антипробуксовочной системы

Установленная в автомашине система ASR приносит немалую пользу, так как:

  • снижает износ шин, увеличивает период их эксплуатации;
  • способствует увеличению моторесурса двигателя;
  • способствует экономии горючего;
  • повышает управляемость машины, которая ведёт себя в движении послушно и предсказуемо;
  • обеспечивает безопасность водителя в сложных дорожных ситуациях, в том числе при вхождении в поворот на влажной или скользкой дороге;
  • повышает безопасность зимнего вождения;
  • уменьшает вероятность пробуксовки колёс при трогании с места во время дождя или снега, на размокшем грунте и т. д.

Следует заметить, что после установки ASR водитель вначале может испытывать некоторый дискомфорт, так как работа системы изменяет ощущения водителя при вождении. К тому же с ASR становится невозможным выполнение «полицейского разворота» и других атрибутов агрессивного стиля вождения.


Для бывалых водителей, обладающих многолетним опытом преодоления опасных ситуаций, она может быть даже вредна, так как не позволит им справиться с заносом своими силами. Но для тех, кто предпочитает спокойное вождение, она станет дополнительным средством, повышающим управляемость в сложных погодных условиях.

Статьи по теме

ASR Как это работает? Новое поколение транскрипции ASR

Технология автоматического распознавания речи (ASR) оказывает большое влияние на мир. Эта технология уже меняет способ обучения студентов, работы сотрудников и функционирования общества. ASR также создает возможности для оказания помощи определенным сообществам людей, например тем, кто живет или учится с ограниченными возможностями.

Хотя ASR — ценный инструмент, который многие люди используют в своей повседневной жизни, не все понимают, как он работает и почему он так полезен. Неправильные представления о роли ASR и его возможностях сохраняются. Узнайте больше о том, как работает эта технология, и о том, как ASR поддерживает людей с ограниченными возможностями, одновременно повышая эффективность и экономя время миллионов специалистов.

Содержание:

  • Что такое ASR?
  • Как работает транскрипция ASR?
  • Для чего используется ASR?
  • Как конкретно работает ASR Verbit?

Что такое ASR?

Система автоматического распознавания речи включает программное обеспечение для распознавания голоса, которое обрабатывает человеческую речь и превращает ее в текст. В то время как многие люди только сейчас изучают возможности этих типов инструментов, инженеры и исследователи потратили десятилетия на создание таких систем. На самом деле, первые попытки создать средства распознавания речи относятся к 19 году.52. В то время исследователи Three Bell Labs создали систему под названием «Одри» для распознавания цифр одного говорящего.

Возможности современного ASR намного превосходят возможности его предшественников. Причина этого в том, что инновации в области искусственного интеллекта позволяют инженерам разрабатывать сложное программное обеспечение, реагирующее на человеческий голос. Современные системы могут даже различать говорящих, акценты и многое другое.

Расширенные версии технологий транскрипции ASR теперь включают так называемую обработку естественного языка (NLP). Они фиксируют реальные разговоры между людьми и используют искусственный интеллект для их обработки. Тем не менее, результаты будут различаться, когда дело доходит до транскрипции ASR. На точность, обеспечиваемую ASR, влияют многие факторы, в том числе громкость динамика, фоновый шум, качество задействованного записывающего оборудования и многое другое.

Как работает транскрипция ASR?

С точки зрения пользователя, настроить ASR и сделать запись несложно. По существу, процесс работает следующим образом:

  • Говорит человек или группа, и программа ASR обнаруживает эту речь.
  • Затем устройство создает звуковой файл слов, которые оно слышит.
  • Волновой файл очищается от фонового шума и нормализуется громкость.
  • Затем программа разбивает отфильтрованный волновой файл на части и последовательно анализирует его.
  • Программа автоматического распознавания речи анализирует эти последовательности и использует статистическую вероятность для определения целых слов. Затем он превращает их в полные предложения.
  • Услуги ASR некоторых поставщиков технологий включают редактирование профессиональными расшифровщиками. Добавление этого слоя в процесс помогает исправить любые ошибки для достижения большей точности.

Для чего используется ASR?

Различные отрасли промышленности используют ASR для различных целей.

Например, технология ASR становится стандартным инструментом для профессионалов в области высшего образования, права, финансов, правительства, здравоохранения и средств массовой информации. Во всех этих областях разговоры ведутся непрерывно, и часто необходимо фиксировать дословные записи. Вот несколько примеров использования ASR в разных отраслях.

  • Юридический номер : В ходе судебного разбирательства часто крайне важно фиксировать каждое слово, которое заявляет свидетель или другая вовлеченная сторона. Кроме того, в настоящее время не хватает судебных репортеров, что затрудняет выполнение этого важного шага. Цифровая транскрипция и возможность масштабирования — ключевые решения, которые технология ASR предлагает в этой отрасли.
  • Высшее образование : субтитры и транскрипции ASR позволяют университетам помогать учащимся справляться с потерей слуха или другими нарушениями в классах. Он также может удовлетворить потребности учащихся, не являющихся носителями языка, пригородных поездов или учащихся с различными потребностями в обучении.
    Например, учащиеся с СДВГ часто лучше сосредотачиваются, когда у них есть доступ к субтитрам.
  • Здравоохранение : Врачи используют ASR для расшифровки заметок со встреч с пациентами или документирования шагов во время операций.
  • Медиа : Медиакомпании используют ASR для предоставления живых титров и транскрипции мультимедиа для всех производимых материалов в соответствии с FCC (Федеральным комитетом по связи) и другими директивами.
  • Корпоративный : компании используют субтитры и транскрипцию ASR, чтобы предоставлять более доступные учебные материалы и создавать инклюзивную среду для сотрудников с различными потребностями.

Каковы преимущества автоматического распознавания речи по сравнению с традиционной транскрипцией?

Помимо растущей нехватки квалифицированных традиционных расшифровщиков, машины ASR могут помочь повысить эффективность надписей и расшифровки. Технология может различать голоса в разговорах, лекциях, встречах и заседаниях, чтобы понять, кто что сказал. Дифференциация говорящих может быть полезной, поскольку в разговорах с несколькими заинтересованными сторонами часто возникают сбои между участвующими сторонами.
 
Пользователи могут загружать сотни связанных документов, включая книги, статьи и многое другое, в машину ASR, чтобы обучать ее, чтобы она становилась умнее. Технологии могут усваивать это изобилие информации быстрее, чем человек. Затем он может начать более точно распознавать различные акценты, диалекты и терминологию.

Однако идеальный формат предполагает использование человеческого интеллекта для проверки результатов, которые дает искусственный интеллект. Этот шаг редактирования особенно важен, когда ASR поддерживает инициативы по обеспечению доступности, где правила и законы требуют почти идеальной точности.

К дополнительным преимуществам относятся:

  • Улучшенный обмен информацией благодаря большему объему данных 
  • Улучшенный доступ к данным для тех, кому нужны подписи или стенограммы из-за инвалидности  
  • Возможность предоставления автоматической расшифровки и субтитров для аудио- и видеофайлов, чтобы предоставить немедленный доступ учащимся, сотрудникам и потребителям
  • Повышение эффективности, которое позволяет компаниям, таким как юридические агентства, масштабировать свою деятельность и быстро предоставлять больше услуг большему количеству клиентов
  • Упрощенное документирование и ведение заметок без помощи рук в помощь студентам и специалистам 
  • Эффективное повышение точности  

Как конкретно работает ASR Verbit?

ASR-машина Verbit обеспечивает субтитры и транскрипцию как для живых , так и записанных аудио и видео. Он использует адаптивные алгоритмы и три модели , которые сообщают о способности машины ASR работать точно.

  • Акустическая модель уменьшает фоновый шум и эхо, чтобы устранить факторы, снижающие качество звука. Эта модель также идентифицирует говорящих.
  • Лингвистическая модель идентифицирует определенную терминологию, распознает различные акценты и диалекты и различает говорящих.
  • Модель контекстных событий включает текущие события, новости и актуальные обновления. При этом технология включает новые термины, которые вступают в публичный диалог.

Система автоматического распознавания речи Verbit работает в реальном времени, или пользователи могут выбрать загрузку готовых записей файлов. После того как пользователь загрузит эти файлы, заработает запатентованный механизм преобразования речи в текст.

Достижение точности очень важно для Verbit и ее клиентов. На самом деле такие законы, как Закон об американцах-инвалидах, часто требуют от наших клиентов более высокого уровня точности. Чтобы удовлетворить эту потребность, Verbit продвигает процесс еще на один шаг вперед, используя двух опытных расшифровщиков для каждого проекта для редактирования и просмотра результатов ASR. Этот добавленный человеческий фактор позволяет нам беспрепятственно достигать 9Знак точности 9%. После завершения процесса пользователи могут сразу загрузить файл в выбранном ими формате.

Ожидается, что технология автоматического распознавания речи будет развиваться.

Теперь потребители и профессионалы рассчитывают воспользоваться преимуществами, которые предлагает автоматическое распознавание речи. Дни записи заметок от руки, выяснения, какая кнопка включает свет, и беготни домой после того, как забыл запереть дверь, прошли. Вы сможете выполнить все эти задачи с помощью голоса. Кроме того, эти функции будут безопасными, поскольку технология учится различать разные голоса.

Программное обеспечение ASR и службы расшифровки ASR будут только продолжать нарушать то, как мы функционируем в наших классах, на рабочих местах и ​​дома. Благодаря большей эффективности и вариантам использования эта технология будет продолжать развиваться, чтобы наилучшим образом служить тем, кто на нее полагается.

Зрелый ASR Verbit поддерживает университеты, предприятия и другие организации по всему миру. Свяжитесь с нами сегодня, чтобы узнать, как наши решения по доступности помогают создавать более инклюзивную среду и новые возможности для людей с ограниченными возможностями.

Что такое автоматическое распознавание речи?

За последнее десятилетие системы распознавания речи на основе ИИ постепенно стали частью нашей повседневной жизни, от голосового поиска до виртуальных помощников в контакт-центрах, автомобилях, больницах и ресторанах. Эти разработки в области распознавания речи стали возможными благодаря достижениям в области глубокого обучения.

Подпишитесь на последние новости Speech AI от NVIDIA.

Разработчики во многих отраслях теперь используют автоматическое распознавание речи (ASR) для повышения производительности бизнеса, эффективности приложений и даже цифровой доступности. В этом посте обсуждается ASR, как это работает, варианты использования, улучшения и многое другое.

Что такое автоматическое распознавание речи?

Технология распознавания речи способна преобразовывать устную речь (звуковой сигнал) в письменный текст, который часто используется в качестве команды.

Самое передовое на сегодняшний день программное обеспечение может точно обрабатывать различные языковые диалекты и акценты. Например, ASR обычно используется в пользовательских приложениях, таких как виртуальные агенты, субтитры в реальном времени и ведение клинических заметок. Точная транскрипция речи необходима для этих случаев использования.

Разработчики в области речевого ИИ также используют альтернативные термины для описания распознавания речи, такие как ASR, преобразование речи в текст (STT) и распознавание голоса.

ASR — это важнейший компонент речевого ИИ, который представляет собой набор технологий, призванных помочь людям общаться с компьютерами с помощью голоса.

Почему обработка естественного языка используется при распознавании речи

Разработчики часто не понимают роли моделей обработки естественного языка (NLP) в конвейере ASR. Помимо применения в языковых моделях, NLP также используется для дополнения сгенерированных расшифровок пунктуацией и регистром заглавных букв в конце конвейера ASR.

После обработки расшифровки с помощью НЛП текст используется для последующих задач языкового моделирования: может быть реализован традиционным способом с использованием статистических алгоритмов или с использованием методов глубокого обучения, таких как нейронные сети, для преобразования речи в текст.

Традиционные алгоритмы ASR

Скрытые марковские модели (HMM) и динамическая деформация времени (DTW) — два таких примера традиционных статистических методов распознавания речи.

Используя набор расшифрованных звуковых образцов, HMM обучается прогнозировать последовательности слов, изменяя параметры модели, чтобы максимизировать вероятность наблюдаемой звуковой последовательности.

DTW — это алгоритм динамического программирования, который находит наилучшую возможную последовательность слов, вычисляя расстояние между временными рядами: один представляет неизвестную речь, а другой — известные слова.

Алгоритмы глубокого обучения ASR

Последние несколько лет разработчики проявляли интерес к глубокому обучению для распознавания речи, поскольку статистические алгоритмы менее точны. На самом деле, алгоритмы глубокого обучения лучше понимают диалекты, акценты, контекст и несколько языков, а также точно транскрибируют даже в шумной обстановке.

Одними из самых популярных современных акустических моделей распознавания речи являются Quartznet, Citrinet и Conformer. В типичном конвейере распознавания речи вы можете выбирать и переключать любую акустическую модель, которую хотите, в зависимости от вашего варианта использования и производительности.

Инструменты реализации для моделей глубокого обучения

Для разработки моделей и конвейеров распознавания речи с глубоким обучением доступно несколько инструментов, включая Kaldi, Mozilla DeepSpeech, NVIDIA NeMo, NVIDIA Riva, NVIDIA TAO Toolkit и сервисы от Google, Amazon и Microsoft.

Kaldi, DeepSpeech и NeMo — это наборы инструментов с открытым исходным кодом, которые помогают создавать модели распознавания речи. TAO Toolkit и Riva — это SDK с закрытым исходным кодом, которые помогают разрабатывать настраиваемые пайплайны, которые можно развернуть в рабочей среде.

Поставщики облачных услуг, такие как Google, AWS и Microsoft, предлагают общие услуги, с которыми вы можете легко работать.

Конвейер распознавания речи для глубокого обучения

Конвейер ASR состоит из следующих компонентов:

  • Генератор спектрограмм, преобразующий необработанный звук в спектрограммы.
  • Акустическая модель, которая принимает спектрограммы в качестве входных данных и выводит матрицу вероятностей символов с течением времени.
  • Декодер (опционально связанный с языковой моделью), который генерирует возможные предложения из вероятностной матрицы.
  • Модель пунктуации и использования заглавных букв, которая форматирует сгенерированный текст для более удобного восприятия человеком.

Типичный конвейер глубокого обучения для распознавания речи включает следующие компоненты:

  • Предварительная обработка данных
  • Нейронно-акустическая модель
  • Декодер (опционально в сочетании с языковой моделью n-грамм)
  • Модель пунктуации и заглавных букв
2 900 1 показан пример конвейера распознавания речи для глубокого обучения:

Рис. 1. Конвейер распознавания речи для глубокого обучения

Наборы данных необходимы в любом приложении для глубокого обучения. Нейронные сети функционируют аналогично человеческому мозгу. Чем больше данных вы используете для обучения модели, тем больше она учится. То же самое верно и для конвейера распознавания речи.

Несколько популярных наборов данных для распознавания речи:

  • LibriSpeech
  • Fisher English Training Speech
  • Mozilla Common Voice (MCV)
  • VoxPopuli
  • 2000 HUB 5 Оценочная речь на английском языке
  • AN4 (включает записи произнесения людьми адресов и имен)
  • Aishell-1/AIshell-2 Корпус речи на китайском языке

Обработка данных — это первый шаг. Он включает в себя методы предварительной обработки и дополнения данных, такие как возмущение скорости/времени/шума/импульса и увеличение растяжения во времени, быстрое преобразование Фурье (БПФ) с использованием окна и методы нормализации.

Например, на рис. 2 мел-спектрограмма сгенерирована из необработанного звукового сигнала после применения БПФ с использованием оконной техники.

Рис. 2. Необработанная звуковая волна аудиозаписи (слева) и мел-спектрограмма (справа)

Мы также можем использовать методы возмущения для увеличения набора обучающих данных. На рисунках 3 и 4 представлены такие методы, как шумовое возмущение и маскирование, используемые для увеличения размера обучающего набора данных, чтобы избежать таких проблем, как переобучение.

Рис. 3. Форма звукового сигнала с добавлением шума в изображение спектрограммы мела с добавлением шума 0235

Результатом этапа предварительной обработки данных является спектрограмма/мел-спектрограмма, которая представляет собой визуальное представление силы аудиосигнала во времени.

Спектрограммы Mel затем передаются на следующий этап: нейроакустическая модель. QuartzNet, CitriNet, ContextNet, Conformer-CTC и Conformer-Transducer являются примерами передовых нейроакустических моделей. Несколько моделей ASR существуют по нескольким причинам, таким как потребность в производительности в реальном времени, более высокая точность, объем памяти и стоимость вычислений для вашего варианта использования.

Однако модели на основе Conformer становятся все более популярными из-за их повышенной точности и способности к пониманию. Акустическая модель возвращает вероятность появления символов/слов для каждой временной метки.

На рис. 5 показаны выходные данные акустической модели с отметками времени.

Рисунок 5 . Выходные данные акустической модели включают вероятностное распределение по символам словаря для каждого временного шага

Выходные данные акустической модели подаются в декодер вместе с языковой моделью. Декодеры включают поиск луча и жадные декодеры, а языковые модели включают язык n-грамм, KenLM и нейронную оценку. Когда дело доходит до декодера, он помогает генерировать лучшие слова, которые затем передаются языковым моделям для предсказания правильного предложения.

На рис. 6 декодер выбирает следующее лучшее слово на основе показателя вероятности. На основе окончательного наивысшего балла выбирается правильное слово или предложение и отправляется в модель пунктуации и использования заглавных букв.

Рис. 6. Пример рабочего процесса декодера

Конвейер ASR генерирует текст без пунктуации и заглавных букв.

Наконец, используется модель пунктуации и использования заглавных букв для улучшения качества текста для лучшей читабельности. Представления двунаправленного кодировщика от моделей Transformers (BERT) обычно используются для создания пунктуированного текста.

На рис. 7 показан простой пример модели пунктуации «до и после» и использования заглавных букв.

Рис. 7. Пример вывода модели пунктуации и использования заглавных букв

Влияние отрасли распознавания речи

Существует множество уникальных приложений для ASR. Например, распознавание речи может помочь таким отраслям, как финансы, телекоммуникации и унифицированные коммуникации как услуга (UCaaS), повысить качество обслуживания клиентов, операционную эффективность и рентабельность инвестиций (ROI).

Видео 1. Как речевой ИИ меняет взаимодействие с клиентами

Финансы

Распознавание речи применяется в финансовой отрасли для таких приложений, как помощь оператору колл-центра и стенограммы торговых залов. ASR используется для расшифровки разговоров между клиентами и операторами колл-центра или агентами торговых залов. Затем сгенерированные транскрипции можно анализировать и использовать для предоставления агентам рекомендаций в реальном времени. Это добавляет к 80% сокращению времени после звонка.

Кроме того, сгенерированные стенограммы используются для следующих задач:

  • Анализ настроений
  • Обобщение текста
  • Ответы на вопросы
  • Распознавание намерений и объектов

Контактные центры являются критически важными компонентами телекоммуникационной отрасли

. С помощью технологии контакт-центра вы можете переосмыслить центр обслуживания клиентов в сфере телекоммуникаций, и в этом вам поможет распознавание речи.

Как обсуждалось ранее в примере использования центра обработки вызовов финансового сектора, ASR используется в контакт-центрах Telecom для расшифровки разговоров между клиентами и операторами контакт-центра, чтобы анализировать их и рекомендовать агентов центра обработки вызовов в режиме реального времени. Например, T-Mobile использует ASR для быстрого решения проблем клиентов.

Унифицированные коммуникации как программное обеспечение

COVID-19 повысил спрос на решения UCaaS, и поставщики в этой области начали сосредотачиваться на использовании технологий голосового ИИ, таких как ASR, для создания более увлекательных встреч.

Например, ASR можно использовать для создания субтитров в режиме реального времени во время видеоконференций. Сгенерированные заголовки можно затем использовать для последующих задач, таких как подведение итогов встречи и определение действий в примечаниях.

Будущее технологии ASR

Распознавание речи не так просто, как кажется. Разработка распознавания речи полна проблем, начиная от точности и настройки для вашего варианта использования и заканчивая производительностью в реальном времени. С другой стороны, предприятия и академические учреждения стремятся преодолеть некоторые из этих проблем и расширить использование возможностей распознавания речи.

Проблемы ASR

Некоторые из проблем при разработке и развертывании конвейеров распознавания речи в производстве включают следующее:

  • Отсутствие инструментов и SDK, предлагающих современные (SOTA) модели ASR, затрудняет для разработчиков использование преимуществ передовой технологии распознавания речи.
  • Ограниченные возможности настройки, которые позволяют разработчикам точно настроить жаргон, зависящий от домена и контекста, несколько языков, диалектов и акцентов, чтобы ваши приложения понимали и говорили так, как вы
  • Ограниченная поддержка развертывания; например, в зависимости от варианта использования программное обеспечение должно быть способно развертываться в любом облаке, локально, на периферии и во встроенных системах.
  • Конвейеры распознавания речи в реальном времени; например, в случае использования помощника оператора колл-центра мы не можем ждать несколько секунд, пока разговоры будут расшифрованы, прежде чем использовать их для расширения возможностей агентов.

Дополнительные сведения об основных проблемах, с которыми сталкиваются разработчики при добавлении в приложения возможностей преобразования речи в текст, см. в разделе Решение проблем развертывания автоматического распознавания речи.

Улучшения ASR

Многочисленные достижения в области распознавания речи происходят как в области исследований, так и в области разработки программного обеспечения. Начнем с того, что исследования привели к разработке нескольких новых передовых архитектур ASR, моделей распознавания речи E2E и методов обучения с самостоятельным или неконтролируемым обучением.

Что касается программного обеспечения, то есть несколько инструментов, обеспечивающих быстрый доступ к моделям SOTA, а также различные наборы инструментов, которые позволяют развертывать модели как сервисы в рабочей среде.

Ключевые выводы

Распознавание речи продолжает набирать популярность благодаря достижениям в алгоритмах на основе глубокого обучения, которые сделали ASR таким же точным, как человеческое распознавание. Кроме того, такие прорывы, как многоязычный ASR, помогают компаниям сделать свои приложения доступными по всему миру, а перенос алгоритмов из облака на устройство экономит деньги, защищает конфиденциальность и ускоряет получение выводов.

NVIDIA предлагает Riva, речевой AI SDK, для решения некоторых проблем, описанных выше. С помощью Riva вы можете быстро получить доступ к новейшим исследовательским моделям SOTA, адаптированным для производственных целей. Вы можете настроить эти модели в соответствии со своим доменом и вариантом использования, развернуть в любом облаке, локально, на периферии или во встроенных устройствах и запустить их в режиме реального времени для обеспечения естественного взаимодействия.

Узнайте, как ваша организация может извлечь выгоду из навыков распознавания речи, из бесплатной электронной книги Создание приложений искусственного интеллекта для распознавания речи.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *