Как AI може да направи компютърната реч по-естествена

Съдържание:

Как AI може да направи компютърната реч по-естествена
Как AI може да направи компютърната реч по-естествена
Anonim

Ключови изводи

  • Компаниите се надпреварват да намерят начини да направят компютърно генерираната реч да звучи по-реалистично.
  • NVIDIA наскоро представи инструменти, които могат да уловят звука на естествената реч, като ви позволяват да обучите AI със собствения си глас.
  • Интонация, емоция и музикалност са характеристиките, които все още липсват на компютърните гласове, казва един експерт.
Image
Image

Компютърно генерираната реч скоро може да звучи много по-човешки.

Производителят на компютърни части NVIDIA наскоро представи инструменти, които могат да уловят звука на естествената реч, като ви позволяват да тренирате AI с гласа си. Софтуерът също може да предаде думите на един говорител, използвайки гласа на друг човек. Това е част от процъфтяващия стремеж компютърната реч да стане по-реалистична.

"Усъвършенстваната гласова AI технология позволява на потребителите да говорят естествено, комбинирайки много запитвания в едно изречение и елиминирайки необходимостта от постоянно повтаряне на детайли от оригиналната заявка", Майкъл Загорсек, главен оперативен директор на компанията за разпознаване на реч SoundHound, каза пред Lifewire в интервю по имейл.

"Добавянето на множество езици, които вече са налични на повечето гласови платформи с изкуствен интелект, прави дигиталните гласови асистенти достъпни в повече географски области и за повече население", добави той.

Robospeech Rising

Alexa на Amazon и Siri на Apple звучат много по-добре от компютърна реч дори преди десетилетие, но скоро няма да бъдат сбъркани с автентични човешки гласове.

За да направи изкуствената реч по-естествена, изследователският екип на NVIDIA за синтез на реч разработи RAD-TTS модел. Системата позволява на хората да обучават модел текст към реч (TTS) с гласа си, включително темпо, тоналност, тембър и други фактори.

Компанията използва своя нов модел, за да изгради по-разговорно звучащ гласов разказ за своята видео серия I Am AI.

"С този интерфейс нашият видео продуцент може да се запише, докато чете видео сценария и след това да използва AI модела, за да преобразува речта си в гласа на женския разказвач. Използвайки този базов разказ, продуцентът може след това да насочва AI като гласов актьор - настройва синтезираната реч, за да подчертае конкретни думи и променя темпото на дикторския текст, за да изрази по-добре тона на видеото, " пише NVIDIA на своя уебсайт.

По-трудно, отколкото звучи

Да направиш компютърно генерираната реч да звучи естествено е труден проблем, казват експерти.

„Трябва да запишете стотици часове нечий глас, за да създадете негова компютърна версия“, каза Назим Рагимов, главен изпълнителен директор на софтуерната компания за текст към говор Kukarella, пред Lifewire в интервю по имейл. „И записът трябва да е качествен, записан в професионално студио. Колкото повече часове качествена реч са заредени и обработени, толкова по-добър е резултатът."

Преобразуването на текст в говор може да се използва в игри, за подпомагане на хора с вокални увреждания или за подпомагане на потребителите да превеждат между езици със собствения си глас.

Интонация, емоция и музикалност са характеристиките, които все още липсват на компютърните гласове, каза Рагимов.

Ако AI може да добави тези липсващи връзки, компютърно генерираната реч ще бъде „неразличима от гласовете на истинските актьори“, добави той. „Това е в процес на работа. Други гласове ще могат да се конкурират с радиоводещите. Скоро ще видите гласове, които могат да пеят и четат аудиокниги.“

Говорните технологии стават все по-популярни в широк кръг от бизнеси.

„Автомобилната индустрия наскоро прие гласовия AI като начин за създаване на по-безопасни и по-свързани изживявания при шофиране,“каза Загорсек.

"Оттогава гласовите асистенти стават все по-разпространени, тъй като марките търсят начини да подобрят изживяването на клиентите и да отговорят на търсенето на по-лесни, по-безопасни, по-удобни, ефективни и хигиенични методи за взаимодействие с техните продукти и услуги."

Обикновено гласовият изкуствен интелект преобразува заявките в отговори в процес от две стъпки, който започва с транскрибиране на реч в текст с помощта на автоматично разпознаване на реч (ASR) и след това подаване на този текст в модел за разбиране на естествен език (NLU).

Image
Image

Подходът на SoundHound съчетава тези две стъпки в един процес за проследяване на речта в реално време. Компанията твърди, че тази техника позволява на гласовите асистенти да разбират значението на потребителските заявки, дори преди човекът да е свършил да говори.

Бъдещите подобрения в компютърната реч, включително наличието на различни опции за свързване от само вградени (не се изисква облачна връзка) до хибридни (вградени плюс облачни) и само облачни „ще дадат по-голям избор на компании в различни индустрии по отношение на цената, поверителността и наличността на процесорна мощност, каза Загореск.

NVIDIA каза, че нейните новинарски AI модели надхвърлят гласовата работа.

„Преобразуването на текст в реч може да се използва в игри, за подпомагане на хора с вокални увреждания или за подпомагане на потребителите да превеждат между езици със собствения си глас“, пише компанията. „Той дори може да пресъздаде изпълненията на емблематични певци, съчетавайки не само мелодията на песента, но и емоционалното изражение зад вокалите.“

Препоръчано: