Разговорите с вашия компютър могат да станат по-реалистични

Съдържание:

Разговорите с вашия компютър могат да станат по-реалистични
Разговорите с вашия компютър могат да станат по-реалистични
Anonim

Ключови изводи

  • Meta използва AI, за да прави програми, които могат да изразяват емоции в реч.
  • Екипът на компанията за AI каза, че е постигнал напредък в моделирането на експресивни вокализации, като смях, прозяване, плач и „спонтанен чат-чат“в реално време.
  • AI също се използва за подобряване на подобренията в разпознаването на реч.
Image
Image

Скоро може да имате възможност да водите по-естествен чат с вашия компютър, благодарение на силата на изкуствения интелект (AI).

Meta каза, че е постигнала значителен напредък в усилията си да създаде по-реалистични системи за реч, генерирани от AI. Екипът на компанията за изкуствен интелект каза, че е постигнал напредък в способността да моделира експресивни вокализации, като смях, прозяване и плач, в допълнение към „спонтанен чат-чат“в реално време.

„Във всеки даден разговор хората обменят пълни с невербални сигнали, като интонации, емоционално изразяване, паузи, акценти, ритми – всички те са важни за човешките взаимодействия“, пише екипът в скорошна публикация в блога. „Но днешните AI системи не успяват да уловят тези богати, изразителни сигнали, защото те се учат само от писмен текст, който улавя какво казваме, но не и как го казваме.“

По-интелигентна реч

В публикацията в блога екипът на Meta AI каза, че работи за преодоляване на ограниченията на традиционните AI системи, които не могат да разберат невербални сигнали в речта, като интонации, емоционални изрази, паузи, акценти и ритми. Системите са задържани, защото могат да учат само от писмен текст.

Но работата на Meta се различава от предишните усилия, защото нейните AI модели могат да използват модели за обработка на естествен език, за да уловят пълната природа на говоримия език. Мета изследователите казват, че новите модели могат да позволят на AI системите да предадат чувствата, които искат да предадат - като скука или ирония.

"В близко бъдеще ще се съсредоточим върху прилагането на безтекстови техники за изграждане на полезни приложения надолу по веригата, без да изискваме нито ресурсоемки текстови етикети, нито системи за автоматично разпознаване на реч (ASR), като например отговаряне на въпроси (напр. "Как е времето?"), пише екипът в публикацията в блога. „Ние вярваме, че прозодията в речта може да помогне за по-добро анализиране на изречение, което от своя страна улеснява разбирането на намерението и подобрява ефективността на отговарянето на въпроси.“

Разбиране на AI Powers

Не само, че компютрите стават все по-добри в предаването на смисъл, но AI също се използва за подобряване на подобренията в разпознаването на реч.

Компютърните учени работят върху компютърното разпознаване на реч поне от 1952 г., когато трима изследователи от Bell Labs създадоха система, която може да разпознава единични цифрови цифри, каза главният технологичен директор на AI Dynamics Райън Монсурат в имейл до Lifewire. До 90-те години на миналия век системите за разпознаване на реч бяха налични в търговската мрежа, но все още имаше достатъчно висок процент грешки, за да обезкуражи използването им извън много специфични области на приложение, като например здравеопазването.

„Сега, след като моделите за задълбочено обучение са позволили на модели на ансамбъл (като тези на Microsoft) да постигнат свръхчовешка производителност при разпознаване на реч, ние разполагаме с технологията, за да позволим независима от говорещия вербална комуникация с компютри в мащаб“, каза Монсурат. „Следващият етап ще включва намаляване на цената, така че всеки, който използва Siri или AI асистентите на Google, да има достъп до това ниво на разпознаване на реч.“

Image
Image

AI е полезен за разпознаването на реч, тъй като може да се подобри с времето чрез учене, каза Ариел Утник, главен директор по приходите и генерален мениджър на гласовата компания за изкуствен интелект Verbit.ai, в интервю за Lifewire по имейл. Например Verbit твърди, че нейната вътрешна AI технология открива и филтрира фоновия шум и ехото и транскрибира високоговорителите независимо от акцента, за да генерира подробни, професионални преписи и надписи от живо и записано видео и аудио.

Но Utnik каза, че повечето текущи платформи за разпознаване на реч са само 75-80% точни.

"ИИ никога няма да замени напълно хората, тъй като личният преглед от преписвачи, коректори и редактори е необходим, за да се осигури висококачествен и най-точен окончателен препис", добави той.

По-доброто гласово разпознаване може да се използва и за предотвратяване на хакери, каза в имейл Санджай Гупта, вицепрезидентът, глобален ръководител на продуктовото и корпоративното развитие в компанията за гласово разпознаване Mitek Systems. Изследванията показват, че в рамките на две години 20 процента от всички успешни атаки за превземане на акаунт ще използват синтетично гласово усилване, добави той.

„Това означава, че тъй като технологията за дълбоко фалшифициране става все по-сложна, ние трябва едновременно да създадем усъвършенствана сигурност, която може да се бори с тези тактики заедно с дълбоките фалшификати на изображения и видео“, каза Гупта. „Борбата с подправянето на глас изисква технология за откриване на живост, способна да прави разлика между жив глас и записана, синтетична или компютърно генерирана версия на глас.“

Корекция 2022-05-04: Коригирано е изписването на името на Ryan Monsurate в параграф 9.

Препоръчано: