Разговорите с вашия компютър могат да станат по-реалистични

👤 Автор Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 06:40.
🖍 Последно модифициран 2025-06-01 07:16.

Ключови изводи

Meta използва AI, за да прави програми, които могат да изразяват емоции в реч.
Екипът на компанията за AI каза, че е постигнал напредък в моделирането на експресивни вокализации, като смях, прозяване, плач и „спонтанен чат-чат“в реално време.
AI също се използва за подобряване на подобренията в разпознаването на реч.

Скоро може да имате възможност да водите по-естествен чат с вашия компютър, благодарение на силата на изкуствения интелект (AI).

Meta каза, че е постигнала значителен напредък в усилията си да създаде по-реалистични системи за реч, генерирани от AI. Екипът на компанията за изкуствен интелект каза, че е постигнал напредък в способността да моделира експресивни вокализации, като смях, прозяване и плач, в допълнение към „спонтанен чат-чат“в реално време.

„Във всеки даден разговор хората обменят пълни с невербални сигнали, като интонации, емоционално изразяване, паузи, акценти, ритми - всички те са важни за човешките взаимодействия“, пише екипът в скорошна публикация в блога. „Но днешните AI системи не успяват да уловят тези богати, изразителни сигнали, защото те се учат само от писмен текст, който улавя какво казваме, но не и как го казваме.“

По-интелигентна реч

В публикацията в блога екипът на Meta AI каза, че работи за преодоляване на ограниченията на традиционните AI системи, които не могат да разберат невербални сигнали в речта, като интонации, емоционални изрази, паузи, акценти и ритми. Системите са задържани, защото могат да учат само от писмен текст.

Но работата на Meta се различава от предишните усилия, защото нейните AI модели могат да използват модели за обработка на естествен език, за да уловят пълната природа на говоримия език. Мета изследователите казват, че новите модели могат да позволят на AI системите да предадат чувствата, които искат да предадат - като скука или ирония.

"В близко бъдеще ще се съсредоточим върху прилагането на безтекстови техники за изграждане на полезни приложения надолу по веригата, без да изискваме нито ресурсоемки текстови етикети, нито системи за автоматично разпознаване на реч (ASR), като например отговаряне на въпроси (напр. "Как е времето?"), пише екипът в публикацията в блога. „Ние вярваме, че прозодията в речта може да помогне за по-добро анализиране на изречение, което от своя страна улеснява разбирането на намерението и подобрява ефективността на отговарянето на въпроси.“

Разбиране на AI Powers

Не само, че компютрите стават все по-добри в предаването на смисъл, но AI също се използва за подобряване на подобренията в разпознаването на реч.

Компютърните учени работят върху компютърното разпознаване на реч поне от 1952 г., когато трима изследователи от Bell Labs създадоха система, която може да разпознава единични цифрови цифри, каза главният технологичен директор на AI Dynamics Райън Монсурат в имейл до Lifewire. До 90-те години на миналия век системите за разпознаване на реч бяха налични в търговската мрежа, но все още имаше достатъчно висок процент грешки, за да обезкуражи използването им извън много специфични области на приложение, като например здравеопазването.

„Сега, след като моделите за задълбочено обучение са позволили на модели на ансамбъл (като тези на Microsoft) да постигнат свръхчовешка производителност при разпознаване на реч, ние разполагаме с технологията, за да позволим независима от говорещия вербална комуникация с компютри в мащаб“, каза Монсурат. „Следващият етап ще включва намаляване на цената, така че всеки, който използва Siri или AI асистентите на Google, да има достъп до това ниво на разпознаване на реч.“

AI е полезен за разпознаването на реч, тъй като може да се подобри с времето чрез учене, каза Ариел Утник, главен директор по приходите и генерален мениджър на гласовата компания за изкуствен интелект Verbit.ai, в интервю за Lifewire по имейл. Например Verbit твърди, че нейната вътрешна AI технология открива и филтрира фоновия шум и ехото и транскрибира високоговорителите независимо от акцента, за да генерира подробни, професионални преписи и надписи от живо и записано видео и аудио.

Но Utnik каза, че повечето текущи платформи за разпознаване на реч са само 75-80% точни.

"ИИ никога няма да замени напълно хората, тъй като личният преглед от преписвачи, коректори и редактори е необходим, за да се осигури висококачествен и най-точен окончателен препис", добави той.

По-доброто гласово разпознаване може да се използва и за предотвратяване на хакери, каза в имейл Санджай Гупта, вицепрезидентът, глобален ръководител на продуктовото и корпоративното развитие в компанията за гласово разпознаване Mitek Systems. Изследванията показват, че в рамките на две години 20 процента от всички успешни атаки за превземане на акаунт ще използват синтетично гласово усилване, добави той.

„Това означава, че тъй като технологията за дълбоко фалшифициране става все по-сложна, ние трябва едновременно да създадем усъвършенствана сигурност, която може да се бори с тези тактики заедно с дълбоките фалшификати на изображения и видео“, каза Гупта. „Борбата с подправянето на глас изисква технология за откриване на живост, способна да прави разлика между жив глас и записана, синтетична или компютърно генерирана версия на глас.“

Корекция 2022-05-04: Коригирано е изписването на името на Ryan Monsurate в параграф 9.

Препоръчано:

Разговорите с вашия компютър могат да станат по-реалистични

Съдържание:

Ключови изводи

По-интелигентна реч

Разбиране на AI Powers

Препоръчано:

6 начина за свързване на вашия компютър към вашия телевизор

Ботовете за обръщане на бургери могат един ден да станат реалност

Как базираните на фитнес видео игри могат да станат масови

Как филмите & телевизия могат да станат вашите нови аудиокниги

Вашите интелигентни джаджи могат да станат по-умни

Как да изтеглите и запазите MP4 на iPhone

Как да свържете Surface лаптоп към монитор

Стоящото бюро Theodore на Flexispot ми дава възможност да стоя прав, докато работя

Как да добавите текст към PDF файл

Google ще промени начина, по който проследяването на рекламите работи на Android

Как да получите & Използвайте Widgets на центъра за известия

Как да форматирате C от диск с Windows [Лесно, 15-20 минути]

Republic of Gamers Телефоните се завръщат

Как да направите ферментирало око на паяк в Minecraft

Научете как правилно да пренасочвате имейл в Outlook

Защо 2020 ще бъде годината, в която поправяме имейли

Как плановете за повторно отваряне на Apple ще се отразят на работниците

Защо трябва да вземете използван лаптоп по време на недостиг

Прожекторите на TikTok разкриват опасностите от навиците за гледане на тийнейджъри

Какво е преносимо зарядно устройство?