Ключови изводи
- Бързо наближава денят, в който няма да можете да различите компютърно генерираната реч от истинската.
- Google наскоро представи LaMDA, модел, който може да позволи по-естествени разговори.
- Произвеждането на човешка реч също изисква огромни количества процесорна мощност.
В момента е лесно да разберете кога говорите с компютър, но това скоро може да се промени благодарение на скорошния напредък в AI.
Google наскоро представи LaMDA, експериментален модел, за който компанията твърди, че може да подобри способността на нейните асистенти с изкуствен интелект да водят разговор и да позволи по-естествени разговори. LaMDA цели в крайна сметка да разговаря нормално за почти всичко без каквото и да е предварително обучение.
Това е един от нарастващия брой AI проекти, които могат да ви накарат да се чудите дали говорите с човешко същество.
"Моята оценка е, че в рамките на следващите 12 месеца потребителите ще започнат да се излагат на тези нови, по-емоционални гласове и да свикват с тях", Джеймс Каплан, главен изпълнителен директор на MeetKai, разговорен AI виртуален гласов асистент и търсене двигател, каза в интервю по имейл.
"След като това се случи, днешната синтезирана реч ще звучи на потребителите така, както днес ни звучи речта от началото на 2000-те."
Гласови асистенти с характер
LaMDA на Google е изградена върху Transformer, невронна мрежова архитектура, изобретена от Google Research. За разлика от други езикови модели, LaMDA на Google беше обучен на реален диалог.
Част от предизвикателството да направиш естествено звучаща AI реч е отвореният характер на разговорите, пише Ели Колинс от Google в публикация в блог.
"Разговорът с приятел за телевизионно шоу може да се развие в дискусия за страната, в която е заснето шоуто, преди да се стигне до дебат за най-добрата регионална кухня в тази страна", добави той.
Нещата се движат бързо с речта на робота. Ерик Розенблум, управляващ партньор в Tsingyuan Ventures, който инвестира в разговорен AI, каза, че някои от най-фундаменталните проблеми в компютърно-подпомаганата реч са практически решени.
Например степента на точност при разбиране на реч вече е изключително висока в услуги като транскрипции, извършени от софтуера Otter.ai или медицински бележки, направени от DeepScribe.
"Следващата граница обаче е много по-трудна", добави той.
"Запазването на разбирането на контекста, което е проблем, който надхвърля обработката на естествения език, и емпатията, като например компютрите, взаимодействащи с хората, трябва да разбират разочарованието, гнева, нетърпението и т.н. И по двата проблема се работи, но и двата са доста далеч от задоволителни."
Невронните мрежи са ключът
За да генерират реалистични гласове, компаниите използват технология като дълбоки невронни мрежи, форма на машинно обучение, която класифицира данните чрез слоеве, Мат Мълдун, северноамерикански президент в ReadSpeaker, компания, която разработва софтуер за текст в реч, каза в интервю по имейл.
"Тези слоеве прецизират сигнала, сортирайки го в по-сложни класификации", добави той. „Резултатът е синтетична реч, която звучи удивително като човешка.“
Друга технология в процес на разработка е Prosody Transfer, която включва комбиниране на звука на един глас от текст към говор със стила на говорене на друг, каза Мълдун. Има и трансферно обучение, което намалява количеството данни за обучение, необходими за създаване на нов нервен глас за преобразуване на текст в говор.
Каплан каза, че произвеждането на човешка реч също изисква огромни количества процесорна мощност. Компаниите разработват чипове за невронни ускорители, които са персонализирани модули, които работят заедно с обикновени процесори.
"Следващият етап в това ще бъде поставянето на тези чипове в по-малък хардуер, тъй като в момента това вече е направено за камери, когато се изисква AI за зрение", добави той. „Няма да мине много време този тип изчислителна способност да бъде налична в самите слушалки.“
Едно предизвикателство пред разработването на реч, управлявана от изкуствен интелект, е, че всеки говори различно, така че компютрите трудно ни разбират.
„Помислете за акцентите на Джорджия срещу Бостън срещу Северна Дакота и дали английският е основният ви език или не“, каза в имейл Моника Дема, която работи по анализите на гласовото търсене в MDinc. „Мислейки глобално, е скъпо да се направи това за всички региони на Германия, Китай и Индия, но това не означава, че не е или не може да бъде направено.“