Ключови изводи
- Нов модел за машинно обучение халюцинира изображение на появата на изречение на език, за да подпомогне превода.
- Системата AI, наречена VALHALLA, е проектирана да имитира начина, по който хората възприемат езика.
- Новата система е част от нарастващото движение за използване на AI за разбиране на езика.
Човешкият метод за визуализиране на картини при превод на думи може да помогне на изкуствения интелект (AI) да ви разбере по-добре.
Нов модел за машинно обучение халюцинира образ на това как изглежда едно изречение на език. Според скорошна изследователска статия, техниката след това използва визуализация и други улики, за да подпомогне превода. Това е част от нарастващо движение за използване на AI за разбиране на езика.
„Начинът, по който хората говорят и пишат, е уникален, защото всички имаме малко по-различни тонове и стилове“, каза Бет Къдни, професор по анализ на данни в университета Меривил, която не е участвала в изследването, каза пред Lifewire в интервю по имейл. „Разбирането на контекста е трудно, защото е като работа с неструктурирани данни. Това е мястото, където обработката на естествен език (NLP) е полезна. NLP е клон на AI, който адресира разликите в начина, по който общуваме, използвайки машинно четене с разбиране. Ключовата разлика в NLP, като клон на AI, не се фокусира просто върху буквалните значения на думите, които изговаряме или пишем. Той разглежда значението."
Идете, попитайте Алис
Новата AI система, наречена VALHALLA, създадена от изследователи от MIT, IBM и Калифорнийския университет в Сан Диего, е проектирана да имитира начина, по който хората възприемат езика. Според учените използването на сензорна информация, като мултимедия, съчетана с нови и непознати думи, като флаш карти с изображения, подобрява усвояването и задържането на езика.
Тези системи увеличават силата на чатботове, които понастоящем са само обучени и способни на конкретни разговори…
Екипът твърди, че техният метод подобрява точността на машинния превод спрямо превода само на текст. Учените са използвали архитектура на енкодер-декодер с два трансформатора, вид модел на невронна мрежа, подходящ за зависими от последователността данни, като език, който може да обърне внимание на ключови думи и семантика на изречение. Единият трансформатор генерира визуална халюцинация, а другият извършва мултимодален превод, използвайки изходи от първия трансформатор.
"В сценарии от реалния свят може да нямате изображение по отношение на изходното изречение", каза Рамесвар Панда, един от членовете на изследователския екип, в съобщение за новини. „И така, нашата мотивация беше основно: Вместо да използваме външно изображение по време на извод като вход, можем ли да използваме визуална халюцинация – способността да си представяме визуални сцени – за да подобрим системите за машинен превод?“
Разбиране на AI
Значителни изследвания са фокусирани върху напредъка на НЛП, посочи Къдни. Например Илон Мъск е съосновател на Open AI, който работи върху GPT-3, модел, който може да разговаря с човек и е достатъчно опитен, за да генерира софтуерен код в Python и Java.
Google и Meta също работят за разработването на AI за разговори със своята система, наречена LAMDA. „Тези системи увеличават силата на чатботове, които в момента са само обучени и способни на конкретни разговори, което вероятно ще промени лицето на поддръжката на клиенти и бюрата за помощ“, каза Къдни.
Aaron Sloman, съоснователят на CLIPr, технологична компания за изкуствен интелект, каза в имейл, че големите езикови модели като GPT-3 могат да се учат от много малко примери за обучение, за да подобрят резюметата на текст въз основа на човешка обратна връзка. Например, каза той, можете да зададете математически проблем на голям езиков модел и да помолите AI да мисли стъпка по стъпка.
"Можем да очакваме по-големи прозрения и разсъждения да бъдат извлечени от големите езикови модели, докато научаваме повече за техните способности и ограничения", добави Сломан. „Също така очаквам тези езикови модели да създадат по-човешки процеси, докато моделистите разработват по-добри начини за фина настройка на моделите за специфични задачи от интерес.“
Професорът по компютри в Georgia Tech Diyi Yang прогнозира в интервю по имейл, че ще видим повече използване на системи за обработка на естествен език (NLP) в ежедневието ни, вариращи от персонализирани асистенти, базирани на NLP, за помощ при имейли и телефонни обаждания, до добре познати системи за диалог за търсене на информация при пътуване или здравеопазване.„Както и справедливи AI системи, които могат да изпълняват задачи и да помагат на хората по отговорен и безпристрастен начин“, добави Янг.
Огромни AI модели, използващи трилиони параметри като GPT-3 и DeepText, ще продължат да работят за единен модел за всички езикови приложения, прогнозира Стивън Хаге, инженер по машинно обучение в Dialexa, в интервю по имейл. Той каза, че ще има и нови типове модели, създадени за специфични цели, като онлайн пазаруване с гласови команди.
„Пример може да бъде купувач, който казва „Покажете ми тази сенка за очи в среднощно синьо с повече ореол“, за да покажете този нюанс върху очите на човека с известен контрол върху това как се нанася“, добави Хаге.