AI вече може да разбере вашите видеоклипове, като ги гледа

Съдържание:

AI вече може да разбере вашите видеоклипове, като ги гледа
AI вече може да разбере вашите видеоклипове, като ги гледа
Anonim

Ключови изводи

  • Изследователите казват, че могат да научат AI да етикетира видеоклипове чрез гледане и слушане.
  • Системата AI се научава да представя данни, за да улови концепции, споделени между визуални и аудио данни.
  • Това е част от усилията да се научи изкуственият интелект да разбира концепции, които хората нямат проблеми с усвояването, но които компютрите трудно разбират.

Image
Image

Нова система с изкуствен интелект (AI) може да гледа и слуша вашите видеоклипове и да обозначава нещата, които се случват.

Изследователите на MIT са разработили техника, която учи AI да улавя действия, споделяни между видео и аудио. Например, техният метод може да разбере, че актът на бебешки плач във видеоклип е свързан с изречената дума „плач“в звуков клип. Това е част от усилията да се научи AI как да разбира концепции, които хората нямат проблеми да научат, но които компютрите трудно разбират.

"Разпространената парадигма на обучение, контролираното обучение, работи добре, когато имате набори от данни, които са добре описани и пълни", каза експертът по изкуствен интелект Фил Уиндър пред Lifewire в интервю по имейл. „За съжаление наборите от данни рядко са пълни, защото реалният свят има лошия навик да представя нови ситуации.“

По-интелигентен AI

Компютрите срещат трудности при измислянето на ежедневни сценарии, защото трябва да обработват данни, а не звук и изображения като хората. Когато една машина "види" снимка, тя трябва да кодира тази снимка в данни, които може да използва, за да изпълни задача като класификация на изображението. AI може да затъне, когато входните данни идват в множество формати, като видеоклипове, аудио клипове и изображения.

"Основното предизвикателство тук е как една машина може да синхронизира тези различни модалности? Като хора, това е лесно за нас", каза Александър Лиу, изследовател от MIT и първи автор на статия по темата, в съобщение за новини. „Виждаме кола и след това чуваме звука на кола, която минава покрай нас, и знаем, че това е едно и също нещо. Но за машинното обучение не е толкова лесно.“

Екипът на Лиу разработи AI техника, която според тях се научава да представя данни, за да улавя концепции, споделени между визуални и аудио данни. Използвайки това знание, техният модел на машинно обучение може да идентифицира къде се извършва конкретно действие във видеоклип и да го етикетира.

Новият модел взема необработени данни, като видеоклипове и съответните им текстови надписи, и ги кодира чрез извличане на функции или наблюдения относно обекти и действия във видеоклипа. След това картографира тези точки от данни в мрежа, известна като пространство за вграждане. Моделът групира подобни данни заедно като единични точки в мрежата; всяка от тези точки от данни или вектори е представена от отделна дума.

Например, видеоклип на човек, който жонглира, може да бъде съпоставен с вектор, обозначен като "жонглиране".

Изследователите са проектирали модела, така че да може да използва само 1000 думи за етикетиране на вектори. Моделът може да реши кои действия или концепции иска да кодира в един вектор, но може да използва само 1000 вектора. Моделът избира думите, които смята, че най-добре представят данните.

"Ако има видеоклип за прасета, моделът може да присвои думата "прасе" на един от 1000 вектора. След това, ако моделът чуе някой да казва думата "прасе" в аудио клип, все пак трябва да използва същия вектор, за да кодира това, " обясни Лиу.

Вашите видеоклипове, декодирани

По-добри системи за етикетиране като тази, разработена от Масачузетския технологичен институт, биха могли да помогнат за намаляване на пристрастията в ИИ, каза Мариан Беседес, ръководител на изследователската и развойната дейност в биометричната фирма Innovatrics, в интервю за Lifewire по имейл. Беседес предложи индустрията за данни да може да разглежда AI системите от гледна точка на производствения процес.

"Системите приемат необработени данни като вход (суровини), обработват ги предварително, поглъщат ги, вземат решения или прогнози и извеждат анализи (готови продукти)," каза Беседес. „Ние наричаме този процес „фабрика за данни“и подобно на други производствени процеси, той трябва да бъде обект на контрол на качеството. Индустрията за данни трябва да третира пристрастията на AI като проблем с качеството.

„От гледна точка на потребителя грешно етикетираните данни затрудняват например онлайн търсенето на конкретни изображения/видеоклипове“, добави Беседес. „С правилно разработен AI можете да правите етикетиране автоматично, много по-бързо и по-неутрално, отколкото с ръчно етикетиране.“

Image
Image

Но моделът на MIT все още има някои ограничения. От една страна, тяхното изследване се фокусира върху данни от два източника едновременно, но в реалния свят хората се сблъскват с много видове информация едновременно, каза Лиу

„И ние знаем, че 1000 думи работят върху този вид набор от данни, но не знаем дали може да се обобщи към проблем от реалния свят,“добави Лю.

Изследователите от Масачузетския технологичен институт казват, че тяхната нова техника превъзхожда много подобни модели. Ако изкуственият интелект може да бъде обучен да разбира видеоклипове, може в крайна сметка да можете да пропуснете да гледате видеоклипове от ваканцията на вашия приятел и вместо това да получите компютърно генериран отчет.

Препоръчано: