李飛飛大神演講全紀錄:讓 AI 描述圖片準確率達 70%,Google 演算技術如何做到?

李飛飛大神演講全紀錄:讓 AI 描述圖片準確率達 70%,Google 演算技術如何做到?

Posted on2017/11/03

 

https://buzzorange.com/techorange/2017/11/03/google-machine-learning/

谷歌云首席科學家、機器學習界的標杆人物之一的

李飛飛進行了題目為

Visual Intelligence: Beyond ImageNet」的演講。

MIT 教授 Simon Thorpe 1996 年的一個實驗中,也通過記錄腦波的方式表明,人類只需要觀察一張復雜照片 150ms 的時間,就能辨別出其中是否包含動物,不管是哺乳動物、鳥類、魚,還是蟲子

視覺關係的識別。這項任務的定義是:

「把一張照片輸入算法模型中,希望算法可以識別出其中的重點物體,找到它們的所在位置,並且找到它們之間的兩兩關係」。

隨著計算力數據量的爆發,在深度學習時代研究者們終於能夠做出大的進展。

這需要卷積神經網絡的視覺表徵語言模型的結合。

在李飛飛團隊 ECCV2016 的收錄論文中,

他們的模型已經可以預測

空間關係、比較關係、語義關係、動作關係位置關係,在「列出所有物體」之外,向著場景內的物體的豐富關係理解邁出了堅實的一步。

舉個例子,

人坐在椅子上的照片訓練模型,

加上用消防栓在地上的圖片訓練模型。

然後再拿出另一張圖片,一個人坐在消防栓上

雖然算法沒見過這張圖片,但能夠表達出這是

一個人坐在消防栓上」。

算法能識別出「一匹馬戴著帽子」,

雖然訓練集裡只有

人騎馬」以及

人戴著帽子」的圖片。

李飛飛的下一個目標是走出物體本身。

微軟的 Coco 數據集就已經不再是圖像+標籤

而是圖像+一個簡短的句子描述圖像中的主要內容

李飛飛團隊推出了 Visual Genome 數據集,包含了

10 萬張圖像、

420 萬條圖像描述、

180 萬個問答對、

140 萬個帶標籤的物體、

150 萬條關係以及

170 萬條屬性。

 

李飛飛團隊做的另一項研究是重新認識場景識別