李飛飛大神演講全紀錄：讓 AI 描述圖片準確率達 70％，Google 演算技術如何做到？

Posted on2017/11/03

谷歌云首席科學家、機器學習界的標杆人物之一的

李飛飛進行了題目為

「Visual Intelligence: Beyond ImageNet」的演講。

MIT 教授 Simon Thorpe 在 1996 年的一個實驗中，也通過記錄腦波的方式表明，人類只需要觀察一張復雜照片 150ms 的時間，就能辨別出其中是否包含動物，不管是哺乳動物、鳥類、魚，還是蟲子。

視覺關係的識別。這項任務的定義是：

「把一張照片輸入算法模型中，希望算法可以識別出其中的重點物體，找到它們的所在位置，並且找到它們之間的兩兩關係」。

隨著計算力和數據量的爆發，在深度學習時代研究者們終於能夠做出大的進展。

這需要卷積神經網絡的視覺表徵和語言模型的結合。

在李飛飛團隊 ECCV2016 的收錄論文中，

他們的模型已經可以預測

空間關係、比較關係、語義關係、動作關係和位置關係，在「列出所有物體」之外，向著場景內的物體的豐富關係理解邁出了堅實的一步。

舉個例子，

用人坐在椅子上的照片訓練模型，

加上用消防栓在地上的圖片訓練模型。

然後再拿出另一張圖片，一個人坐在消防栓上。

雖然算法沒見過這張圖片，但能夠表達出這是

「一個人坐在消防栓上」。

算法能識別出「一匹馬戴著帽子」，

雖然訓練集裡只有

「人騎馬」以及

「人戴著帽子」的圖片。

李飛飛的下一個目標是走出物體本身。

微軟的 Coco 數據集就已經不再是圖像+標籤，

而是圖像+一個簡短的句子描述圖像中的主要內容。

李飛飛團隊推出了 Visual Genome 數據集，包含了

10 萬張圖像、

420 萬條圖像描述、

180 萬個問答對、

140 萬個帶標籤的物體、

150 萬條關係以及

170 萬條屬性。

李飛飛團隊做的另一項研究是重新認識場景識別

心靈