李飛飛大神演講全紀錄:讓 AI 描述圖片準確率達 70%,Google 演算技術如何做到?
Posted on2017/11/03
https://buzzorange.com/techorange/2017/11/03/google-machine-learning/
谷歌云首席科學家、機器學習界的標杆人物之一的
李飛飛進行了題目為
「Visual Intelligence: Beyond ImageNet」的演講。
MIT 教授 Simon Thorpe 在 1996 年的一個實驗中,也通過記錄腦波的方式表明,人類只需要觀察一張復雜照片 150ms 的時間,就能辨別出其中是否包含動物,不管是哺乳動物、鳥類、魚,還是蟲子。
視覺關係的識別。這項任務的定義是:
「把一張照片輸入算法模型中,希望算法可以識別出其中的重點物體,找到它們的所在位置,並且找到它們之間的兩兩關係」。
隨著計算力和數據量的爆發,在深度學習時代研究者們終於能夠做出大的進展。
這需要卷積神經網絡的視覺表徵和語言模型的結合。
在李飛飛團隊 ECCV2016 的收錄論文中,
他們的模型已經可以預測
空間關係、比較關係、語義關係、動作關係和位置關係,在「列出所有物體」之外,向著場景內的物體的豐富關係理解邁出了堅實的一步。
舉個例子,
用人坐在椅子上的照片訓練模型,
加上用消防栓在地上的圖片訓練模型。
然後再拿出另一張圖片,一個人坐在消防栓上。
雖然算法沒見過這張圖片,但能夠表達出這是
「一個人坐在消防栓上」。
算法能識別出「一匹馬戴著帽子」,
雖然訓練集裡只有
「人騎馬」以及
「人戴著帽子」的圖片。
李飛飛的下一個目標是走出物體本身。
微軟的 Coco 數據集就已經不再是圖像+標籤,
而是圖像+一個簡短的句子描述圖像中的主要內容。
李飛飛團隊推出了 Visual Genome 數據集,包含了
10 萬張圖像、
420 萬條圖像描述、
180 萬個問答對、
140 萬個帶標籤的物體、
150 萬條關係以及
170 萬條屬性。
李飛飛團隊做的另一項研究是重新認識場景識別