追蹤
Tagtoo開發日記
關於部落格
  • 89250

    累積人氣

  • 4

    今日人氣

    0

    追蹤人氣

人腦 vs. 圖片辨識

你是否曾經好奇大腦是如何不費吹灰之力就能認出你的朋友?
不論他近在眼前或是距離五公尺  不論他是正面對你或是側面對你
不論在陽光下或是樹蔭下

又  當看到一張房間擺飾的照片  我們如何輕易的看出這是床  這是書櫃  這是桌子
桌子上面有杯子  筆筒  熱水壺  檯燈  等物體  即便有些物體之間的界線因為兩者顏色的相近而不是那麼清晰
只要有一定的背景知識(外加圖片的解析度夠高)  你甚至可以辨別這是哪一家廠商的哪一款床   筆筒裡的筆有哪些牌子
這些背景知識並非與生俱來 無法修改  而是隨著所見所聞不斷擴充

就我所知  目前還沒有圖形辨識演算法可以達到這件事
所以google image search 不能動用他龐大的伺服器群日以繼夜去辨識網際網路上所有的圖片
google大致上還是只能夠靠著圖片所在的網頁內文來提供你圖片搜尋結果

我還記得念碩班時  有個同學的碩士論文想做到我上面提到的第二件事
老師很婉轉的告訴他 這在一年內大概不太可能做出什麼
當然他後來換題目了  這件事淪為同學間的笑柄

腦科學的進展也還不能完全解釋大腦是怎麼做到的
不過已經小有成果  以下是科普書籍"創智慧"中所闡述的機制:

想像大腦有個叫做新皮質的地方 新皮質有一區是掌管視覺的
姑且稱為視覺皮質區  視覺皮質區又分成數層  由下而上大致上有V1  V2  V4  IT 這四層
其中V1位於"最底層"  意即它接收視網膜送來的視覺訊號
這個訊號逐層往上傳遞(見圖)  順序是V2  V4  最後是IT

假設現在你看到了一張臉孔
在V1的地方放上探針 觀察神經元活動
會發現這一層的神經元活動形態(每一組不同的神經元活化代表一種獨特的形態) 改變得很頻繁
只要臉的位置或角度稍稍改變  就會使得這一層的活動形態改變
更明確的說 每一個V1神經元都對一種特定的輸入型態敏感
例如有些細胞只對自己感受區內的垂直線有反應 另一些細胞只對傾斜30度角的斜線起反應
而這些線段並無特殊意義 它有可能是任何物體的一部分(所以可以用有限的細胞來表示世界上無窮無盡的物體)
活化狀態改變迅速 並不對應真實世界中的物體 只辨識物體微小的特徵(例如某輪廓線段)  是這層細胞的特性

然而越往上層走  就會發現神經元活化的形態越來越穩定
到了IT層  會發現只要那張臉孔在你的視覺範圍內  IT層內某組神經元就會持續穩定地活化
不因距離  角度  方位  表情  光線的不同而異 至此可以說大腦已經辨識出這張臉了
和V1的細胞不同  IT層的細胞對應真實世界中特定的物體 當你看到朋友A和朋友B時
IT層各有不同的一組細胞處於活化狀態

另外  更厲害的是你不必真正看到  只要想到那張臉孔
同樣的一組神經元也會活化  這代表了視覺皮質不僅可處理物體物理上的改變
即便是輸入感官種類(有時是視覺輸入  有時僅是憑空聯想到)上的變異
大腦也有能力辨識  把兩個截然不同的底層輸入訊號解讀為同一個東西
這稱為不變的表徵  視覺輸入從V1流到IT  辨識工作也自然完成了

以上是簡略版的流程  更詳細的機制之後有空再說了
相簿設定
標籤設定
相簿狀態