當電腦工程師首次嘗試讓電腦「看見」時,還以為電腦觀看的方式與人類一樣。英國約克大學的電腦科學家 John Tsotsos 表明,1960 年代電腦視覺的概念「顯然受到人類視覺特徵所推動」。時至今日,電腦視覺在某些範疇已超越人類,例如進行圖像分類或檢測醫學圖像中的異常,而其視覺數據處理,跟人類觀看的方式更是漸行漸遠。
電腦視覺的「神經網絡」運作相當簡單:接收輸入的圖像,並通過一連串程序逐步處理;首先檢測像素,然後是邊緣和輪廓,以至整個圖像,最後猜測其內容。這種單向的線性運作模式,稱為「前饋」(feed forward)系統。
儘管科學家對人類視覺了解尚淺,但至少發現它與電腦觀看的方式大相逕庭。大腦中的視覺皮層從視網膜接收信息,通過一系列神經反饋迴路 —— 因應外部環境數據的細微變化作調整,從而分析眼前各種圖像,其運作方式與複雜程度跟前饋系統相異。
然而,視覺皮層中處理外來信息的神經相對較少,限制了接收的信息量。相比之下,電腦處理視覺數據時並沒頻寬(bandwidth)限制 —— 信號通過和佔據頻道的最大寬度。Tsotsos 指:「假如我有無限的運算能力和儲存量,還要局限於處理少量信息嗎?」但他認為不應因此輕視人類視覺系統,或兩者差異對發展電腦視覺所帶來的啟示。
Tsotsos 指出,現今電腦擅長的圖像分類,只需從海量數據集中找出其相關性,無疑是輕而易舉。但對於高階任務,例如從多角度掃描某件物體,以確定它是甚麼(想像人們圍繞著雕像走一圈並進行觀察的方式),兩者相異的運作模式,可能窒礙電腦視覺的發展。
例如,人類在觀看的時候,即使第一眼未能確認,只要再看一遍,多數能認清所見事物;但以前饋方式運作的電腦視覺系統通常欠缺這種能力,甚至因此無法達成一些簡單的視覺任務。另外,人類視覺系統會隨時間日漸成熟。Tsotsos 於 2019 年發表的論文中提到,人們直至 17 歲左右,才完全獲得於雜亂環境專注尋找特定事物的能力。其他研究發現,辨識臉孔的能力至 20 歲前還在不斷發展。
電腦視覺系統透過消化大量數據來運作,此機制是固定的,而不像大腦的發育。如果它與人類大腦潛在的學習模式如此不同,將帶來甚麼結果?Tsotsos 指:「電腦的深度學習模式,完全無關於人類學習的方式,中間隔著的一面牆正在顯現。人們將面臨難以進一步發展這些系統的困境。」