2013.10.15 知覺心理學 (五) Perceiving Objects and Scenes

2013.10.15 知覺心理學 (五) Perceiving Objects and Scenes

2013.10.15 知覺心理學 (五) Perceiving Objects and Scenes
Outline：

The puzzle of Object and Scene Perception：(Ambigous)

Inverse projection problem：投影於視網膜的影像，可以由無限多形狀所構成，換言之，視網膜感應外界的光線，進而形成影像，然投影結果為2D影像，且於不同距離、不同形狀，可以有相同的投影結果，然而，視覺系統可以辨別出不同、遠近之物體，可見其並非只是單純重現所接收之影像，勢必有其他因素參與。
人類的視覺系統依循過往經驗、對環境之理解，以及知覺處理之原則，而對影像進行解釋。
視覺機器設計上之困難包含：

Objects can be hidden or blurred：即便物體可能被遮蔽或者模糊，但人的視覺系統仍可以判讀內容，然機器則無法。(近似form consistency)
Objects look different from different viewpoints：對於相同物體或者人的不同面向，人的視覺系統可以辨識並且接受，目前機器僅可辨識對稱的正臉，但其他角度則困難。

Perceptual Organization：Grouping &Segregation

Structuralism(Wundt, late 1800s)：相信視知覺為刺激輸入之整合，佐以個人經驗而得，因此部分之總和可為全體。然而，此說法無法解釋光點閃爍造成知覺上的光點移動(apparent movement)，如跑馬燈。
Gestalt Psychology(Max Wertheimer)：反對structuralism的論點，認為整體並非是部分的總和，並對apparent movement進行解釋。

apparent movement並非單純感覺所產生，因為兩光點間並沒有實際的刺激存在。
note：structuralism VS Gestalt psychology，前者部分總和為全體，後者則否定此理論。
「片段的疊加並非整體，整體並非全部的疊加」。

Principles of perceptual organization：描述視覺對於外界資訊之處理程序，可粗分為兩種：一種是組合(grouping)的能力，另外一種則是分別(segregation)的能力。
(note：目前僅有Good continuation有神經作用的研究，後續尚未有相關研究成果)

Grouping (連續、完形、相似、靠近、移動、區域內、同性質)

Good continuation：如果線段近似直線或者有圓滑曲線，換言之看起來是延續且可以合理連接，則視覺系統傾向將其組織為同一單位，如連續的繩子。

於V1 cortex，利用染劑看單一神經元訊號傳遞的方向，發現orientation column有其特定的走向，換言之，當其中一個方向的orientation column被激發的同時，其會與其他location column的orientation column有緊密的聯繫，或可解釋何以連續且合理連接的線段容易被組織在一起。
Field et al(1993)發現，其不同location column中的orientation之間是有聯繫的，因而可以解釋good continuation的作用機制。

Pragnanz(good figure or simplicity)：傾向以簡單的方式理解圖形，如奧運圈會解釋為五個圓形，而非各種細碎的圖形組合。
Similarity：傾向將相同特質的刺激歸類於同一組，如顏色、材質。
Proximity；傾向將靠近的物件組合在一起。
Common fate：物體於相同方向移動時，傾向視為同一單位，如飛行的鳥。
Common region：出現於相同區域內的物體，傾向將其視為一體，然此與接近性有所差異，取決於區域的定義。
Uniform connectedness：連續且具有相同特質之物體，如相同材質、顏色者，系統傾向將其組合在一起。

Segregation(主題背景之區辨)

Figure-ground segregation：通常圖形傾向是熟悉的物件，而背景多為面積廣泛且特色較一致的圖形，此外，於邊界也存在其歸屬問題(border ownership)，此可能與V2 cortex中少量特定區域之細胞作用相關。
Image-Based factors that determine which area is figure：

Ehersetin(1930) & Koffka (1935)的研究：

系統傾向將下方的物件視為主體，可能與平常的風景上風為天空相關。

Subjective Factors That Determine Which Area is figure：

Peterson & Salvagio(2008)的研究：

傾向將邊緣凸起者視為主體，即便於單純兩個比較中已經有少量的傾向。
當圖形數量越多的時候，其主題背景區辨傾向越明顯。
操弄其他因子，發現顏色越一致者容易被視為背景。

Max Wertheimer (1912)的研究：

討論W與M之圖形判讀問題，當兩者並非完全連接時，受試者傾向視為W騎在M上面；當兩者放大連接後，則會視為圖形而非有意義之文字。
本研究之意義，在於視覺系統在辨識之前會先區分出主題與背景，再透過認知區辨其意義，顯示視覺系統有處理順序上的優先順序。

Gibson and Mary Peterson (1994)的研究：

提供類似站立女性的圖樣，以及180度翻轉(倒)後的圖樣，提供受試者判讀主題與背景。
結果顯示，有人形意義的圖形較容易被視為主體，如本研究中的女性。

Gestalt psychologists相信經驗與意義在知覺上的影響較弱，然而實際上，對於有特定意義，如人形的物件，較容易成為主體。

Preceiving Scenes and Objects in Scenes：
note：背景(Scene)乃現實世界之環境，其中可能包含有意義與無意義的物件，而觀察者須能於現實情境中察覺何者為主體、何者為背景。

Gists of scene：

Potter (1976)的研究，提供短暫的多張圖片影像，並且詢問受試者是否有看到特定影像。

結果顯示，平均影像只需呈現1/4秒，即可被偵測且辨識。

Fei-Fei (2007)的研究，以masking方式阻斷視覺暫留以減少干擾，要求受試者描述其知覺到的東西：
＊masking：由於存在視覺暫流(persistence of vision)，因此即便只提供100ms的刺激，其仍會暫流約250ms，因此masking則是透過給予另外一個亂數刺激，進而干擾暫留進而將刺激控制在100ms中。

27ms約只有黑白差異，40ms僅有模糊的影像，67ms可以辨識出人形並有部細節，而500ms可清楚看到整體影像。
結論而言，時間越長，可以辨識的細節越多越精確。

Global image features of scenes：何以視覺影像可於如此短暫的時間內被辨識，以下將以此為主題討論之。

Oliva & Torralba(2001 and 2006)的研究：對於觀察現實情境之影像，視覺系統傾向以全面、粗略且迅速的方式擷取之，並將這些特徵稱為Gbobal image features of scnens。

自然程度(naturalness)：自然的景象，如海洋、森林、波動等等，往往以垂直、水平的方向構成。
透明程度(openness)：開放景象，重視視野開放之程度，如海洋屬於高開放度，而森林、街道則否。
粗糙程度(roughness)：可以複雜程度區分之，如海洋的平滑程度較高、構圖也相對簡單，然而森林則有許多小細節交錯，因而複雜度高。
開展程度(expansion)：開展程度，特別是以觀察者的觀點而言，如向前延伸的街景則為開展度高，然而看向旁邊的建築則會呈現開展度低。
顏色(color)：顏色的多元性與複雜程度。

Regularities：視知覺受物理性與意義性的影響。

Physical regularities：物理性的特質，包含方向性與顏色。

Oblique effect：通常人的視覺系統傾向偵測水平或者垂直的刺激，對斜向的刺激較不敏感。
Uniform connectedness：物件的形狀與造型，影響其歸類系統。
Homogenous colors and nerby ojbects：相同的材質或者顏色，傾向歸類於相同的物件。
Light-form-above heuristic assumption：大多的情況假設光線來自於上方，因而光影出現在上方則會視為凸出，光影呈現於下方則為凹陷。

Semantic regularities：知識、意義性的特質。

Palmer exp.(1975)的結果顯示，情境相關的東西其偵測能力較好。
Oliva & Torrabla(2007)的結果則表示，相同的模糊影像，在不同情境中有不同的意義解讀。

Unconscious inference：知覺往往建立於一些無意識的假設，此屬於較高知覺(近似認知)的層級影響。

Helmoholtz (1866)相信，解釋知覺的方式不僅只有一種。
Likelihood principle：基於知識將看到的物件與知識中最接近的連結，因此上述的情境將影響知覺的判斷。
Bayesian inference ：認為物件出現於特定場域的機率判斷，如冰箱出現於廚房與廁所的機率有所不同。(key word：條件機率)

Connecting Neural Activity and Object Perception：

Grill-Spector Exp, (2004)：

給予50ms刺激，使用mask，並且觀察受試者的反應。
刺激可能是Harrison Ford的臉，另外一個人的臉，或者隨便一段文字；受試者的反應可能是，Harrison Ford、另外一個人，或者是沒有東西。
結果顯示，如果出現的不是臉，則FFA區域的反應趨近於無；而如果出現的是可辨識的臉，則其反應會特別高。

Sheinberg & Logothetis (1997)：讓左眼與右眼看到不同的東西，觀察知覺形成的結果，以猴子為研究對象。

讓猴子右眼看蝴蝶，左眼看太陽的影像，並且訓練猴子回報其所看到的是太陽或者是蝴蝶(feedback)。
結果發現，於IT區域知覺到蝴蝶時反應大，知覺到太陽時反應小，即便在視網膜上的刺激是一致的(也就是左右眼都同時看著蝴蝶與太陽，但是知覺注意的圖形會彼此輪替)。
此外，也發現其知覺會於左眼與右眼交替出現，此稱為Binocular rivalry。
此作用必然發生於大腦中，並且此交替將造成神經細胞的激活與否轉變。

Tong et al (1998)：利用紅綠眼鏡，將人臉與房子分別投射在不同眼睛中，結果發現人臉的活化區與房子的活化區，在不同的區域中，且隨知覺而轉變。

其也比較影像重疊以及不重疊的刺激，結果顯示：

當知覺到房子時PPA(與空間、相對位置相關)的反應最強；而知覺到人臉時FFA的反應較大，而中間狀態的活化程度相似，可知其有高度相關性。
於重疊影像與不重疊影像時，有相似的結果，也支持知覺與神經活化之間的關係。
結果也支持，儘管視網膜上的影像相同，但仍有其他因素促使知覺之產生。

Reading the brain？是否有機會反過來，只讀取大腦而預測所知覺到的東西？

Kamitani & Tong (2005)：其以fMRI掃描大腦而得，以fRMI voxels呈現(其解析度，恰似一個location column的大小)

呈現各種刺激，收集所有腦區的voxels與刺激之間的關聯性。
結果發現，單一voxel中，對於不同角度刺激的反應相似。
歸納不同角度敏感的voxels後，如收集所有45度及135度反應之voxels時，發現其對於特定角度有明顯的差異。
結果顯示，對於簡單圖形的刺激，可透過大腦訊號的解讀而預測(僅限於簡單圖形)。
P.s) 假使此技術成熟，或可將夢中的事件紀錄。

Naselaris et al (2009)：簡言之，其使用複雜的影像(如真實照片)分析之，透過大量資料的輸入並且分析，並且透過此大腦訊息重組以預測看到的視野。

其假設模型：

對特定結構的分析模型
對空間頻率的分析模型(如顏色鄉間出現頻率的偵測)
對自然外界影像的傾向模型
結合的模型

影響因子：

結構
意義

結果：

單純結構的重組，其可以得到特定的內容，但不夠完善。
如果加上意義的分析，會較為精確，但未必是正確的。

結論：目前的技術，僅能得到大致的影響，如是在哪種地方的風景，可透過輸入的data base中找出類似的影像，然其對於細節的處理能力仍十分有限。
P.s) 於 2011的更新，其對影像進行分析預測，結果發現其僅有block水平的影像，且對於人臉有較佳的偵測性，然仍為未成熟之技術。

Gilad et al (2009)：人的視覺系統，對於照片的反應，對於正片的反應好，但對於負片的反應則不佳。

note；看Labs 5.11and 5.16。

留言

Unknown2016年4月4日晚上7:31
謝謝你的整理！！
清楚明瞭！！
回覆刪除
回覆
kakajia2016年6月6日凌晨2:52
感谢blog主！！！幸好考前看了你的整理，要不然真不知道该怎么办了！大感谢！！
回覆刪除
回覆
Unknown2017年11月1日凌晨12:41
謝謝版主的用心，整理得十分具有系統性，對我的學習很有幫助!
回覆刪除
回覆
Blythe Flar2022年1月8日晚上8:18
不知道有沒有反對Gestalt theory和Likelihood theory的證據呢？
回覆刪除
回覆
Unknown2022年4月13日凌晨12:10
好用!
回覆刪除
回覆

張貼留言