2013.10.15 知覺心理學 (五) Perceiving Objects and Scenes

2013.10.15 知覺心理學 (五)  Perceiving Objects and Scenes
Outline:

  • The puzzle of Object and Scene Perception:(Ambigous)
    • Inverse projection problem:投影於視網膜的影像,可以由無限多形狀所構成,換言之,視網膜感應外界的光線,進而形成影像,然投影結果為2D影像,且於不同距離、不同形狀,可以有相同的投影結果,然而,視覺系統可以辨別出不同、遠近之物體,可見其並非只是單純重現所接收之影像,勢必有其他因素參與。
    • 人類的視覺系統依循過往經驗、對環境之理解,以及知覺處理之原則,而對影像進行解釋。
    • 視覺機器設計上之困難包含:
      • Objects can be hidden or blurred:即便物體可能被遮蔽或者模糊,但人的視覺系統仍可以判讀內容,然機器則無法。(近似form consistency)
      • Objects look different from different viewpoints:對於相同物體或者人的不同面向,人的視覺系統可以辨識並且接受,目前機器僅可辨識對稱的正臉,但其他角度則困難。
  • Perceptual Organization:Grouping &Segregation
    • Structuralism(Wundt, late 1800s):相信視知覺為刺激輸入之整合,佐以個人經驗而得,因此部分之總和可為全體。然而,此說法無法解釋光點閃爍造成知覺上的光點移動(apparent movement),如跑馬燈
    • Gestalt Psychology(Max Wertheimer):反對structuralism的論點,認為整體並非是部分的總和,並對apparent movement進行解釋。
      • apparent movement並非單純感覺所產生,因為兩光點間並沒有實際的刺激存在。
        note:structuralism VS Gestalt psychology,前者部分總和為全體,後者則否定此理論。
      • 「片段的疊加並非整體,整體並非全部的疊加」。
    • Principles of perceptual organization:描述視覺對於外界資訊之處理程序,可粗分為兩種:一種是組合(grouping)的能力,另外一種則是分別(segregation)的能力。
      (note:目前僅有Good continuation有神經作用的研究,後續尚未有相關研究成果)
      • Grouping (連續、完形、相似、靠近、移動、區域內、同性質)
        • Good continuation:如果線段近似直線或者有圓滑曲線,換言之看起來是延續且可以合理連接,則視覺系統傾向將其組織為同一單位,如連續的繩子。
          • 於V1 cortex,利用染劑看單一神經元訊號傳遞的方向,發現orientation column有其特定的走向,換言之,當其中一個方向的orientation column被激發的同時,其會與其他location column的orientation column有緊密的聯繫,或可解釋何以連續且合理連接的線段容易被組織在一起。
          • Field et al(1993)發現,其不同location column中的orientation之間是有聯繫的,因而可以解釋good continuation的作用機制。
        • Pragnanz(good figure or simplicity):傾向以簡單的方式理解圖形,如奧運圈會解釋為五個圓形,而非各種細碎的圖形組合。
        • Similarity:傾向將相同特質的刺激歸類於同一組,如顏色、材質。
        • Proximity;傾向將靠近的物件組合在一起。
        • Common fate:物體於相同方向移動時,傾向視為同一單位,如飛行的鳥。
        • Common region:出現於相同區域內的物體,傾向將其視為一體,然此與接近性有所差異,取決於區域的定義。
        • Uniform connectedness:連續且具有相同特質之物體,如相同材質、顏色者,系統傾向將其組合在一起。
      • Segregation(主題背景之區辨)
        • Figure-ground segregation:通常圖形傾向是熟悉的物件,而背景多為面積廣泛且特色較一致的圖形,此外,於邊界也存在其歸屬問題(border ownership),此可能與V2 cortex中少量特定區域之細胞作用相關。
        • Image-Based factors that determine which area is figure:
          • Ehersetin(1930) & Koffka (1935)的研究:
            • 系統傾向將下方的物件視為主體,可能與平常的風景上風為天空相關。
        • Subjective Factors That Determine Which Area is figure:
          • Peterson & Salvagio(2008)的研究:
            • 傾向將邊緣凸起者視為主體,即便於單純兩個比較中已經有少量的傾向。
            • 當圖形數量越多的時候,其主題背景區辨傾向越明顯。
            • 操弄其他因子,發現顏色越一致者容易被視為背景。
          • Max Wertheimer (1912)的研究:
            • 討論W與M之圖形判讀問題,當兩者並非完全連接時,受試者傾向視為W騎在M上面;當兩者放大連接後,則會視為圖形而非有意義之文字。
            • 本研究之意義,在於視覺系統在辨識之前會先區分出主題與背景,再透過認知區辨其意義,顯示視覺系統有處理順序上的優先順序。
          • Gibson and Mary Peterson (1994)的研究:
            • 提供類似站立女性的圖樣,以及180度翻轉(倒)後的圖樣,提供受試者判讀主題與背景。
            • 結果顯示,有人形意義的圖形較容易被視為主體,如本研究中的女性。
        • Gestalt psychologists相信經驗與意義在知覺上的影響較弱,然而實際上,對於有特定意義,如人形的物件,較容易成為主體。
    • Preceiving Scenes and Objects in Scenes:
      note:背景(Scene)
      乃現實世界之環境,其中可能包含有意義與無意義的物件,而觀察者須能於現實情境中察覺何者為主體、何者為背景。
      • Gists of scene:
        • Potter (1976)的研究,提供短暫的多張圖片影像,並且詢問受試者是否有看到特定影像。
          • 結果顯示,平均影像只需呈現1/4秒,即可被偵測且辨識。
        • Fei-Fei (2007)的研究,以masking方式阻斷視覺暫留以減少干擾,要求受試者描述其知覺到的東西:
          *masking:由於存在視覺暫流(persistence of vision),因此即便只提供100ms的刺激,其仍會暫流約250ms,因此masking則是透過給予另外一個亂數刺激,進而干擾暫留進而將刺激控制在100ms中。
          • 27ms約只有黑白差異,40ms僅有模糊的影像,67ms可以辨識出人形並有部細節,而500ms可清楚看到整體影像。
          • 結論而言,時間越長,可以辨識的細節越多越精確。
        • Global image features of scenes: 何以視覺影像可於如此短暫的時間內被辨識,以下將以此為主題討論之。
          • Oliva & Torralba(2001 and 2006)的研究:對於觀察現實情境之影像,視覺系統傾向以全面、粗略且迅速的方式擷取之,並將這些特徵稱為Gbobal image features of scnens。
            • 自然程度(naturalness):自然的景象,如海洋、森林、波動等等,往往以垂直、水平的方向構成。
            • 透明程度(openness):開放景象,重視視野開放之程度,如海洋屬於高開放度,而森林、街道則否。
            • 粗糙程度(roughness):可以複雜程度區分之,如海洋的平滑程度較高、構圖也相對簡單,然而森林則有許多小細節交錯,因而複雜度高。
            • 開展程度(expansion):開展程度,特別是以觀察者的觀點而言,如向前延伸的街景則為開展度高,然而看向旁邊的建築則會呈現開展度低。
            • 顏色(color):顏色的多元性與複雜程度。
        • Regularities:視知覺受物理性與意義性的影響。
          • Physical regularities:物理性的特質,包含方向性與顏色。
            1. Oblique effect:通常人的視覺系統傾向偵測水平或者垂直的刺激,對斜向的刺激較不敏感。
            2. Uniform connectedness:物件的形狀與造型,影響其歸類系統。
            3. Homogenous colors and nerby ojbects:相同的材質或者顏色,傾向歸類於相同的物件。
            4. Light-form-above heuristic assumption:大多的情況假設光線來自於上方,因而光影出現在上方則會視為凸出,光影呈現於下方則為凹陷。
          • Semantic regularities知識、意義性的特質。
            1. Palmer exp.(1975)的結果顯示,情境相關的東西其偵測能力較好。
            2. Oliva & Torrabla(2007)的結果則表示,相同的模糊影像,在不同情境中有不同的意義解讀。
        • Unconscious inference:知覺往往建立於一些無意識的假設,此屬於較高知覺(近似認知)的層級影響。
          • Helmoholtz (1866)相信,解釋知覺的方式不僅只有一種。
          • Likelihood principle:基於知識將看到的物件與知識中最接近的連結,因此上述的情境將影響知覺的判斷。
          • Bayesian inference :認為物件出現於特定場域的機率判斷,如冰箱出現於廚房與廁所的機率有所不同。(key word:條件機率)
    • Connecting Neural Activity and Object Perception:
      • Grill-Spector Exp, (2004):
        • 給予50ms刺激,使用mask,並且觀察受試者的反應。
        • 刺激可能是Harrison Ford的臉,另外一個人的臉,或者隨便一段文字;受試者的反應可能是,Harrison Ford、另外一個人,或者是沒有東西。
        • 結果顯示,如果出現的不是臉,則FFA區域的反應趨近於無;而如果出現的是可辨識的臉,則其反應會特別高。
      • Sheinberg & Logothetis (1997):讓左眼與右眼看到不同的東西,觀察知覺形成的結果,以猴子為研究對象。
        • 讓猴子右眼看蝴蝶,左眼看太陽的影像,並且訓練猴子回報其所看到的是太陽或者是蝴蝶(feedback)。
        • 結果發現,於IT區域知覺到蝴蝶時反應大,知覺到太陽時反應小,即便在視網膜上的刺激是一致的(也就是左右眼都同時看著蝴蝶與太陽,但是知覺注意的圖形會彼此輪替)。
        • 此外,也發現其知覺會於左眼與右眼交替出現,此稱為Binocular rivalry。
        • 此作用必然發生於大腦中,並且此交替將造成神經細胞的激活與否轉變。
      • Tong et al (1998):利用紅綠眼鏡,將人臉與房子分別投射在不同眼睛中,結果發現人臉的活化區與房子的活化區,在不同的區域中,且隨知覺而轉變。
        • 其也比較影像重疊以及不重疊的刺激,結果顯示:
          • 當知覺到房子時PPA(與空間、相對位置相關)的反應最強;而知覺到人臉時FFA的反應較大,而中間狀態的活化程度相似,可知其有高度相關性。
          • 於重疊影像與不重疊影像時,有相似的結果,也支持知覺與神經活化之間的關係。
          • 結果也支持,儘管視網膜上的影像相同,但仍有其他因素促使知覺之產生。
      • Reading the brain?是否有機會反過來,只讀取大腦而預測所知覺到的東西?
        • Kamitani & Tong (2005):其以fMRI掃描大腦而得,以fRMI voxels呈現(其解析度,恰似一個location column的大小) 
          • 呈現各種刺激,收集所有腦區的voxels與刺激之間的關聯性。
          • 結果發現,單一voxel中,對於不同角度刺激的反應相似。
          • 歸納不同角度敏感的voxels後,如收集所有45度及135度反應之voxels時,發現其對於特定角度有明顯的差異。
          • 結果顯示,對於簡單圖形的刺激,可透過大腦訊號的解讀而預測(僅限於簡單圖形)。
            P.s) 假使此技術成熟,或可將夢中的事件紀錄。
        • Naselaris et al (2009):簡言之,其使用複雜的影像(如真實照片)分析之,透過大量資料的輸入並且分析,並且透過此大腦訊息重組以預測看到的視野。
          • 其假設模型:
            • 特定結構的分析模型
            • 空間頻率的分析模型(如顏色鄉間出現頻率的偵測)
            • 自然外界影像的傾向模型
            • 結合的模型
          • 影響因子:
            • 結構
            • 意義
          • 結果:
            • 單純結構的重組,其可以得到特定的內容,但不夠完善。
            • 如果加上意義的分析,會較為精確,但未必是正確的。
          • 結論:目前的技術,僅能得到大致的影響,如是在哪種地方的風景,可透過輸入的data base中找出類似的影像,然其對於細節的處理能力仍十分有限。
            P.s) 於 2011的更新,其對影像進行分析預測,結果發現其僅有block水平的影像,且對於人臉有較佳的偵測性,然仍為未成熟之技術。
        • Gilad et al (2009):人的視覺系統,對於照片的反應,對於正片的反應好,但對於負片的反應則不佳。
    • note;看Labs 5.11and 5.16。

    留言

    1. 謝謝你的整理!!
      清楚明瞭!!

      回覆刪除
    2. 感谢blog主!!!幸好考前看了你的整理,要不然真不知道该怎么办了!大感谢!!

      回覆刪除
      回覆
      1. 您的回文是我發帖的最大動力!
        彼此加油^_<~

        刪除
    3. 謝謝版主的用心,整理得十分具有系統性,對我的學習很有幫助!

      回覆刪除
    4. 不知道有沒有反對Gestalt theory和Likelihood theory的證據呢?

      回覆刪除

    張貼留言

    熱門文章