2014.10.17 認知科學 (四) Speech perception

The Speech Chain:語言起始至終止的過程
  • 語言起始於大腦,而終止於另外一個大腦
    • linguistic level(brain)
    • physiological level(vocal muscles)
    • acoustic level(sounds wave)
      • 物理聲波的測量與擷取
    • physiological level(ear & nerves)
      • 耳朵的結構與功能(擴大器 & 過濾器)
    • linguistic level (brain)
      • 大腦如何解讀所聽到的訊息
  • 聲音產生的方式有二途徑: 鼻子 V.S 口
    • 聲音的源頭:聲帶(vocal folds)
    • 聲音調節器:氣管與咽喉(vocal tract filter)
      • 目前我們所聽到的聲音,均由聲帶所產生
      • 經過這些率波的過程,而轉變成我們現在所聽的聲音
    • 聲音輸出:
      • Nasal sound output
      • Oral sound output
    • source-filter theory:
      • source: vocal fold vibration (F0) => 聲音由聲帶產生 (男女音高的不同)
        • 產生的頻率為基頻,男生通常為120Hz,女生通常為150Hz
        • 基頻經過修飾之後,成為後面所聽到聲音
      • filter: vocal tract (harmonics) =>調整聲帶的波型,變成不同型態的波型
        • 聲音經過filter後,基頻會變成多的波型,其中前三個波形可幫助判別發音,而後面幾個波則影響其聲音聽起來的感受(阿花或者阿桑的聲音)
        • 不同口腔的形狀,可以造成不同聽覺上的結果(波形改變)
        • vocal tract的長度也可微幅的影響,如:
          • 嘴唇嘟起
          • 喉頭下降
  • 周邊聽覺系統
    • 外耳:耳殼、外聽道
      • 集中運訊息
      • 選取2000~5500Hz的聲音進行放大(約2~3倍)
        • 大多數語音多落在這個範圍內,但尚不清楚其因果關係
      • 耳膜:可以放大約15倍,並且將聲波轉變為機械波
    • 中耳:三小聽骨,約可放大3倍左右的訊號,無訊號形式的轉變
      • malleous(槌骨)
      • icus(砧骨)
      • stapes(鐙骨)
    • 內耳:主要是耳蝸,是重要的聽覺機構
      • Cochlea(耳蝸):類似麥克風,內有液體及毛細胞,經此程序將訊號轉變為神經電訊號
        • 將耳蝸的捲曲解開後,可發現其類似椎體的結構。在其中間有一層薄膜稱為basal ganglia。由於其材質的厚薄差異,因此在不同區域有不同對應頻率的接收(初步的傅立葉分析)
          • 較細的區域對應到高頻
          • 較厚的區域對應到低頻
          • 對於低頻的部分有較好的區辨功能與處理區域;對於高頻則較為粗略、跳躍(大部分的語音都落在5000Hz以下)
            note:以電腦分析之,擷取5000Hz以下的聲波訊號,正確辨識的效率較高
          • 不同頻率的毛細胞對應到不同的神經元,因而有初步的聲音頻率分析
  • 中樞聽覺系統
    • Primary auditory cortex:其中有依頻率不同的對應區(但是至今尚未找到特定語音的對應皮質)
    • Secondary auditory cortex

Speech perception
  • the process by which the sounds of language are heard, interpreted and uderstood
Applications
  • building speech recognizers (盲用技術,或者輔具設計)
  • improving speech recognition for hearing and language impaired listeners(人工電子耳,目前在外語上效果不錯,如時機較早且合適與正常人差異不大;但中文效果不佳)
  • improving efficacy in foreign-language teaching(目前研究顯示跟所學的第一語言相關,但可能有技術可拓展分析能力,去聽到不同語言的語音)
Difficulties(何以單純看到聲音的頻譜,無法判斷其內容、字數、語言類型;但是聽到就可以)
  • Mapping between signal & speech
    • one acoustic aspect of the speech signal may cue different linguistically relevant dimensions
      • e.g. beat/bit(長語音/短母音):在相同的語速下,可區分其lax
      • 在不同結構,相同母音的長短就會不同(難以建立統一分析規範):後面有沒有跟上一個子音,就會影響其長度
      • below/billow的音標寫法一致,但差異在於重音(duration可影響重音判讀)
      • speed, speedy, and speedilty,其duration也可能因為音節數的不同而有差異
    • one linguistic unit can be cured by several acoustic properties
      • 子音的長相不同,與其後面所接的東西相關(但聽起來是一樣的)
    • 目前的語音辨認傾向使用頻譜分析以找出最可能的發音。ㄋ最理想的系統,對外文可以有80%左右的辨別率,對於中文則有60%的辨別率。其中理想的系統為model,但建立在特定的功能性上,如訂票系統(侷限語言的意義後,可提升精確度)
    • 然而,相同的頻譜用在不同說話者身上,其解讀的語音將有所差異(如高的人的i,用身高矮者來說可能變成e)。因此,電腦系統需要有參考語音作為基準。
  • Linearity and the segmentation problem
    • our minds perceive segments
  • lack of invariance
    • reliable constant relations between a phoneme of a language and its acoustic manifestation in speech are difficult to find
      • Reasons
        • Context-induced variation:相同聲音在不同位置,而有不同的訊號
          • 例如邊和班,聲音會因為前後的字而不同
        • Variation due to differing speech conditions
          • fast and slow speaking rate(語徑長的影響)
            • 在不同與速及情境下,所聽到的聲音未必是真實存在的(反之亦然)
            • 同樣的語句,在不同情境下會有不同的念法
        • Variation due to different speaker identity
          • the resulting acoustic structure of concrete speech productions depends on the physical and psychological proprieties of individual speakers
            • 以華人文化而言,年輕男性的發音最不清楚
          • 不同年齡與性別,其母音頻譜的樣式不同
          • 同一個人在不同次的發音,其頻譜也不完全相同
          • 不同文化(語言使用者)的發音頻率也不同(e.g. 女性日文使用者的頻率特別高,男性日文使用者的頻率特別低)
            note:即便同樣一個人,說英文語說日文的頻率也有所差異
            note2:另有社會文化地位的判讀中,比較不同文化中女性的說話頻譜,結果發現:社會地位高的女性,其聲音頻譜較低
  • perceptual constancy and normalization
    • despite variations, listeners perceive vowels and consonants as constant categories
    • possibly achieved by means of the perceptual normalization process in which listeners filter out the noise
      • 也許經過某些歷程而建立標準化程序
      • 因此聽到的並非原始訊號,而是標準化訊號
    • perceptual constancy is not specific to speech
      • 知覺恆常的概念應為良好討論物理心理的議題
  • Categorical perception:在連續變化中,個體感知從一個項目轉變到另外一個項目的形式
    • physical differences between phonemic categories are more likely perceived than within categories
    • Many-to-one mapping
    • can be inborn or induced by learning
      • 目前能肯定這是學習的原因,或者是先天因素使然
      • 青蛙可以辨別蒼蠅;英文可以辨別臉孔
    • Lisker & Abramson (1970): VOT from -150ms to 150 ms
      • 比較不同語言使用者(英文、西班牙文與泰文),比較ba-pa的連續刺激
        • 英文組的結果為ba-pa
        • 西班牙文組的結果為ba-pa,但是較早察覺pa
        • 泰文組的結果為ba-bar-pa
  • Top-down influences
    • the process os speech perception is not necessarily a uni-directional bottom-up process
    • Warren (1970):藉由咳嗽聲造成語音上的模糊,讓受試者判斷其所聽到的內容
      • phoneme restoration effect:會自動將聲音還原(主觀感受真實地聽到)
        • e.g. 咳嗽聲的干擾
    • Ganong effect (1980)
      • 同樣操弄VOT的增減,但是使用有意義的文字與沒有意義的文字進行
      • 結果發現有二條趨勢線,結果顯示同樣的VOT訊號,受試者傾向選擇是文字的部分(這件事情稱為Ganong effect)
    • Tseng, Soemer, Lee (2013)
      • 研究中文的音調變化,並且使用DAO4,DU4,DEI4
        • 知道-制到
        • 知度-制度
        • 知DEI4-制DEI4
      • 同樣發現具有Ganong effect
  • Coarticulatory compensation:
    • 因前後音而產生偕同發音的過程,使得念的人較為容易
    • 這種偕同發音獨立出來無法辨識,但是放回前後音附近則可清楚辨識
    • 可能與大腦補償的功能相關
Theoretical approaches in speech perception
  • Motor theory:
    • Proposed by Alvin Liberman
    • people perceive spoken words by identifing the intended  vocal tract gestures with which they are pronounced rather than by identifying the sound patterns that speech generates
      • 已知訊號的不穩定性,因此,他認為人之所以可以聽到是因為他辨認其說話的動作(隱含、原始欲表達的動作
    • analysis by synthesis:由於自己的發音經驗,因而可以推測出對方原始的動作
    • 被認為是人類獨有的能力
    • 相關支持
      • McGurk effect:視覺的資訊將影響聽覺的解讀
        • Rosenblum, Schmuckler, & Johnson (1997):測試五個月個小朋友是否有MuGurk effect
          • 藉由行為觀察
          • 結果發現,五個月的小孩就有MuGurk effect (將人臉與動作結合)
      • categorical perception:如非辨認對方的motor intention,如何辨別其聲音是哪一種類型?即因推測發音者的意圖,因而可以辨認
      • Speech imitation:如果要求受試者仿說,其可以極迅速地模仿,就如同它具有能力預測一樣
      • Motor and cortical activities in speech perception
        • 聽人說話時,相關動作區的活化
      • Mirror neurons
    • 相關評論
      • 無法解釋top-down influences
      • 無法解釋嬰兒對於父母語音的區辨(因嬰兒還不會講話)
      • McGurk effect不只吃現在語言上
        • 如使用籃球的影片搭配桌球的聲音
        • categorical perception也發現在非語言的刺激上
      • 無法解釋聲音的來源(因將所有訊息都解構成動作與發音)
      • 沒有語言能力的時候,也可以區辨很多字
      • MacNeilage & Rootes(1967)研究語言障礙的人
        • 發現其發音錯誤的狀況存在
        • 但是對於語音辨認的部分並無差別
      • Wyttenbach, May, & Hoy (1996):研究蟋蟀與蝙蝠聲音(逃跑)及其他蟋蟀(交配)的聲音
        • 結果發現,蟋蟀也有categorical perception的現象
        • 此並非人類特有的特質
  • Direct relist theory
    • Proposed by Carol Fowler (心理學家,認為語言知覺為諸多知覺中的一種)
    • 我們知道聲音的內容,是因為我們知道他是如何被製造出來的(實際製造的過程)
      • 換言之,在語言中,我知道你如何利用聲帶及口腔動作將該生因製作出來
    • 因發音過程較為穩定,可解決聲音的變異性問題
    • 由於其內論點內容相似,因此支持與評論的內容也相似
  • Fuzzy-logic model
    • Proposed by Dominic Massaro
    • 使用機率的方式理解:人類記得語言發生的機率(prototype)
    • 可以使用機率的方式來解釋categorical perception,以及 McGurk effect (因聲音與口將的配對經驗)
      • 中間項目因過去缺乏經驗,所以無法區辨
  • Acoustic landmarks and distinctive features
    • Proposed by Kenneth Stevens(物理學背景)
    • 認為仍以物理聲學訊號為原則,但與過往經驗累積相關而造成影響
    • 以規律解釋聲音變形的差異,因此沒有lack of invariances的問題
    • model中包含搜尋記憶中的詞彙這個項目,因此,可以解決部分top-down的問題
    • 認為偕同發音雖然少了一些母音,但是可藉由建立正確的經驗造成影響
  • Exemplar model
    • Proposed by Keith Johnson
    • 認為聽者會將自小到大所有聽過的東西記錄於大腦中
      • 當所有東西都被原封不動地保存時,可解決無法區辨聲源對象的問題
      • 需要的時候會進行統計上的計算,進而形成categories,而非藉由標準化的程序產生(因標準化有難以概化應用的問題
        • 例如男女的基頻不同,其辨認建立於聽過數以百計的男女聲音
    • Peterson & Barney (1952):
    • Lee, Potamianos, & Narayanan (1999):
      • 自5歲到20歲的男女聲音差別
    • Bladon, Henton, and Pickering (1984):跨文化的性別基頻差別
      • 不同文化中,性別說話的基頻可能相似或者顯著差距
    • 相關評論:
      • 記憶體容量的問題
      • 儲存的時候是否登錄自己的聲音?(權重問題)
        • 會,則自己的說話方式影響最重;而每個人的說話方式應該差異很大
        • 不會,則如何篩掉自己的聲音而不存?
          note:此model的優勢在於,他可以解釋invariance的部分(小孩子有足夠的資訊可以辨認聲音性別)

留言

  1. 耳膜的那部分……我觉得可能是basialar membrane而不是basial ganglia……

    回覆刪除

張貼留言

熱門文章