2014.10.17 認知科學 (四) Speech perception
The Speech Chain:語言起始至終止的過程
- 語言起始於大腦,而終止於另外一個大腦
- linguistic level(brain)
- physiological level(vocal muscles)
- acoustic level(sounds wave)
- 物理聲波的測量與擷取
- physiological level(ear & nerves)
- 耳朵的結構與功能(擴大器 & 過濾器)
- linguistic level (brain)
- 聲音產生的方式有二途徑: 鼻子 V.S 口
- 聲音的源頭:聲帶(vocal folds)
- 聲音調節器:氣管與咽喉(vocal tract filter)
- 目前我們所聽到的聲音,均由聲帶所產生
- 經過這些率波的過程,而轉變成我們現在所聽的聲音
- 聲音輸出:
- Nasal sound output
- Oral sound output
- source-filter theory:
- source: vocal fold vibration (F0) => 聲音由聲帶產生 (男女音高的不同)
- 產生的頻率為基頻,男生通常為120Hz,女生通常為150Hz
- 基頻經過修飾之後,成為後面所聽到聲音
- filter: vocal tract (harmonics) =>調整聲帶的波型,變成不同型態的波型
- 聲音經過filter後,基頻會變成多的波型,其中前三個波形可幫助判別發音,而後面幾個波則影響其聲音聽起來的感受(阿花或者阿桑的聲音)
- 不同口腔的形狀,可以造成不同聽覺上的結果(波形改變)
- vocal tract的長度也可微幅的影響,如:
- 嘴唇嘟起
- 喉頭下降
- 周邊聽覺系統
- 外耳:耳殼、外聽道
- 集中運訊息
- 選取2000~5500Hz的聲音進行放大(約2~3倍)
- 大多數語音多落在這個範圍內,但尚不清楚其因果關係
- 耳膜:可以放大約15倍,並且將聲波轉變為機械波
- 中耳:三小聽骨,約可放大3倍左右的訊號,無訊號形式的轉變
- malleous(槌骨)
- icus(砧骨)
- stapes(鐙骨)
- 內耳:主要是耳蝸,是重要的聽覺機構
- Cochlea(耳蝸):類似麥克風,內有液體及毛細胞,經此程序將訊號轉變為神經電訊號
- 將耳蝸的捲曲解開後,可發現其類似椎體的結構。在其中間有一層薄膜稱為basal ganglia。由於其材質的厚薄差異,因此在不同區域有不同對應頻率的接收(初步的傅立葉分析)
- 較細的區域對應到高頻
- 較厚的區域對應到低頻
- 對於低頻的部分有較好的區辨功能與處理區域;對於高頻則較為粗略、跳躍(大部分的語音都落在5000Hz以下)
note:以電腦分析之,擷取5000Hz以下的聲波訊號,正確辨識的效率較高 - 不同頻率的毛細胞對應到不同的神經元,因而有初步的聲音頻率分析
- 中樞聽覺系統
- Primary auditory cortex:其中有依頻率不同的對應區(但是至今尚未找到特定語音的對應皮質)
- Secondary auditory cortex
Speech perception
- the process by which the sounds of language are heard, interpreted and uderstood
Applications
- building speech recognizers (盲用技術,或者輔具設計)
- improving speech recognition for hearing and language impaired listeners(人工電子耳,目前在外語上效果不錯,如時機較早且合適與正常人差異不大;但中文效果不佳)
- improving efficacy in foreign-language teaching(目前研究顯示跟所學的第一語言相關,但可能有技術可拓展分析能力,去聽到不同語言的語音)
Difficulties(何以單純看到聲音的頻譜,無法判斷其內容、字數、語言類型;但是聽到就可以)
- Mapping between signal & speech
- one acoustic aspect of the speech signal may cue different linguistically relevant dimensions
- e.g. beat/bit(長語音/短母音):在相同的語速下,可區分其lax
- 在不同結構,相同母音的長短就會不同(難以建立統一分析規範):後面有沒有跟上一個子音,就會影響其長度
- below/billow的音標寫法一致,但差異在於重音(duration可影響重音判讀)
- speed, speedy, and speedilty,其duration也可能因為音節數的不同而有差異
- one linguistic unit can be cured by several acoustic properties
- 子音的長相不同,與其後面所接的東西相關(但聽起來是一樣的)
- 目前的語音辨認傾向使用頻譜分析以找出最可能的發音。ㄋ最理想的系統,對外文可以有80%左右的辨別率,對於中文則有60%的辨別率。其中理想的系統為model,但建立在特定的功能性上,如訂票系統(侷限語言的意義後,可提升精確度)
- 然而,相同的頻譜用在不同說話者身上,其解讀的語音將有所差異(如高的人的i,用身高矮者來說可能變成e)。因此,電腦系統需要有參考語音作為基準。
- Linearity and the segmentation problem
- our minds perceive segments
- lack of invariance
- reliable constant relations between a phoneme of a language and its acoustic manifestation in speech are difficult to find
- Reasons
- Context-induced variation:相同聲音在不同位置,而有不同的訊號
- 例如邊和班,聲音會因為前後的字而不同
- Variation due to differing speech conditions
- fast and slow speaking rate(語徑長的影響)
- 在不同與速及情境下,所聽到的聲音未必是真實存在的(反之亦然)
- 同樣的語句,在不同情境下會有不同的念法
- Variation due to different speaker identity
- the resulting acoustic structure of concrete speech productions depends on the physical and psychological proprieties of individual speakers
- 以華人文化而言,年輕男性的發音最不清楚
- 不同年齡與性別,其母音頻譜的樣式不同
- 同一個人在不同次的發音,其頻譜也不完全相同
- 不同文化(語言使用者)的發音頻率也不同(e.g. 女性日文使用者的頻率特別高,男性日文使用者的頻率特別低)
note:即便同樣一個人,說英文語說日文的頻率也有所差異
note2:另有社會文化地位的判讀中,比較不同文化中女性的說話頻譜,結果發現:社會地位高的女性,其聲音頻譜較低 - perceptual constancy and normalization
- despite variations, listeners perceive vowels and consonants as constant categories
- possibly achieved by means of the perceptual normalization process in which listeners filter out the noise
- 也許經過某些歷程而建立標準化程序
- 因此聽到的並非原始訊號,而是標準化訊號
- perceptual constancy is not specific to speech
- 知覺恆常的概念應為良好討論物理心理的議題
- Categorical perception:在連續變化中,個體感知從一個項目轉變到另外一個項目的形式
- physical differences between phonemic categories are more likely perceived than within categories
- Many-to-one mapping
- can be inborn or induced by learning
- 目前能肯定這是學習的原因,或者是先天因素使然
- 青蛙可以辨別蒼蠅;英文可以辨別臉孔
- Lisker & Abramson (1970): VOT from -150ms to 150 ms
- 比較不同語言使用者(英文、西班牙文與泰文),比較ba-pa的連續刺激
- 英文組的結果為ba-pa
- 西班牙文組的結果為ba-pa,但是較早察覺pa
- 泰文組的結果為ba-bar-pa
- Top-down influences
- the process os speech perception is not necessarily a uni-directional bottom-up process
- Warren (1970):藉由咳嗽聲造成語音上的模糊,讓受試者判斷其所聽到的內容
- phoneme restoration effect:會自動將聲音還原(主觀感受真實地聽到)
- e.g. 咳嗽聲的干擾
- Ganong effect (1980)
- 同樣操弄VOT的增減,但是使用有意義的文字與沒有意義的文字進行
- 結果發現有二條趨勢線,結果顯示同樣的VOT訊號,受試者傾向選擇是文字的部分(這件事情稱為Ganong effect)
- Tseng, Soemer, Lee (2013)
- 研究中文的音調變化,並且使用DAO4,DU4,DEI4
- 知道-制到
- 知度-制度
- 知DEI4-制DEI4
- 同樣發現具有Ganong effect
- Coarticulatory compensation:
- 因前後音而產生偕同發音的過程,使得念的人較為容易
- 這種偕同發音獨立出來無法辨識,但是放回前後音附近則可清楚辨識
- 可能與大腦補償的功能相關
Theoretical approaches in speech perception
- Motor theory:
- Proposed by Alvin Liberman
- people perceive spoken words by identifing the intended vocal tract gestures with which they are pronounced rather than by identifying the sound patterns that speech generates
- 已知訊號的不穩定性,因此,他認為人之所以可以聽到是因為他辨認其說話的動作(隱含、原始欲表達的動作
- analysis by synthesis:由於自己的發音經驗,因而可以推測出對方原始的動作
- 被認為是人類獨有的能力
- 相關支持
- McGurk effect:視覺的資訊將影響聽覺的解讀
- Rosenblum, Schmuckler, & Johnson (1997):測試五個月個小朋友是否有MuGurk effect
- 藉由行為觀察
- 結果發現,五個月的小孩就有MuGurk effect (將人臉與動作結合)
- categorical perception:如非辨認對方的motor intention,如何辨別其聲音是哪一種類型?即因推測發音者的意圖,因而可以辨認
- Speech imitation:如果要求受試者仿說,其可以極迅速地模仿,就如同它具有能力預測一樣
- Motor and cortical activities in speech perception
- 聽人說話時,相關動作區的活化
- Mirror neurons
- 相關評論
- 無法解釋top-down influences
- 無法解釋嬰兒對於父母語音的區辨(因嬰兒還不會講話)
- McGurk effect不只吃現在語言上
- 如使用籃球的影片搭配桌球的聲音
- categorical perception也發現在非語言的刺激上
- 無法解釋聲音的來源(因將所有訊息都解構成動作與發音)
- 沒有語言能力的時候,也可以區辨很多字
- MacNeilage & Rootes(1967)研究語言障礙的人
- 發現其發音錯誤的狀況存在
- 但是對於語音辨認的部分並無差別
- Wyttenbach, May, & Hoy (1996):研究蟋蟀與蝙蝠聲音(逃跑)及其他蟋蟀(交配)的聲音
- 結果發現,蟋蟀也有categorical perception的現象
- 此並非人類特有的特質
- Direct relist theory
- Proposed by Carol Fowler (心理學家,認為語言知覺為諸多知覺中的一種)
- 我們知道聲音的內容,是因為我們知道他是如何被製造出來的(實際製造的過程)
- 換言之,在語言中,我知道你如何利用聲帶及口腔動作將該生因製作出來
- 因發音過程較為穩定,可解決聲音的變異性問題
- 由於其內論點內容相似,因此支持與評論的內容也相似
- Fuzzy-logic model
- Proposed by Dominic Massaro
- 使用機率的方式理解:人類記得語言發生的機率(prototype)
- 可以使用機率的方式來解釋categorical perception,以及 McGurk effect (因聲音與口將的配對經驗)
- 中間項目因過去缺乏經驗,所以無法區辨
- Acoustic landmarks and distinctive features
- Proposed by Kenneth Stevens(物理學背景)
- 認為仍以物理聲學訊號為原則,但與過往經驗累積相關而造成影響
- 以規律解釋聲音變形的差異,因此沒有lack of invariances的問題
- model中包含搜尋記憶中的詞彙這個項目,因此,可以解決部分top-down的問題
- 認為偕同發音雖然少了一些母音,但是可藉由建立正確的經驗造成影響
- Exemplar model
- Proposed by Keith Johnson
- 認為聽者會將自小到大所有聽過的東西記錄於大腦中
- 當所有東西都被原封不動地保存時,可解決無法區辨聲源對象的問題
- 需要的時候會進行統計上的計算,進而形成categories,而非藉由標準化的程序產生(因標準化有難以概化應用的問題
- 例如男女的基頻不同,其辨認建立於聽過數以百計的男女聲音
- Peterson & Barney (1952):
- Lee, Potamianos, & Narayanan (1999):
- 自5歲到20歲的男女聲音差別
- Bladon, Henton, and Pickering (1984):跨文化的性別基頻差別
- 不同文化中,性別說話的基頻可能相似或者顯著差距
- 相關評論:
- 記憶體容量的問題
- 儲存的時候是否登錄自己的聲音?(權重問題)
- 會,則自己的說話方式影響最重;而每個人的說話方式應該差異很大
- 不會,則如何篩掉自己的聲音而不存?
note:此model的優勢在於,他可以解釋invariance的部分(小孩子有足夠的資訊可以辨認聲音性別)
耳膜的那部分……我觉得可能是basialar membrane而不是basial ganglia……
回覆刪除