2013.12.17 知覺心理學 (十一) Speech Percpetion

2013.12.17 知覺心理學 (十一) Speech Percpetion

The acoustic signal 語音學

影響聲音的二大要素：聲帶震動與嘴型。

聲帶(vocal cord)：氣流自肺而上，透過聲帶的鬆緊程度，而有不同的共振頻率，通常與F1(第一共振波)相關。
嘴型(vocal tract)：嘴型與口腔空間具有增幅特質，因此可以加強或者削弱某些音，通常與F2(第二共震波)有關。
note：使用頻率為橫軸、強度為縱軸，交織看出不同的圖形以描述發音。

聲譜圖(spectrograms)：以時間、頻率與強度交織而成的圖表，以描述(分析)各語音的方式。

共振波(formant)乃經由聲帶與口腔調節而來，可見為聲譜圖上的波峰。
有鑑於二度空間的圖表較容易解讀，但有三種要素需呈現，故可以顏色代表強弱(密度)變項。

母音(Vowels)：聲帶與口腔共振之語音，理論上可見共振波。
子音(Consonants)：又可分為有聲子音和無聲子音。

有聲子音為有聲帶振動之語音。
無聲子音為聲帶不震動、僅為氣流的語音。

共振轉換(Formant transitions)：定義為迅速轉換的共振頻率，概念上為音的轉折，或可理解為連音的概念，於聲譜圖上呈現高密度，有其重要意義。

Formant協助指出最關鍵的頻率。

Variability of speech：不同說話者，於頻率、波形(音色)、語調(腔調)、強弱、速度等差異，但並不影響對於語言之理解。

名詞解釋：

頻率(frequency)：單位時間內出現的完整波數，與共振的媒介相關，頻率越高則聽到的音高越高。
音色(pitch)：指完整波形的形式，具有明顯個體差異。
語調(accent)：指每個語音排列的時間差，以及相對高低關係。
速度(speed)：指語音完成之數量與所花費之時間。
發音(pronunciation) ：個體發音的差異，受到嘴型與環境影響。

Kuhl et al (2004)的研究，以第一共振峰為橫軸、第二共振峰為縱軸之圖表，可看到各母音有不同的分布走向，然仍有重疊之處，應如何區辨不同？
相同的音，受到不同嘴型、環境因素影響：

如boot和bean的'b'念法有所不同，「好冷」及「好辣」中，因'ㄥ'為鼻音，因此冷會略帶鼻音，相對辣則否。
Co-articulation：因肌肉收縮的限制，造成二音之間有所牽連，此受到其他音(下一個音)之影響，此狀況稱為co-articulation。

相同的句子，受不同說話速度：

不同的速度，可以看到不二種型態的聲譜圖，二者有相似的主要結構，但細節上仍有差異，或可窺見其轉變。

在速度快的時間限制下，co-articulation的狀況可能更為明顯。

如what are you doing快板與慢板，快板近似於what arm you doing。

Perceptual constancy：相同的發音有可以有許多變數，個體歸類其為相同的語音，可從下列要素中討論。

categorical perception

視覺(visual)：以不同的波長界定不同的顏色
聽覺：區辨pa和ba的不同，可見儘管物理向度相似，但可透過知識解讀成不同的語音(此指對於語言的理解)。

音素(phoneme)：作為語音處理的最小單位，在不同語言有不同的音素組成與種類。

依據知識，將聽到的音分類到不同的音素。
以英文為例，共有47個音素：

13個母音：這遠超過a,e,i,o,u這五個母音，主要是因為在不同狀況下同一個字母可以有不同的發音方式所致。
24個子音

不同語言所包含的音素數量不同，如拉丁語系的語言可能達40或60個phoneme。

Voice onset time(VOT)：自聲音起始到聲帶振動的時間差，從時間-頻率的聲譜圖上，其代表的是自時間為0至發出聲音的時間間隔。

辨別二個不同的phoneme可能與此VOT的時間相關，以da和ta為例，前者所需的時間約為17ms，但是後者則需要89ms，因此，從VOT的差異可以做為區隔的依據。
在研究中呈現，在VOT在20-25ms間的聲音，都會被歸類為da；在70-90之間的聲音，會被歸類為ta，而落在此中間的聲音，則會視為其他的發音。

由此可見，VOT確實可以做為區分phoneme的指標。

如da和ta的發音，聲帶振動的時間不同，從而有不同的解讀與語言知覺。

Phonetic boundary：將vice onset time作為變項連續展開，其中可區辨二不同音素界線，此概念類似於視覺上的區隔。

此受到語言背景相關，如該語言有幾個phoneme，則會聽為幾個不同的音。(換言之，基於該語言擁有的phoneme量，直接影響個體對於語音分析的能力)
相關研究：

研究主題：透過吸奶嘴的行為觀察，以了解嬰兒對於phoneme的區辨能力。
前提假設：假定孩子對於新奇的刺激，吸奶嘴的頻率將上升；而適應之後，其吸奶嘴的頻率將下降。
研究設計：將孩子聽到的刺激分為三種，分別為是pa-ba,pa-pa(60,80)以及pa-pa(same)。其中，第二組的差別在於voice onset time有所不同，而結果顯示孩子是可以辨別的。
研究結果：

pa-ba組別：在pa的音中，初見頻率直接上升，而後逐漸下降，當轉換為ba的時候，明顯再開始上升，後漸次下降。此曲線走向與原趨勢完全不同。
pa-pa(VOT different)組別：在pa(60)的時候，初見頻率上升，而後逐漸下降，當轉變為pa(80)的時候，其頻率微幅上升，而後下降。此曲線走向與原趨勢相似。
pa-pa(same)組別：在第一個pa的時候出現頻率上升，而後逐漸下降，在聽到第二個pa的時候，頻率符合原本趨勢的下降。

研究意義：發現孩子有能力可以區辨二種不同的語音。

Kuhl et al(2006)的研究：

研究主題：美國與日本孩子，對於r及l的區辨能力。
研究設計：透過行為觀察方式，如果孩子可判斷正確答案，則會有聲光刺激作為回饋。
研究結果：

美國與日本的孩子，在6-8個月的時候，正確判斷的能力約為60%。
10-12個月的時候，美國孩子的正確率達80%，但日本孩子下降至55%。(仍高於機率的50%)

研究意義：

0-4個月的孩子，無論其種族與該區主要使用的語言，可以對所有的phoneme產生反應，然在6個月之後開始對於該主要語言的主要子音產生特異性反應，同時降低對於其他語言的敏感度。
此結果支持，在嬰兒開始說話之前已經開始收集相關資訊，準備處理特異性的語言，也代表了嬰兒對於語言的可塑性。

研究應用：

舉例而言，日文中對於l和r並沒有特別區分，但4個月之前的孩子於美國與日本之間沒有明顯差異，但在6-10個月的時候，日本孩子明顯對於l和r區分力下降(低於50%)。

語言學習的發展歷程：

語言學習自6個月後正式開始，並從母音的學習起始。
6個月之前，孩子在學習區辨不同的語音。
11個月的時候，將降低他國語言的辨識能力，並提升主要語言的學習能力。

Information provided by face：面對面的溝通，嘴型及非肢體語言有助於判別語音。

McGurk effect：視覺訊息影響聽覺資訊。

閉上眼睛，單純聽錄音帶放出ba的音，觀察者可正確辨識為ba。
張開眼睛，聽到錄音帶放出ga的音，但視覺上對方的嘴型為對方的嘴型為ga，則觀察者將知覺到da的音(da約莫為ga及ba的中間音)，此種聽幻覺稱為McGurk effect。
由上述狀況可見，在日常溝通中嘴型對於知覺的提示性。
fMRI的影像研究中顯示，唇語解讀與語音知覺的腦區其實十分靠近，此可解釋speech perception與lip reading的關聯性。

note：也許上述這二個因子，可以作為視訊教學或者錄影帶教學效益的考量，但是推測在孩子身上，有真人與之互動可以提升其參與動機，從而增加學習效率；但是對於成人已經自備動機的情況下，其效應如何，可繼續朝此方向了解。

Information provide language knowledge：

語音和非語音的差別：有意義與無意義，此與對於語言之知識量有關。

但聽得懂的語言與聽不懂的語言，如何區辨此不同？
語言的知識，不僅是字彙知識，也對於語法、應用知識的不同。

Rubin et al 的研究：

研究主題：有意義與無意義的聲音刺激，與受試者反應速度之關聯。
研究設計：提供二組聲音刺激，一組為有意義之刺激(如bat,sin and leg)，另外一組為無意義的刺激(jum, baf and teg)，要求受試者聽到指定phoneme時，盡速按下按鈕。
研究結果：

有意義組別：580ms，反應時間較短。
無異議組別：631ms，反應時間較長。

研究意義：

對於相同的phoneme，有意義組別的刺激，受試者可較快反應。

Phoneme restoration effect：在語音資訊收集的過程中，如果出現遮蔽或者有資訊不全的狀況，觀察者傾向自動補上其知識內符合的資訊，此現象稱為phoneme restoration effect。換言之，原本不存在的phoneme，基於語言知識而填補相關的空缺。

Warren &Warren (1970)的研究，提供受試者不同刺激，並且觀察受試者如何解釋此空缺，結果發現其確實會基於前後文自動補上相關的可能。

提供的刺激：

It was found that the *eel was on the orange.
–  It was found that the *eel was on the axle.
–  It was found that the *eel was on the shoe.
–  It was found that the *eel was on the table

Perceiving words and break between words：

Miller and Isard的研究：

研究設計：

提供三種不同的句子，要求聽者覆誦聽到的語音。

有文法且意義。
沒意義但有文法。
沒意義也沒文法。

研究結果：有文法有意義優於沒意義但有文法，但二者皆優於沒意義也沒文法。

有文法且有意義：89%的正確率。
沒意義但有文法：79%的正確率。
沒意義也沒文法：56%的正確率。

perceiving breaks between words：

基本上在二個字之間鮮有間隔，特別是物理性質上較少發現。
但是在單一字內較有可能出現間隔。
對於語言的理解受到知識與對結構之理解，而有所不同。

Transitional probabilities：二個phoneme一同出現的機率，作為語言相關知識的基礎，有助於區分字詞間的關係。

statistical learning：透過歸納該語言各音節間搭配機率的關聯性，以學習該語言之特色，換言之，是學習transitional probabilities的過程。

約8個月大的嬰兒，開始出現statistical learning。

對於嬰兒聽我們的語言，有如我們聽到外國無知的語言，但其可能透過累積相關資訊量(字間的連同出現率)，從而習得該語言。
Saffran, Aslin and Newport (1996)的研究：

研究主題：嬰兒對於語言特色的辨識能力。
研究設計：

讓很小的嬰兒聽一連串等音節等速度的音，其共由Bidaku,Padoti,Golabu,Tupiro組合而成，並且隨機排列。
此四個字之transitional probabilities有所不同，並維持2分鐘。
測驗時分為二組，分別是出現全字(如bidaku, tuprio)，或者最後一字連接另一字首(kupado, butuprio)。
刺激由左、右其中一個喇叭放出，並觀察孩子對於其觀察的時間長度。

研究假設：

Bi後面出現da的機率為1，da後面出現ku的機率為1，但Ku後面出現Pa的機率僅為0.33。
如孩子可以習得上述原則，其應能熟悉完整的四字。
假定孩子對於新奇的刺激，會花上較多時間觀察；對於熟悉的刺激，則觀察時間較短。

研究結果：

嬰兒對於part word組別的時間，相較whole word來的更久。

研究意義：

孩子可以注意到文字間出現機率的關聯性。

Taking speaker characteristics into account：

Indexical characteristics：對於說話者的年齡、性別、情緒、嚴肅程度等等，將影響接收者對於語意的解釋，此也與所謂的言外之意、反諷法等修辭相關。
Palmeri et al 的研究：要求受試者在聽到新的詞彙時按下按鈕，結果顯示，在相同人念的組別中，其能較快反應出陌生的詞彙，但在不同人念的過程中則需要較長時間。

Summary：

Top-down：知識、語言、視覺(脣形)等等，影響對於語音訊號的解釋，基於知識對於語意的理解，可迅速掌握資訊，但對於缺陷的資訊可能過度解釋(腦補)。
Bottom-up；語音訊號的輸入，基於感覺本身堆砌而來的資訊，處理效率較差，但是相對較依據現實。

二者共同決定speech perception。

Speech perception and the brain：

語言相關腦區：

經典：Broca's and Wernicke's area，因最早被發現和語言相關的腦區。

Bcora's aphasia：惜字如新、電報語言，因說話較為費力，因此僅有名詞與動作，多省略連接詞。(語言排列與產生困難，但聽理解問題較小)
Wernicke's aphasia：較靠近聽覺區，發現此類型的個案說話非常流利，甚至更甚於一般人，但說話的內容沒有意義，且對於語言知覺問題較大，嚴重者聽不懂語言。

其他研究：

STS(voice area)：對於人的語音最為敏感，相較於其他聽覺刺激。

在猴子身上也發現此類神經元，對於猴子的叫聲作為敏感。
猴子身上的mirror neuron出現在STS區域附近，約等同於人類的Broca's area，此可能與語音理解有關。
在mirror neuron的類型中也發現audiovisual neuron，顯示其對於視覺資訊(唇形)及聽覺資訊(語音)之關聯。

Dual stream model of speech perception：

Ventral stream：speech recognition，起源於temporal lobe，有點類似what pathway，用以辨認語意並與聽理解相關。
Dorsal stream：Linking acoustic signal t motor performance，起源於parietal lobe，類似how pathway，可能與語音符號及說話之動作編排相關。

對於parietal lobe injury的個案而言，其可能無法辨識語音符號(因傷及dorsal lobe，對於語音符號解讀障礙)，但是可以讀懂整句的意思(未傷及ventral lobe，對於speech recognition)。

Liberman et al ：Motor theory

認為聽知覺仰賴於理解該發音動作：當聽到聲音時，會先將聲音拆解為發生的動作程序，後再活化聽皮質區，從而理解。
此理論受到質疑，因不能解釋小孩子以及部分aphasia的症狀：

小朋友在會說話之前，可理解部分語言。
aphasia的個案，儘管喪失說話能力，但仍可能具有功能性的聽理解能力。

儘管此動作程序不是語言的必須，但仍具有相關性可作為動作學習或者提示之用。
Audiovisual mirror neurons是此部分的證據，而在人身上也發現到類似功能的細胞，另發現在lip area和tongue area給予刺激，可增加人類對於聽覺偵測的效率，因此推此motor mechanism可能與聽理解有關。

儘管此類的鏡像神經元並不少見，其可能與學習或者模仿、解析有關，但未必是語言理解的必要條件。

Pasley experiment (2012)：

皮質區對特定的刺激具相關性，換言之某一特定刺激，於大腦可產生特定的活化狀態；作者假設使用相同刺激，是否能產生相同的刺激知覺？
基於fMRI對於時間較弱的特質，因此透過腦外科手術之個案，貼電極片於大腦外側並給予不同刺激，從而建立聲音反應資料庫。
結果發現，儘管結果不盡相同，但仍可看出大致結構有相關性，並可感覺到基本的特質。(自腦訊號重建)

Summary：

語音學：研究語音特質的學門。

母音：口腔與聲帶共同震動所致，可見第一與第二共震波(formant)。
子音：又分為有聲子音與無聲子音，前者為聲帶振動之結果，後者為氣流通過嘴唇造成的擾動。
Formant transition：指頻率過渡帶，換言之起始的頻率與後續穩定的頻率存有差異，造成其短時間內迅速轉移的現象。
speech variability：說話速度將影響語音的連結關係，特別是因肌肉骨骼造成的變化限制稱為co-articulation，即受限於聲帶變化，該音節與下一個音節具有相關性。
noise

categorical perception 類似顏色辨識機制，可分為組織與區辨，如同波長光譜，雖為連續變化，但結果呈現為間斷(顏色辨別)。

小孩子對於phoneme的接收能力，與其對語音的分析與學習能力相關。
就發展而言，6個月大的小孩開始語言的學習，並且著重於母音的學習；另，在11-12個月，孩子將降低其他語言的辨識能力，但相對提升主要語言的學習能力。
statistical learning：指各音節之間出現的機率法則，將影響個體對於語言的理解與判斷，而此連結關係可以是語言學習的要素之一。

Information provided by face：

脣形影響對於語言的解讀，如聽到ba與看到ga造成的幻覺。
但非所有口腔運動都有意義，如嚼口香糖即為沒意義，但觀察者得以區辨之。

Information provided language knowledge：

語言、詞彙間的關係，作為學習的基礎。

Speech perception and the brain；

Broca's and Wernicke's area，此二腦區的損傷個案分別有不同的表現。
STS：對於人類語音最為敏感的腦區。
相關語音重建技術，儘管建立大量data base，並且可以做出大致符合的樣式，但仍有進步空間，且距離實際應用仍有距離。represent the voice(may be the assist technique to help the aphasia client)。

Q&A：

語言的學習與社會互動相關，研究顯示社交互動的本質和語言學習有密切相關。

或可理解為，使用錄音帶或者影片學習的成效是"有限"的。

留言

kakajia2016年6月4日晚上11:24
太感谢作者了，跟我们教科书上教的一模一样，想知道作者是不是也是Monash的哈哈哈哈哈
回覆刪除
回覆

張貼留言