2013.12.17 知覺心理學 (十一) Speech Percpetion
The acoustic signal 語音學
- 影響聲音的二大要素:聲帶震動與嘴型。
- 聲帶(vocal cord):氣流自肺而上,透過聲帶的鬆緊程度,而有不同的共振頻率,通常與F1(第一共振波)相關。
- 嘴型(vocal tract):嘴型與口腔空間具有增幅特質,因此可以加強或者削弱某些音,通常與F2(第二共震波)有關。
note:使用頻率為橫軸、強度為縱軸,交織看出不同的圖形以描述發音。 - 聲譜圖(spectrograms):以時間、頻率與強度交織而成的圖表,以描述(分析)各語音的方式。
- 共振波(formant)乃經由聲帶與口腔調節而來,可見為聲譜圖上的波峰。
- 有鑑於二度空間的圖表較容易解讀,但有三種要素需呈現,故可以顏色代表強弱(密度)變項。
- 母音(Vowels):聲帶與口腔共振之語音,理論上可見共振波。
- 子音(Consonants):又可分為有聲子音和無聲子音。
- 有聲子音為有聲帶振動之語音。
- 無聲子音為聲帶不震動、僅為氣流的語音。
- 共振轉換(Formant transitions):定義為迅速轉換的共振頻率,概念上為音的轉折,或可理解為連音的概念,於聲譜圖上呈現高密度,有其重要意義。
- Formant協助指出最關鍵的頻率。
Variability of speech:不同說話者,於頻率、波形(音色)、語調(腔調)、強弱、速度等差異,但並不影響對於語言之理解。
- 名詞解釋:
- 頻率(frequency):單位時間內出現的完整波數,與共振的媒介相關,頻率越高則聽到的音高越高。
- 音色(pitch):指完整波形的形式,具有明顯個體差異。
- 語調(accent):指每個語音排列的時間差,以及相對高低關係。
- 速度(speed):指語音完成之數量與所花費之時間。
- 發音(pronunciation) :個體發音的差異,受到嘴型與環境影響。
- Kuhl et al (2004)的研究,以第一共振峰為橫軸、第二共振峰為縱軸之圖表,可看到各母音有不同的分布走向,然仍有重疊之處,應如何區辨不同?
- 相同的音,受到不同嘴型、環境因素影響:
- 如boot和bean的'b'念法有所不同,「好冷」及「好辣」中,因'ㄥ'為鼻音,因此冷會略帶鼻音,相對辣則否。
- Co-articulation:因肌肉收縮的限制,造成二音之間有所牽連,此受到其他音(下一個音)之影響,此狀況稱為co-articulation。
- 相同的句子,受不同說話速度:
- 不同的速度,可以看到不二種型態的聲譜圖,二者有相似的主要結構,但細節上仍有差異,或可窺見其轉變。
- 在速度快的時間限制下,co-articulation的狀況可能更為明顯。
- 如what are you doing快板與慢板,快板近似於what arm you doing。
Perceptual constancy:相同的發音有可以有許多變數,個體歸類其為相同的語音,可從下列要素中討論。
- categorical perception
- 視覺(visual):以不同的波長界定不同的顏色
- 聽覺:區辨pa和ba的不同,可見儘管物理向度相似,但可透過知識解讀成不同的語音(此指對於語言的理解)。
- 音素(phoneme):作為語音處理的最小單位,在不同語言有不同的音素組成與種類。
- 依據知識,將聽到的音分類到不同的音素。
- 以英文為例,共有47個音素:
- 13個母音:這遠超過a,e,i,o,u這五個母音,主要是因為在不同狀況下同一個字母可以有不同的發音方式所致。
- 24個子音
- 不同語言所包含的音素數量不同,如拉丁語系的語言可能達40或60個phoneme。
Voice onset time(VOT):自聲音起始到聲帶振動的時間差,從時間-頻率的聲譜圖上,其代表的是自時間為0至發出聲音的時間間隔。
- 辨別二個不同的phoneme可能與此VOT的時間相關,以da和ta為例,前者所需的時間約為17ms,但是後者則需要89ms,因此,從VOT的差異可以做為區隔的依據。
- 在研究中呈現,在VOT在20-25ms間的聲音,都會被歸類為da;在70-90之間的聲音,會被歸類為ta,而落在此中間的聲音,則會視為其他的發音。
- 由此可見,VOT確實可以做為區分phoneme的指標。
- 如da和ta的發音,聲帶振動的時間不同,從而有不同的解讀與語言知覺。
Phonetic boundary:將vice onset time作為變項連續展開,其中可區辨二不同音素界線,此概念類似於視覺上的區隔。
- 此受到語言背景相關,如該語言有幾個phoneme,則會聽為幾個不同的音。(換言之,基於該語言擁有的phoneme量,直接影響個體對於語音分析的能力)
- 相關研究:
- 研究主題:透過吸奶嘴的行為觀察,以了解嬰兒對於phoneme的區辨能力。
- 前提假設:假定孩子對於新奇的刺激,吸奶嘴的頻率將上升;而適應之後,其吸奶嘴的頻率將下降。
- 研究設計:將孩子聽到的刺激分為三種,分別為是pa-ba,pa-pa(60,80)以及pa-pa(same)。其中,第二組的差別在於voice onset time有所不同,而結果顯示孩子是可以辨別的。
- 研究結果:
- pa-ba組別:在pa的音中,初見頻率直接上升,而後逐漸下降,當轉換為ba的時候,明顯再開始上升,後漸次下降。此曲線走向與原趨勢完全不同。
- pa-pa(VOT different)組別:在pa(60)的時候,初見頻率上升,而後逐漸下降,當轉變為pa(80)的時候,其頻率微幅上升,而後下降。此曲線走向與原趨勢相似。
- pa-pa(same)組別:在第一個pa的時候出現頻率上升,而後逐漸下降,在聽到第二個pa的時候,頻率符合原本趨勢的下降。
- 研究意義:發現孩子有能力可以區辨二種不同的語音。
- Kuhl et al(2006)的研究:
- 研究主題:美國與日本孩子,對於r及l的區辨能力。
- 研究設計:透過行為觀察方式,如果孩子可判斷正確答案,則會有聲光刺激作為回饋。
- 研究結果:
- 美國與日本的孩子,在6-8個月的時候,正確判斷的能力約為60%。
- 10-12個月的時候,美國孩子的正確率達80%,但日本孩子下降至55%。(仍高於機率的50%)
- 研究意義:
- 0-4個月的孩子,無論其種族與該區主要使用的語言,可以對所有的phoneme產生反應,然在6個月之後開始對於該主要語言的主要子音產生特異性反應,同時降低對於其他語言的敏感度。
- 此結果支持,在嬰兒開始說話之前已經開始收集相關資訊,準備處理特異性的語言,也代表了嬰兒對於語言的可塑性。
- 研究應用:
- 舉例而言,日文中對於l和r並沒有特別區分,但4個月之前的孩子於美國與日本之間沒有明顯差異,但在6-10個月的時候,日本孩子明顯對於l和r區分力下降(低於50%)。
- 語言學習的發展歷程:
- 語言學習自6個月後正式開始,並從母音的學習起始。
- 6個月之前,孩子在學習區辨不同的語音。
- 11個月的時候,將降低他國語言的辨識能力,並提升主要語言的學習能力。
Information provided by face:面對面的溝通,嘴型及非肢體語言有助於判別語音。
- McGurk effect:視覺訊息影響聽覺資訊。
- 閉上眼睛,單純聽錄音帶放出ba的音,觀察者可正確辨識為ba。
- 張開眼睛,聽到錄音帶放出ga的音,但視覺上對方的嘴型為對方的嘴型為ga,則觀察者將知覺到da的音(da約莫為ga及ba的中間音),此種聽幻覺稱為McGurk effect。
- 由上述狀況可見,在日常溝通中嘴型對於知覺的提示性。
- fMRI的影像研究中顯示,唇語解讀與語音知覺的腦區其實十分靠近,此可解釋speech perception與lip reading的關聯性。
- note:也許上述這二個因子,可以作為視訊教學或者錄影帶教學效益的考量,但是推測在孩子身上,有真人與之互動可以提升其參與動機,從而增加學習效率;但是對於成人已經自備動機的情況下,其效應如何,可繼續朝此方向了解。
Information provide language knowledge:
- 語音和非語音的差別:有意義與無意義,此與對於語言之知識量有關。
- 但聽得懂的語言與聽不懂的語言,如何區辨此不同?
- 語言的知識,不僅是字彙知識,也對於語法、應用知識的不同。
- Rubin et al 的研究:
- 研究主題:有意義與無意義的聲音刺激,與受試者反應速度之關聯。
- 研究設計:提供二組聲音刺激,一組為有意義之刺激(如bat,sin and leg),另外一組為無意義的刺激(jum, baf and teg),要求受試者聽到指定phoneme時,盡速按下按鈕。
- 研究結果:
- 有意義組別:580ms,反應時間較短。
- 無異議組別:631ms,反應時間較長。
- 研究意義:
- 對於相同的phoneme,有意義組別的刺激,受試者可較快反應。
- Phoneme restoration effect:在語音資訊收集的過程中,如果出現遮蔽或者有資訊不全的狀況,觀察者傾向自動補上其知識內符合的資訊,此現象稱為phoneme restoration effect。換言之,原本不存在的phoneme,基於語言知識而填補相關的空缺。
- Warren &Warren (1970)的研究,提供受試者不同刺激,並且觀察受試者如何解釋此空缺,結果發現其確實會基於前後文自動補上相關的可能。
- 提供的刺激:
- It was found that the *eel was on the orange.
- – It was found that the *eel was on the axle.
- – It was found that the *eel was on the shoe.
- – It was found that the *eel was on the table
Perceiving words and break between words:
- Miller and Isard的研究:
- 研究設計:
- 提供三種不同的句子,要求聽者覆誦聽到的語音。
- 有文法且意義。
- 沒意義但有文法。
- 沒意義也沒文法。
- 研究結果:有文法有意義優於沒意義但有文法,但二者皆優於沒意義也沒文法。
- 有文法且有意義:89%的正確率。
- 沒意義但有文法:79%的正確率。
- 沒意義也沒文法:56%的正確率。
- perceiving breaks between words:
- 基本上在二個字之間鮮有間隔,特別是物理性質上較少發現。
- 但是在單一字內較有可能出現間隔。
- 對於語言的理解受到知識與對結構之理解,而有所不同。
- Transitional probabilities:二個phoneme一同出現的機率,作為語言相關知識的基礎,有助於區分字詞間的關係。
- statistical learning:透過歸納該語言各音節間搭配機率的關聯性,以學習該語言之特色,換言之,是學習transitional probabilities的過程。
- 約8個月大的嬰兒,開始出現statistical learning。
- 對於嬰兒聽我們的語言,有如我們聽到外國無知的語言,但其可能透過累積相關資訊量(字間的連同出現率),從而習得該語言。
- Saffran, Aslin and Newport (1996)的研究:
- 研究主題:嬰兒對於語言特色的辨識能力。
- 研究設計:
- 讓很小的嬰兒聽一連串等音節等速度的音,其共由Bidaku,Padoti,Golabu,Tupiro組合而成,並且隨機排列。
- 此四個字之transitional probabilities有所不同,並維持2分鐘。
- 測驗時分為二組,分別是出現全字(如bidaku, tuprio),或者最後一字連接另一字首(kupado, butuprio)。
- 刺激由左、右其中一個喇叭放出,並觀察孩子對於其觀察的時間長度。
- 研究假設:
- Bi後面出現da的機率為1,da後面出現ku的機率為1,但Ku後面出現Pa的機率僅為0.33。
- 如孩子可以習得上述原則,其應能熟悉完整的四字。
- 假定孩子對於新奇的刺激,會花上較多時間觀察;對於熟悉的刺激,則觀察時間較短。
- 研究結果:
- 嬰兒對於part word組別的時間,相較whole word來的更久。
- 研究意義:
- 孩子可以注意到文字間出現機率的關聯性。
Taking speaker characteristics into account:
- Indexical characteristics:對於說話者的年齡、性別、情緒、嚴肅程度等等,將影響接收者對於語意的解釋,此也與所謂的言外之意、反諷法等修辭相關。
- Palmeri et al 的研究:要求受試者在聽到新的詞彙時按下按鈕,結果顯示,在相同人念的組別中,其能較快反應出陌生的詞彙,但在不同人念的過程中則需要較長時間。
Summary:
- Top-down:知識、語言、視覺(脣形)等等,影響對於語音訊號的解釋,基於知識對於語意的理解,可迅速掌握資訊,但對於缺陷的資訊可能過度解釋(腦補)。
- Bottom-up;語音訊號的輸入,基於感覺本身堆砌而來的資訊,處理效率較差,但是相對較依據現實。
- 二者共同決定speech perception。
Speech perception and the brain:
- 語言相關腦區:
- 經典:Broca's and Wernicke's area,因最早被發現和語言相關的腦區。
- Bcora's aphasia:惜字如新、電報語言,因說話較為費力,因此僅有名詞與動作,多省略連接詞。(語言排列與產生困難,但聽理解問題較小)
- Wernicke's aphasia:較靠近聽覺區,發現此類型的個案說話非常流利,甚至更甚於一般人,但說話的內容沒有意義,且對於語言知覺問題較大,嚴重者聽不懂語言。
- 其他研究:
- STS(voice area):對於人的語音最為敏感,相較於其他聽覺刺激。
- 在猴子身上也發現此類神經元,對於猴子的叫聲作為敏感。
- 猴子身上的mirror neuron出現在STS區域附近,約等同於人類的Broca's area,此可能與語音理解有關。
- 在mirror neuron的類型中也發現audiovisual neuron,顯示其對於視覺資訊(唇形)及聽覺資訊(語音)之關聯。
- Dual stream model of speech perception:
- Ventral stream:speech recognition,起源於temporal lobe,有點類似what pathway,用以辨認語意並與聽理解相關。
- Dorsal stream:Linking acoustic signal t motor performance,起源於parietal lobe,類似how pathway,可能與語音符號及說話之動作編排相關。
- 對於parietal lobe injury的個案而言,其可能無法辨識語音符號(因傷及dorsal lobe,對於語音符號解讀障礙),但是可以讀懂整句的意思(未傷及ventral lobe,對於speech recognition)。
- Liberman et al :Motor theory
- 認為聽知覺仰賴於理解該發音動作:當聽到聲音時,會先將聲音拆解為發生的動作程序,後再活化聽皮質區,從而理解。
- 此理論受到質疑,因不能解釋小孩子以及部分aphasia的症狀:
- 小朋友在會說話之前,可理解部分語言。
- aphasia的個案,儘管喪失說話能力,但仍可能具有功能性的聽理解能力。
- 儘管此動作程序不是語言的必須,但仍具有相關性可作為動作學習或者提示之用。
- Audiovisual mirror neurons是此部分的證據,而在人身上也發現到類似功能的細胞,另發現在lip area和tongue area給予刺激,可增加人類對於聽覺偵測的效率,因此推此motor mechanism可能與聽理解有關。
- 儘管此類的鏡像神經元並不少見,其可能與學習或者模仿、解析有關,但未必是語言理解的必要條件。
- Pasley experiment (2012):
- 皮質區對特定的刺激具相關性,換言之某一特定刺激,於大腦可產生特定的活化狀態;作者假設使用相同刺激,是否能產生相同的刺激知覺?
- 基於fMRI對於時間較弱的特質,因此透過腦外科手術之個案,貼電極片於大腦外側並給予不同刺激,從而建立聲音反應資料庫。
- 結果發現,儘管結果不盡相同,但仍可看出大致結構有相關性,並可感覺到基本的特質。(自腦訊號重建)
Summary:
- 語音學:研究語音特質的學門。
- 母音:口腔與聲帶共同震動所致,可見第一與第二共震波(formant)。
- 子音:又分為有聲子音與無聲子音,前者為聲帶振動之結果,後者為氣流通過嘴唇造成的擾動。
- Formant transition:指頻率過渡帶,換言之起始的頻率與後續穩定的頻率存有差異,造成其短時間內迅速轉移的現象。
- speech variability:說話速度將影響語音的連結關係,特別是因肌肉骨骼造成的變化限制稱為co-articulation,即受限於聲帶變化,該音節與下一個音節具有相關性。
- noise
- categorical perception 類似顏色辨識機制,可分為組織與區辨,如同波長光譜,雖為連續變化,但結果呈現為間斷(顏色辨別)。
- 小孩子對於phoneme的接收能力,與其對語音的分析與學習能力相關。
- 就發展而言,6個月大的小孩開始語言的學習,並且著重於母音的學習;另,在11-12個月,孩子將降低其他語言的辨識能力,但相對提升主要語言的學習能力。
- statistical learning:指各音節之間出現的機率法則,將影響個體對於語言的理解與判斷,而此連結關係可以是語言學習的要素之一。
- Information provided by face:
- 脣形影響對於語言的解讀,如聽到ba與看到ga造成的幻覺。
- 但非所有口腔運動都有意義,如嚼口香糖即為沒意義,但觀察者得以區辨之。
- Information provided language knowledge:
- 語言、詞彙間的關係,作為學習的基礎。
- Speech perception and the brain;
- Broca's and Wernicke's area,此二腦區的損傷個案分別有不同的表現。
- STS:對於人類語音最為敏感的腦區。
- 相關語音重建技術,儘管建立大量data base,並且可以做出大致符合的樣式,但仍有進步空間,且距離實際應用仍有距離。represent the voice(may be the assist technique to help the aphasia client)。
- Q&A:
- 語言的學習與社會互動相關,研究顯示社交互動的本質和語言學習有密切相關。
- 或可理解為,使用錄音帶或者影片學習的成效是"有限"的。
太感谢作者了,跟我们教科书上教的一模一样,想知道作者是不是也是Monash的哈哈哈哈哈
回覆刪除作者不是耶www
刪除