2013.12.17 知覺心理學 (十一) Speech Percpetion

The acoustic signal 語音學
  • 影響聲音的二大要素:聲帶震動與嘴型。
    • 聲帶(vocal cord):氣流自肺而上,透過聲帶的鬆緊程度,而有不同的共振頻率,通常與F1(第一共振波)相關。
    • 嘴型(vocal tract):嘴型與口腔空間具有增幅特質,因此可以加強或者削弱某些音,通常與F2(第二共震波)有關。
      note:使用頻率為橫軸、強度為縱軸,交織看出不同的圖形以描述發音。
  • 聲譜圖(spectrograms):以時間、頻率與強度交織而成的圖表,以描述(分析)各語音的方式。
    • 共振波(formant)乃經由聲帶與口腔調節而來,可見為聲譜圖上的波峰。
    • 有鑑於二度空間的圖表較容易解讀,但有三種要素需呈現,故可以顏色代表強弱(密度)變項。
  • 母音(Vowels):聲帶與口腔共振之語音,理論上可見共振波。
  • 子音(Consonants):又可分為有聲子音和無聲子音。
    • 有聲子音為有聲帶振動之語音。
    • 無聲子音為聲帶不震動、僅為氣流的語音。
  • 共振轉換(Formant transitions):定義為迅速轉換的共振頻率,概念上為音的轉折,或可理解為連音的概念,於聲譜圖上呈現高密度,有其重要意義。
    • Formant協助指出最關鍵的頻率。
Variability of speech:不同說話者,於頻率、波形(音色)、語調(腔調)、強弱、速度等差異,但並不影響對於語言之理解。
  • 名詞解釋:
    • 頻率(frequency):單位時間內出現的完整波數,與共振的媒介相關,頻率越高則聽到的音高越高。
    • 音色(pitch):指完整波形的形式,具有明顯個體差異。
    • 語調(accent):指每個語音排列的時間差,以及相對高低關係。
    • 速度(speed):指語音完成之數量與所花費之時間。
    • 發音(pronunciation) :個體發音的差異,受到嘴型與環境影響。
  • Kuhl et al (2004)的研究,以第一共振峰為橫軸、第二共振峰為縱軸之圖表,可看到各母音有不同的分布走向,然仍有重疊之處,應如何區辨不同?
  • 相同的音,受到不同嘴型、環境因素影響:
    • 如boot和bean的'b'念法有所不同,「好冷」及「好辣」中,因'ㄥ'為鼻音,因此冷會略帶鼻音,相對辣則否。
    • Co-articulation:因肌肉收縮的限制,造成二音之間有所牽連,此受到其他音(下一個音)之影響,此狀況稱為co-articulation。
  • 相同的句子,受不同說話速度:
    • 不同的速度,可以看到不二種型態的聲譜圖,二者有相似的主要結構,但細節上仍有差異,或可窺見其轉變。
      • 在速度快的時間限制下,co-articulation的狀況可能更為明顯。
    • 如what are you doing快板與慢板,快板近似於what arm you doing。
Perceptual constancy:相同的發音有可以有許多變數,個體歸類其為相同的語音,可從下列要素中討論。
  • categorical perception
    • 視覺(visual):以不同的波長界定不同的顏色
    • 聽覺:區辨pa和ba的不同,可見儘管物理向度相似,但可透過知識解讀成不同的語音(此指對於語言的理解)。
  • 音素(phoneme):作為語音處理的最小單位,在不同語言有不同的音素組成與種類。
    • 依據知識,將聽到的音分類到不同的音素。
    • 以英文為例,共有47個音素:
      • 13個母音:這遠超過a,e,i,o,u這五個母音,主要是因為在不同狀況下同一個字母可以有不同的發音方式所致。
      • 24個子音
    • 不同語言所包含的音素數量不同,如拉丁語系的語言可能達40或60個phoneme。
Voice onset time(VOT):自聲音起始到聲帶振動的時間差,從時間-頻率的聲譜圖上,其代表的是自時間為0至發出聲音的時間間隔。
  • 辨別二個不同的phoneme可能與此VOT的時間相關,以da和ta為例,前者所需的時間約為17ms,但是後者則需要89ms,因此,從VOT的差異可以做為區隔的依據。
  • 在研究中呈現,在VOT在20-25ms間的聲音,都會被歸類為da;在70-90之間的聲音,會被歸類為ta,而落在此中間的聲音,則會視為其他的發音。
    • 由此可見,VOT確實可以做為區分phoneme的指標。
  • 如da和ta的發音,聲帶振動的時間不同,從而有不同的解讀與語言知覺。
Phonetic boundary:將vice onset time作為變項連續展開,其中可區辨二不同音素界線,此概念類似於視覺上的區隔。
  • 此受到語言背景相關,如該語言有幾個phoneme,則會聽為幾個不同的音。(換言之,基於該語言擁有的phoneme量,直接影響個體對於語音分析的能力)
  • 相關研究:
    • 研究主題:透過吸奶嘴的行為觀察,以了解嬰兒對於phoneme的區辨能力。
    • 前提假設:假定孩子對於新奇的刺激,吸奶嘴的頻率將上升;而適應之後,其吸奶嘴的頻率將下降。
    • 研究設計:將孩子聽到的刺激分為三種,分別為是pa-ba,pa-pa(60,80)以及pa-pa(same)。其中,第二組的差別在於voice onset time有所不同,而結果顯示孩子是可以辨別的。
    • 研究結果:
      • pa-ba組別:在pa的音中,初見頻率直接上升,而後逐漸下降,當轉換為ba的時候,明顯再開始上升,後漸次下降。此曲線走向與原趨勢完全不同。
      • pa-pa(VOT different)組別:在pa(60)的時候,初見頻率上升,而後逐漸下降,當轉變為pa(80)的時候,其頻率微幅上升,而後下降。此曲線走向與原趨勢相似。
      • pa-pa(same)組別:在第一個pa的時候出現頻率上升,而後逐漸下降,在聽到第二個pa的時候,頻率符合原本趨勢的下降。
    • 研究意義:發現孩子有能力可以區辨二種不同的語音。
  • Kuhl et al(2006)的研究:
    • 研究主題:美國與日本孩子,對於r及l的區辨能力。
    • 研究設計:透過行為觀察方式,如果孩子可判斷正確答案,則會有聲光刺激作為回饋。
    • 研究結果:
      • 美國與日本的孩子,在6-8個月的時候,正確判斷的能力約為60%。
      • 10-12個月的時候,美國孩子的正確率達80%,但日本孩子下降至55%。(仍高於機率的50%)
    • 研究意義:
      • 0-4個月的孩子,無論其種族與該區主要使用的語言,可以對所有的phoneme產生反應,然在6個月之後開始對於該主要語言的主要子音產生特異性反應,同時降低對於其他語言的敏感度。
      • 此結果支持,在嬰兒開始說話之前已經開始收集相關資訊,準備處理特異性的語言,也代表了嬰兒對於語言的可塑性。
    • 研究應用:
      • 舉例而言,日文中對於l和r並沒有特別區分,但4個月之前的孩子於美國與日本之間沒有明顯差異,但在6-10個月的時候,日本孩子明顯對於l和r區分力下降(低於50%)。
  • 語言學習的發展歷程:
    • 語言學習自6個月後正式開始,並從母音的學習起始。
    • 6個月之前,孩子在學習區辨不同的語音。
    • 11個月的時候,將降低他國語言的辨識能力,並提升主要語言的學習能力。
Information provided by face:面對面的溝通,嘴型及非肢體語言有助於判別語音。
  • McGurk effect:視覺訊息影響聽覺資訊。
    • 閉上眼睛,單純聽錄音帶放出ba的音,觀察者可正確辨識為ba。
    • 張開眼睛,聽到錄音帶放出ga的音,但視覺上對方的嘴型為對方的嘴型為ga,則觀察者將知覺到da的音(da約莫為ga及ba的中間音),此種聽幻覺稱為McGurk effect。
    • 由上述狀況可見,在日常溝通中嘴型對於知覺的提示性。
    • fMRI的影像研究中顯示,唇語解讀與語音知覺的腦區其實十分靠近,此可解釋speech perception與lip reading的關聯性。
  • note:也許上述這二個因子,可以作為視訊教學或者錄影帶教學效益的考量,但是推測在孩子身上,有真人與之互動可以提升其參與動機,從而增加學習效率;但是對於成人已經自備動機的情況下,其效應如何,可繼續朝此方向了解。
Information provide language knowledge:
  • 語音和非語音的差別:有意義與無意義,此與對於語言之知識量有關。
    • 但聽得懂的語言與聽不懂的語言,如何區辨此不同?
    • 語言的知識,不僅是字彙知識,也對於語法、應用知識的不同。
  • Rubin et al 的研究:
    • 研究主題:有意義與無意義的聲音刺激,與受試者反應速度之關聯。
    • 研究設計:提供二組聲音刺激,一組為有意義之刺激(如bat,sin and leg),另外一組為無意義的刺激(jum, baf and teg),要求受試者聽到指定phoneme時,盡速按下按鈕。
    • 研究結果:
      • 有意義組別:580ms,反應時間較短。
      • 無異議組別:631ms,反應時間較長。
    • 研究意義:
      • 對於相同的phoneme,有意義組別的刺激,受試者可較快反應。
  • Phoneme restoration effect:在語音資訊收集的過程中,如果出現遮蔽或者有資訊不全的狀況,觀察者傾向自動補上其知識內符合的資訊,此現象稱為phoneme restoration effect。換言之,原本不存在的phoneme,基於語言知識而填補相關的空缺。
    • Warren &Warren (1970)的研究,提供受試者不同刺激,並且觀察受試者如何解釋此空缺,結果發現其確實會基於前後文自動補上相關的可能。
      • 提供的刺激:
        • It was found that the *eel was on the orange.
        • –  It was found that the *eel was on the axle.
        • –  It was found that the *eel was on the shoe.
        • –  It was found that the *eel was on the table
Perceiving words and break between words:
  • Miller and Isard的研究:
    • 研究設計:
      • 提供三種不同的句子,要求聽者覆誦聽到的語音。
        • 有文法且意義。
        • 沒意義但有文法。
        • 沒意義也沒文法。
    • 研究結果:有文法有意義優於沒意義但有文法,但二者皆優於沒意義也沒文法。
      • 有文法且有意義:89%的正確率。
      • 沒意義但有文法:79%的正確率。
      • 沒意義也沒文法:56%的正確率。
  • perceiving breaks between words:
    • 基本上在二個字之間鮮有間隔,特別是物理性質上較少發現。
    • 但是在單一字內較有可能出現間隔。
    • 對於語言的理解受到知識與對結構之理解,而有所不同。
  • Transitional probabilities:二個phoneme一同出現的機率,作為語言相關知識的基礎,有助於區分字詞間的關係。
    • statistical learning:透過歸納該語言各音節間搭配機率的關聯性,以學習該語言之特色,換言之,是學習transitional probabilities的過程。
      • 約8個月大的嬰兒,開始出現statistical learning。
    • 對於嬰兒聽我們的語言,有如我們聽到外國無知的語言,但其可能透過累積相關資訊量(字間的連同出現率),從而習得該語言。
    • Saffran, Aslin and Newport (1996)的研究:
      • 研究主題:嬰兒對於語言特色的辨識能力。
      • 研究設計:
        • 讓很小的嬰兒聽一連串等音節等速度的音,其共由Bidaku,Padoti,Golabu,Tupiro組合而成,並且隨機排列。
        • 此四個字之transitional probabilities有所不同,並維持2分鐘。
        • 測驗時分為二組,分別是出現全字(如bidaku, tuprio),或者最後一字連接另一字首(kupado, butuprio)。
        • 刺激由左、右其中一個喇叭放出,並觀察孩子對於其觀察的時間長度。
      • 研究假設:
        • Bi後面出現da的機率為1,da後面出現ku的機率為1,但Ku後面出現Pa的機率僅為0.33。
        • 如孩子可以習得上述原則,其應能熟悉完整的四字。
        • 假定孩子對於新奇的刺激,會花上較多時間觀察;對於熟悉的刺激,則觀察時間較短。
      • 研究結果:
        • 嬰兒對於part word組別的時間,相較whole word來的更久。
      • 研究意義:
        • 孩子可以注意到文字間出現機率的關聯性。
Taking speaker characteristics into account:
  • Indexical characteristics:對於說話者的年齡、性別、情緒、嚴肅程度等等,將影響接收者對於語意的解釋,此也與所謂的言外之意、反諷法等修辭相關。
  • Palmeri et al 的研究:要求受試者在聽到新的詞彙時按下按鈕,結果顯示,在相同人念的組別中,其能較快反應出陌生的詞彙,但在不同人念的過程中則需要較長時間。
Summary:
  • Top-down:知識、語言、視覺(脣形)等等,影響對於語音訊號的解釋,基於知識對於語意的理解,可迅速掌握資訊,但對於缺陷的資訊可能過度解釋(腦補)。
  • Bottom-up;語音訊號的輸入,基於感覺本身堆砌而來的資訊,處理效率較差,但是相對較依據現實。
    • 二者共同決定speech perception。
Speech perception and the brain:
  • 語言相關腦區:
    • 經典:Broca's and Wernicke's area,因最早被發現和語言相關的腦區。
      • Bcora's aphasia:惜字如新、電報語言,因說話較為費力,因此僅有名詞與動作,多省略連接詞。(語言排列與產生困難,但聽理解問題較小)
      • Wernicke's aphasia:較靠近聽覺區,發現此類型的個案說話非常流利,甚至更甚於一般人,但說話的內容沒有意義,且對於語言知覺問題較大,嚴重者聽不懂語言。
    • 其他研究:
      • STS(voice area):對於人的語音最為敏感,相較於其他聽覺刺激。
        • 在猴子身上也發現此類神經元,對於猴子的叫聲作為敏感。
        • 猴子身上的mirror neuron出現在STS區域附近,約等同於人類的Broca's area,此可能與語音理解有關。
        • 在mirror neuron的類型中也發現audiovisual neuron,顯示其對於視覺資訊(唇形)及聽覺資訊(語音)之關聯。
  • Dual stream model of speech perception:
    • Ventral stream:speech recognition,起源於temporal lobe,有點類似what pathway,用以辨認語意並與聽理解相關。
    • Dorsal stream:Linking acoustic signal t motor performance,起源於parietal lobe,類似how pathway,可能與語音符號及說話之動作編排相關。
      • 對於parietal lobe injury的個案而言,其可能無法辨識語音符號(因傷及dorsal lobe,對於語音符號解讀障礙),但是可以讀懂整句的意思(未傷及ventral lobe,對於speech recognition)。
  • Liberman et al :Motor theory
    • 認為聽知覺仰賴於理解該發音動作:當聽到聲音時,會先將聲音拆解為發生的動作程序,後再活化聽皮質區,從而理解。
    • 此理論受到質疑,因不能解釋小孩子以及部分aphasia的症狀:
      • 小朋友在會說話之前,可理解部分語言。
      • aphasia的個案,儘管喪失說話能力,但仍可能具有功能性的聽理解能力。
    • 儘管此動作程序不是語言的必須,但仍具有相關性可作為動作學習或者提示之用。
    • Audiovisual mirror neurons是此部分的證據,而在人身上也發現到類似功能的細胞,另發現在lip area和tongue area給予刺激,可增加人類對於聽覺偵測的效率,因此推此motor mechanism可能與聽理解有關。
      • 儘管此類的鏡像神經元並不少見,其可能與學習或者模仿、解析有關,但未必是語言理解的必要條件。
  • Pasley experiment (2012):
    • 皮質區對特定的刺激具相關性,換言之某一特定刺激,於大腦可產生特定的活化狀態;作者假設使用相同刺激,是否能產生相同的刺激知覺?
    • 基於fMRI對於時間較弱的特質,因此透過腦外科手術之個案,貼電極片於大腦外側並給予不同刺激,從而建立聲音反應資料庫。
    • 結果發現,儘管結果不盡相同,但仍可看出大致結構有相關性,並可感覺到基本的特質。(自腦訊號重建)
Summary:
  • 語音學:研究語音特質的學門。
    • 母音:口腔與聲帶共同震動所致,可見第一與第二共震波(formant)。
    • 子音:又分為有聲子音與無聲子音,前者為聲帶振動之結果,後者為氣流通過嘴唇造成的擾動。
    • Formant transition:指頻率過渡帶,換言之起始的頻率與後續穩定的頻率存有差異,造成其短時間內迅速轉移的現象。
    • speech variability:說話速度將影響語音的連結關係,特別是因肌肉骨骼造成的變化限制稱為co-articulation,即受限於聲帶變化,該音節與下一個音節具有相關性。
    • noise
  • categorical perception 類似顏色辨識機制,可分為組織與區辨,如同波長光譜,雖為連續變化,但結果呈現為間斷(顏色辨別)。
    • 小孩子對於phoneme的接收能力,與其對語音的分析與學習能力相關。
    • 就發展而言,6個月大的小孩開始語言的學習,並且著重於母音的學習;另,在11-12個月,孩子將降低其他語言的辨識能力,但相對提升主要語言的學習能力。
    • statistical learning:指各音節之間出現的機率法則,將影響個體對於語言的理解與判斷,而此連結關係可以是語言學習的要素之一。
  • Information provided by face:
    • 脣形影響對於語言的解讀,如聽到ba與看到ga造成的幻覺。
    • 但非所有口腔運動都有意義,如嚼口香糖即為沒意義,但觀察者得以區辨之。
  • Information provided language knowledge:
    • 語言、詞彙間的關係,作為學習的基礎。
  • Speech perception and the brain;
    • Broca's and Wernicke's area,此二腦區的損傷個案分別有不同的表現。
    • STS:對於人類語音最為敏感的腦區。
    • 相關語音重建技術,儘管建立大量data base,並且可以做出大致符合的樣式,但仍有進步空間,且距離實際應用仍有距離。represent the voice(may be the assist technique to help the aphasia client)。
  • Q&A:
    • 語言的學習與社會互動相關,研究顯示社交互動的本質和語言學習有密切相關。
      • 或可理解為,使用錄音帶或者影片學習的成效是"有限"的。

留言

  1. 太感谢作者了,跟我们教科书上教的一模一样,想知道作者是不是也是Monash的哈哈哈哈哈

    回覆刪除

張貼留言

熱門文章