2014.10.17 認知科學 (四) Speech perception

2014.10.17 認知科學 (四) Speech perception

The Speech Chain：語言起始至終止的過程

語言起始於大腦，而終止於另外一個大腦

linguistic level(brain)
physiological level(vocal muscles)
acoustic level(sounds wave)

物理聲波的測量與擷取

physiological level(ear & nerves)

耳朵的結構與功能(擴大器 & 過濾器)

linguistic level (brain)

大腦如何解讀所聽到的訊息

聲音產生的方式有二途徑：鼻子 V.S 口

聲音的源頭：聲帶(vocal folds)
聲音調節器：氣管與咽喉(vocal tract filter)

目前我們所聽到的聲音，均由聲帶所產生
經過這些率波的過程，而轉變成我們現在所聽的聲音

聲音輸出：

Nasal sound output
Oral sound output

source-filter theory：

source： vocal fold vibration (F0) => 聲音由聲帶產生 (男女音高的不同)

產生的頻率為基頻，男生通常為120Hz，女生通常為150Hz
基頻經過修飾之後，成為後面所聽到聲音

filter： vocal tract (harmonics) =>調整聲帶的波型，變成不同型態的波型

聲音經過filter後，基頻會變成多的波型，其中前三個波形可幫助判別發音，而後面幾個波則影響其聲音聽起來的感受(阿花或者阿桑的聲音)
不同口腔的形狀，可以造成不同聽覺上的結果(波形改變)
vocal tract的長度也可微幅的影響，如：

嘴唇嘟起
喉頭下降

周邊聽覺系統

外耳：耳殼、外聽道

集中運訊息
選取2000~5500Hz的聲音進行放大(約2~3倍)

大多數語音多落在這個範圍內，但尚不清楚其因果關係

耳膜：可以放大約15倍，並且將聲波轉變為機械波

中耳：三小聽骨，約可放大3倍左右的訊號，無訊號形式的轉變

malleous(槌骨)
icus(砧骨)
stapes(鐙骨)

內耳：主要是耳蝸，是重要的聽覺機構

Cochlea(耳蝸)：類似麥克風，內有液體及毛細胞，經此程序將訊號轉變為神經電訊號

將耳蝸的捲曲解開後，可發現其類似椎體的結構。在其中間有一層薄膜稱為basal ganglia。由於其材質的厚薄差異，因此在不同區域有不同對應頻率的接收(初步的傅立葉分析)

較細的區域對應到高頻
較厚的區域對應到低頻
對於低頻的部分有較好的區辨功能與處理區域；對於高頻則較為粗略、跳躍(大部分的語音都落在5000Hz以下)
note：以電腦分析之，擷取5000Hz以下的聲波訊號，正確辨識的效率較高
不同頻率的毛細胞對應到不同的神經元，因而有初步的聲音頻率分析

中樞聽覺系統

Primary auditory cortex：其中有依頻率不同的對應區(但是至今尚未找到特定語音的對應皮質)
Secondary auditory cortex

Speech perception

the process by which the sounds of language are heard, interpreted and uderstood

Applications

building speech recognizers (盲用技術，或者輔具設計)
improving speech recognition for hearing and language impaired listeners(人工電子耳，目前在外語上效果不錯，如時機較早且合適與正常人差異不大；但中文效果不佳)
improving efficacy in foreign-language teaching(目前研究顯示跟所學的第一語言相關，但可能有技術可拓展分析能力，去聽到不同語言的語音)

Difficulties(何以單純看到聲音的頻譜，無法判斷其內容、字數、語言類型；但是聽到就可以)

Mapping between signal & speech

one acoustic aspect of the speech signal may cue different linguistically relevant dimensions

e.g. beat/bit(長語音/短母音)：在相同的語速下，可區分其lax
在不同結構，相同母音的長短就會不同(難以建立統一分析規範)：後面有沒有跟上一個子音，就會影響其長度
below/billow的音標寫法一致，但差異在於重音(duration可影響重音判讀)
speed, speedy, and speedilty，其duration也可能因為音節數的不同而有差異

one linguistic unit can be cured by several acoustic properties

子音的長相不同，與其後面所接的東西相關(但聽起來是一樣的)

目前的語音辨認傾向使用頻譜分析以找出最可能的發音。ㄋ最理想的系統，對外文可以有80%左右的辨別率，對於中文則有60%的辨別率。其中理想的系統為model，但建立在特定的功能性上，如訂票系統(侷限語言的意義後，可提升精確度)
然而，相同的頻譜用在不同說話者身上，其解讀的語音將有所差異(如高的人的i，用身高矮者來說可能變成e)。因此，電腦系統需要有參考語音作為基準。

Linearity and the segmentation problem

our minds perceive segments

lack of invariance

reliable constant relations between a phoneme of a language and its acoustic manifestation in speech are difficult to find

Reasons

Context-induced variation：相同聲音在不同位置，而有不同的訊號

例如邊和班，聲音會因為前後的字而不同

Variation due to differing speech conditions

fast and slow speaking rate(語徑長的影響)

在不同與速及情境下，所聽到的聲音未必是真實存在的(反之亦然)
同樣的語句，在不同情境下會有不同的念法

Variation due to different speaker identity

the resulting acoustic structure of concrete speech productions depends on the physical and psychological proprieties of individual speakers

以華人文化而言，年輕男性的發音最不清楚

不同年齡與性別，其母音頻譜的樣式不同
同一個人在不同次的發音，其頻譜也不完全相同
不同文化(語言使用者)的發音頻率也不同(e.g. 女性日文使用者的頻率特別高，男性日文使用者的頻率特別低)
note：即便同樣一個人，說英文語說日文的頻率也有所差異
note2：另有社會文化地位的判讀中，比較不同文化中女性的說話頻譜，結果發現：社會地位高的女性，其聲音頻譜較低

perceptual constancy and normalization

despite variations, listeners perceive vowels and consonants as constant categories
possibly achieved by means of the perceptual normalization process in which listeners filter out the noise

也許經過某些歷程而建立標準化程序
因此聽到的並非原始訊號，而是標準化訊號

perceptual constancy is not specific to speech

知覺恆常的概念應為良好討論物理心理的議題

Categorical perception：在連續變化中，個體感知從一個項目轉變到另外一個項目的形式

physical differences between phonemic categories are more likely perceived than within categories
Many-to-one mapping
can be inborn or induced by learning

目前能肯定這是學習的原因，或者是先天因素使然
青蛙可以辨別蒼蠅；英文可以辨別臉孔

Lisker & Abramson (1970)： VOT from -150ms to 150 ms

比較不同語言使用者(英文、西班牙文與泰文)，比較ba-pa的連續刺激

英文組的結果為ba-pa
西班牙文組的結果為ba-pa，但是較早察覺pa
泰文組的結果為ba-bar-pa

Top-down influences

the process os speech perception is not necessarily a uni-directional bottom-up process
Warren (1970)：藉由咳嗽聲造成語音上的模糊，讓受試者判斷其所聽到的內容

phoneme restoration effect：會自動將聲音還原(主觀感受真實地聽到)

e.g. 咳嗽聲的干擾

Ganong effect (1980)

同樣操弄VOT的增減，但是使用有意義的文字與沒有意義的文字進行
結果發現有二條趨勢線，結果顯示同樣的VOT訊號，受試者傾向選擇是文字的部分(這件事情稱為Ganong effect)

Tseng, Soemer, Lee (2013)

研究中文的音調變化，並且使用DAO4,DU4,DEI4

知道-制到
知度-制度
知DEI4-制DEI4

同樣發現具有Ganong effect

Coarticulatory compensation：

因前後音而產生偕同發音的過程，使得念的人較為容易
這種偕同發音獨立出來無法辨識，但是放回前後音附近則可清楚辨識
可能與大腦補償的功能相關

Theoretical approaches in speech perception

Motor theory：

Proposed by Alvin Liberman
people perceive spoken words by identifing the intended vocal tract gestures with which they are pronounced rather than by identifying the sound patterns that speech generates

已知訊號的不穩定性，因此，他認為人之所以可以聽到是因為他辨認其說話的動作(隱含、原始欲表達的動作

analysis by synthesis：由於自己的發音經驗，因而可以推測出對方原始的動作
被認為是人類獨有的能力
相關支持

McGurk effect：視覺的資訊將影響聽覺的解讀

Rosenblum, Schmuckler, & Johnson (1997)：測試五個月個小朋友是否有MuGurk effect

藉由行為觀察
結果發現，五個月的小孩就有MuGurk effect (將人臉與動作結合)

categorical perception：如非辨認對方的motor intention，如何辨別其聲音是哪一種類型？即因推測發音者的意圖，因而可以辨認
Speech imitation：如果要求受試者仿說，其可以極迅速地模仿，就如同它具有能力預測一樣
Motor and cortical activities in speech perception

聽人說話時，相關動作區的活化

Mirror neurons

相關評論

無法解釋top-down influences
無法解釋嬰兒對於父母語音的區辨(因嬰兒還不會講話)
McGurk effect不只吃現在語言上

如使用籃球的影片搭配桌球的聲音
categorical perception也發現在非語言的刺激上

無法解釋聲音的來源(因將所有訊息都解構成動作與發音)
沒有語言能力的時候，也可以區辨很多字
MacNeilage & Rootes(1967)研究語言障礙的人

發現其發音錯誤的狀況存在
但是對於語音辨認的部分並無差別

Wyttenbach, May, & Hoy (1996)：研究蟋蟀與蝙蝠聲音(逃跑)及其他蟋蟀(交配)的聲音

結果發現，蟋蟀也有categorical perception的現象
此並非人類特有的特質

Direct relist theory

Proposed by Carol Fowler (心理學家，認為語言知覺為諸多知覺中的一種)
我們知道聲音的內容，是因為我們知道他是如何被製造出來的(實際製造的過程)

換言之，在語言中，我知道你如何利用聲帶及口腔動作將該生因製作出來

因發音過程較為穩定，可解決聲音的變異性問題
由於其內論點內容相似，因此支持與評論的內容也相似

Fuzzy-logic model

Proposed by Dominic Massaro
使用機率的方式理解：人類記得語言發生的機率(prototype)
可以使用機率的方式來解釋categorical perception,以及 McGurk effect (因聲音與口將的配對經驗)

中間項目因過去缺乏經驗，所以無法區辨

Acoustic landmarks and distinctive features

Proposed by Kenneth Stevens(物理學背景)
認為仍以物理聲學訊號為原則，但與過往經驗累積相關而造成影響
以規律解釋聲音變形的差異，因此沒有lack of invariances的問題
model中包含搜尋記憶中的詞彙這個項目，因此，可以解決部分top-down的問題
認為偕同發音雖然少了一些母音，但是可藉由建立正確的經驗造成影響

Exemplar model

Proposed by Keith Johnson
認為聽者會將自小到大所有聽過的東西記錄於大腦中

當所有東西都被原封不動地保存時，可解決無法區辨聲源對象的問題
需要的時候會進行統計上的計算，進而形成categories，而非藉由標準化的程序產生(因標準化有難以概化應用的問題

例如男女的基頻不同，其辨認建立於聽過數以百計的男女聲音

Peterson & Barney (1952)：
Lee, Potamianos, & Narayanan (1999)：

自5歲到20歲的男女聲音差別

Bladon, Henton, and Pickering (1984)：跨文化的性別基頻差別

不同文化中，性別說話的基頻可能相似或者顯著差距

相關評論：

記憶體容量的問題
儲存的時候是否登錄自己的聲音？(權重問題)

會，則自己的說話方式影響最重；而每個人的說話方式應該差異很大
不會，則如何篩掉自己的聲音而不存？
note：此model的優勢在於，他可以解釋invariance的部分(小孩子有足夠的資訊可以辨認聲音性別)

留言

Unknown2017年8月23日凌晨12:12
耳膜的那部分……我觉得可能是basialar membrane而不是basial ganglia……
回覆刪除
回覆

張貼留言