2014.12.19 認知科學(十二) Natural language processing (NLP)
"什麼(不)是AI? NLP?"
- AI開始於ELIZA(聊天機器人):chat board OR conversation agent
- 聊天機器人讓人感覺酷炫、神奇:但實際上這是一個美麗的誤會
- 網路上大部分的文本,你都有理由懷疑:「這是人寫的? 還是機器寫的?」
- 歌詞、摘要、訪問稿,都可能是機器編織出來的
- e.g. 修理雨刷
- 從文字中抽取關鍵字,匹配相對應的資料庫:與理解無關
- Siri是另外一個人工智慧的誤解: 都是套好招的應對
- Siri / Contana(小娜,隸屬微軟):語音辨識+匹配
- 語音辨識:聲波資訊可以轉變為文本資料
- 語音辨識≠人工智慧≠懂
- 語音辨識例如:http://www.google.com/intl/en/chrome/demos/speech.html
- 匹配:把上面那個東西丟去餵狗(google)看看,你就知道了
- 廣義的AI:把語音辨識加上聊天機器人,可變成一個讓人以為可以交談、理解的人工智慧。
- 何謂懂? 何謂理解?
- 了解他人在說什麼,懂得語言的意義(語意學)
- 上面的廣義AI並不理解
- 這不是我們理解的理解,對吧?
- 華生已經可以回答小學一二年級的知識
- 但是只要有標準答案、規則,華生可以在短時間內學會,並且表現優於人類
- AI不僅有提供科學事實,也包含語意學的理解
- 何謂懂我? (可以預測我的一言一行,並且了解我的喜好?)
- 網路資訊的累積,在資料無限多的情況下,可精準預期個人的行為與想法。這是我懂我嗎?
- Turing Test:讓受試者藉由電腦跟人類與機器聊天,受試者須判斷哪一個是電腦。結果而言,機器可以通過此測驗,那機器是人嗎?
- 假設一個個體並非人,但是他可以行動如人類一般。大多數的人不曾解剖、驗證他人,如何知道這個個體是人,而不是其它?
- 語意學(linguistics)
- 語言學要回答語言的席德與發展,結構與功能,神經與心理機制,社會變異與演化過程
- 大數據中的語言數據(語料)蘊含了文化歷史記憶,社會心理趨勢,政治輿情傾向,情緒偏好分布,人格特質與決策行為,疾病前期徵兆等等
- 將這些資料轉變為可記錄讀取的東西,則可進行統計與分析、計算
- "莫問語言學家妳懂多少語言,這就如同你問一個醫生,你得過多少病(以至於可以當醫師)?"
- 計算語言學與自然語言處理
- NLP:應用導向,重視語音辨識、情緒辨別、人格分析,較重視工程方面的考量。
- 計算語言學:
- 台灣南島語(原住民語言):語言的起始
- 可藉由計算語言學建立此語言的系譜數
- Why NLP and AI?
- AI complete problem:NLP是人工智慧中的最大屏障,彷彿只要機器能懂人再說甚麼,人工智慧已經完成大半
- 而NLP的過程中,最為困難的是語意學
- 語意學:
- "那是一張椅子":這是甚麼意思? 你懂?
- 有椅子上的概念(concepts)
- 動作的意圖(intention),e.g. 想要坐下
- NLP如何處理語意學? 有三個方向
- 資源:將人的行為紀錄之後,可供調度使用
- 為了溝通與表達的語言資料
- 建立資料庫,進而匹配、判斷
- 語言複數及脈絡
- 語料分析可以分析一些有趣的資運,e.g. 特定地區特定時間的興趣與傾向等
- 機器學習(machine learning models)
- 藉由人的標記,提供機器學習的材料。當資料夠多時,機器可在取得新聞本的時候,進行類似的判斷
- 預測:藉由資料推測個體應如何行為表現
- 模擬:模擬人類的心理歷程,進而猜測個體的行為表現
- 中文文字轉動畫?
- 給予文本,電腦自動將之轉變為動畫
- 文本、語音、圖像之間的轉換:
- e.g. text to speech
- 語意學的難度何在?
- 人工智慧是甚麼?
- 語意學的觀點:一切為了溝通
- 孤島求生則不需要討論語意
- 言中有物;言外有情:與用推理
- 命題訊息:有真有假的資訊判斷,屬於陳述事實
- e.g. 我想坐那個椅子(命題:那裡存在一張椅子,而我想去坐)
- 非命題性:加入非陳述的事實,包含感情與其他資訊在其中(如諷刺、譴責)
- e.g. 我想去坐坐看那張椅子(非判斷真假的命題)
- 舉例而言:"春明愛上志嬌"
- 命題:A愛上B (最簡單)
- 斷字:A愛"上"B (歧意)
- 非命題:她怎麼可以愛上志嬌
- 再次舉例:媽說"練完鋼琴衣服拿去洗" 兒說"練完鋼琴了"
- 弦外之音
- 沒有脈絡;不成事物
- 腦筋急轉彎、語意推理
- e.g 蜘蛛為什麼是白的? 水手的工作是甚麼?
- 語言脈絡(linguistic context):關於語言、文字、斷落的資訊
- 非語言脈絡(paralinguistic context):關於上述之外的補充資訊,例如表情、手勢、語調、斷字
- 類似微表情、隱含的資訊
- 物體情境(physical context):算是一個常識、約定俗成的慣例
- 類似social schemas
語意理解的難處
Concepts and Meaning
- 詞意 & 概念?
- 詞意(sense):內部相對關係系統的架構下對於概念的語言描述。
- 語言說出來的意思,是語言架構下彼此定義出來的東西
- 不知道這個詞本身的意義,但是做為一個位置的概念,可以知道其上位、下屬、同意、相反的意思,進而定義出這個詞的"意義"
- 多義詞(polysemy): e.g. Zero
- You'll have to ask a zero (電話總機)
- All the zeros must redo their papers. (考零分的)
- 詞彙的意思,受到其語言脈絡所影響,即與此概念一起出現的其它字和她的關係而定。e.g. 國語日報
- 小朋友應該多讀國語日報(的內容)
- 請拿桌上的國語日報給我看(報紙)
- 拿給我(物理物件)看(內容)? 更為複雜
- 一詞多義放在不同脈絡中,即呈現歧義(amsiguity)
- "甚麼不是AI"
- 甚麼的意思?
- 不的意思?
- 是的意思?
- AI的意思?
- 如何判斷上面這個討論中,每個詞的正確意義?
- 歧異未必來自於一詞多義,也可能來自於文字陳述和語法
- old men and women
- 她工作像'是閃電一樣快
- 概念(concept):指的是個體所感知的一切事物的心相投射。
- 心裡所想的意思
- 語意的細緻差異
- 烤蛋糕 & 烤玉米:
- 無中生有:烤蛋糕
- 狀態改變:加熱、烤熟
- 語意選擇
- 好?
- 吵?
- 開?
- 詞意的疊加
- "A在看我剛發回的考卷"
- A可以看考卷的內容
- 我剛發回的考卷(卷子)
- "埔里種的茶很好喝"
- 茶=植物的葉子
- 好喝的是葉子煮出來的液體
- 常識
- "我要買一隻小熊陪我睡"
- 玩具泰迪 O
- 小北極熊(生物) X
- 機器難以判斷哪些是真的
語意組合的困難
- 語意的組合並非單純的加總
- 即便確定每個詞的意思,仍未必能妥善組合
- 例如東西≠東+西;beautiful dancer(人漂亮,還是舞漂亮?)
- 組合之假設
- 單位的存在
- 語詞的分段(中文難分)
- 字詞的分段困難
- 每個人的解讀不同
- 同意度難以提升
- 例如:
- 昨天打電玩打到三經半夜,今天下午聽認知科學的演講我一定會睡著吧
社會與歷史的向度
- 語言的歷史脈絡:語言可能死亡,或者詞意改變,但是資料仍被保存=>不同時空的大亂鬥
- 人工智慧的語意如何與世推移?
- e.g. 神助攻、豬一般的隊友、燒毀
回歸AI的問題:
- 廣義AI的年代: web intelligence (AAI)
- 我們就是AI的貢獻者:既存最博學的個體是網際網路 (人類的知識在堆砌AI)
- 2011年,華生首度勝過人類成為機智問答的冠軍
- IBM將華生的資料庫(Deep QA)藉由API的方式,分享給不同團隊的研究與應用
- 此過程中無形也增強了華生的處理功能,並且隨著研究提升,華生的效能也隨之成長
- 然而,這種big data的推測結果,是否謂之理解?
- 人工智能所做不到的事情:
- 依據問題主動發問?
- 如何證明意識? "你怎麼知道你現在的意識與了解,不是前一秒的未知科技所植入的結果?"
- 不自覺的犯錯
- 不犯錯的機器合理正常,因這是程式設計
- 機器自發性地出錯,而非因程式設計的錯誤,那就可怕?
- 深度學習(deep learning, unsupervised learning):讓機器自己學習,相對於supervised(提供有標準答案的刺激與結果,讓機器了解規則)
- deep learning是非監視學習的最理想模式,由機器自己判斷、分析、學習。然而,沒有標準答案的東西,有沒有機器學習的最終目標? 與人比較嗎?
- 人的不同意度如此之高,那機器應如何反應? 人工智慧應如何應對?
- 若機器會不小心犯錯,那反而是成功的表徵 (卻是NLP的痛)
- 機器無法了解"刻意的"錯誤
- 例如失智老人的言不及意
- 如反諷或者嘲諷而選擇錯的字
NLP的未來
- 輔助從文本中找到輔助的訊息
- 減輕在語言表達上的負擔
- 以後看到的文章或新聞,可能不是人寫的
- 以後對於文章真實與否,以及是誰寫的較為有關
- 沒有標準正確答案,大量學習的意義?
- 拆解、分析、組合並且完成學習
- 但實際上:
- 拆解方式各異
- 組合方法不同
- 組合結果難有定見
Summary
- big data=理解嗎?
- 語意上的限制如何解決?
備註:
- 當機器幫妳寫歌的時候?
- 當這些生活中失去人的味道時?
- 想AI的時候, 人呢?
- 人花時間學習,機器呢?
- 在一些人工智慧的里程碑之前,AI大多是幫助人類的
- 酸文產生器: 連機器都可以愚弄你的時候, 也許人會活得比較像人
AI可以聽懂言外之意嗎?
Can you?..............
只要人可以寫出判斷原則,
機器就可以.....
NOTE
人,自己想問題,自己解決問題,這才像是人
Question:懂得意思是什麼? 甚麼叫做懂? 如何推理?
留言
張貼留言