2014.12.19 認知科學(十二) Natural language processing (NLP)

"什麼(不)是AI? NLP?"

  • AI開始於ELIZA(聊天機器人):chat board OR conversation agent
    • 聊天機器人讓人感覺酷炫、神奇:但實際上這是一個美麗的誤會
    • 網路上大部分的文本,你都有理由懷疑:「這是人寫的? 還是機器寫的?」
      • 歌詞、摘要、訪問稿,都可能是機器編織出來的
        • e.g. 修理雨刷 
      • 從文字中抽取關鍵字,匹配相對應的資料庫:與理解無關
        • AI的運作僅為抽取和批判,加上數字資料精準正確,使人融入對話情境
        • 這之中沒有懂、理解這件事情
    • Siri是另外一個人工智慧的誤解: 都是套好招的應對
  • Siri  / Contana(小娜,隸屬微軟):語音辨識+匹配
    • 語音辨識:聲波資訊可以轉變為文本資料
      • 語音辨識≠人工智慧≠懂
      • 語音辨識例如:http://www.google.com/intl/en/chrome/demos/speech.html
    • 匹配:把上面那個東西丟去餵狗(google)看看,你就知道了
    • 廣義的AI:把語音辨識加上聊天機器人,可變成一個讓人以為可以交談、理解的人工智慧。
    • 何謂懂? 何謂理解?
      • 了解他人在說什麼,懂得語言的意義(語意學)
      • 上面的廣義AI並不理解
  • 這不是我們理解的理解,對吧?
    • 華生已經可以回答小學一二年級的知識
      • 但是只要有標準答案、規則,華生可以在短時間內學會,並且表現優於人類
    • AI不僅有提供科學事實,也包含語意學的理解
      • 何謂懂我? (可以預測我的一言一行,並且了解我的喜好?)
        • 網路資訊的累積,在資料無限多的情況下,可精準預期個人的行為與想法。這是我懂我嗎?
      • Turing Test:讓受試者藉由電腦跟人類與機器聊天,受試者須判斷哪一個是電腦。結果而言,機器可以通過此測驗,那機器是人嗎?
        • 假設一個個體並非人,但是他可以行動如人類一般。大多數的人不曾解剖、驗證他人,如何知道這個個體是人,而不是其它?
  • 語意學(linguistics)
    • 語言學要回答語言的席德與發展,結構與功能,神經與心理機制,社會變異與演化過程
    • 大數據中的語言數據(語料)蘊含了文化歷史記憶,社會心理趨勢,政治輿情傾向,情緒偏好分布,人格特質與決策行為,疾病前期徵兆等等
      • 將這些資料轉變為可記錄讀取的東西,則可進行統計與分析、計算
    • "莫問語言學家妳懂多少語言,這就如同你問一個醫生,你得過多少病(以至於可以當醫師)?"
  • 計算語言學與自然語言處理
    • NLP:應用導向,重視語音辨識、情緒辨別、人格分析,較重視工程方面的考量。
    • 計算語言學:
      • 台灣南島語(原住民語言):語言的起始
        • 可藉由計算語言學建立此語言的系譜數
  • Why NLP and AI?
    • AI complete problem:NLP是人工智慧中的最大屏障,彷彿只要機器能懂人再說甚麼,人工智慧已經完成大半
      • 而NLP的過程中,最為困難的是語意學
    • 語意學:
      • "那是一張椅子":這是甚麼意思? 你懂?
        • 有椅子上的概念(concepts)
        • 動作的意圖(intention),e.g. 想要坐下
    • NLP如何處理語意學? 有三個方向
      • 資源:將人的行為紀錄之後,可供調度使用
        • 為了溝通與表達的語言資料
        • 建立資料庫,進而匹配、判斷
        • 語言複數及脈絡
        • 語料分析可以分析一些有趣的資運,e.g. 特定地區特定時間的興趣與傾向等
        • 機器學習(machine learning models)
          • 藉由人的標記,提供機器學習的材料。當資料夠多時,機器可在取得新聞本的時候,進行類似的判斷
      • 預測:藉由資料推測個體應如何行為表現
      • 模擬:模擬人類的心理歷程,進而猜測個體的行為表現
  • 中文文字轉動畫?
    • 給予文本,電腦自動將之轉變為動畫
    • 文本、語音、圖像之間的轉換:
      •  e.g. text to speech
  • 語意學的難度何在?
    • 人工智慧是甚麼?
    • 語意學的觀點:一切為了溝通
      • 孤島求生則不需要討論語意
    • 言中有物;言外有情:與用推理
      • 命題訊息:有真有假的資訊判斷,屬於陳述事實
        • e.g. 我想坐那個椅子(命題:那裡存在一張椅子,而我想去坐)
      • 非命題性:加入非陳述的事實,包含感情與其他資訊在其中(如諷刺、譴責)
        • e.g. 我想去坐坐看那張椅子(非判斷真假的命題)
      • 舉例而言:"春明愛上志嬌"
        • 命題:A愛上B (最簡單)
          • 斷字:A愛"上"B (歧意) 
        • 非命題:她怎麼可以愛上志嬌
      • 再次舉例:媽說"練完鋼琴衣服拿去洗" 兒說"練完鋼琴了"
          • 弦外之音
    • 沒有脈絡;不成事物
      • 腦筋急轉彎、語意推理
        • e.g 蜘蛛為什麼是白的? 水手的工作是甚麼?
      • 語言脈絡(linguistic context):關於語言、文字、斷落的資訊
      • 非語言脈絡(paralinguistic context):關於上述之外的補充資訊,例如表情、手勢、語調、斷字
        • 類似微表情、隱含的資訊
      • 物體情境(physical context):算是一個常識、約定俗成的慣例
        • 類似social schemas
語意理解的難處

Concepts and Meaning
  • 詞意 &  概念?
    • 詞意(sense):內部相對關係系統的架構下對於概念的語言描述。
      • 語言說出來的意思,是語言架構下彼此定義出來的東西
      • 不知道這個詞本身的意義,但是做為一個位置的概念,可以知道其上位、下屬、同意、相反的意思,進而定義出這個詞的"意義"
      • 多義詞(polysemy): e.g. Zero
        • You'll have to ask a zero (電話總機)
        • All the zeros must redo their papers. (考零分的)
      • 詞彙的意思,受到其語言脈絡所影響,即與此概念一起出現的其它字和她的關係而定。e.g. 國語日報
        • 小朋友應該多讀國語日報(的內容)
        • 請拿桌上的國語日報給我看(報紙)
          • 拿給我(物理物件)看(內容)? 更為複雜
      • 一詞多義放在不同脈絡中,即呈現歧義(amsiguity)
        • "甚麼不是AI"
          • 甚麼的意思?
          • 不的意思?
          • 是的意思?
          • AI的意思?
        • 如何判斷上面這個討論中,每個詞的正確意義?
      • 歧異未必來自於一詞多義,也可能來自於文字陳述和語法
        • old men and women
        • 她工作像'是閃電一樣快
    • 概念(concept):指的是個體所感知的一切事物的心相投射。
      • 心裡所想的意思
  • 語意的細緻差異
    • 蛋糕 & 玉米:
      • 無中生有:烤蛋糕
      • 狀態改變:加熱、烤熟
  • 語意選擇
    • 好?
    • 吵?
    • 開?
  • 詞意的疊加
    • "A在看我剛發回的考卷" 
      • A可以看考卷的內容
      • 我剛發回的考卷(卷子)
    • "埔里種的茶很好喝"
      • 茶=植物的葉子
      • 好喝的是葉子煮出來的液體
  • 常識
    • "我要買一隻小熊陪我睡"
      • 玩具泰迪 O
      • 小北極熊(生物) X
    • 機器難以判斷哪些是真的
語意組合的困難
  • 語意的組合並非單純的加總
    • 即便確定每個詞的意思,仍未必能妥善組合
    • 例如東西≠東+西;beautiful dancer(人漂亮,還是舞漂亮?)
  • 組合之假設
    • 單位的存在
    • 語詞的分段(中文難分)
  • 字詞的分段困難
    • 每個人的解讀不同
    • 同意度難以提升
    • 例如:
      • 昨天打電玩打到三經半夜,今天下午聽認知科學的演講我一定會睡著吧
社會與歷史的向度
  • 語言的歷史脈絡:語言可能死亡,或者詞意改變,但是資料仍被保存=>不同時空的大亂鬥
    • 人工智慧的語意如何與世推移?
    • e.g. 神助攻、豬一般的隊友、燒毀


回歸AI的問題:
  • 廣義AI的年代: web intelligence (AAI)
    • 我們就是AI的貢獻者:既存最博學的個體是網際網路 (人類的知識在堆砌AI)
    • 2011年,華生首度勝過人類成為機智問答的冠軍
      • IBM將華生的資料庫(Deep QA)藉由API的方式,分享給不同團隊的研究與應用
      • 此過程中無形也增強了華生的處理功能,並且隨著研究提升,華生的效能也隨之成長
    • 然而,這種big data的推測結果,是否謂之理解?
  • 人工智能所做不到的事情:
    • 依據問題主動發問?
      • 如何證明意識?  "你怎麼知道你現在的意識與了解,不是前一秒的未知科技所植入的結果?"
    • 不自覺的犯錯
      • 不犯錯的機器合理正常,因這是程式設計
      • 機器自發性地出錯,而非因程式設計的錯誤,那就可怕?
    • 深度學習(deep learning, unsupervised learning):讓機器自己學習,相對於supervised(提供有標準答案的刺激與結果,讓機器了解規則)
      • deep learning是非監視學習的最理想模式,由機器自己判斷、分析、學習。然而,沒有標準答案的東西,有沒有機器學習的最終目標?  與人比較嗎?
        • 人的不同意度如此之高,那機器應如何反應? 人工智慧應如何應對?
        • 若機器會不小心犯錯,那反而是成功的表徵 (卻是NLP的痛)
      • 機器無法了解"刻意的"錯誤
        • 例如失智老人的言不及意
        • 如反諷或者嘲諷而選擇錯的字
NLP的未來
  • 輔助從文本中找到輔助的訊息
  • 減輕在語言表達上的負擔
    • 以後看到的文章或新聞,可能不是人寫的
    • 以後對於文章真實與否,以及是誰寫的較為有關
  • 沒有標準正確答案,大量學習的意義?
    • 拆解、分析、組合並且完成學習
    • 但實際上:
      • 拆解方式各異
      • 組合方法不同
      • 組合結果難有定見

Summary
  • big data=理解嗎?
  • 語意上的限制如何解決?
備註:
  • 當機器幫妳寫歌的時候?
  • 當這些生活中失去人的味道時?
  • 想AI的時候, 人呢?
    • 人花時間學習,機器呢?
  • 在一些人工智慧的里程碑之前,AI大多是幫助人類的
  • 酸文產生器: 連機器都可以愚弄你的時候, 也許人會活得比較像人



AI可以聽懂言外之意嗎?





Can you?..............




只要人可以寫出判斷原則,

機器就可以.....



NOTE
人,自己想問題,自己解決問題,這才像是人

Question:懂得意思是什麼? 甚麼叫做懂? 如何推理?
                                                                                                                                                        


留言

熱門文章