ML短版memo



2021/5/16 彙整心得與想法如下:
  • 關於特徵萃取(重要性排序):於發展ML短版決定題目重要性排序時,以單層(如1*64)加上L1 regularizer之結果較為穩定/清晰。
    註:原採用與預測模型相同之結構(如3*64),但重複執行時結果不穩定(多批次重複訓練結果不同),且其順序未必最有助於提升預測能力(曾發現推薦度低,但能有效提升預測效力之題目)
  • 關於特徵萃取(重要性排序 by 向度):理論上,相較於向度外的題目,向度內的題目對於總分的影響力應最大(此假設尚未驗證)。因此,目前(至2021/5/16)之作法是取各向度模型之重要性排序數據,亦即:自我照顧向度的題目取自用以預測自我向度分數之模型,與預測數據向度不同的數據則予以廢棄。
  • 關於挑題(選題):宜盡可能涵蓋同向度內,不同類型/內容/面向之題目。具體而言,宜先依據題目內容分群(如某平衡工具之平衡向度包含爬樓梯類 [1 stair & 4 stair] 與姿勢控制類 [sit to lying]),再依前述重要性排序,挑選最關鍵的預測題目。
    註:若前述三題之重要性排序為第一 (1 stair)、第二 (4 stair) 與第三名 (sit to lying),則於選取時宜取1 stair與sit to lying(而非1 stair與4 stair)。
  • 關於挑題(相似題型):承前,選取相似題型之題目或有助於提升穩定性。亦即,這些題目雖對提升預測力之幫助較少,但能增加結果的穩定度(含交叉驗證之結果)。
    註:相較於只選1 stair之情形,同時選取1 stair與4 stair之版本,其於testing set(來源與train set相同,但並未納入學習的數據),與validation set(獨立來源)的結果皆較好(數據後補)。
  • 關於模型建構(單向度 vs. 多向度):ML系統與測驗理論的概念/架構可能略有差別,或二者的表現形式不一樣。具體而言,有別於CTT與IRT通常認為多向度模型的預測效力較佳(可善用向度間相關以共享資訊),ML之模型以單一輸出(類似單向度)的預測力較好。這或許是因為當輸出單一時,ML模型內的參數能調整至最佳組合,可強化預測準確度(反之,若同時兼顧二個向度,則為使整體正確率高,可能導致個別向度之正確率可能下降)有關。因此,以ML建構多向度測驗,通常以個別單向度(每一個向度模型輸出一個分數)方式達成為宜。關於資訊共享部分,由於所有被選取的題目皆做為輸入以預測成果,故仍可達到某種多向度資訊互補的功能(唯CTT與IRT是應用總分層級的向度間相關處理;ML則是在題目輸入時就予以代入)。
  • 關於成效指標(類型):連續型的輸出結果,目前以R2, MAE, RMSE與ICC為指標。
  • 關於成效指標(穩定性):為確保結果穩定,目前是重複100次模型訓練(每次都重新抽取樣本,並分成train set與testing set),並呈現此100次結果的最大與最小值。


留言

  1. 時間與歷練的結晶!!我們可再找一些大型評估工具資料庫測試之。

    回覆刪除

張貼留言

熱門文章