年底因為工作任務,調研了幾篇推薦系統 ( Recommender System ,以下簡稱RS) 的論文;我寫碩論時還不流行深度學習(Deep Learning,以下簡稱DL),轉眼間DL已經成為顯學,近年發表的推薦算法也都是基於DL的研究,我也已經應用在業界的專案中,並獲得了一些進展,但對DL應用在RS的普遍成效,我也是相當好奇。
趁著還記得調研的內容,在此以ACM RecSys 2019最佳論文「Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches」為基礎,跟大家分享一些心得:
讀後總結:
- DL應用在電腦視覺CV和自然語言處理NLP領域相當成功,但在其他方面不如預期。
- 2015到2018年RecSys, WWW, KDD, SIGIR頂級會議共有18篇DL論文與top-n推薦有關,可重現的實驗有7篇,比例約39%;也就是61%的實驗無法重現。
- 通常做為baseline的方法有非個性化TopPopular、協同過濾CF的ItemKNN、UserKNN、P3alpha、RP3beta,混合的ItemKNN CF + CB,以及機器學習ML的SLIM。
- 論文作者重現這7個實驗,驗證其進展是否真實,發現DL方法,效果並沒有上述經典的啟發式方法好,在7篇論文中只有1篇優於上述baseline方法,但只是在部分情況下超越。
- 論文作者認為導致此結果的原因,是這7篇論文挑選了較差的baseline方法和參數、所選擇的測試資料epoch次數不同,甚至有實驗程序不同導致評估錯誤。
個人心得:
- 為了驗證這幾年的進展,論文作者使用公開資料集作為可重現條件之一,從18篇論文中挑選了7篇重現實驗,但目前的公開資料集有資料量不夠大,矩陣比較不稀疏,以及特徵少等特色;此種資料集並非DL的強項。
- 公開資料集大多出於學術界,其大小與特徵豐富程度遠低於業界的系統;所以論文作者的結論,以及DL在商用資料集的表現,還有待進一步的驗證。
參考資料:
https://dl.acm.org/authorize?N684126
https://arxiv.org/pdf/1907.06902.pdf