高分很吸引人,但先搞清楚評測到底在量什麼,才不會被 headline 帶著跑
LongMemEval 這類 benchmark,主要是在評估長期記憶檢索系統能不能在大量歷史資料中找到正確資訊。但指標好看,不等於系統在所有情境都同樣優秀。
因為不同模式之間常常不能直接混為一談。像 raw mode、rooms mode、AAAK mode,即使都掛在同一個專案名下,也可能代表完全不同的權衡。
不是「它有沒有 96.6%」,而是「這 96.6% 是在什麼設定、什麼資料、什麼成本條件下得到的?」