-
Notifications
You must be signed in to change notification settings - Fork 2
Description
트랜스포머에서 어텐션 가중치(attention weights)는 문장 안의 각 토큰이 다른 토큰들을 얼마나 참고할지를 나타내는 값으로, 보통 소프트맥스로 계산된 가중치로 다른 토큰들의 정보를 가중합해 현재 토큰의 문맥화된 표현(=문맥이 반영된 새 벡터)을 만듭니다.
그래서 많이들 “가중치가 큰 토큰 = 모델이 중요하게 본 근거”처럼 어텐션 맵을 설명(explanation)으로 해석하곤 합니다. 그런데 여기서 제 의문은, ‘표현을 만드는 과정에서 많이 참고했다’는 사실이 곧바로 ‘최종 예측의 근거(원인)였다’로 이어진다고 말할 수 있느냐는 점입니다. 실제로 Jain & Wallace(2019)는 어텐션 분포가 다른 중요도 지표(예: 그래디언트 기반 중요도)와 자주 어긋나고, 예측은 거의 같게 유지하면서도 전혀 다른 어텐션 분포를 만들 수 있는 경우가 있음을 보여주며 “attention=explanation”을 경고합니다.
Serrano & Smith(2019)도 어텐션 크기가 입력 중요도를 어느 정도는 반영할 수 있지만, 조작 실험을 해보면 항상 믿을 만한(fail-safe) 지표는 아니다라고 정리합니다. 반면 Wiegreffe & Pinter(2019)는 이런 결론이 “설명”을 무엇으로 정의하느냐(사람이 납득하는 그럴듯함 vs 모델 결정에 인과적으로 연결되는 충실성)와 실험 설계에 크게 달렸다고 반박하며, 어떤 조건/테스트에서 어텐션을 해석에 활용할 수 있는지를 더 엄밀하게 따져야 한다고 말합니다.
또한 Adebayo et al.(2018)이 제안한 것처럼, 어떤 설명기법이 진짜 모델/데이터에 의존하는지 확인하는 sanity check(랜덤화 테스트)를 통과해야 “설명”이라고 부를 자격이 있다는 관점도 있습니다.
그래서 제가 드리고 싶은 질문은 “어텐션 가중치를 ‘설명’으로 쓰려면, (1) 설명을 ‘충실성(모델 결정에 인과적으로 연결됨)’으로 정의할 때 어텐션이 만족해야 할 최소 조건은 무엇이고, (2) 그 조건을 검증하기 위해 어떤 개입 실험(토큰 제거/대체, 어텐션 재분배, value 조작 등)과 어떤 sanity check를 통과해야 하며, (3) 그 결과를 바탕으로 ‘어텐션은 어디까지는 근거로 말할 수 있고 어디부터는 과해석인가’를 수업 수준에서 어떤 기준으로 정리하는 게 가장 타당할까요?”