Skip to content

attention weights(김철희) #31

@kimcheolhui9846

Description

@kimcheolhui9846

트랜스포머에서 어텐션 가중치(attention weights)는 문장 안의 각 토큰이 다른 토큰들을 얼마나 참고할지를 나타내는 값으로, 보통 소프트맥스로 계산된 가중치로 다른 토큰들의 정보를 가중합해 현재 토큰의 문맥화된 표현(=문맥이 반영된 새 벡터)을 만듭니다.
그래서 많이들 “가중치가 큰 토큰 = 모델이 중요하게 본 근거”처럼 어텐션 맵을 설명(explanation)으로 해석하곤 합니다. 그런데 여기서 제 의문은, ‘표현을 만드는 과정에서 많이 참고했다’는 사실이 곧바로 ‘최종 예측의 근거(원인)였다’로 이어진다고 말할 수 있느냐는 점입니다. 실제로 Jain & Wallace(2019)는 어텐션 분포가 다른 중요도 지표(예: 그래디언트 기반 중요도)와 자주 어긋나고, 예측은 거의 같게 유지하면서도 전혀 다른 어텐션 분포를 만들 수 있는 경우가 있음을 보여주며 “attention=explanation”을 경고합니다.
Serrano & Smith(2019)도 어텐션 크기가 입력 중요도를 어느 정도는 반영할 수 있지만, 조작 실험을 해보면 항상 믿을 만한(fail-safe) 지표는 아니다라고 정리합니다. 반면 Wiegreffe & Pinter(2019)는 이런 결론이 “설명”을 무엇으로 정의하느냐(사람이 납득하는 그럴듯함 vs 모델 결정에 인과적으로 연결되는 충실성)와 실험 설계에 크게 달렸다고 반박하며, 어떤 조건/테스트에서 어텐션을 해석에 활용할 수 있는지를 더 엄밀하게 따져야 한다고 말합니다.
또한 Adebayo et al.(2018)이 제안한 것처럼, 어떤 설명기법이 진짜 모델/데이터에 의존하는지 확인하는 sanity check(랜덤화 테스트)를 통과해야 “설명”이라고 부를 자격이 있다는 관점도 있습니다.
그래서 제가 드리고 싶은 질문은 “어텐션 가중치를 ‘설명’으로 쓰려면, (1) 설명을 ‘충실성(모델 결정에 인과적으로 연결됨)’으로 정의할 때 어텐션이 만족해야 할 최소 조건은 무엇이고, (2) 그 조건을 검증하기 위해 어떤 개입 실험(토큰 제거/대체, 어텐션 재분배, value 조작 등)과 어떤 sanity check를 통과해야 하며, (3) 그 결과를 바탕으로 ‘어텐션은 어디까지는 근거로 말할 수 있고 어디부터는 과해석인가’를 수업 수준에서 어떤 기준으로 정리하는 게 가장 타당할까요?”

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions