Machanical Interpretability

해석 가능한 LLM과 편향 완화

참여연구원
민희원, 이채원


Background (해결하고자 하는 문제)


교육 환경에서 LLM이 평가, 피드백, 상담, 추천 같은 의사결정에 관여할수록, 모델이 학습 데이터와 프롬프트 맥락에 의해 특정 집단/표현/배경에 유리하거나 불리한 편향을 일으킬 위험이 커집니다. 예를 들면, 같은 수준의 답안인데도 문체, 어휘, 문화적 참조, 비표준 한국어/영어 사용, 장애 관련 표현, 성별/지역/계층 단서 등에 따라 점수, 피드백의 톤, 추천 경로(보충학습/심화학습), 상담 조언이 체계적으로 달라질 수 있습니다.

문제는 두 가지가 동시에 존재한다는 점입니다.

  • 왜 그런 결과가 나왔는지 설명이 부족하여(블랙박스), 교육 현장에서 공정성을 검증/감사(audit)하기가 어렵고

  • 편향을 줄이려면 보통 프롬프트 가이드라인이나 후처리 규칙에 의존하게 되는데, 이는 상황, 과목, 문항에 따라 쉽게 깨지고 재현성이 낮습니다.

따라서 이 연구는 “기계론적 해석(해석 가능한 LLM)”을 통해 편향을 유발하는 내부 메커니즘(특정 특징/표현에 반응하는 회로, 표상, 방향성)을 찾아내고, 그 지점을 모델 내부에서 직접 제어(개입)하여 편향을 완화하는 것을 목표로 합니다. 즉, 교육 맥락에서 편향을 관찰/측정하는 수준을 넘어, 원인을 ‘구조적으로’ 규명하고 ‘조작 가능하게’ 만드는 것이 핵심 문제의식입니다.


Methods (해결 방법)


TBA


Achievements


TBA