Machanical Interpretability
해석 가능한 LLM과 편향 완화
| 참여연구원 |
|---|
| 민희원, 이채원 |
Background (해결하고자 하는 문제)
교육 환경에서 LLM이 평가, 피드백, 상담, 추천 같은 의사결정에 관여할수록, 모델이 학습 데이터와 프롬프트 맥락에 의해 특정 집단/표현/배경에 유리하거나 불리한 편향을 일으킬 위험이 커집니다. 예를 들면, 같은 수준의 답안인데도 문체, 어휘, 문화적 참조, 비표준 한국어/영어 사용, 장애 관련 표현, 성별/지역/계층 단서 등에 따라 점수, 피드백의 톤, 추천 경로(보충학습/심화학습), 상담 조언이 체계적으로 달라질 수 있습니다.
문제는 두 가지가 동시에 존재한다는 점입니다.
-
왜 그런 결과가 나왔는지 설명이 부족하여(블랙박스), 교육 현장에서 공정성을 검증/감사(audit)하기가 어렵고
-
편향을 줄이려면 보통 프롬프트 가이드라인이나 후처리 규칙에 의존하게 되는데, 이는 상황, 과목, 문항에 따라 쉽게 깨지고 재현성이 낮습니다.
따라서 이 연구는 “기계론적 해석(해석 가능한 LLM)”을 통해 편향을 유발하는 내부 메커니즘(특정 특징/표현에 반응하는 회로, 표상, 방향성)을 찾아내고, 그 지점을 모델 내부에서 직접 제어(개입)하여 편향을 완화하는 것을 목표로 합니다. 즉, 교육 맥락에서 편향을 관찰/측정하는 수준을 넘어, 원인을 ‘구조적으로’ 규명하고 ‘조작 가능하게’ 만드는 것이 핵심 문제의식입니다.
Methods (해결 방법)
TBA
Achievements
TBA