KAIST, AI 내부 개념 '회로 단위'로 해석… XAI 기술 공개
AI 개념구조 분석방식 혁신 회로 기반 설명기술 세계 첫 제시 모델 투명성·안전성 향상 기대
AI가 어떤 기준으로 이미지를 인식하고 판단하는지 설명하는 일은 그동안 기술 진화 속도를 따라가지 못한 분야로 남아 있었다. 이미지 분류 모델이 내부에서 어떤 개념을 묶어 하나의 결론을 만드는지 분석하는 기술은 특히 난제로 여겨져 왔다.
KAIST는 김재철AI대학원 최재식 교수 연구팀이 딥러닝 모델 내부의 개념 형성 과정을 '회로(circuit)' 단위로 시각화하는 새로운 설명가능 AI(XAI) 기술을 개발했다고 26일 밝혔다.
AI가 어떤 근거로 판단하는지를 사람이 이해할 수 있는 형태로 드러내는 방식으로, XAI 연구에 새로운 해석 틀을 제시한 성과다.
딥러닝 모델은 뉴런(Neuron)이 이미지 속 특징 '모양, 색, 윤곽'을 감지해 신호를 전달하는 방식으로 작동한다. 그러나 실제 개념은 뉴런 하나가 아니라 여러 뉴런이 연결돼 형성되는 구조이며, 연구팀은 이 구조적 특성에 주목해 해석 단위를 '단일 뉴런'에서 '개념 회로'로 확장했다.
연구팀이 제안한 기술은 세분화된 개념회로(Granular Concept Circuits, GCC)로, 모델 내부에서 특징이 상위 개념으로 조합되는 과정을 회로 단위로 추적·시각화한다. GCC는 두 지표를 활용해 회로를 자동 분석한다.
뉴런 민감도(Neuron Sensitivity)는 뉴런이 어떤 특징에 얼마나 크게 반응하는지를 보여준다. 의미 흐름 점수(Semantic Flow)는 특정 특징이 다음 단계 개념으로 얼마나 강하게 전달되는지를 나타낸다.
이 두 신호를 결합해 색·질감 같은 기본 특징이 어떻게 상위 개념으로 조립되는지 단계별로 시각화할 수 있다.
연구팀은 특정 회로를 임시로 비활성화하는 실험도 진행했다. 해당 회로가 꺼지자 그 회로가 담당하던 개념이 실제로 사라지고, 모델의 예측 결과가 달라지는 현상이 확인됐다. 이는 회로가 실제 기능 단위를 이룬다는 점을 실험적으로 입증한 것이다.
연구는 이미지 분류 모델 내부의 개념 구조를 세밀한 회로 단위로 드러낸 세계 최초 수준의 접근으로 평가된다. 모델이 어떤 근거로 판단하는지 해석할 수 있어 XAI 전반에서 응용 범위가 넓다. 예를 들어 오분류 원인 파악, 모델 편향 분석, 디버깅, 구조 개선, 안전성 검증 등 다양한 분야에서 활용될 수 있다.
연구팀은 "AI가 내부에서 구성한 개념 구조를 사람이 이해할 수 있는 방식으로 밝히는 기술"이라고 설명하며 "AI의 개념 형성과정을 과학적으로 연구할 수 있는 출발점을 마련했다"고 말했다.
최재식 교수는 "모델을 단편적으로 설명하던 이전 방식과 달리, 개념 형성 과정을 회로 단계까지 해석할 수 있는 체계를 마련했다"며 "AI가 학습한 개념을 체계적으로 파악하고 시각적으로 드러낼 수 있다는 점을 확인한 연구"라고 설명했다.
이번 연구는 KAIST 김재철AI대학원 권다희·이세현 박사과정이 공동 1저자로 참여했으며, 10월 21일 국제 학술대회 ICCV(International Conference on Computer Vision)에서 발표됐다.
연구는 과학기술정보통신부·IITP의 사람중심핵심원천기술개발사업, KAIST AI대학원 프로그램, AI 연구거점 프로젝트, 방위사업청·국방과학연구소의 지원을 받아 KAIST 미래 국방 인공지능 특화연구센터에서 수행됐다. /대전=이한영기자