구글 Gemini 구조 악용한 ‘악성 전문가 AI’ 보안 위협 세계 최초 규명
구글 Gemini 등 대부분의 주요 상용 거대언어모델(LLM)은 효율성을 높이기 위해 여러 개의 ‘작은 AI 모델(전문가 AI)’를 상황에 따라 선택해 사용하는 전문가 혼합(Mixture-of-Experts, MoE) 구조를 활용하고 있다. 그러나 이 구조가 오히려 새로운 보안 위협이 될 수 있다는 사실이 KAIST 연구진에 의해 세계 최초로 밝혀졌다.
우리 대학 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 전문가 혼합 구조를 악용해 거대언어모델의 안전성을 심각하게 훼손할 수 있는 공격 기법을 세계 최초로 규명하고, 해당 연구로 정보보안 분야 최고 권위 국제 학회인 ACSAC 2025에서 최우수논문상(Distinguished Paper Award)을 수상했다고 26일 밝혔다.
ACSAC(Annual Computer Security Applications Conference)는 정보보안 분야에서 가장 영향력 있는 국제 학술대회 중 하나로, 올해 전체 논문 가운데 단 2편만이 최우수논문으로 선정됐다. 국내 연구진이 인공지능 보안 분야에서 이 같은 성과를 거둔 것은 매우 이례적이다.
연구팀은 이번 연구에서 전문가 혼합 구조의 근본적인 보안 취약성을 체계적으로 분석했다. 특히 공격자가 상용 거대언어모델의 내부 구조에 직접 접근하지 않더라도, 악의적으로 조작된 ‘전문가 모델’ 하나만 오픈소스로 유통될 경우, 이를 활용한 전체 거대언어모델이 위험한 응답을 생성하도록 유도될 수 있음을 입증했다.
쉽게 말해, 정상적인 AI 전문가들 사이에 단 하나의 ‘악성 전문가’만 섞여 있어도, 특정 상황에서 그 전문가가 반복적으로 선택되며 전체 AI의 안전성이 무너질 수 있다는 것이다. 이 과정에서도 모델의 성능 저하는 거의 나타나지 않아, 문제를 사전에 발견하기 어렵다는 점이 특히 위험한 요소로 지적됐다.
실험 결과, 연구팀이 제안한 공격 기법은 유해 응답 발생률을 기존 0%에서 최대 80%까지 증가시킬 수 있었으며, 다수의 전문가 중 단 하나만 감염돼도 전체 모델의 안전성이 크게 저하됨을 확인했다.
이번 연구는 전 세계적으로 확산되고 있는 오픈소스 기반 거대언어모델 개발 환경에서 발생할 수 있는 새로운 보안 위협을 최초로 제시했다는 점에서 큰 의미를 갖는다. 동시에, 앞으로 AI 모델 개발 과정에서 성능뿐 아니라 ‘전문가 모델의 출처와 안전성 검증’이 필수적임을 시사한다.
신승원·손수엘 교수는 “효율성을 위해 빠르게 확산 중인 전문가 혼합 구조가 새로운 보안 위협이 될 수 있음을 이번 연구를 통해 실증적으로 확인했다”며, “이번 수상은 인공지능 보안의 중요성을 국제적으로 인정받은 의미 있는 성과”라고 말했다.
이번 연구에는 전기및전자공학부 김재한·송민규 박사과정, 나승호 박사 (현 삼성전자), 전기및전자공학부 신승원 교수, 전산학부 손수엘 교수가 참여했으며, 연구 결과는 2025년 12월 12일 미국 하와이에서 열린 ACSAC에서 발표됐다.
※ 논문명: MoEvil: Poisoning Experts to Compromise the Safety of Mixture-of-Experts LLMs, 논문 파일: https://jaehanwork.github.io/files/moevil.pdf, GitHub(기술 오픈소스): https://github.com/jaehanwork/MoEvil
한편 이 연구는 과학기술정보통신부의 한국인터넷진흥원(KISA) 및 정보통신기획평가원(IITP)의 지원을 받았다.
장대희 박사과정, 사이버공격방어대회 논문 대상 수상
우리 대학 정보보호대학원 장대희 박사과정(지도교수 강병훈)이 지난 22일 서울 더케이호텔에서 열린 ‘사이버 컨플릭트 엑서사이즈 콘테스트 2017(CCE 2017)’의 사이버안보논문 분야에서 대상을 수상했다.
CCE 2017은 국가보안연구소와 국가정보원 및 한국정보보호학회가 주관해 열리는 행사로 사이버공격방어대회와 논문 공모전이 함께 열린다.
이번 논문 공모전은 총 117편의 논문이 제출됐고 그 중 최상위작이 대상으로 선정된다. 제출된 논문들 중 1등이어도 내용이 충분히 우수하지 않으면 대상을 수상하지 않는다.
장대희 박사과정은 이 논문으로 500만원의 상금을 획득했고 함께 열린 해킹방어대회에서도 2위를 차지했다. (논문명 RUMA : Rethinking Byte Granularity Heap Randomization)
해당 논문은 소프트웨어의 메모리 레이아웃 랜덤화를 통한 취약점공격방어에 관한 이슈를 심층적인 실험과 함께 재고찰하며 기존에 예상하지 못한 새로운 결론에 다다르는 내용이다.
대상 논문 외에도 KAIST 강병훈 교수 연구팀에서 2개의 논문이 우수상을 수상했고 정보보호대학원 손수엘, 김용대, 신승원 교수의 공동지도논문이 최우수상을, 전산학부 신인식 교수 지도논문이 장려상을 수상했다.
또한 행사에서는 2박 3일의 일정으로 실무적인 해킹공격 및 방어기술을 평가하는 사이버공격방어대회를 개최했다. 이 대회에서도 KAIST 강병훈 교수 연구팀(장대희, 김종환, 박민준)을 주축으로 구성된 5인 팀이 2위를 차지했다.
장대희 박사과정은 “이번 행사에서 논문 대상과 더불어 해킹방어대회에서 동시에 입상하게 된 것은 지도교수님의 지도와 연구를 도와준 연구실 동료들이 있었기에 가능했고, 이에 감사드린다” 고 말했다.