AI에 가정교사 생겼다...사람의 선호를 더 정확히 배운다
아무리 많은 데이터를 학습해도, 인공지능(AI)은 왜 사람의 의도를 자주 빗나갈까? 사람의 선호를 이해시키기 위한 비교 학습은 오히려 AI를 혼란스럽게 만드는 경우도 적지 않았다. KAIST 연구진은 AI에게 ‘가정교사’를 붙이는 방식으로, 적은 데이터에서도 사람의 선호를 정확히 배우는 새로운 학습 해법을 제시했다.
우리 대학 전기및전자공학부 김준모 교수 연구팀이 인간의 선호를 효과적으로 반영하면서도 데이터 효율성과 학습 안정성을 크게 향상시킨 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다.
기존 인공지능 학습 방식은 “A가 B보다 낫다”는 식의 단순 비교(preference comparison) 데이터를 대량으로 수집해 학습하는 구조였다. 이 방식은 많은 데이터가 필요하고, 판단이 애매한 상황에서는 AI가 혼란에 빠지기 쉽다는 한계가 있었다.
연구팀은 이러한 문제를 해결하기 위해, 사람의 선호를 먼저 깊이 이해한 ‘교사(Teacher) 모델’이 그 핵심 정보만을 ‘학생(Student) 모델’에게 전달하는 방식을 제안했다.
이는 복잡한 내용을 정리해 가르치는 가정교사에 비유할 수 있으며, 연구팀은 이를 ‘선호 증류(Preference Distillation)’라고 명명했다.
이번 기술의 가장 큰 특징은 단순히 ‘좋다·나쁘다’를 흉내 내는 것이 아니라, 각 상황이 얼마나 가치 있는지를 수치적으로 판단하는 ‘가치 함수(Value Function)’를 교사 모델이 학습한 뒤 이를 학생 모델에 전달하도록 설계했다는 점이다.
이를 통해 AI는 애매한 상황에서도 단편적인 비교가 아닌, ‘이 선택이 왜 더 나은지’를 종합적으로 판단하며 학습할 수 있다.
이번 기술의 핵심은 크게 두 가지다. 첫째, 문맥 전체를 고려한 가치 판단을 학생 모델에 반영함으로써, 단편적인 답변이 아닌 전체 흐름을 이해하는 학습이 가능해졌다. 둘째, 선호 데이터의 신뢰도에 따라 학습 중요도를 조절하는 기법을 도입했다.
명확한 데이터는 학습에 크게 반영하고, 모호하거나 잡음이 섞인 데이터는 영향력을 줄여 현실적인 환경에서도 AI가 안정적으로 학습할 수 있도록 했다.
연구팀이 이 기술을 여러 AI 모델에 적용해 실험한 결과, 기존에 가장 성능이 좋다고 알려진 방법들보다 더 정확하고 안정적인 성능을 보였다. 특히 엠티-벤치(MT-Bench), 알파카-이밸(AlpacaEval) 등 주요 평가 지표에서 기존 최고 기술을 안정적으로 앞서는 성과를 기록했다.
김준모 교수는 “현실에서는 사람의 선호 데이터가 항상 충분하거나 완벽하지 않다”며 “이번 기술은 그런 제약 속에서도 AI가 일관되게 학습할 수 있게 해, 다양한 분야에서 실용성이 매우 높을 것”이라고 말했다.
우리 대학 전기및전자공학부 권민찬 박사과정이 제1 저자로 참여했으며, 연구 성과는 국제 인공지능 분야 최고 권위 학회인 ‘신경정보처리시스템학회(NeurIPS) 2025’에 채택됐다. 해당 연구는 2025년 12월 3일(미국 태평양시간) 포스터 세션에서 발표됐다.
※ 논문명: Preference Distillation via Value based Reinforcement Learning), DOI: https://doi.org/10.48550/arXiv.2509.16965
한편 이번 연구는 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구 성과물(No.RS-2024-00439020, 지속가능한 실시간 멀티모달 인터렉티브 생성 AI 개발, SW스타랩)을 지원을 받아 수행했다.
로봇도 이제 사람처럼 고무줄을 풀고 전선 끼운다
로봇이 전선, 의류, 고무줄처럼 형태가 자유롭게 변형되는 물체를 다루는 기술은 제조·서비스 산업 자동화의 핵심 과제로 꼽혀왔다. 그러나 이러한 변형 물체는 모양이 일정하지 않고 움직임을 예측하기 어려워, 로봇이 이를 정확히 인식하고 조작하는 데 큰 어려움이 있었다. KAIST 연구진이 불완전한 시각 정보만으로도 변형 물체의 상태를 정밀하게 파악하고 능숙하게 다룰 수 있는 로봇 기술을 개발했다. 이번 성과는 케이블 및 전선 조립, 부드러운 부품을 다루는 제조업, 의류 정리와 포장 등 다양한 산업 및 서비스 분야의 지능형 자동화에 기여할 것으로 기대된다.
우리대학 전산학부 박대형 교수 연구팀이 탄성 밴드처럼 형태가 연속적으로 변하고, 시각적으로 형태를 구별하기 어려운 물체도 로봇이 능숙하게 다룰 수 있게 하는 인공지능 기술인‘INR-DOM(아이엔알-돔, Implicit Neural-Representation for Deformable Object Manipulation)’을 개발했다고 21일 밝혔다.
박 교수 연구팀은 로봇이 관측한 부분적인 3차원 정보만으로 변형 가능한 물체의 전체 형상을 완전하게 복원하고, 이를 바탕으로 로봇의 조작 방식을 학습하는 기술을 개발했다.
또한, 로봇이 특정 과제를 효율적으로 학습할 수 있도록 강화학습과 대조학습을 결합한 새로운 2단계 학습 구조를 도입했다. 학습된 제어기는 시뮬레이션 환경에서 기존 기술 대비 월등히 높은 과제 성공률을 달성했으며, 실제 로봇 실험에서도 복잡하게 얽힌 고무줄을 풀어내는 등 높은 수준의 조작 능력을 선보여 변형 물체를 다루는 로봇의 적용 범위를 크게 넓힐 것으로 기대된다.
변형 물체 조작(Deformable Object Manipulation, DOM)은 로봇 공학의 오랜 난제 중 하나다. 변형 물체는 무한한 자유도를 가져 움직임을 예측하기 어렵고, 스스로 일부를 가리는 자기-가림(self-occlusion) 현상으로 인해 로봇이 전체적인 상태를 파악하기 어렵기 때문이다.
이러한 문제를 해결하기 위해 변형 물체 상태 표현법과 강화학습에 기반한 제어 기술이 널리 연구되고 있었다. 그러나 기존의 상태표현법은 변형 물체의 연속적으로 변형되는 표면이나 복잡한 3차원 구조를 정확히 표현하지 못했고, 상태 표현과 강화학습이 분리돼 물체 조작에 필요한 적합한 상태 표현공간을 구성하는 데 한계가 있었다.
연구팀은 이러한 한계를 극복하기 위해 ‘잠재 신경 표현(Implicit Neural Representation)’을 활용했다. 이 기술은 로봇이 관측한 부분적인 3차원 정보(점 구름, point cloud*)를 입력받아, 보이지 않는 부분을 포함한 물체의 전체 형상을 연속적인 곡면(부호화 거리 함수, SDF)으로 재구성한다. 이를 통해 로봇은 마치 사람처럼 물체의 전체적인 모습을 상상하고 이해할 수 있게 된다.
*점 구름 3차원 정보: 물체의 3차원 형상을 ‘표면을 찍은 점들의 집합’으로 표현하는 방식
나아가 연구팀은 2단계 학습 프레임워크를 도입했다. 1단계 사전학습에서는 불완전한 점 구름으로부터 완전한 형상을 복원하는 모델을 학습시켜, 가려짐에 강인하고 늘어나는 물체의 표면을 잘 나타내는 상태 표현 모듈을 확보한다. 2단계 미세조정에서는 강화학습과 대조학습을 함께 이용해, 로봇이 현재 상태와 목표 상태 간의 미묘한 차이를 명확히 구분하고 과제 수행에 필요한 최적의 행동을 효율적으로 찾아내도록 제어 정책과 상태 표현 모듈을 최적화한다.
연구팀이 개발한 INR-DOM 기술을 로봇에 탑재해 실험한 결과, 시뮬레이션 환경에서 고무링을 홈에 끼우거나(sealing), O링을 부품에 설치하거나(installation), 꼬인 고무줄을 푸는(disentanglement) 세 가지 복잡한 과제에서 모두 기존 최고 성능의 기술들보다 월등히 높은 성공률을 보였다. 특히 가장 어려운 과제였던 풀기(disentanglement) 작업에서는 성공률이 75%에 달해, 기존 최고 기술(ACID, 26%)보다 약 49% 높은 성과를 거뒀다.
연구팀은 INR-DOM 기술이 실제 환경에서도 적용 가능함을 검증하기 위해 샘플 효율적인 로봇 강화학습 기법(sample-efficient robotic reinforcement learning)과 INR-DOM을 결합해 실환경 강화학습을 수행했다.
그 결과, 실제 환경에서의 끼우기, 설치, 풀기 작업을 90% 이상의 성공률로 수행했으며, 특히 시각적으로 구별이 어려운 양방향 꼬임 풀기 작업에서 기존 이미지 기반 강화학습 기법 대비 25% 더 높은 성공률을 기록해 시각적 모호성에도 불구하고 강인한 조작이 가능함을 입증했다.
제1 저자인 송민석 연구원은 "이번 연구는 로봇이 불완전한 정보만으로도 변형 물체의 전체 모습을 이해하고, 이를 바탕으로 복잡한 조작을 수행할 수 있다는 가능성을 보여줬다”라며, "제조, 물류, 의료 등 다양한 분야에서 인간과 협력하거나 인간을 대신해 정교한 작업을 수행하는 로봇 기술 발전에 크게 기여할 것”이라고 말했다.
KAIST 전산학부 송민석 석사과정이 제1 저자로 참여한 이번 연구는 지난 6월 21~25일 LA USC에서 개최된 로봇 공학 분야 최상위 국제 학술대회인 ‘로보틱스: 사이언스 앤 시스템즈 (Robotics: Science and Systems, RSS) 2025’에서 발표됐다.
※논문명: Implicit Neural-Representation Learning for Elastic Deformable-Object Manipulations
※DOI: https://www.roboticsproceedings.org/(공개 예정), 현재는 https://arxiv.org/abs/2505.00500
한편, 이번 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원(IITP)의 ‘복합지능 자율행동체 SW 핵심기술 개발 사업’(RS-2024-00336738;자율행동체의 복합작업 자율 수행을 위한 임무 수행 절차 생성 기술 개발), ‘사람중심인공지능핵심원천기술개발’(RS-2022-II220311;일상적 물건들의 다접촉 로봇 조작을 위한 목적지향 강화학습 기술 개발), ‘컴퓨팅핵심기술’(RS-2024-00509279;글로벌AI프론티어랩)과 삼성전자의 지원을 받아 수행되었다. 자세한 내용은 https://inr-dom.github.io 에서 볼 수 있다.
드림워커, 안 보고도 계단을 성큼성큼 걷다
연기가 자욱해 앞이 안보이는 재난 상황에서 별도의 시각이나 촉각 센서의 도움 없이 계단을 오르내리고 나무뿌리와 같은 울퉁불퉁한 환경 등에서 넘어지지 않고 움직이는 사족보행 로봇 기술이 국내 연구진에 의해 개발됐다.
우리 대학 전기및전자공학부 명현 교수 연구팀(미래도시 로봇연구실)이 다양한 비정형 환경에서도 강인한 `블라인드 보행(blind locomotion)'을 가능케 하는 보행 로봇 제어 기술을 개발했다고 29일 밝혔다.
연구팀은 사람이 수면 중 깨어서 깜깜한 상태에서 화장실을 갈 때 시각적인 도움이 거의 없이 보행이 가능한 것처럼, 블라인드 보행이 가능하다고 해서 붙여진 ‘드림워크(DreamWaQ)’기술을 개발하였고 이 기술이 적용된 로봇을 ‘드림워커(DreamWaQer)’라고 명명했다. 즉 이 기술을 탑재하면 다양한 형태의 사족보행 로봇 드림워커를 만들어낼 수 있게 되는 것이다.
기존 보행 로봇 제어기는 기구학 또는 동역학 모델을 기반으로 한다. 이를 모델 기반 제어 방식이라고 표현하는데, 특히 야지와 같은 비정형 환경에서 안정적인 보행을 하기 위해서는 모델의 특징 정보를 더욱 빠르게 얻을 수 있어야 한다. 그러나 이는 주변 환경의 인지 능력에 많이 의존하는 모습을 보여 왔다.
이에 비해, 명현 교수 연구팀이 개발한 인공지능 학습 방법 중 하나인 심층 강화학습 기반의 제어기는 시뮬레이터로부터 얻어진 다양한 환경의 데이터를 통해 보행 로봇의 각 모터에 적절한 제어 명령을 빠르게 계산해 줄 수 있다. 시뮬레이션에서 학습된 제어기가 실제 로봇에서 잘 작동하려면 별도의 튜닝 과정이 필요했다면, 연구팀이 개발한 제어기는 별도의 튜닝을 요구하지 않는다는 장점도 있어 다양한 보행 로봇에 쉽게 적용될 수 있을 것으로 기대된다.
연구팀이 개발한 제어기인 드림워크는 크게 지면과 로봇의 정보를 추정하는 상황(context) 추정 네트워크와 제어 명령을 산출하는 정책(policy) 네트워크로 구성된다. 상황추정 네트워크는 관성 정보와 관절 정보들을 통해 암시적으로 지면의 정보를, 명시적으로 로봇의 상태를 추정한다. 이 정보는 정책 네트워크에 입력돼 최적의 제어 명령을 산출하는 데 사용된다. 두 네트워크는 시뮬레이션에서 함께 학습된다.
상황추정 네트워크는 지도학습을 통해 학습되는 반면, 정책 네트워크는 심층 강화학습 방법론인 행동자-비평자(actor-critic) 방식을 통해 학습된다. 행동자 네트워크는 주변 지형 정보를 오직 암시적으로 추정할 수 있다. 시뮬레이션에서는 주변 지형 정보를 알 수 있는데, 지형 정보를 알고 있는 비평자 네트워크가 행동자 네트워크의 정책을 평가한다.
이 모든 학습 과정에는 단 1시간 정도만 소요되며, 실제 로봇에는 학습된 행동자 네트워크만 탑재된다. 주변 지형을 보지 않고도, 오직 로봇 내부의 관성 센서(IMU)와 관절 각도의 측정치를 활용해 시뮬레이션에서 학습한 다양한 환경 중 어느 환경과 유사한지 상상하는 과정을 거친다. 갑자기 계단과 같은 단차를 맞이하는 경우, 발이 단차에 닿기 전까지는 알 수 없지만 발이 닿는 순간 빠르게 지형 정보를 상상한다. 그리고 이렇게 추측된 지형 정보에 알맞은 제어 명령을 각 모터에 전달해 재빠른 적응 보행이 가능하다.
드림워커(DreamWaQer) 로봇은 실험실 환경뿐 아니라, 연석과 과속방지턱이 많은 대학 캠퍼스 환경, 나무뿌리와 자갈이 많은 야지 환경 등에서 보행 시 지면으로부터 몸체까지 높이의 3분의 2 (2/3) 정도의 계단 등을 극복함으로써 강인한 성능을 입증했다. 또한 환경과 무관하게, 0.3m/s의 느린 속도부터 1.0m/s의 다소 빠른 속도까지도 안정적인 보행이 가능함을 연구팀은 확인했다.
이번 연구 결과는 이 마데 아스윈 나렌드라(I Made Aswin Nahrendra) 박사과정이 제1 저자로, 유병호 박사과정이 공동 저자로 참여했으며, 오는 5월 말 영국 런던에서 개최되는 로보틱스 분야의 세계 최고 권위 학회인 ICRA(IEEE International Conference on Robotics and Automation)에 채택되어 발표될 예정이다. (논문명: DreamWaQ: Learning Robust Quadrupedal Locomotion With Implicit Terrain Imagination via Deep Reinforcement Learning)
개발된 드림워크를 탑재한 보행 로봇 드림워커의 구동 및 보행 영상은 아래 주소에서 확인할 수 있다.
메인 영상: https://youtu.be/JC1_bnTxPiQ
쿠키 영상: https://youtu.be/mhUUZVbeDA0
한편, 이번 연구는 산업통상자원부 로봇산업핵심기술개발 사업의 지원을 받아 수행되었다. (과제명: 동적, 비정형 환경에서의 보행 로봇의 자율이동을 위한 이동지능 SW 개발 및 실현장 적용)
‘라이보’ 로봇, 해변을 거침없이 달리다
우리 대학 기계공학과 황보제민 교수 연구팀이 모래와 같이 변형하는 지형에서도 민첩하고 견고하게 보행할 수 있는 사족 로봇 제어기술을 개발했다고 26일 밝혔다.
황보 교수 연구팀은 모래와 같은 입상 물질로 이루어진 지반에서 로봇 보행체가 받는 힘을 모델링하고, 이를 사족 로봇에 시뮬레이션하는 기술을 개발했다. 또한, 사전 정보 없이도 다양한 지반 종류에 스스로 적응해가며 보행하기에 적합한 인공신경망 구조를 도입해 강화학습에 적용했다. 학습된 신경망 제어기는 해변 모래사장에서의 고속 이동과 에어 매트리스 위에서의 회전을 선보이는 등 변화하는 지형에서의 견고성을 입증해 사족 보행 로봇이 적용될 수 있는 영역을 넓힐 것으로 기대된다.
기계공학과 최수영 박사과정이 제1 저자로 참여한 이번 연구는 국제 학술지 `사이언스 로보틱스(Science Robotics)' 1월 8권 74호에 출판됐다. (논문명 : Learning quadrupedal locomotion on deformable terrain)
강화학습은 임의의 상황에서 여러 행동이 초래하는 결과들의 데이터를 수집하고 이를 사용해 임무를 수행하는 기계를 만드는 학습 방법이다. 이때 필요한 데이터의 양이 많아 실제 환경의 물리 현상을 근사하는 시뮬레이션으로 빠르게 데이터를 모으는 방법이 널리 사용되고 있다.
특히 보행 로봇 분야에서 학습 기반 제어기들은 시뮬레이션에서 수집한 데이터를 통해서 학습된 이후 실제 환경에 적용돼 다양한 지형에서 보행 제어를 성공적으로 수행해 온 바 있다.
다만 학습한 시뮬레이션 환경과 실제 마주친 환경이 다른 경우 학습 기반 제어기의 성능은 급격히 감소하기 때문에, 데이터 수집 단계에서 실제와 유사한 환경을 구현하는 것이 중요하다. 따라서, 변형하는 지형을 극복하는 학습 기반 제어기를 만들기 위해서는 시뮬레이터는 유사한 접촉 경험을 제공해야 한다.
연구팀은 기존 연구에서 밝혀진 입상 매체의 추가 질량 효과를 고려하는 지반 반력 모델을 기반으로 보행체의 운동 역학으로부터 접촉에서 발생하는 힘을 예측하는 접촉 모델을 정의했다.
나아가 시간 단계마다 하나 혹은 여러 개의 접촉에서 발생하는 힘을 풀이함으로써 효율적으로 변형하는 지형을 시뮬레이션했다.
연구팀은 또한 로봇의 센서에서 나오는 시계열 데이터를 분석하는 순환 신경망을 사용함으로써 암시적으로 지반 특성을 예측하는 인공신경망 구조를 도입했다.
학습이 완료된 제어기는 연구팀이 직접 제작한 로봇 `라이보'에 탑재돼 로봇의 발이 완전히 모래에 잠기는 해변 모래사장에서 최대 3.03 m/s의 고속 보행을 선보였으며, 추가 작업 없이 풀밭, 육상 트랙, 단단한 땅에 적용됐을 때도 지반 특성에 적응해 안정하게 주행할 수 있었다.
또한, 에어 매트리스에서 1.54 rad/s(초당 약 90°)의 회전을 안정적으로 수행했으며 갑작스럽게 지형이 부드러워지는 환경도 극복하며 빠른 적응력을 입증했다.
연구팀은 지면을 강체로 간주한 제어기와의 비교를 통해 학습 간 적합한 접촉 경험을 제공하는 것의 중요성을 드러냈으며, 제안한 순환 신경망이 지반 성질에 따라 제어기의 보행 방식을 수정한다는 것을 입증했다.
연구팀이 개발한 시뮬레이션과 학습 방법론은 다양한 보행 로봇이 극복할 수 있는 지형의 범위를 넓힘으로써 로봇이 실제적 임무를 수행하는 데에 이바지할 수 있을 것으로 기대된다.
제1 저자인 최수영 박사과정은 "학습 기반 제어기에 실제의 변형하는 지반과 가까운 접촉 경험을 제공하는 것이 변형하는 지형에 적용하는 데 필수적이라는 것을 보였다ˮ 라며 "제시된 제어기는 지형에 대한 사전 정보 없이 기용될 수 있어 다양한 로봇 보행 연구에 접목될 수 있다ˮ 라고 말했다.
한편 이번 연구는 삼성전자 미래기술육성센터의 지원을 받아 수행됐다.
강화학습을 활용한 인공지능으로 자유구조 메타표면 최적화 성공
우리 대학 전기및전자공학부 장민석 교수 연구팀이 KC ML2(반도체 제조 솔루션 기업 KC에서 설립한 연구조직) 박찬연 박사와 공동연구를 통해 강화학습에 기반한 자유 구조의 메타 표면 구조 설계 방법을 제안했다고 25일 밝혔다.
메타 표면은 빛의 파장보다 훨씬 작은 크기의 구조를 이용해 이전에 없던 빛의 성질을 달성하는 나노광학 소자를 뜻한다. 나노광학 소자는 빛의 특성을 미시 단위에서 제어하여, 자율주행에 쓰이는 라이다(LiDAR) 빔조향 장치, 초고해상도 이미징 기술, 디스플레이에 활용되는 발광소자의 광특성 제어, 홀로그램 생성 등에 활용될 수 있다. 최근 나노광학 소자에 대한 기대 성능이 높아지면서, 이전에 있던 소자구조를 훨씬 뛰어넘는 성능을 달성하기 위해 자유 구조를 가지는 소자의 최적화에 관한 관심이 증가하고 있다. 자유 구조와 같이 넓은 설계공간을 가진 문제에 대해 강화학습을 적용해 해결한 사례는 이번이 최초다.
우리 대학 서동진 연구원 및 ML2 남원태 연구원이 공동 제1 저자로 참여한 이번 연구는 국제 학술지 `ACS 포토닉스(ACS Photonics)' 2022년 2월호 전면 표지논문으로 게재됐다. (논문명 : Structural Optimization of a One-Dimensional Freeform Metagrating Deflector via Deep Reinforcement Learning)
강화학습은 동물이 학습하는 방법을 모방한 인공지능 방법론이다. 동물 행동 심리학에서 `스키너의 상자'라고 알려진 실험이 그 모티브가 되었는데, 해당 실험은 상자 내부에 쥐를 넣고 누르면 먹이가 나오는 지렛대를 함께 두는 방식으로 진행된다. 처음에 무작위 행동을 하던 쥐는 지렛대를 누르면 먹이가 나오는 것을 확인한다. 시간이 지날수록 더 높은 빈도수로 지렛대를 누르게 되는데, 이렇게 어떠한 보상(먹이)이 행동(지렛대를 누르는 행위)을 `강화'하는 것을 관찰할 수 있다. 해당 실험과 매우 유사한 구조를 갖는 강화학습은 행동 주체가 자기를 둘러싼 `환경'으로부터 `보상'을 받으면서 환경에 대해 배워나가는 인공지능 방법론이다.
2016년 이세돌 9단과의 대국에서 승리한 구글 딥마인드의 `알파고(AlphaGo)'가 그 대표적 사례다. 알파고는 바둑판으로 표현되는 환경과의 상호작용을 통해 바둑의 복잡한 규칙을 학습했고, 우주에 있는 원자보다 많다고 알려진 경우의 수 중 최적에 가까운 선택을 할 수 있었다. 최근 인공지능 학계에서 강화학습은 인간의 지능과 가장 유사한 형태의 인공지능 방법론으로 크게 주목받고 있다.
연구팀은 복잡한 환경을 쉽게 학습할 수 있는 강화학습의 특징을 메타 표면 자유 구조의 최적화에 활용하는 아이디어를 제안했다. 이전에 메타 표면 자유 구조 최적화 기술은 너무 많은 경우의 수로 인해 해결하기 어려운 것으로 여겨졌다. 따라서 기존 연구 방향은 주로 간단한 기본도형 등으로 구조를 단순화한 방식을 활용했다. 하지만 해당 방식은 기하학적 구조가 제한된다는 한계가 있었고, 더욱 복잡한 구조에 대한 최적화 기술은 달성하기 어려운 것으로 여겨졌다.
연구팀이 제안한 알고리즘은 아주 간단한 아이디어에서 출발한다. 강화학습의 `행동'을 구조의 구성요소를 하나씩 `뒤집는' 것으로 정의하는 것이다. 이것은 기존에 구조를 전체적으로 생성하는 방식으로만 생각되었던 자유 구조의 최적화에 대한 발상을 뒤집는 것이었다. 연구팀은 해당 방법을 이용해 메타 표면에 대한 특별한 사전지식 없이도 가능한 구조를 넓게 탐색하고 최적 구조를 발견할 수 있음을 보였다. 또한, 많은 입사 조건에서 최신 성능과 비슷하거나 앞서며 특정 조건에서는 100%에 가까운 효율을 달성했다.
이번 연구를 통해 자유 구조 최적화 분야의 새로운 돌파구를 찾을 것으로 기대되며, 광소자뿐 아니라 많은 분야의 소자 구조 최적화에도 활용될 수 있을 것으로 기대된다.
제1 저자인 서동진 연구원은 "강화학습은 복잡한 환경에서 최적의 경우를 찾는 데에 효과적인 알고리즘이다. 이번 연구에서 해당 방법으로 자유 구조의 최적화를 수행하는 것에 성공하는 사례를 남겨 기쁘다ˮ고 말했다.
장민석 교수는 "광공학에 인공지능 기술을 적용하는 분야에서 좋은 결과가 나와 과학의 위상을 높이는 데 기여하기를 희망한다ˮ고 말했다.
한편 이번 연구는 한국연구재단의 중견연구자지원사업(전략연구), 한-스위스 이노베이션프로그램, 그리고 미래소재디스커버리 사업의 지원을 받아 수행됐다.
바이오및뇌공학과 이상완 교수, IBM 학술상 수상
우리 대학 바이오및뇌공학과 이상완 교수(신경과학-인공지능 융합연구센터 소장)가 뇌 기반 인공지능 연구성과를 인정받아 2021년 IBM 학술상(舊 IBM 교수상) 수상자로 최종 선정됐다.
IBM 학술상은 미국 IBM과 전 세계 유수 대학과의 연구 협력 활성화를 위해 제정된 상으로 IBM 연구소장 등 조직 내 핵심 연구자들의 내부 지명을 받아 후보자 군이 선정되고, 이후 연구 제안서의 임팩트, 연구의 창의성 및 연구업적 등을 종합적으로 평가해 최종 수상자가 결정된다.
수상자에게는 연구 범위나 특허 관련 제약 조건이 전혀 없는 연구비 형태의 상금이 지급되며, IBM 연구소와 다양한 형태의 연구 교류를 수행할 수 있게 된다. 국내에서는 과거 서울대 윤성로 교수(2018년), 고려대 이재성 교수(2005년), 서울대 문수묵 교수(2000년) 등이 수상자로 선정된 바 있다.
이상완 교수 연구팀은 2019년에 사이언스 로보틱스(Science Robotics)와 네이처 커뮤니케이션즈(Nature Communications)에 교신저자로 논문을 게재하는 등, 관련 연구성과와 함께 계산신경과학과 인공지능을 융합하는 새로운 연구 분야를 개척한 공로를 인정받았다.
이상완 교수 연구진은 이번 학술상을 바탕으로 IBM과 연구 협력을 확장해 나갈 예정이다. 이 교수는 "기계학습 이론을 이용해 뇌의 복잡한 정보처리 과정을 해석하고, 뇌의 고위수준 정보처리 과정을 인공지능 모델로 이식하는 연구는 이제 막 걸음마를 떼는 단계ˮ라며, "그동안 삼성전자 미래기술육성센터의 지원을 받아 개발해 온 뇌-인공지능 공진화 엔진 기술과 과학기술정보통신부 재원 정보통신기획평가원 지원을 받아 개발한 전두엽 메타 강화학습 모델링 기술을 활용해 앞으로 IBM 연구원들과 공동연구를 진행할 계획이다ˮ라고 말했다.
이 교수는 이에 덧붙여 "2019년 설립한 KAIST 신경과학-인공지능 융합연구센터에서는 이러한 뇌 기반 인공지능 기술의 파급력을 높이기 위해서 IBM 인공지능 연구소뿐만 아니라 딥마인드(DeepMind), 메사추세츠 공과대학(MIT), 옥스퍼드(Oxford) 대학 등 해외 유수 연구기관들과 국제 공동연구 협약을 맺고 활발한 인적 교류 및 국제 공동연구를 하고 있다ˮ고 말했다.
이상완 교수는 올해 수상에 앞서 2016년에는 구글(Google) 교수 연구상 수상자로 선정된 바 있다. 구글 교수 연구상은 IBM 학술상과 유사한 취지로 구글과 전 세계 대학의 선도 연구자들과의 연구 협력 활성화를 위해 제정된 상으로, 계산신경과학 분야에서는 현재까지 이상완 교수가 유일한 한국인 수상자다.
이 교수는 구글 교수 연구상 연구비를 바탕으로 영국 딥마인드 및 유니버시티 칼리지 런던(UCL)과 함께 전두엽 메타 강화학습 이론 정립을 위한 의사결정 뇌과학 기초 연구를 수행해 오고 있으며, 앞으로 IBM과 공동연구를 통해 해당 이론을 발전시키고 인공지능에 적용하는 연구를 수행할 예정이다.
※ IBM 학술상 안내 홈페이지: https://www.research.ibm.com/university/awards/shared_university.html
AI대학원 김기응 교수 연구팀, 인공지능 전력망 운영관리 국제대회 1위 달성
우리 대학 AI대학원 김기응 교수 연구팀(홍성훈, 윤든솔 석사과정, 이병준 박사과정)이 인공지능 기반 전력망 운영관리 기술을 겨루는 국제경진대회인 'L2RPN 챌린지(Learning to Run a Power Network Challenge 2020 WCCI)'에서 최종 1위를 차지했다. 이 대회는 기계학습 연구를 촉진하기 위한 각종 경진대회를 주관하는 비영리단체 ChaLearn, 유럽 최대 전력망을 운영관리하는 프랑스 전력공사의 자회사 RTE(Réseau de Transport d'Électricité)社 및 세계 최대 규모의 전력 회사 SGCC(State Grid of China)의 자회사인 GEIRI North America(Global Energy Interconnection Research Institute)에서 공동주최해, 세계 각국의 약 50팀이 약 40일간 (2020.05.20.~06.30) 온라인으로 참여해 성황리에 마감됐다.
단순한 전력망이 스마트 그리드를 넘어서 에너지 클라우드 및 네트워크로 진화하려면 신재생 에너지의 비율이 30% 이상이 돼야 하고, 신재생 에너지 비율이 높아지면 전력망 운영의 복잡도가 매우 증가한다. 실제로 독일의 경우 신재생 에너지 비율이 30%가 넘어가면서 전력사고가 3,000건 이상 증가할 정도로 심각하며, 미국의 ENRON 사태 직전에도 에너지 발전과 수요 사이의 수급 조절에 문제가 생기면서 잦은 정전 사태가 났던 사례도 있다.
전력망 운영에 인공지능 기술 도입은 아직 초기 단계이며, 현재 사용되고 있는 전력망은 관리자의 개입 없이 1시간 이상 운영되기 힘든 실정이다. 이에 프랑스의 RTE(Réseau de Transport d'Électricité) 社는 전력망 운영에 인공지능 기술을 접목하는 경진대회 'L2RPN'을 2019년 처음 개최했다. 2019년 대회는 IEEE-14라는 14개의 변전소를 포함하는 가상의 전력망에서 단순한 운영을 목표로 열렸다. 2020년 대회는 L2RPN 2020 WCCI 챌린지라는 이름으로 특정 국가 수도 규모의 복잡한 전력망을 72시간 동안 관리자의 개입 없이 스스로 안전하고 효율적으로 운영될 수 있는 인공지능 전력망 관리 에이전트를 개발하는 것을 목표로 열렸다. 시간에 따른 공급-수요의 변화, 시설 유지보수 및 재난에 따른 급작스러운 단전 등 다양한 시나리오에 대해 전력망 운영관리 능력의 평가가 이뤄졌다.
김 교수 연구팀은 이번 2020년 대회에서 전력망 구조를 효과적으로 반영할 수 있는 그래프 신경망 모델 기반의 강화학습 에이전트를 개발해 참가했다. 기존의 에이전트들은 소규모의 전력망에서만 적용 가능하다는 한계가 있었지만, 김 교수 연구팀은 국가 수도 규모의 복잡한 전력망에도 적용 가능한 에이전트를 개발했다. 연구팀이 개발한 인공지능 전력망 운영관리 에이전트는 주어진 모든 테스트 시나리오에 대해 안전하고 효율적으로 전력망을 운영해 최종 1위의 성적을 거뒀다. 우승팀에게는 상금으로 미국 실리콘밸리에 있는 GEIRI North America를 방문할 수 있는 여행경비와 학회참가 비용 3,000달러가 주어진다. 연구진은 앞으로도 기술을 고도화해 국가 규모의 전력망과 다양한 신재생 에너지원을 다룰 수 있도록 확장할 계획이다.
한편 이번 연구는 과기정통부 에너지 클라우드 기술개발 사업의 지원으로 설치된 개방형 에너지 클라우드 플랫폼 연구단과제로 수행됐다. (연구단장 KAIST 전산학부 문수복 교수)
※ 대회 결과 사이트 관련 링크: https://l2rpn.chalearn.org/competitions
※ 개방형 에너지 클라우드 플랫폼 연구단 사이트: https://www.oecp.kaist.ac.kr
4차산업혁명과 AI 대한민국 포럼 개최
판교미래포럼(회장 곽덕훈)과 지능정보산업협회(회장 허일규)가 오는 20일 판교테크노밸리에 있는 경기창조경제혁신센터 국제회의장에서‘4차산업혁명과 AI 대한민국’을 주제로 매머드급 포럼을 개최한다.
이 행사에는 김병관 의원(더불어민주당)·이찬열 의원(바른미래당)·김학도 중기벤처부 차관 등 정·관계인사와 산학연 관계자 등 800여 명이 참석해 국내 AI 관련기술의 R&D 현황을 살펴보는 한편 신산업 육성을 위한 국가산업정책 방향에 대한 심도 있는 논의를 통한 사회적 공감대 조성과 함께 관련기업 간 최신정보 공유를 목적으로 마련됐다.
주최 측 관계자는 이번 포럼이 “AI 기술이 대한민국 4차산업혁명을 주도하고 산업생태계를 재편할 수 있도록 국가적 지원체계의 확립과 산학연을 포함한 정·관계 간 상호 밀접한 협력관계를 구축하는 계기가 될 것으로 기대한다”고 밝혔다
올해 처음 열리는 ‘4차산업혁명과 AI 대한민국’ 포럼은 판교미래포럼과 지능정보산업협회가 공동 주최하고 KAIST 산학협력단·경기도경제과학진흥원·KAIST 기계지능및로봇공학다기관지원연구단이 주관한다.
포럼이 열리는 20일 오전 9시부터 시작되는 1부 행사에서는 ▲발달학습(Development Learning) 및 정서지능/(황성주·조성호 교수) ▲평생학습(Lifelong Learning) 및 최적화 알고리즘/(김준모·윤세영 교수) ▲신개념 강화학습(Reinforcement Learning)/(이상완·정송 교수) ▲지능 대화 에이전트 및 딥러닝 시각기술(이수영·권인소 교수) 등 4개 세션을 통해 KAIST 교수진의 연구내용 발표와 함께 IoT & 로봇통합시스템 및 학습알고리즘 등 총 20여 개에 달하는 첨단 AI 관련기술이 포스터 세션을 통해 각각 소개된다.
이와 함께 KAIST AI 기술이전 상담 및 포스닥(Post-Doc·박사후 과정) 인력지원 상담도 1부 행사시간에 동시 진행된다.
오후 2시부터 진행되는 2부 행사에서는 신성철 총장이 ‘4차산업혁명과 대한민국 성공방정식’을 주제로 기조강연을 하고 또 4차산업혁명과 인공지능분야 최고 전문가로 손꼽히는 김태유 서울대 교수와 김종환 KAIST 공과대학장이 각각 ‘4차산업혁명과 패권의 비밀’, ‘4차산업혁명과 인공지능’을 주제로 발표한다.
패널토론과 청중 Q&A 시간에는 고경철 KAIST 연구교수를 좌장으로 문전일 로봇산업진흥원장·김지원 과기정통부 AI정책팀장·명현 KAIST 교수·송세경 한국SW·ICT총연합회 산업혁신위원장·강용성 와이즈넛 대표·고영회 前 대한변리사회 회장·이경전 경희대 교수·김혜영 시니어벤처협회 창업연구소장 등 전문가들이 패널로 나서‘AI 융합혁신을 위한 4차산업혁명 국가정책 수립방안’을 주제로 열띤 토론을 전개할 예정이다.
특히 이날 포럼에는 특별행사로 KAIST가 그동안 연구해 온 AI 기술성과는 물론 지능정보산업협회 회원사를 포함해 ㈜ATEC, ㈜와이즈넛 등이 참여하는‘AI기술/제품 전시회’도 함께 열려 많은 참가자들의 관심을 끌 것으로 예상된다.
한편, 곽덕훈 판교미래포럼 회장은 개회사를 통해 “우리나라 4차산업혁명의 성공시대를 열기위해서는 KAIST와 판교밸리에 입주한 기업들이 상호 밀접한 연계를 통해 핵심적이고도 주도적으로 역할을 수행해야 한다“고 강조할 방침이다.
‘4차산업혁명과 AI 대한민국’ 포럼에 참석을 원하거나 부스 참여를 통해 AI 관련기술 또는 제품전시를 원하는 기업은 15일까지 지능정보산업협회 홈페이지( http://www.k-ai.or.kr/)를 통해 신청, 접수하면 된다. 사전등록을 하는 참가자들에 한해 무료이며 현장 등록은 2만원이다.
이밖에 1부 행사의 기술발표회는 042-350-8877, KAIST AI 기술이전 상담은 031-786-1085로 문의하면 된다.
이상완 교수, 신경과학-인공지능 융합으로 공학적 난제 해결
〈 (왼쪽부터) 안수진 박사과정, 이지항 박사, 이상완 교수 〉
우리 대학 바이오및뇌공학과 이상완 교수 연구팀이 영국 케임브리지 대학, 구글 딥마인드와의 공동 연구를 통해 차세대 뇌 기반 인공지능 시스템 설계의 방향을 제시했다.
이번 연구는 인간의 두뇌가 기존의 인공지능 알고리즘이 해결하지 못하는 부분을 해결할 수 있다는 사실에 기반한 신경과학-인공지능 융합 연구이다.
성능, 효율, 속도의 균형적 설계와 같은 다양한 공학적 난제를 해결할 수 있는 신경과학 기반 강화학습 이론을 제안한 것으로 새로운 인공지능 알고리즘 설계에 긍정적인 영향을 줄 것으로 기대된다.
이상완 교수와 함께 이지항 박사, 안수진 박사과정이 주도한 이번 연구는 국제 학술지 사이언스의 자매지 ‘사이언스 로보틱스(Science Robotics)’ 1월 16일 자 온라인판에 포커스 형식으로 게재됐다.
최적제어 이론에서 출발한 강화학습은 기계 학습의 한 영역으로 지난 20여 년 동안 꾸준히 연구된 분야이다. 특히 지난 5년 동안은 딥러닝 기술을 발전과 맞물려 급격한 성장을 이뤘다.
딥러닝 기반 강화학습 알고리즘은 최근 알파고와 같은 전략 탐색 문제, 로봇 제어, 응급실 비상 대응 시스템과 같은 의료 진단 등 다양한 분야에 적용되고 있다. 그러나 주어진 문제에 맞게 시스템을 설계해야 하는 점, 불확실성이 높은 환경에서는 성능이 보장되지 않는 점 등이 근본적인 해결책으로 남아있다.
강화학습은 의사 결정 및 계산신경과학 분야에서도 지난 20년간 꾸준히 연구되고 있다. 이상완 교수는 2014년 인간의 전두엽-기저핵 뇌 회로에서 이종 강화학습을 제어한다는 신경과학적 증거를 학계에 발표한 바 있다. 2015년에는 같은 뇌 회로에서 고속 추론 과정을 제어한다는 연구를 발표했다.
연구팀은 이번 연구에서 강화학습 등의 개별 인공지능 알고리즘이 해결하지 못하는 공학적 문제를 인간의 두뇌가 이미 해결하고 있다는 사실에 기반한 ‘전두엽 메타 제어’ 이론을 제안했다.
중뇌 도파민-복외측전전두피질 네트워크에서 외부 환경에 대한 학습의 신뢰도를 스스로 평가할 수 있는 보상 예측 신호나 상태 예측 신호와 같은 정보를 처리하며, 인간의 두뇌는 이 정보들을 경쟁적-협력적으로 통합하는 프로세스를 통해 외부 환경에 가장 적합한 학습 및 추론 전략을 찾는다는 것이 이론의 핵심이다.
이러한 원리를 단일 인공지능 알고리즘이나 로봇설계에 적용하면 외부 상황변화에 강인하게 성능, 효율, 속도 세 조건(performance-efficiency-speed tradeoff) 사이의 균형점을 유지하는 최적의 제어 시스템을 설계할 수 있다. 더 나아가 다수의 인공지능 개체가 협력하는 상황에서는 서로의 전략을 이용함으로 협력-경쟁 사이의 균형점을 유지할 수 있다.
1 저자인 이지항 박사는 “현대 인공지능의 우수한 성능은 사람의 행동 수준 관찰뿐 아니라 두뇌의 저수준 신경 시스템을 알고리즘으로 구현해 적극적으로 발전시킨 결과라고 보고 있다”라며 “이번 연구는 계산신경과학에 기반한 결과로 현대 딥러닝과 강화학습에서 겪는 성능, 효율, 속도 사이의 난제를 해결하는 실마리가 될 수 있고, 새로운 인공지능 알고리즘 설계에 많은 영감을 줄 것이다”라고 말했다.
이상완 교수는 “연구를 하다 보면 우리의 두뇌는 공학적 난제를 의외로 쉽게 해결하고 있음을 알 수 있다. 이 원리를 인공지능 알고리즘 설계에 적용하는 뇌 기반 인공지능 연구는 구글 딥마인드, MIT, 캘리포니아 공과대학, UCL 등 해외 유수 기관에서도 관심을 두는 신경과학-인공지능 융합 연구 분야이다”라며 “장기적으로는 차세대 인공지능 핵심 연구 분야 중의 하나로 자리를 잡을 것으로 기대한다”라고 말했다.
이번 연구는 과학기술정보통신부 및 정보통신기술진흥센터 연구개발 사업, 삼성전자 미래기술육성센터의 지원을 받아 수행됐다.
□ 그림 설명
그림1. 외부 환경에 따라 성능-효율-속도 문제 균형점을 찾는 뇌기반 강화학습 이론 (좌), 이를 최적 제어하는 ‘전두엽 메타 제어’(중) 및 로보틱스 분야 문제 해결 적용 사례 (우)