
< (왼쪽부터) 노준혁 교수 (이화여대 인공지능학과 조교수), 서진환, 조윤기 박사과정, 윤성의 교수 (KAIST 전산학부 교수) >
‘카메라가 다른 곳을 비추는 사이 사라진 물체는 무엇 인가요?’라는 복잡한 질문이 나오면 AI는 많은 경우 영상 속 실제 상황을 보고 판단하는 것이 아니라, 언어 패턴에 의존해 ‘그럴듯한 답’을 추측하는 문제가 있다. 우리 대학 연구진은 이 한계를 해결하기 위해 영상 속 ‘딱 중요한 순간(Trigger moment)’을 AI가 스스로 찾아내도록 하는 기술을 개발했고, 이 기술로 국제 AI 대회에서 우수성을 입증했다.
우리 대학은 전산학부 윤성의 교수 연구팀이 이화여대 노준혁 교수 연구팀과 공동 연구를 통해, 세계적 권위의 컴퓨터 비전 학회 ICCV 2025에서 열린 Perception Test Challenge의 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 차지했다고 28일 밝혔다.
이번 ICCV 2025에서 열린 인지 테스트 대회(Perception Test Challenge)는 구글 딥마인드(Google DeepMind)가 주관하여 총 상금 50,000 유로(한화 약 8,300만원)가 걸린 대회로, 영상·음성·텍스트 등 다양한 데이터를 종합적으로 이해하는 멀티모달 AI의 인지 및 추론 능력을 평가한다. 특히 언어 중심 편향을 벗어나 실제 영상 근거를 바탕으로 판단하는 능력이 핵심 평가 요소다.
우리 대학 연구팀은 영상 전체를 무작정 분석하는 기존 방식과 달리, AI가 정답을 위해 꼭 필요한 핵심 장면(Trigger moment)을 먼저 찾아내도록 만드는 새로운 기술을 개발했다. 쉽게 말하면, “이 질문에 답하려면 이 장면이 결정적이야!”를 AI가 스스로 찾아내도록 설계한 기술이다.
이 프레임워크를 연구팀은 CORTEX(Chain-of-Reasoning for Trigger Moment Extraction)라고 부른다.
연구팀의 시스템은 서로 다른 기능을 수행하는 세 모델이 순차적으로 작동하는 3단계 구조로 구성된다. 먼저 추론 AI(Gemini 2.5 Pro)가 질문에 답하기 위해 어느 순간을 봐야 하는지 사고하고 딱 그 순간(Trigger moment) 후보를 찾는다. 다음으로 객체 위치 찾기 모델(Grounding 모델, Molmo-7B)이 해당 순간 화면 속 사람·차·사물의 정확한 위치(좌표)를 파악한다. 마지막으로 추적 모델(Tracking 모델, SAM2)이 선택된 한 장면을 기준으로 앞뒤 시간대의 객체 움직임을 정밀하게 추적해 오류를 줄인다.
즉, ‘핵심 장면 한 컷을 정확히 찍고, 그 장면을 중심으로 정답 근거를 추적하는 방식’덕분에 영상 초반 오판이나 가려짐 같은 문제도 크게 줄었다.
총 23개 팀이 참여한 영상 근거 기반 질의응답(Grounded VideoQA) 트랙에서 KAIST팀 SGVR Lab(Scalable Graphics, Vision & Robotics Lab)은 ‘고차 추적 정확도(HOTA, Higher Order Tracking Accuracy)’지표에서 0.4968점을 기록하며 2등 미국 콜럼비아대의 0.4304점을 압도적인 점수 차로 상회하며 1위를 차지했다. 이는 전년도 우승 기록 0.2704점보다도 약 두 배에 가까운 성과다.
이 기술은 실생활에서도 넓게 쓰일 수 있다. 자율주행차는 사고 위험이 있는 순간을 정확히 보고, 로봇은 주변 상황을 더 똑똑하게 이해한다. 또 보안·감시 시스템은 중요한 장면을 빠르게 찾아내고, 미디어 분석에서는 사람이나 사물의 행동을 시간 순서대로 정확히 추적할 수 있다.
즉, AI가 “영상 속 실제 근거”를 보고 판단할 수 있도록 만드는 핵심 기술이다. 특히 영상 속 객체가 시간에 따라 어떻게 행동하는지 정확히 짚어내는 능력은 향후 AI의 실제 현장 적용을 크게 확장할 것으로 기대된다.

< 연구팀이 제안한 비디오 질의 응답을 위한 그라운딩 프레임워크의 파이프라인 이미지 >
이번 연구는 ICCV 2025, the 3rd Perception Test Challenge 학회에서 10월 19일자 발표하였다.
이 성과는 과학기술정보통신부 기초연구사업 중견연구와 SW스타랩 사업 ‘오픈 월드 로봇 서비스를 위한 불특정 환경 인지·행동·상호작용 알고리즘 개발’ 및 AGI 사업 ‘체화형 AGI를 위한 현실 세계 구축과 인지 에이전트 기반 이원 역량 접근법’ 과제의 지원을 받아 수행되었다.
“사람처럼 판단하는 로봇, 생각보다 빨리 온다.” 로봇이 인간의 의도를 이해하고 스스로 올바른 행동을 선택하는 시대를 앞당길 핵심 기술이 국내에서 나왔다. KAIST 연구진이 단 몇 개의 영상만으로 AI가 인간의 판단 기준을 스스로 학습하는 기술을 개발하며 피지컬 AI 상용화의 핵심 난제를 해결했다. 우리 대학은 전기및전자공학부 유창동 교수 연구팀이 수천~수만 건의 인간 평가 데이터 대신 단 몇 개의 선호 영상만으로도 AI가 인간의 의도와 판단 기준을 학습할 수 있는 새로운 기술인 ‘VOTP(Video-based Optimal TransPort Preference)’를 세계 최초로 개발했다고 10일 밝혔다. 연구팀의 논문은 오는 7월 서울 코엑스에서 개최되는 세계 최고 권위의 AI학회인 ICML(International Conference on Machine Learning) 2026에 채택됐으며, 전체 제출 논문(23,918편
2026-06-10우리 대학은 메타버스대학원이 오는 6월 10일부터 12일까지 서울 코엑스에서 열리는 ‘가상융합산업대전(KMF: Korea Metaverse Festival) 2026’에 참가해 현실 공간을 인식·이해하고 사람과 사물의 위치·움직임·상황을 분석해 상호작용할 수 있도록 하는 ‘차세대 공간 AI(Spatial AI)’와 XR(확장현실) 분야 핵심 연구 성과를 공개한다고 5일 밝혔다. 이번 성과는 과학기술정보통신부와 정보통신기획평가원(IITP)이 미래 핵심 산업 대응을 위해 추진해 온 정보통신방송혁신인재양성사업‘가상융합대학원 사업’의 대표적 성과로 평가된다. KAIST 메타버스대학원은 올해 열린 세계 최고 권위의 가상현실(VR) 학술대회인 ‘IEEE VR 2026’에서 세계 대학·연구기관 가운데 두 번째로 많은 12편의 구두 논문을 발표하며 글로벌
2026-06-04우리 대학은 1일 오전 10시 KAIST 학술문화관(E9) 5층 정근모컨퍼런스홀에서 ‘KAIST AI대학 비전선포식’을 개최했다. 이번 행사는 AI 시대를 선도할 핵심 인재 양성과 교육·연구 혁신, 산업 협력, 책임 있는 AI 생태계 구축을 위한 비전과 추진 방향을 대내외에 공유하기 위해 마련됐다. KAIST AI대학은 인공지능을 단순한 활용 도구가 아닌 과학기술, 산업, 교육, 사회 전반의 변화를 이끄는 새로운 지식 생산의 기반으로 보고 있다. 이에 따라 AI 핵심 기술을 선도할 연구 인재와 다양한 분야에서 AI를 창의적으로 활용할 융합 인재를 함께 양성하고, 모델·알고리즘·시스템·인프라·도메인 융합은 물론 미래 사회 설계와 책임 있는 AI까지 포괄하는 교육·연구 체계를 구축해 나갈 계획이다. 비전선포식은 이광형 KAIST 총장의 환영사로 시작됐다. 이어 배경훈 부총리 겸 과학
2026-06-01챗GPT와 같은 거대언어모델(LLM·Large Language Model) 서비스를 운영하려면 수만 대 규모의 서버 인프라가 필요하다. 하지만 새로운 AI 반도체나 시스템 구조를 검증할 때마다 실제 장비를 구축하는 데에는 막대한 비용과 시간이 소요된다. 우리 대학 연구진은 실제 대규모 AI 서버를 구축하기 전에 컴퓨터 안에서 성능과 효율을 미리 검증할 수 있는 ‘가상 실험장’을 개발했다. 우리 대학은 전산학부 박종세 교수 연구팀이 개발한 거대언어모델(LLM) 서비스 인프라 시뮬레이터(simulator·가상 실험 소프트웨어) 연구가 컴퓨터 시스템 성능 분석 분야의 세계적 권위 학회인 ‘ISPASS 2026(IEEE International Symposium on Performance Analysis of Systems and Software)’에서 최우수 논문상을 수상했다고 29일 밝혔다. 연구팀이 개발한 &l
2026-05-29영화 ‘쥬라기 공원’에서 거대한 공룡이 걸어오는 장면을 보면 사람들은 자연스럽게 땅이 울리는 듯한 묵직한 저주파음을 떠올린다. 이는 인간이 단순히 사물의 형태뿐 아니라 크기와 무게, 움직임의 속도 같은 물리적 특성까지 함께 고려해 소리를 예측하기 때문이다. 하지만 기존 영상-음향 생성 AI는 화면 속 사물의 형태나 장면 정보에 주로 의존해 소리를 생성해, 무게나 속도에 따라 달라지는 물리적 특성까지는 충분히 반영하지 못했다. 우리 대학은 전산학부 오태현 교수 연구팀이 POSTECH(총장 김성근), 소니 AI(Sony AI) 공동 연구진과 함께 영상 속 물리적 상황을 이해해 보다 현실감 있는 소리를 생성하는 인공지능(AI) 기술 ‘파바스(PAVAS·Physics-Aware Video-to-Audio Synthesis)’를 개발했다고 26일 밝혔다. 이번 기술의 핵심은 영상 속 물체의 질량과 속도 등 눈에 보이지 않는 물
2026-05-27