본문 바로가기 대메뉴 바로가기

KAIST

연구뉴스

홈페이지 통합검색

-

AI

스스로 물체를 집고, 걷는 '실시간 프로그래밍 로봇 시트' 개발 접힘 구조는 로봇 설계에서 직관적이면서도 효율적인 형상 변형 메커니즘으로 활용되며, 우주·항공 로봇, 유연 로봇, 접이식 그리퍼(손) 등 다양한 응용이 시도되고 있다. 그러나 기존의 접힘 메커니즘은 접는 위치(hinge)나 방향이 사전에 고정돼 있어, 환경과 작업이 바뀔 때마다 구조를 새로 설계·제작해야 하는 한계가 있었다. 한국 연구진이 실시간으로 현장에 따라 프로그래밍하는‘접이식 로봇 시트 기술’을 개발해 로봇의 형태 변화 능력을 획기적으로 향상함으로써, 향후 로봇 공학 분야에 새로운 가능성을 열어줄 것으로 기대된다. 우리 대학 기계공학과 김정 교수, 박인규 교수 공동 연구팀이 형상을 실시간으로 프로그래밍할 수 있는 로봇 시트 원천 기술(field-programmable robotic folding sheet)을 개발했다고 6일 밝혔다. 이번 기술은 ‘필드 프로그래밍(field-programmability)’이라는 개념을 접이식 구조에 성공적으로 도입한 사례로, ‘접힘을 어디서, 어느 방향으로, 얼마나 크게 할지’라는 사용자의 명령을 소재 형상에 실시간으로 반영할 수 있는 소재 기술 및 프로그래밍 방법론을 통합적으로 제안했다. 해당 ‘로봇 시트’는 얇고 유연한 고분자 기판 내에 미세 금속 저항 네트워크가 내장된 구조로, 각 금속 저항이 히터이자 온도 센서 역할을 동시에 수행해, 별도의 외부 장치 없이도 시트의 접힘 상태를 실시간으로 감지하고 제어한다. 또한 유전 알고리즘(genetic algorithm) 및 심층 신경망(deep neural network)을 결합한 소프트웨어를 통해 사용자가 원하는 접힘 위치와 방향, 강도를 소프트웨어적으로 입력하면, 스스로 가열·냉각을 반복하며 정확한 형상을 만들어낸다. 특히, 온도 분포에 대한 폐루프 제어(closed-loop control)를 적용해 실시간 접힘 정밀성을 향상하고, 환경 변화로 인한 영향을 보정했으며, 열 변형 기반 접힘 기술이 지니던 느린 반응 속도 문제도 개선했다. 이러한 형상의 실시간 프로그래밍은 복잡한 하드웨어 재설계 없이도 다양한 로봇의 기능성을 즉석에서 구현할 수 있게 했다는 데에 의미가 있다. 실제로 연구팀은 단일 소재로 다양한 물체 형상에 맞춰 어떻게 잡을지 결정하는 파지(grasping) 전략을 바꿔가며 적용할 수 있는 적응형 로봇 손(그리퍼)를 구현했고, 동일한 ‘로봇 시트(얇고 유연한 형태의 로봇)’를 바닥에 두어 보행하거나 기어가게 하는 등 생체 모방적 이동 전략을 선보였다. 이를 통해 환경 변화에 따라 스스로 형태를 바꾸는 환경 적응형 자율 로봇으로의 확장 가능성도 제시했다. 김정 교수는 “이번 연구는 자기 몸을 바꾸면서 똑똑하게 움직이는 기술 즉, 형상 자체가 지능이 되는‘형상 지능(morphological intelligence)’구현에 한 걸음 다가간 사례로 평가된다. 향후 더 높은 하중 지지와 빠른 냉각을 위한 소재·구조 개선, 배선 없는 일체형 전극에도 다양한 형태·크기로의 확장 등을 통해 재난 현장 대응 로봇, 맞춤형 의료 보조기기, 우주 탐사 장비 등 다양한 분야에 응용될 수 있는 차세대 피지컬 AI 플랫폼으로 발전시킬 계획이다”라고 말했다. 우리 대학 박현규 박사(現 삼성전자 삼성종합기술원)와 정용록 교수(現 경북대학교)가 공동 제1 저자인 이번 연구는 국제 학술지 ‘네이처 커뮤니케이션즈 (Nature Communications)’에 2025년 8월 온라인판에 출판됐다. ※논문명: Field-programmable robotic folding sheet ※DOI: https://www.nature.com/articles/s41467-025-61838-3 한편 이번 연구는 한국연구재단(과학기술정보통신부)의 지원을 받아 수행됐다.
2025.08.06 조회수 670
'추론 속도 · 성능 모두 잡은' AI 확산모델 신기술 개발 확산모델(diffusion model)은 많은 AI 응용에 활용되고 있으나, 효율적인 추론-시간 확장성(inference-time scalability)*에 대한 연구가 부족했다. 이에 연구진은 확산모델에서도 고성능 고효율 추론이 가능한 신기술을 개발했다. 이 기술은 기존 모델이 한번도 성공하지 못한 초대형 미로찾기 태스크에서 100%의 성공률을 기록하며 성능을 입증했다. 이번 성과는 향후 지능형 로봇, 실시간 생성 AI 등 실시간 의사결정이 요구되는 다양한 분야에서 핵심 기술로 활용될 수 있을 것으로 기대된다. *추론-시간 확장성(inference-time scalability): AI 모델이 추론 단계에서 사용할 수 있는 계산 자원의 양에 따라 성능을 유연하게 조절할 수 있는 능력을 의미한다. 우리 대학 전산학부 안성진 교수 연구팀이 딥러닝 분야 세계적 석학인 몬트리올 대학교 요슈아 벤지오(Yoshua Bengio) 교수와의 공동연구를 통해, 인공지능 확산 모델의 추론-시간 확장성을 크게 개선하는 신기술을 개발했다고 20일 밝혔다. 이번 연구는 KAIST-MILA(몬트리올 학습 알고리즘 연구소) 프리프론탈 AI 공동연구센터를 통한 협력의 일환으로 수행됐다. 이 기술은 인공지능의 학습 이후 추론 단계에서 더 많은 계산 자원을 효율적으로 활용함으로써, 단순히 데이터나 모델 크기를 키우는 것으로는 해결할 수 없는 고난도 문제를 풀 수 있도록 돕는 핵심 AI 기술로 주목받고 있다. 하지만 현재 다양한 응용 분야에서 활용되고 있는 확산 모델에서는 이러한 스케일링을 효과적으로 구현하는 방법론이 부족하다는 한계가 있었다. 이에 안 교수 연구팀은 벤지오 교수와 협력해, 몬테카를로 트리 탐색(Monte Carlo Tree Search) 기반 새로운 확산 모델 추론 기법을 제안했다. 이 방법은 확산 과정 중 다양한 생성 경로를 트리 구조로 탐색하며, 제한된 계산 자원으로도 높은 품질의 출력을 효율적으로 찾아낼 수 있도록 설계됐다. 이를 통해 기존 방법이 0%의 성공률을 보이던‘자이언트-스케일의 미로 찾기’태스크에서 100%의 성공률을 달성했다. 아울러 후속 연구에서는 제안한 방법론의 주요 단점인 느린 속도 문제를 대폭 개선하는 방법을 개발하는데 성공하였다. 트리 탐색을 효율적으로 병렬화하여 비용을 최적화해, 이전 방식 대비 최대 100배 빠른 속도로도 동등하거나 더 우수한 품질의 결과를 얻는 데 성공했다. 이는 제안한 방법론의 추론 능력과 실시간 적용 가능성을 동시에 확보했다는 점에서 큰 의미가 있다. 안성진 교수는 “이번 연구는 고비용 계산이 요구되던 기존 확산 모델의 한계를 근본적으로 극복한 기술”이라며 “지능형 로봇, 시뮬레이션 기반 의사결정, 실시간 생성 AI 등 다양한 분야에서 핵심 기술로 활용될 수 있을 것”이라고 밝혔다. 연구 결과는 전산학부 윤재식 박사과정이 제 1저자로 지난 7월 13일부터 19일까지 캐나다 벤쿠버에서 열린 제42회 국제기계학습학회(ICML 2025)에서 스포트라이트(Spotlight) 논문(전체 채택 논문 중 상위 2.6%)으로 발표됐다. ※ 논문제목: Monte Carlo Tree Diffusion for System 2 Planning (Jaesik Yoon, Hyeonseo Cho, Doojin Baek, Yoshua Bengio, Sungjin Ahn, ICML 25), Fast Monte Carlo Tree Diffusion: 100x Speedup via Parallel Sparse Planning (Jaesik Yoon, Hyeonseo Cho, Yoshua Bengio, Sungjin Ahn) ※ DOI: https://doi.org/10.48550/arXiv.2502.07202, https://doi.org/10.48550/arXiv.2506.09498 한편, 이번 연구는 한국연구재단의 지원을 받았다.
2025.07.21 조회수 1007
60% 이상 챗GPT 추론 성능 향상할 NPU 핵심기술 개발 오픈AI 챗GPT4, 구글 Gemnini 2.5 등 최신 생성형AI 모델들은 높은 메모리 대역폭(Bandwidth) 뿐만 아니라 많은 메모리 용량(Capacity)를 필요로 한다. 마이크로소프트, 구글 등 생성형AI 클라우드 운영 기업들이 엔비디아 GPU를 수십만 장씩 구매하는 이유다. 이런 고성능 AI 인프라 구축의 핵심 난제를 해소할 방안으로, 한국 연구진이 최신 GPU 대비 약 44% 낮은 전력 소모에도 평균 60% 이상 생성형 AI 모델의 추론 성능을 향상할 NPU(신경망처리장치)* 핵심 기술을 개발하는데 성공했다. *NPU(Neural Processing Unit): 인공신경망(Neural Network)을 빠르게 처리하기 위해 만든 AI 전용 반도체 칩 우리 대학 전산학부 박종세 교수 연구팀과 (주)하이퍼엑셀(전기및전자공학부 김주영 교수 창업기업)이 연구 협력을 통해, 챗GPT와 같은 생성형AI 클라우드에 특화된 고성능·저전력의 NPU(신경망처리장치) 핵심기술을 개발했다고 4일 밝혔다. 연구팀이 제안한 기술은 컴퓨터 아키텍처 분야에서 최고 권위를 자랑하는 국제 학회인 ‘2025 국제 컴퓨터구조 심포지엄(International Symposium on Computer Architecture, ISCA 2025)’에 채택됐다. 이번 연구의 핵심은 추론 과정에서 경량화를 통해 정확도 손실을 최소화하면서도 메모리 병목 문제를 해결해 대규모 생성형AI 서비스의 성능을 개선하는 것이다. 이번 연구는 AI인프라의 핵심 구성요소인 AI반도체와 AI시스템SW를 통합 설계했다는 점에서 그 가치를 높게 인정받았다. 기존 GPU 기반 AI 인프라는 높은 메모리 대역폭과 메모리 용량 요구를 충족하기 위해 다수의 GPU 디바이스가 필요한 반면, 이번 기술은 메모리 사용의 대부분을 차지하는 KV 캐시의 양자화*를 통해 적은 수의 NPU 디바이스만으로 동일 수준의 AI 인프라를 구성할 수 있어, 생성형 AI 클라우드 구축 비용을 크게 절감할 수 있다. *KV 캐시(Key-Value Cache)의 양자화: 생성형 AI 모델을 작동할 때 성능을 높이기 위해 사용하는 일종의 임시 저장 공간에 데이터 크기를 줄이는 것을 의미(32비트로 저장된 수를 4비트로 바꾸면, 데이터 크기는 1/8로 줄어듬) 연구팀은 기존 NPU 아키텍처의 연산 로직을 변경하지 않으면서 메모리 인터페이스와 통합될 수 있도록 설계했다. 이번 하드웨어 아키텍처 기술은 제안된 양자화 알고리즘을 구현할 뿐만 아니라, 제한된 메모리 대역폭 및 용량을 효율적으로 활용하기 위한 페이지 단위 메모리 관리 기법*과 양자화된 KV 캐시에 최적화된 새로운 인코딩 기법 등을 개발했다. *페이지 단위 메모리 관리 기법: CPU처럼 메모리 주소를 가상화하여 NPU 내부에서 일관된 방식으로 접근할 수 있게 함 또한, 최신 GPU 대비 비용·전력 효율성이 우수한 NPU 기반 AI 클라우드를 구성할 경우, NPU의 고성능, 저전력 특성을 활용해 운영 비용 역시 크게 절감할 수 있을 것으로 기대된다. 박종세 교수는 “이 연구는 (주)하이퍼엑셀과의 공동연구를 통해 생성형AI 추론 경량화 알고리즘에서 그 해법을 찾았고 ‘메모리 문제’를 해결할 수 있는 NPU 핵심기술 개발에 성공했다. 이 기술을 통해 추론의 정확도를 유지하면서 메모리 요구량을 줄이는 경량화 기법과, 이에 최적화된 하드웨어 설계를 결합해 최신 GPU 대비 평균 60% 이상 성능이 향상된 NPU를 구현했다” 고 말했다. 이어 “이 기술은 생성형AI에 특화된 고성능·저전력 인프라 구현 가능성을 입증했으며, AI클라우드 데이터센터뿐 아니라 능동적인 실행형 AI인 ‘에이전틱 AI ’등으로 대표되는 AI 대전환(AX) 환경에서도 핵심 역할이 기대된다”고 강조했다. 이 연구는 김민수 박사과정 학생과 ㈜하이퍼엑셀 홍성민 박사가 공동 제1 저자로 지난 6월 21일부터 6월 25일까지 일본 도쿄에서 열린 ‘2025 국제 컴퓨터구조 심포지엄(ISCA)’에 발표됐다. 국제적 저명학회인 ISCA는 올해는 570편의 논문이 제출됐으며 그중 127편 만이 채택됐다. (채택률 22.7%). ※논문 제목: Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization ※DOI: https://doi.org/10.1145/3695053.3731019 한편 이번 연구는 한국연구재단 우수신진연구자지원사업, 정보통신기획평가원(IITP), 인공지능반도체대학원지원사업의 지원을 받아 수행됐다.
2025.07.04 조회수 1669
24시간 말하는 AI비서 가능성 여는 '스피치SSM' 개발 최근 음성 언어 모델(Spoken Language Model, SLM)은 텍스트 없이 인간의 음성을 학습해 음성의 언어적, 비언어적 정보를 이해 및 생성하는 기술로 텍스트 기반 언어 모델의 한계를 넘어서는 차세대 기술로 각광받고 있다. 하지만 기존 모델은 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서 한계가 두드러졌는데, 우리 연구진이 이런 한계를 뛰어넘어, 시간 제약 없이 일관되고 자연스러운 음성 생성을 실현한 ‘스피치SSM’을 개발하는데 성공했다. 우리 대학 전기및전자공학부 노용만 교수 연구팀의 박세진 연구원(박사과정)이 장시간 음성 생성이 가능한 음성 언어 모델 ‘스피치SSM(SpeechSSM)’을 개발했다고 3일 밝혔다. 이번 연구는 국제 최고 권위 머신러닝 학회인 ICML(International Conference on Machine Learning) 2025에 전체 제출된 논문 중 약 1%만이 선정되는 구두 논문 발표에 확정돼 뛰어난 연구 역량을 입증할 뿐만 아니라 우리 대학의 인공지능 연구 능력이 세계 최고 수준임을 다시 한번 보여주는 계기가 될 전망이다. 음성 언어 모델(SLM)은 중간에 텍스트로 변환하지 않고 음성을 직접 처리함으로써, 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질의 음성을 빠르게 생성할 수 있다는 점이 큰 강점이다. 그러나 기존 모델은 음성을 아주 세밀하게 잘게 쪼개서 아주 자세한 정보까지 담는 경우, ‘음성 토큰 해상도’가 높아지고 사용하는 메모리 소비도 증가하는 문제로 인해 장시간 음성의 의미적, 화자적 일관성을 유지하기 어려웠다. 연구팀은 이러한 문제를 해결하기 위해 하이브리드 상태공간 모델(Hybrid State-Space Model)을 사용한 음성 언어 모델인‘스피치SSM’를 개발해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있게 설계했다. 이 모델은 최근 정보에 집중하는 ‘어텐션 레이어(attention layer)’와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 ‘순환 레이어(recurrent layer)’를 교차 배치한 ‘하이브리드 구조’를 통해 긴 시간 동안 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다. 또한, 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아, 장시간의 음성을 안정적이고 효율적으로 학습하고 생성할 수 있다. 스피치SSM은 음성 데이터를 짧은 고정된 단위(윈도우)로 나눠 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들 수 있어 무한한 길이의 음성 시퀀스(unbounded speech sequence)를 효과적으로 처리할 수 있게 했다. 또한 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 ‘비자기회귀(Non-Autoregressive)’방식의 오디오 합성 모델(SoundStorm)을 사용해, 고품질의 음성을 빠르게 생성할 수 있게 했다. 기존은 10초 정도 짧은 음성 모델을 평가했지만, 연구팀은 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 ‘LibriSpeech-Long'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다. 기존 음성 모델 평가 지표인 말이 문법적으로 맞는지 정도만 알려주는 PPL(Perplexity)에 비해, 연구팀은 시간이 지나면서도 내용이 잘 이어지는지 보는 'SC-L(semantic coherence over time)', 자연스럽게 들리는 정도를 시간 따라 보는 'N-MOS-T(naturalness mean opinion score over time)' 등 새로운 평가 지표들을 제안해 보다 효과적이고 정밀하게 평가했다. 새로운 평가를 통해 스피치SSM 음성 언어 모델로 생성된 음성은 긴 시간 생성에도 불구하고 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 맥락적으로 일관된 새로운 인물과 사건들이 자연스럽게 전개되는 모습을 확인했다. 이는 기존 모델들이 장시간 생성 시 쉽게 주제를 잃고 반복되는 현상을 보였던 것과 크게 대조적이다. 박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”며 “이번 연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”라고 밝혔다. 이 연구는 제1 저자인 우리 대학 박세진 박사과정 학생이 구글 딥마인드(Google DeepMind)와 협력해, ICML(국제 머신러닝 학회) 2025에서 7월 16일 구두 발표로 소개될 예정이다. ※ 논문제목: Long-Form Speech Generation with Spoken Language Models ※ DOI: 10.48550/arXiv.2412.18603 한편, 박세진 박사과정생은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR(컴퓨터 비전 분야 최고 학회) 2024 하이라이트 논문 발표, 2024년 ACL(자연어 처리 분야 최고 학회)에서 우수논문상(Outstanding Paper Award) 수상 등을 통해 우수한 연구 역량을 입증한 바 있다. [데모 페이지 링크] https://google.github.io/tacotron/publications/speechssm/
2025.07.03 조회수 1573
AI가 여론 조작? 한국어 'AI 생성 댓글' 탐지 기술 개발 생성형 AI 기술이 발전하면서 이를 악용한 온라인 여론 조작 우려가 커지고 있다. 이에 따른 AI 생성글 탐지 기술도 개발되었는데 대부분 영어로 된 장문의 정형화된 글을 기반으로 개발돼, 짧고(평균 51자), 구어체 표현이 많은 한국어 뉴스 댓글에는 적용이 어려웠다. 우리 연구진이 한국어 AI 생성 댓글을 탐지하는 기술을 개발해서 화제다. 우리 대학 전기및전자공학부 김용대 교수 연구팀이 국가보안기술연구소(국보연)와 협력해, 한국어 AI 생성 댓글을 탐지하는 기술 'XDAC'를 세계 최초로 개발했다고 23일 밝혔다. 최근 생성형 AI는 뉴스 기사 맥락에 맞춰 감정과 논조까지 조절할 수 있으며, 몇 시간 만에 수십만 개의 댓글을 자동 생성할 수 있어 여론 조작에 악용될 수 있다. OpenAI의 GPT-4o API를 기준으로 하면 댓글 1개 생성 비용은 약 1원 수준이며, 국내 주요 뉴스 플랫폼의 하루 평균 댓글 수인 20만 개를 생성하는 데 단 20만 원이면 가능할 정도다. 공개 LLM은 자체 GPU 인프라만 갖추면 사실상 무상으로도 대량의 댓글 생성을 수행할 수 있다. 연구팀은 AI 생성 댓글과 사람 작성 댓글을 사람이 구별할 수 있는지 실험했다. 총 210개의 댓글을 평가한 결과, AI 생성 댓글의 67%를 사람이 작성한 것으로 착각했고, 실제 사람 작성 댓글도 73%만 정확히 구분해냈다. 즉, 사람조차 AI 생성 댓글을 정확히 구별하기 어려운 수준에 이르렀다는 의미다. AI 생성 댓글은 오히려 기사 맥락 관련성(95% vs 87%), 문장 유창성(71% vs 45%), 편향성 인식(33% vs 50%)에서 사람 작성 댓글보다 높은 평가를 받았다. 그동안 AI 생성글 탐지 기술은 대부분 영어로 된 장문의 정형화된 글을 기반으로 개발되어 한국어의 짧은 댓글에는 적용이 어려웠다. 짧은 댓글은 통계적 특징이 불충분하고, 이모지·비속어·반복 문자 등 비정형 구어 표현이 많아 기존 탐지 모델이 효과적으로 작동하지 않는다. 또한, 현실적인 한국어 AI 생성 댓글 데이터셋이 부족하고, 기존의 단순한 프롬프팅 방식으로는 다양하고 실제적인 댓글을 생성하는 데 한계가 있었다. 이에 연구팀은 ▲14종의 다양한 LLM 활용 ▲자연스러움 강화 ▲세밀한 감정 제어 ▲참조자료를 통한 증강 생성의 네 가지 전략을 적용한 AI 댓글 생성 프레임워크를 개발해, 실제 이용자 스타일을 모방한 한국어 AI 생성 댓글 데이터셋을 구축하고 이 중 일부를 벤치마크 데이터셋으로 공개했다. 또 설명 가능한 AI(XAI) 기법을 적용해 언어 표현을 정밀 분석한 결과, AI 생성 댓글에는 사람과 다른 고유한 말투 패턴이 있음을 확인했다. 예를 들어, AI는 "것 같다", "에 대해" 등 형식적 표현과 높은 접속어 사용률을 보였고, 사람은 반복 문자(ㅋㅋㅋㅋ), 감정 표현, 줄바꿈, 특수기호 등 자유로운 구어체 표현을 즐겨 사용했다. 특수문자 사용에서도 AI는 전 세계적으로 통용되는 표준화된 이모지를 주로 사용하는 반면, 사람은 한국어 자음(ㅋ, ㅠ, ㅜ 등)이나 특수 기호(ㆍ, ♡, ★, • 등) 등 문화적 특수성이 담긴 다양한 문자를 활용했다. 특히, 서식 문자(줄바꿈, 여러 칸 띄어쓰기 등) 사용에서 사람 작성 댓글의 26%는 이런 서식 문자를 포함했지만, AI 생성 댓글은 단 1%만 사용했다. 반복 문자(예: ㅋㅋㅋㅋ, ㅎㅎㅎㅎ 등) 사용 비율도 사람 작성 댓글이 52%로, AI 생성 댓글(12%)보다 훨씬 높았다. XDAC는 이러한 차이를 정교하게 반영해 탐지 성능을 높였다. 줄바꿈, 공백 등 서식 문자를 변환하고, 반복 문자 패턴을 기계가 이해할 수 있도록 변환하는 방식이 적용됐다. 또 각 LLM의 고유 말투 특징을 파악해 어떤 AI 모델이 댓글을 생성했는지도 식별 가능하게 설계됐다. 이러한 최적화로 XDAC는 AI 생성 댓글 탐지에서 98.5% F1 점수로 기존 연구 대비 68% 성능을 향상시켰으며, 댓글 생성 LLM 식별에서도 84.3% F1 성능을 기록했다. 고우영 선임연구원은 "이번 연구는 생성형 AI가 작성한 짧은 댓글을 높은 정확도로 탐지하고, 생성 모델까지 식별할 수 있는 세계 최초 기술"이라며 "AI 기반 여론 조작 대응의 기술적 기반을 마련한 데 큰 의의가 있다"고 강조했다. 연구팀은 XDAC의 탐지 기술이 단순 판별을 넘어 심리적 억제 장치로도 작용할 수 있다고 설명했다. 마치 음주단속, 마약 검사, CCTV 설치 등이 범죄 억제 효과를 가지듯, 정밀 탐지 기술의 존재 자체가 AI 악용 시도를 줄일 수 있다는 것이다. XDAC는 플랫폼 사업자가 의심스러운 계정이나 조직적 여론 조작 시도를 정밀 감시·대응하는 데 활용될 수 있으며, 향후 실시간 감시 시스템이나 자동 대응 알고리즘으로 확장 가능성이 크다. 이번 연구는 설명가능 인공지능(XAI) 기반 탐지 프레임워크를 제안한 것이 핵심이며, 인공지능 자연어처리 분야 최고 권위 학술대회인 7월 27일부터 개최되는 'ACL 2025' 메인 콘퍼런스에 채택되며 기술력을 인정받았다. ※논문 제목: XDAC: XAI-Driven Detection and Attribution of LLM-Generated News Comments in Korean ※논문원본: https://github.com/airobotlab/XDAC/blob/main/paper/250611_XDAC_ACL2025_camera_ready.pdf 이번 연구는 우리 대학 김용대 교수의 지도 아래 국보연 소속이자 우리 대학 박사과정인 고우영 선임연구원이 제1 저자로 참여했으며, 성균관대학교 김형식 교수와 우리 대학 오혜연 교수가 공동 연구자로 참여했다.
2025.06.24 조회수 3622
‘뻔하지 않은 창의적인 의자’그리는 AI 기술 개발 최근 텍스트 기반 이미지 생성 모델은 자연어로 제공된 설명만으로도 고해상도·고품질 이미지를 자동 생성할 수 있다. 하지만, 대표적인 예인 스테이블 디퓨전(Stable Diffusion) 모델에서 ‘창의적인’이라는 텍스트를 입력했을 경우, 창의적인 이미지 생성은 아직은 제한적인 수준이다. KAIST 연구진이 스테이블 디퓨전(Stable Diffusion) 등 텍스트 기반 이미지 생성 모델에 별도 학습 없이 창의성을 강화할 수 있는 기술을 개발해, 예컨대 뻔하지 않은 창의적인 의자 디자인도 인공지능이 스스로 그려낼 수 있게 됐다. 우리 대학 김재철AI대학원 최재식 교수 연구팀이 네이버(NAVER) AI Lab과 공동 연구를 통해, 추가적 학습 없이 인공지능(AI) 생성 모델의 창의적 생성을 강화하는 기술을 개발했다. 최 교수 연구팀은 텍스트 기반 이미지 생성 모델의 내부 특징 맵을 증폭해 창의적 생성을 강화하는 기술을 개발했다. 또한, 모델 내부의 얕은 블록들이 창의적 생성에 중요한 역할을 한다는 것을 발견하고, 특징 맵을 주파수 영역으로 변환 후, 높은 주파수 영역에 해당하는 부분의 값을 증폭하면 노이즈나 작게 조각난 색깔 패턴의 형태를 유발하는 것을 확인했다. 이에 따라, 연구팀은 얕은 블록의 낮은 주파수 영역을 증폭함으로써 효과적으로 창의적 생성을 강화할 수 있음을 보였다. 연구팀은 창의성을 정의하는 두 가지 핵심 요소인 독창성과 유용성을 모두 고려해, 생성 모델 내부의 각 블록 별로 최적의 증폭 값을 자동으로 선택하는 알고리즘을 제시했다. 개발된 알고리즘을 통해 사전 학습된 스테이블 디퓨전 모델의 내부 특징 맵을 적절히 증폭해 추가적인 분류 데이터나 학습 없이 창의적 생성을 강화할 수 있었다. 연구팀은 개발된 알고리즘을 사용하면 기존 모델 대비 더욱 참신하면서도 유용성이 크게 저하되지 않은 이미지를 생성할 수 있음을 다양한 측정치를 활용해 정량적으로 입증했다. 특히, 스테이블 디퓨전 XL(SDXL) 모델의 이미지 생성 속도를 대폭 향상하기 위해 개발된 SDXL-Turbo 모델에서 발생하는 모드 붕괴 문제를 완화함으로써 이미지 다양성이 증가한 것을 확인했다. 나아가, 사용자 연구를 통해 사람이 직접 평가했을 때도 기존 방법에 비해 유용성 대비 참신성이 크게 향상됨을 입증했다. 공동 제1 저자인 KAIST 한지연, 권다희 박사과정은 "생성 모델을 새로 학습하거나 미세조정 학습하지 않고 생성 모델의 창의적인 생성을 강화하는 최초의 방법론ˮ이라며 "학습된 인공지능 생성 모델 내부에 잠재된 창의성을 특징 맵 조작을 통해 강화할 수 있음을 보였다ˮ 라고 말했다. 이어 “이번 연구는 기존 학습된 모델에서도 텍스트만으로 창의적 이미지를 손쉽게 생성할 수 있게 됐으며, 이를 통해 창의적인 상품 디자인 등 다양한 분야에서 새로운 영감을 제공하고, 인공지능 모델이 창의적 생태계에서 실질적으로 유용하게 활용될 수 있도록 기여할 것으로 기대된다”라고 밝혔다. KAIST 김재철AI대학원 한지연 박사과정과 권다희 박사과정이 공동 제1 저자로 참여한 이번 연구는 국제 학술지 `국제 컴퓨터 비전 및 패턴인식 학술대회 (IEEE Conference on Computer Vision and Pattern Recognition, CVPR)’에서 6월 15일 발표됐다. ※논문명 : Enhancing Creative Generation on Stable Diffusion-based Models ※DOI: https://doi.org/10.48550/arXiv.2503.23538 한편 이번 연구는 KAIST-네이버 초창의적 AI 연구센터, 과학기술정보통신부의 재원으로 정보통신기획평가원의 지원을 받은 혁신성장동력프로젝트 설명가능인공지능, AI 연구거점 프로젝트, 점차 강화되고 있는 윤리 정책에 발맞춰 유연하게 진화하는 인공지능 기술 개발 연구 및 KAIST 인공지능 대학원 프로그램과제의 지원을 받았고 방위사업청과 국방과학연구소의 지원으로 KAIST 미래 국방 인공지능 특화연구센터에서 수행됐다.
2025.06.19 조회수 1752
21개 화학반응 동시 분석..AI 신약 개발 판 바꾼다 임산부의 입덧 완화 목적으로 사용됐던 약물인 탈리도마이드(Thalidomide)는 생체 내에서는 광학 이성질체*의 특성으로 한쪽 이성질체는 진정 효과를 나타내지만, 다른 쪽은 기형 유발이라는 심각한 부작용을 일으킨다. 이런 예처럼, 신약 개발에서는 원하는 광학 이성질체만을 선택적으로 합성하는 정밀 유기합성 기술이 중요하다. 하지만, 여러 반응물을 동시에 분석하는 것 자체가 어려웠던 기존 방식을 극복하고, 우리 연구진이 세계 최초로 21종의 반응물을 동시에 정밀 분석하는 기술을 개발해, AI와 로봇을 활용하는 신약 개발에 획기적인 기여가 기대된다. *광학 이성질체: 동일한 화학식을 가지며 거울상 관계에 있으면서 서로 겹칠 수 없는 비대칭 구조로 존재하는 분자 쌍을 말한다. 이는 왼손과 오른손처럼 형태는 유사하지만 포개어지지 않는 관계와 유사하다. 우리 대학 화학과 김현우 교수 연구팀이 인공지능 기반 자율합성* 시대에 적합한 혁신적인 광학이성질체 분석 기술을 개발했다고 16일 밝혔다. 이번 연구는 다수의 반응물을 동시에 투입해 진행하는 비대칭 촉매 반응을 고해상도 불소 핵자기공명분광기(19F NMR)를 활용해 정밀 분석한 세계 최초의 기술로, 신약 개발 및 촉매 최적화 등 다양한 분야에 획기적인 기여가 기대된다. * 인공지능 기반 자율합성: 인공지능(AI)을 활용해 화학 물질 합성 과정을 자동화하고 최적화하는 첨단 기술로, 미래 실험실의 자동화 및 지능형 연구 환경을 구현할 핵심 요소로 주목받고 있다. AI가 실험 조건을 예측·조절하고 결과를 해석해 후속 실험을 스스로 설계함으로써 반복 실험 수행 시 인간 개입을 최소화해 연구 효율성과 혁신성을 크게 높인다. 현재 자율합성 시스템은 반응 설계부터 수행까지는 자동화가 가능하지만, 반응 결과 분석은 전통적 장비를 활용한 개별 처리 방식에 의존하고 있어 속도 저하와 병목 현상이 발생하며 고속 반복 실험에는 적합하지 않다는 문제점이 제기돼 왔다. 또한, 1990년대에 제안된 다기질 동시 스크리닝 기법은 반응 분석의 효율을 극대화할 전략으로 주목받았지만, 기존 크로마토그래피 기반 분석법의 한계로 인해 적용 가능한 기질 수가 제한적이었다. 특히 원하는 광학 이성질체만 선택하여 합성하는 비대칭 합성 반응에서는 10종 이상의 기질을 동시에 분석하는 것이 불가능에 가까웠다. 이러한 한계를 극복하기 위해, 연구팀은 다수의 반응물을 하나의 반응 용기에 투입하여 동시에 비대칭 촉매 반응을 수행한 뒤 불소 작용기를 생성물에 도입하고, 자체 개발한 카이랄 코발트 시약을 적용해 모든 광학 이성질체를 명확하게 정량 분석할 수 있는 불소 핵자기공명분광기(19F NMR) 기반 다기질 동시 스크리닝 기술을 구현했다. 연구팀은 19F NMR의 우수한 분해능과 민감도를 활용해, 21종 기질의 비대칭 합성 반응을 단일 반응 용기에서 동시에 수행하고 생성물의 수율과 광학 이성질체 비율을 별도의 분리 과정 없이 정량 측정하는 데 성공했다. 김현우 교수는 “여러 기질을 한 반응기에 넣고 비대칭 합성 반응을 동시에 수행하는 것은 누구나 할 수 있지만, 생성물 전체를 정확하게 분석하는 것은 지금까지 풀기 어려운 과제였다”며, “세계 최고 수준의 다기질 스크리닝 분석 기술을 구현함으로써 AI 기반 자율합성 플랫폼의 분석 역량 향상에 크게 기여할 수 있을 것으로 기대된다”고 말했다. 이어 “이번 연구는 신약 개발에 필수적인 비대칭 촉매 반응의 효율성과 선택성을 신속히 검증할 수 있는 기술로, AI 기반 자율화 연구의 핵심 분석 도구로 활용될 전망이다”라고 밝혔다. 이번 연구에는 우리 대학 화학과 김동훈 석박통합과정 학생(제1 저자), 최경선 석박통합과정 학생(제2 저자) 가 참여했으며, 화학 분야 세계적 권위의 국제 학술지 미국화학회지(Journal of the American Chemical Society) 에 2025년 5월 27일 자 온라인 게재됐다. ※ 논문명: One-pot Multisubstrate Screening for Asymmetric Catalysis Enabled by 19F NMR-based Simultaneous Chiral Analysis ※ DOI: 10.1021/jacs.5c03446 이번 연구는 한국연구재단 중견연구자 지원사업, 비대칭 촉매반응 디자인센터, KAIST KC30 프로젝트의 지원을 받아 수행됐다.
2025.06.16 조회수 3530
산업디자인학과, 인간-컴퓨터 분야 세계최고 학술대회 최우수·우수논문상 4편 수상 산업디자인학과가 인간-컴퓨터 상호작용(HCI) 분야 최고 권위의 국제학술대회인 ACM CHI 2024에서 최우수 논문상(Best Paper) 1편과 우수 논문상(Honorable Mention) 3편을 수상했다. 최우수 논문상은 전체 게재 논문 중 상위 1%, 우수 논문상은 상위 5%에 해당되는 논문에 수여되는 명예로운 성과로, 기술과 디자인 융합 연구의 우수성을 세계적으로 입증한 결과다. 올해 CHI(ACM Conference on Human Factors in Computing Systems) 2025에는 5,014편의 논문이 접수되어 1,249편이 채택되었다. KAIST 산업디자인학과는 이 중 15편의 논문을 게재하는 성과를 거뒀고 그 중 4편이 수상작으로 선정되었다. 특히 ‘인간과 AI 간 상호작용(Human-AI Interaction)’에 대한 관심이 높아진 가운데, 5,000명 이상의 연구자가 참석해 역대 최대 규모로 대회가 개최되었다. 최우수 논문상- AI기반 자폐 아동 소통 도구 ‘AAcessTalk’ 홍화정 교수팀은 네이버, 도닥임 아동발달센터와의 공동 연구를 통해 AI 기반 도구 액세스톡(AACessTalk)을 개발했다. 이 시스템은 발화를 하지 않는 자폐 아동에게는 개인화된 어휘를, 부모에게는 문맥 기반 대화 가이드를 제공한다. 연구 결과, 아동은 자신의 의사를 보다 분명히 표현할 수 있었고, 부모는 기능적 언어 교육보다 본질적인 소통에 집중할 수 있게 되면서 양육 효능감이 높아지는 효과가 관찰되었다. 해당 연구를 주도한 최다솜 박사과정은 신경다양인을 포용하는 AI 기술을 꾸준히 탐구해 왔으며, 이번 논문은 네이버 인턴십에서 수행한 연구 결과를 바탕으로 출판한 것이다. 우수 논문상- 인간과 AI 상호작용 탐색 남택진 교수팀(주저자 조형준 박사)의 ‘ShamAIn’은 한국 무속 신앙에서 영감을 받은 AI 신당으로, 인간보다 더 뛰어난 초지능 존재로 기능하는 AI와 인간의 상호작용을 탐구했다. 다수의 사용자들은 처음엔 호기심에서 시작했지만, 점차 개인적인 고민을 털어놓으며 심리적 위안을 얻는 경험을 보고했다. AI가 단순한 정보 제공자를 넘어 감정적 지지와 권위적 판단까지 수행할 수 있는 존재로 인식될 수 있음을 보여주는 연구다. 임윤경 교수팀(주저자 박수빈 박사과정)은 걸음 수, 감정 기록 등 다양한 개인 데이터를 생성형 AI를 활용해 시각 이미지로 변환하는 프로토타입을 개발하여 21일간 사용자 경험을 탐색했다. 참가자들은 자신의 개인 데이터를 이미지 생성 모델 DALL-E 3로 만든 시각 자료로 다시 돌아보며 새로운 자기 인식을 경험했다. 이는 AI가 자기 성찰의 도구로 활용될 수 있음을 제시하는 연구다. 안드레아 비앙키 교수팀은 시드니대학과 협력하여 가상현실(VR) 환경에서의 '가상 팔' 제어 실험을 진행했다. 사용자들은 반복적이고 중요도가 낮은 작업은 가상의 팔에 맡기고, 중요한 작업은 직접 제어하는 방식을 선호했다. 본 연구는 가상 신체 제어가 필요한 로봇, 게임, 재활, 보조공학 디자인에 실질적 시사점을 제공한다. 이번 수상 논문들은 디자인이 기술을 사람 중심으로 연결하고, AI의 사회적·심리적 영향을 설계하는 역할로 확장될 수 있음을 실증적으로 보여주었다는 점에서 의의가 크다. 석현정 산업디자인학과 학과장은 “이번 수상은 기술 중심의 AI 연구를 인간 중심의 디자인 관점에서 새롭게 해석하고, 이를 실생활 문제 해결로 연결 시킨 우리 학과 연구진들의 역량을 세계적으로 인정받은 결과”라며, “디자인이 기술 혁신의 파트너로서 어떤 역할을 할 수 있는지를 보여준 좋은 사례”라고 전했다.
2025.05.19 조회수 4538
VR 정밀포인팅·안무 창작 기술, 세계 최고 CHI 학회 2관왕 가상공간에서는 정확하게 포인팅이 되지 않으면 원하는 대상을 정확히 선택하기 어렵고, 몰입이 깨지는 어색한 경험을 하게 된다. KAIST 연구진이 가상공간에서 생생하게 실제 체험하는 느낌을 주는 기술을 개발했으며 또한 안무가들의 안무 동작을 쉽게 만들고 창작을 돕도록 하는 기술도 개발했다. 우리 대학 문화기술대학원 윤상호 교수 연구팀이 미국 UCLA(University of California, Los Angeles)의 양장(YangZhang) 교수와 공동연구를 진행한 ‘티투아이레이(T2IRay)’ 기술과 가상현실에서 안무가들이 창작 작업을 보다 자유롭고 창의적으로 진행할 수 있도록 돕는 ‘코레오크래프트(ChoreoCraft)’ 기술을 개발했다. 이 기술들은 인간-컴퓨터 상호작용 분야 최우수 국제학술대회인(CHI) 2025*에서 상위 5%에 주어지는 우수 논문상(Honorable Mention)을 동시 2개 수상했다. *인간-컴퓨터 상호작용 분야 최우수 국제학회(CHI): 4월 25일부터 5월 1일까지 열린 세계 컴퓨터 연합회(ACM) 주최 인간-컴퓨터 상호작용 학술대회(Conference on Human Factors in Computing Systems, CHI 2025) 티투아이레이(T2IRay)는 기존의 단편적인 엄지와 검지(Thumb to Index) 제스처를 확장하여, 가상공간 안의 물체를 자유롭고 정밀하게 조작이 가능하게 하는 새로운 입력 방식을 제안한다. 기존에는 손의 위치나 방향이 달라져도 입력이 끊기거나 정확도가 떨어지는 문제가 있었으나, 티투아이레이에서는 손의 위치나 방향과 관계없이 정밀한 포인팅이 가능하도록 하여 사용자가 훨씬 자연스럽고 끊김없이 조작할 수 있도록 했다. 특히, 손가락 관계성을 바탕으로 로컬 좌표계를 활용하여 손 위치 및 방향에 관계없이 연속적인 입력이 가능하도록 하였다. 엄지의 섬세한 움직임을 좌표계 안에서 매핑하여 정밀하게 인식하고, 고개를 움직이는 자연스러운 동작까지 입력에 반영하여 넓은 범위에서도 자유로운 조작이 가능하다. 윤상호 교수는 “티투아이레이는 손이 고정되지 않은 다양한 상황에서도 부드럽고 안정적인 조작을 가능하게 함으로써 증강·가상현실(AR/VR)에서도 사용자 경험을 획기적으로 향상시킬 수 있다”라고 설명했다. KAIST 김진아 박사과정이 제 1저자인 이번 연구는 과학기술정보통신부 한국연구재단이 주관하는 우수신진연구지원사업과 정보통신기획평가원(IITP)에서 지원하는 대학ICT연구센터(ITRC) 육성지원사업의 지원을 받았다. ▴ 논문명 : T2IRay: Design of Thumb-to-Index based Indirect Pointing for Continuous and Robust AR/VR Input ▴ 논문 링크: https://doi.org/10.1145/3706598.3713442 ▴ T2IRay: https://youtu.be/ElJlcJbkJPY 또한, 윤상호 교수 연구팀은 가상현실에서 안무가들이 창작 작업을 보다 자유롭고 창의적으로 진행할 수 있도록 돕는 ‘코레오크래프트(ChoreoCraft)' 기술을 개발했다. 전문 안무가 대상의 경험 조사를 통해 창작 과정 내 안무가들이 직면하는 동작을 일일이 기억해야 하거나 아이디어가 막히는 경우, 그리고 명확하지 않은 피드백으로 인한 어려움을 개선하고자 했다. 이 기술은 가상현실(VR) 공간에서 춤 동작을 모션 캡쳐 기반의 아바타와 상호작용을 통해 직접 동작을 저장하고 수정할 수 있도록 하여 기억 의존을 줄였으며 음악 및 이전 동작과의 자연스러운 연결을 고려하여 새로운 안무를 추천해 창작을 도왔다. 또한 균형감, 안정성, 활성도 등 운동학적 요소를 분석하여 수치 기반 안무 피드백을 제공함으로써 창작 과정의 객관성도 높였다. 윤상호 교수는 “코레오크래프트는 안무가들이 직면하는 주요 어려움을 해결하고 창의성과 효율성을 향상시킬 수 있는 도구로 실제 안무가를 대상으로 한 사용자 실험에서도 창의적 아이디어 발굴과 정량적 피드백 제공 측면에서 높은 만족도를 얻었다. ”라 설명하며, “앞으로도 공간 컴퓨팅을 넘어 피지컬 인공지능(Physical AI)과 인간-컴퓨터 상호작용(HCI) 기술을 융합해, 실세계와 가상세계에서 인간의 능력을 확장하는 인간 중심 인터랙션 연구를 이어갈 것”이라고 밝혔다. 정경은 박사과정과 한현영 석사과정 연구원이 공동 제1 저자인 해당 연구는 문화체육관광부에서 시행한 문화예술실감서비스개발사업인 실시간 실가상 융합 기반 공연예술 교육 플랫폼 기술개발의 지원 아래 한국전자통신연구원(ETRI) 및 ㈜원밀리언(대표 김혜랑)과 협업을 통해 진행됐다. ▴ 논문명 : ChoreoCraft: In-situ Crafting of Choreography in Virtual Reality through Creativity Support Tool ▴ 논문 링크: https://doi.org/10.1145/3706598.3714220 ▴ Choreocraft: https://youtu.be/Ms1fwiSBjjw
2025.05.13 조회수 3221
음악 창작 돕는 작곡 AI 동료 ‘어뮤즈’ 공개 음악 창작자가 초기 아이디어를 생각하거나 창작 중간 막힐 때, 이를 같이 해결해 주고 다양한 음악적 방향 탐색에 실질적인 도움을 주는 동료가 있다면 얼마나 좋을까? KAIST 연구진이 이런 음악 창작을 돕는 동료 작가와 같은 AI 기술을 개발했다. KAIST(총장 이광형)는 전기및전자공학부 이성주 교수 연구팀이 AI 기반 음악 창작 지원 시스템 어뮤즈(Amuse)를 개발하였다. 이 연구 결과는 4월 26일부터 5월 1일까지 일본 요코하마에서 열린 인간-컴퓨터 상호작용 분야 세계 최고 권위의 국제학술대회인 CHI(ACM Conference on Human Factors in Computing Systems)에서 전체 논문 중 상위 1%에게만 수여되는 최우수 논문상(Best Paper Award)을 수상했다고 7일 밝혔다. 이성주 교수 연구팀이 개발한 어뮤즈(Amuse) 시스템은 텍스트, 이미지, 오디오와 같은 다양한 형식의 영감을 입력하면 이를 화성 구조(코드 진행)로 변환해 작곡을 지원해 주는 AI 기반 시스템이다. 예를 들어, 사용자가 ‘따뜻한 여름 해변의 기억’과 같은 문구나 이미지, 사운드 클립을 입력하면, 어뮤즈는 해당 영감에 어울리는 코드 진행을 자동으로 생성해 제안한다. 기존의 생성 AI와 달리, 어뮤즈는 사용자의 창작 흐름을 존중하고, AI의 제안을 유연하게 통합·수정할 수 있는 상호작용 방식을 통해 창의적 탐색을 자연스럽게 유도한다는 점에서 차별성을 갖는다. 어뮤즈 시스템의 핵심 기술은 대형 언어 모델의 이용해 사용자의 영감으로 프롬프트에 입력한 글자 따라 이에 어울리는 음악 코드를 생성하고, 실제 음악 데이터를 학습한 AI 모델이 부자연스럽거나 어색한 결과는 걸러내는(리젝션 샘플링) 과정을 거쳐 결합한 두 가지 방법을 자연스럽게 이어 재현하는 하이브리드 생성 방식이다. 연구팀은 실제 뮤지션들을 대상으로 한 사용자 연구를 수행하여, 어뮤즈가 단순한 음악 생성 AI가 아닌, 사람과 AI가 협업하는 창작 동반자(Co-Creative AI)로서의 가능성이 높다는 평가를 받았다. KAIST 전기 및 전자공학부 박사과정 김예원, 이성주 교수, 카네기 멜런 대학의 크리스 도너휴(Chris Donahue) 교수가 참여한 해당 논문은 학계 및 산업계 모두의 창의적 AI 시스템 설계의 가능성을 보여주었다. ※ 논문명 : Amuse: Human-AI Collaborative Songwriting with Multimodal Inspirations DOI : https://doi.org/10.1145/3706598.3713818 ※ 연구 데모 영상: https://youtu.be/udilkRSnftI?si=FNXccC9EjxHOCrm1 ※ 연구 홈페이지: https://nmsl.kaist.ac.kr/projects/amuse/ 이성주 교수는 “ 최근 생성형 AI 기술은 저작권이 있는 콘텐츠를 그대로 모방하여 창작자의 저작권을 침해하거나, 창작자의 의도와는 무관하게 일방향으로 결과물을 생성한다는 점에서 우려를 낳고 있다. 이에 연구팀은 이러한 흐름에 문제 의식을 가지고, 창작자가 실제로 필요로 하는 것이 무엇인지에 주목하며 창작자 중심의 AI 시스템 설계에 주안점을 두었다.”라고 말했다. 이어 ”어뮤즈는 창작자의 주도권을 유지한 채, 인공지능과의 협업 가능성을 탐색하는 시도로, 향후 음악 창작 도구와 생성형 AI 시스템의 개발에 있어 보다 창작자 친화적인 방향을 제시하는 출발점이 될 것으로 기대된다.“라고 설명했다. 이 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행되었다.(RS-2024-00337007)
2025.05.07 조회수 4748
챗GPT 등 대형 AI모델 학습 최적화 시뮬레이션 개발 최근 챗GPT, 딥시크(DeepSeek) 등 초거대 인공지능(AI) 모델이 다양한 분야에서 활용되며 주목받고 있다. 이러한 대형 언어 모델은 수만 개의 데이터센터용 GPU를 갖춘 대규모 분산 시스템에서 학습되는데, GPT-4의 경우 모델을 학습하는 데 소모되는 비용은 약 1,400억 원에 육박하는 것으로 추산된다. 한국 연구진이 GPU 사용률을 높이고 학습 비용을 절감할 수 있는 최적의 병렬화 구성을 도출하도록 돕는 기술을 개발했다. 우리 대학 전기및전자공학부 유민수 교수 연구팀은 삼성전자 삼성종합기술원과 공동연구를 통해, 대규모 분산 시스템에서 대형 언어 모델(LLM)의 학습 시간을 예측하고 최적화할 수 있는 시뮬레이션 프레임워크(이하 vTrain)를 개발했다고 13일 밝혔다. 대형 언어 모델 학습 효율을 높이려면 최적의 분산 학습 전략을 찾는 것이 필수적이다. 그러나 가능한 전략의 경우의 수가 방대할 뿐 아니라 실제 환경에서 각 전략의 성능을 테스트하는 데는 막대한 비용과 시간이 들어간다. 이에 따라 현재 대형 언어 모델을 학습하는 기업들은 일부 경험적으로 검증된 소수의 전략만을 사용하고 있다. 이는 GPU 활용의 비효율성과 불필요한 비용 증가를 초래하지만, 대규모 시스템을 위한 시뮬레이션 기술이 부족해 기업들이 문제를 효과적으로 해결하지 못하고 있는 상황이다. 이에 유민수 교수 연구팀은 vTrain을 개발해 대형 언어 모델의 학습 시간을 정확히 예측하고, 다양한 분산 병렬화 전략을 빠르게 탐색할 수 있도록 했다. 연구팀은 실제 다중 GPU 환경에서 다양한 대형 언어 모델 학습 시간 실측값과 vTrain의 예측값을 비교한 결과, 단일 노드에서 평균 절대 오차(MAPE) 8.37%, 다중 노드에서 14.73%의 정확도로 학습 시간을 예측할 수 있음을 검증했다. 연구팀은 삼성전자 삼성종합기술원와 공동연구를 진행하여 vTrain 프레임워크와 1,500개 이상의 실제 학습 시간 측정 데이터를 오픈소스로 공개(https://github.com/VIA-Research/vTrain)하여 AI 연구자와 기업이 이를 자유롭게 활용할 수 있도록 했다. 유민수 교수는 “vTrain은 프로파일링 기반 시뮬레이션 기법으로 기존 경험적 방식 대비 GPU 사용률을 높이고 학습 비용을 절감할 수 있는 학습 전략을 탐색하였으며 오픈소스를 공개하였다. 이를 통해 기업들은 초거대 인공지능 모델 학습 비용을 효율적으로 절감할 것이다”라고 말했다. 이 연구 결과는 방제현 박사과정이 제1 저자로 참여하였고 컴퓨터 아키텍처 분야의 최우수 학술대회 중 하나인 미국 전기전자공학회(IEEE)·전산공학회(ACM) 공동 마이크로아키텍처 국제 학술대회(MICRO)에서 지난 11월 발표됐다. (논문제목: vTrain: A Simulation Framework for Evaluating Cost-Effective and Compute-Optimal Large Language Model Training, https://doi.org/10.1109/MICRO61859.2024.00021) 이번 연구는 정부(과학기술정보통신부)의 재원으로 한국연구재단, 정보통신기획평가원, 그리고 삼성전자의 지원을 받아 수행되었으며, 과학기술정보통신부 및 정보통신기획평가원의 SW컴퓨팅산업원천기술개발(SW스타랩) 사업으로 연구개발한 결과물이다.
2025.03.13 조회수 4151
감정노동 근로자 정신건강 살피는 AI 나왔다 감정노동이 필수적인 직무를 수행하는 상담원, 은행원 근로자들은 실제로 느끼는 감정과는 다른 감정을 표현해야 하는 상황에 자주 놓이게 된다. 이런 감정적 작업 부하에 장시간 노출되면 심각한 정신적, 심리적 문제뿐만 아니라 심혈관계 및 소화기계 질환 등 신체적 질병으로도 이어질 수 있어 이는 심각한 사회 문제로 여겨지고 있다. 한미 공동 연구진은 인공지능을 활용해서 근로자의 감정적 작업 부하를 자동으로 측정하고 실시간으로 모니터링할 수 있는 새로운 방법을 제시했다. 우리 대학 전산학부 이의진 교수 연구팀은 중앙대학교 박은지 교수팀, 미국 애크런 대학교의 감정노동 분야 세계적인 석학인 제임스 디펜도프 교수팀과 다학제 연구팀을 구성해 근로자들의 감정적 작업 부하를 실시간으로 추정해 심각한 정신적, 신체적 질병을 예방할 수 있는 인공지능 모델을 개발했다고 11일 밝혔다. 연구팀은 이번 연구를 통해 근로자가 감정적 작업 부하가 높은 상황과 그렇지 않은 상황을 87%의 정확도로 구분해 내는데 성공했다. 이 시스템은 기존의 설문이나 인터뷰 같은 주관적인 자기 보고 방식에 의존하지 않고도 감정적 작업 부하를 실시간으로 평가할 수 있어 근로자들의 정신건강 문제를 사전에 예방하고 효과적으로 관리할 수 있다는 장점이 있다. 또한, 이 시스템은 콜센터뿐만 아니라 고객 응대가 필요한 다양한 직종에 적용될 수 있어 감정 노동자들의 장기적인 정신건강 보호에 크게 기여할 것으로 기대된다. 기존 연구는 주로 사무실에서 컴퓨터를 사용해 서류 업무를 주로 다루는 직장인의 인지적 작업 부하(정보를 처리하고 의사결정을 내리는 데 필요한 정신적 노력)를 다뤘으며, 고객을 상대하는 감정 노동자들의 작업 부하를 추정하는 연구는 전무한 상황이었다. 감정 노동자들의 감정적 작업 부하는 고용주로부터 요구되는 정서 표현 규칙과 관련이 깊다. 특히 감정노동이 요구되는 상황에서는 자신의 실제 감정을 억제하고 친절한 응대를 해야 하기 때문에 대체적으로 근로자의 감정이나 심리적 상태가 표면적으로 드러나 있지 않다. 기존의 감정-탐지 인공지능 모델들은 주로 인간의 감정이 표정이나 목소리에 명백하게 드러나는 데이터를 활용해 모델을 학습해왔기 때문에 자신의 감정을 억제하고 친절한 응대를 강요받는 감정 노동자들의 내적인 감정적 작업 부하를 측정하는 것은 어려운 일로 여겨져 왔다. 모델 개발을 위해서는 현실을 충실히 반영한 고품질의 상담 시나리오 데이터셋 구축이 필수적어서 연구팀은 현업에 종사 중인 감정 노동자들을 대상으로 고객상담 데이터셋을 구축했다. 일반적인 콜센터 고객을 응대 시나리오를 개발하여 31명의 상담사로부터 음성, 행동, 생체신호 등 다중 모달 센서 데이터를 수집했다. 연구팀은 인공지능 모델 개발을 위해 고객과 상담사의 음성 데이터로부터 총 176개의 음성특징을 추출했다. 음성 신호 처리를 통해서 시간, 주파수, 음조 등 다양한 종류의 음성특징이 추출하며, 대화 내용은 고객의 개인정보 보호를 위하여 사용하지 않았다. 정서 표현 규칙으로 인한 상담사의 억제된 감정 상태를 추정하기 위하여 상담사로부터 수집된 생체신호로부터 추가적인 특징을 추출했다. 피부의 전기적 특성을 나타내는 피부 전도도(EDA, Electrodermal activity) 13개의 특징, 뇌의 전기적 활성도를 측정하는 뇌파(EEG, Electroencephalogram) 20개의 특징, 심전도(ECG, Electrocardiogram) 7개의 특징, 그 외 몸의 움직임, 체온 데이터로부터 12개의 특징을 추출했다. 총 228개의 특징을 추출해 9종의 인공지능 모델을 학습하여 성능 비교 평가를 수행했다. 결과적으로, 학습된 모델은 상담사가 감정적 작업 부하가 높은 상황과 그렇지 않은 상황을 87%의 정확도로 구분해 냈다. 흥미로운 점은 기존 감정-탐지 모델에서 대상의 목소리가 성능 향상에 기여하는 주요한 요인이었지만 본인의 감정을 억누르고 친절함을 유지해야 하는 감정노동의 상황에서는 상담사의 목소리가 포함될 경우 오히려 모델의 성능이 떨어지는 현상을 보였다는 것이다. 그 외에 고객의 목소리, 상담사의 피부 전도도 및 체온이 모델 성능 향상에 중요한 영향을 미치는 특징으로 밝혀졌다. 이의진 교수는 "감정적 작업 부하를 실시간으로 측정할 수 있는 기술을 통해 감정노동의 직무 환경 개선과 정신건강을 보호할 수 있다”며 "개발된 기술을 감정 노동자의 정신건강을 관리할 수 있는 모바일 앱과 연계하여 실증할 예정이다”고 말했다. 중앙대학교 박은지 교수(KAIST 전산학부 박사 졸업)가 제1 저자이며 유비쿼터스 컴퓨팅 분야 국제 최우수 학술지인 「Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies」 2024년 9월호에 게재됐다. 또한, 이 연구는 인간-컴퓨터 상호작용 분야의 최우수 학술대회인 ACM UbiComp 2024에서 발표됐다. (논문제목: Hide-and-seek: Detecting Workers’ Emotional Workload in Emotional Labor Contexts Using Multimodal Sensing, https://doi.org/10.1145/3678593) 이번 연구는 과학기술정보통신부 정보통신기획평가원 ICT융합산업혁신기술개발사업의 지원을 받아 수행됐다.
2025.02.11 조회수 5817

34141 대전광역시 유성구 대학로 291 한국과학기술원(KAIST) T.042-350-2114 F.042-350-2210(2220)

Copyright (C) 2020, Korea Advanced Institute of Science and Technology, All Rights Reserved.