AI ‘시간 오류’ 잡았다...의료·법률 분야 신뢰성 높인다
“지난달 취임한 장관이 누구냐”는 질문에 챗GPT가 1년 전 인물을 답한다면 어떨까. 최신 정보를 제대로 반영하지 못하는 AI의 한계를 보여주는 사례다. 우리 대학 연구진이 변화하는 현실 정보를 자동으로 반영하면서도, 겉으로는 맞아 보이는 ‘시간 오류’까지 잡아내는 새로운 평가 기술을 개발했다. AI 신뢰성을 획기적으로 높일 수 있을 것으로 기대된다.
우리 대학은 전기및전자공학부 황의종 교수 연구팀이 마이크로소프트연구소(Microsoft Research)와 공동연구를 통해, 시간 데이터베이스 기술을 활용해 거대언어모델(LLM)의 시간 추론 능력을 자동으로 평가·진단하는 시스템을 개발했다고 14일 밝혔다.
인공지능이 사용자의 신뢰를 얻기 위해서는 시시각각 변화하는 현실 정보를 정확히 이해하는 능력이 필수적이다. 그러나 기존 평가 방식은 정답 일치 여부만을 확인하거나 복잡한 시간 관계를 충분히 반영하지 못해, 실제 환경에서 발생하는 다양한 질문 상황을 제대로 평가하기 어렵다는 한계가 있었다.
연구팀은 이를 해결하기 위해 지난 40여 년간 검증되어 온 ‘시간 데이터베이스(Temporal Database)’ 설계 이론을 인공지능 평가에 최초로 도입했다. 데이터의 시간적 흐름과 관계 구조를 활용해, 사람이 평가용 문제를 일일이 작성하지 않아도 데이터베이스만으로 13가지 유형의 복잡한 시간 기반 문제가 자동으로 생성되도록 했다는 점이 핵심이다.
특히 이번 기술은 사람이 문제를 직접 만들던 기존 방식에서 벗어나, 데이터를 기반으로 평가 문제가 자동 생성되는 방식으로 전환했다는 점에서 가장 큰 혁신으로 평가된다. 또한 데이터베이스를 기준으로 문제 생성부터 정답 도출, 검증까지 전 과정을 자동화해, 기존처럼 문제를 일일이 수정할 필요 없이 유지보수 부담을 획기적으로 줄일 수 있다.
현실 정보가 변경될 경우에는 해당 내용을 데이터베이스에 업데이트하면 평가 문제와 정답, 검증 기준이 자동으로 반영된다. 다만 최신 정보의 입력 자체는 외부 데이터나 관리자를 통해 이루어지며, 본 기술은 이러한 데이터가 갱신된 이후 평가 전반을 자동으로 수행하는 구조다.
또한 연구팀은 단순히 최종 답이 맞는지 틀리는지 여부를 판단하는 기존 방식에서 나아가, 답변 과정에서 제시된 날짜나 기간의 논리적 타당성까지 검증하는 지표를 새롭게 도입했다. 이를 통해 겉보기에는 정답처럼 보이지만 시간적 근거가 잘못된 ‘시간 환각(Temporal Hallucination)’ 현상을 기존 대비 평균 21.7% 더 정확하게 탐지하는 성과를 보였다.
이 기술을 적용하면 정보 변경 시 데이터베이스만 갱신하면 되기 때문에 평가 유지 비용을 크게 절감할 수 있으며, 입력 데이터량 역시 기존 대비 평균 51% 줄어드는 효과를 보였다.
황의종 교수는 “이번 연구는 고전적인 데이터베이스 설계 이론이 최신 인공지능의 신뢰성 문제를 해결하는 데 중요한 역할을 할 수 있음을 보여준 사례”라며, “방대한 전문 데이터를 평가 자원으로 전환함으로써 향후 의료·법률 등 다양한 분야의 인공지능 성능 검증에 실질적인 기반이 될 것으로 기대한다”고 말했다.
이번 연구는 KAIST 김소연 박사과정이 제1저자로 참여했으며, 마이크로소프트연구소의 진동 왕(Jindong Wang, 現 윌리엄 앤 메리 대학교)과 싱 시에(Xing Xie) 연구원이 공동 저자로 참여했다. 연구 결과는 오는 4월 인공지능 분야 최고 권위 학술대회인 ‘ICLR 2026’에서 발표될 예정이다.
※ 논문명: Harnessing Temporal Databases for Systematic Evaluation of Factual Time-Sensitive Question-Answering in Large Language Models, 논문 링크: https://arxiv.org/abs/2508.02045
한편, 이번 연구는 마이크로소프트연구소, 한국연구재단, 정보통신기획평가원(IITP) 글로벌 AI 프론티어랩 과제(RS-2024-00469482, RS-2024-00509258)의 지원을 받아 수행됐다.
숙련자의 감 · 언어 장벽 넘어 AI가 제조를 판단한다
우리가 쓰는 플라스틱 제품 대부분은 녹인 플라스틱을 틀에 넣어 같은 제품을 대량으로 찍어내는‘사출성형’공정으로 만든다. 하지만 조건이 조금만 달라도 불량이 생겨, 그동안은 숙련자의 감에 의존해 왔다. 이제 우리 대학 연구진이 고숙련자 은퇴와 외국인 인력 증가로 제조 지식이 단절될 수 있다는 우려에 대해 AI로 공정을 스스로 최적화하고 지식을 전수하는 해법을 내놨다.
우리 대학은 기계공학과 유승화 교수 연구팀(기계공학과·이노코어 PRISM-AI 센터)이 사출 공정을 스스로 최적화하는 생성형 AI 기술과, 현장 지식을 누구나 활용할 수 있는 LLM 기반 지식 전이 시스템을 세계 최초로 개발하고, 그 성과를 세계 최고 수준의 국제학술지에 연속 게재했다고 22일 밝혔다.
첫 번째 성과는 환경 변화나 품질 조건에 따라 자동으로 최적 공정 조건을 추론하는 생성형 AI 기반 공정추론 기술이다. 기존에는 온도나 습도, 원하는 품질 수준이 바뀔 때마다 숙련자가 시행착오를 거쳐 조건을 다시 맞춰야 했다.
연구팀은 실제 사출 공장에서 수개월간 수집한 환경 데이터와 공정 파라미터를 활용해, 확산 모델(Diffusion Model) 기반으로 목표 품질을 만족하는 공정 조건을 역설계하는 기술을 구현했다.
여기에 실제 생산을 대신하는 대리모델(Surrogate Model)을 함께 구축해, 공정을 돌리지 않고도 품질을 미리 예측할 수 있도록 했다. 그 결과 기존 공정 예측에 활용되던 기존 대표기술인 GAN*·VAE** 기반 모델의 오류율(23~44%)을 크게 낮춘 1.63%의 오류율을 달성했으며, 실제 공정 적용 실험에서도 AI가 제시한 조건대로 양품 생산이 확인돼 현장 활용 가능성을 입증했다.
*GAN(Generative Adversarial Network, 생성적 적대 신경망): 두 개의 AI가 서로 경쟁하면서 데이터를 만들어내는 방식, **VAE(Variational Autoencoder, 변분 오토인코더): 데이터의 공통된 패턴을 압축해 이해한 뒤 다시 만들어내는 방식
두 번째 성과는 고숙련자 은퇴와 다국어 작업 환경에 대응하는 LLM 기반 지식 전이 시스템 ‘IM-Chat’이다. IM-Chat은 거대언어모델(LLM)과 검색 증강 생성(RAG)을 결합한 멀티에이전트 AI 시스템으로, 초급 작업자 또는 외국인 작업자가 제조 현장에서 겪는 문제에 대해 적절한 해결책을 제공하는 제조 현장용 AI 도우미다.
작업자가 자연어로 질문하면, AI가 이를 이해해 필요에 따라 생성형 공정추론 AI를 자동으로 호출하고, 최적 공정 조건 계산과 함께 관련 기준과 배경 설명까지 동시에 제공한다.
예를 들어 “현재 공장 습도가 43.5%일 때 적정 사출 압력은?”이라는 질문에 AI는 최적 조건을 계산하고, 관련 매뉴얼 근거까지 함께 제시한다. 다국어 인터페이스를 지원해 외국인 작업자도 동일한 수준의 의사결정 지원을 받을 수 있다.
이번 연구는 사출 공정을 넘어 금형, 프레스, 압출, 3D 프린팅, 배터리, 바이오 제조 등 다양한 산업으로 확장 가능한 제조 AI 전환(AX) 핵심 기술로 평가된다.
특히 생성형 AI와 LLM 에이전트를 툴 콜링(Tool-Calling) 방식*으로 통합해, AI가 스스로 판단하고 필요한 기능을 호출하는 자율 제조 AI 패러다임을 제시했다는 점에서 의미가 크다.
*툴 콜링 방식: AI가 상황에 맞게 필요한 기능이나 프로그램을 스스로 불러 사용하는 방식
유승화 교수는 “공정을 스스로 최적화하는 AI와, 현장 지식을 누구나 활용할 수 있는 LLM을 결합해 제조업의 본질적 문제를 데이터 기반으로 해결한 사례”라며 “앞으로 다양한 제조 공정으로 확장해 산업 전반의 지능화와 자율화를 가속하겠다”고 말했다.
이번 연구는 기계공학과 김준영·김희규·이준형 박사과정이 공동 제1저자로 참여하고, 유승화 교수가 교신저자로 참여했으며, 공학·산업 분야 세계 1위 국제학술지인 ‘저널 오브 매뉴팩처링 시스템즈(Journal of Manufacturing Systems, JCR 1/69, IF 14.2)’4월호와 12월호에 연속 게재됐다.
※ 논문명1: Development of an Injection Molding Production Condition Inference System Based on Diffusion Model, DOI: https://doi.org/10.1016/j.jmsy.2025.01.008
※논문명2: IM-Chat: A multi-agent LLM framework integrating tool-calling and diffusion modeling for knowledge transfer in injection molding industry, DOI: https://doi.org/10.1016/j.jmsy.2025.11.007
한편, 이번 연구는 과학기술정보통신부·중소벤처기업부·산업통상자원부의 지원을 받았다.