-
반도체 정밀 공정 흐린 영상 복원 가능하다
생물학 연구에 사용되는 형광 현미경이나 반도체 산업에 사용되는 주사전자현미경의 공통점은 불안정성으로 인해 흐려진 영상(블러, blur)을 보정하는 과정이 반드시 필요하다는 점이다. 우리 연구진이 굉장히 강한 잡음에 의해 손상된 왜곡 영상에 대해 적응형 필터와 생성형 인공지능 모델을 융합해 영상을 복원하는 데 성공했다.
우리 대학 바이오및뇌공학과 장무석 교수 연구팀이 삼성전자 DS부문 반도체연구소 차세대공정개발실과 공동 연구를 통해 왜곡 및 강한 잡음이 존재하는 의료·산업 영상을 복원하는 기술을 개발했다고 26일 밝혔다.
스마트폰 카메라 사진에 영상의 흐림·왜곡이 생겼을 때 보정하는 문제를 디컨볼루션(deconvolution) 또는 디블러링(deblurring)이라고 하며, 흐려진 영상 정보만 이용해 선명한 영상을 복원하는 기술을 블라인드 디컨볼루션(blind deconvolution)이라고 한다. 흥미롭게도 디컨볼루션 문제는 일상뿐만 아니라 생물학 연구, 반도체 산업 등 다양한 분야에서 공통적으로 발생한다.
예를 들어, 형광 현미경은 세포와 분자 수준의 미세 구조를 시각화하기 때문에 측정된 형광 신호는 산란이나 회절, 수차 등의 효과로 인해 흐려지기 때문에 디컨볼루션 기법을 통해 보정하는 과정이 반드시 필요하다.
또한, 반도체 산업에서는 수천 개의 생산 공정 중간에 검사·계측 기술을 통해 발생할 수 있는 미세 공정 오류를 감지하고, 공정 수율 개선을 위한 프로세스 개선 과정에 사용되는 주사전자현미경이 전자 빔의 불안정성으로 인해 영상이 흐려지기 쉬우며, 이를 보정하는 과정이 반드시 필요하다.
연구팀은 이처럼 영상이 흐려지는 원인은 움직임, 빛의 산란, 전자의 불안정성 등과 같이 다양하지만, 공통적으로 ‘영상의 흐려짐을 없앤다’라는 점에서 수학적으로 동일한 접근 방법이 활용될 수 있다고 생각했다.
특히 잡음 수준이 높은 영상의 경우, 영상의 잡음을 효과적으로 억제함과 동시에 블러 효과가 제거된 선명한 영상을 복원하는 과정의 균형을 맞추는 것이 매우 중요하다는 점을 착안했다.
연구팀은 위너 디컨볼루션*을 기반으로 영상을 복원하는 접근법을 개발했다. 이를 적응형 잡음 억제 변수, 영상 생성형 인공지능 모델과 결합해 영상 복원 과정에서 발생할 수 있는 잡음을 억제하고 영상 선명도도 높였다.
*위너 디컨볼루션(Wiener deconvolution)은 왜곡된 영상을 역 필터(inverse filter)를 기반으로 깨끗한 영상으로 복원하는 전통적인 방식임.
연구팀은 잡음 민감도가 높은 주사전자현미경으로부터 측정된 왜곡된 영상으로부터 깨끗하고 초점이 맞는 나노미터 단위의 반도체 구조에 대한 영상을 성공적으로 복원해 냄으로써 반도체 검사·계측에 매우 효과적으로 적용할 수 있음을 실험적으로 증명했다.
바이오및뇌공학과 이찬석 연구원은 “이번 연구를 통해 강한 잡음 속에서 왜곡된 영상을 복원하는 난제를 해결했다ˮ며, 이어 "이번 연구에서는 무작위적 잡음을 극복하는 영상 복원 기술을 개발하는 데에 집중했고, 향후 비균일 영상 복원 및 다양한 손상 형태를 극복하는 영상 복원 기술 개발에 주력할 것이다ˮ라고 밝혔다.
바이오및뇌공학과 이찬석 박사과정이 제1 저자로 참여한 이번 연구는 컴퓨터 비전 분야 최고 학회인 ‘제18회 유럽 컴퓨터 비전 학회(The 18th European Conference on Computer Vision)’ 에서 지난 10월 1일에 이탈리아 밀란에서 발표됐고, Springer Nature에서 출판하는 Lecture Notes in Computer Science의 ECCV 2024 프로시딩 집에 게재될 예정이다. (논문명: Blind image deblurring with noise-robust kernel estimation).
2024.11.26
조회수 7565
-
윤국진 교수 연구팀, ECCV 2024에 논문 12편 채택
우리 대학 기계공학과 윤국진 교수 연구팀의 논문 12편이 세계 최고 권위 컴퓨터비전 국제학술대회 중 하나인 ECCV 2024 (European Conference on Computer Vision)에 채택되어, 컴퓨터 비전 분야 세계 최고의 연구 역량을 다시 한번 인정받았다. CVPR, ICCV와 함께 컴퓨터 비전 분야 뿐 아니라 전체 인공지능 분야에서도 세계 최고 권위 학술대회로 꼽히는 ECCV는 1990년부터 격년으로 개최되는 학술대회로, Google Scholar 기준 H5-색인 206을 기록하고 있으며, 공학 및 컴퓨터과학 (Engineering & Computer Science)전분야에서 최고 수준의 국제 학술대회 중 하나이다. 이번 ECCV 2024에는 총 8,585개의 논문들이 제출되었고 그 중 2,395개의 논문이 채택되어 약 27.9%의 낮은 채택률을 기록하였다. 단일 연구실에서 12편의 논문이 채택된 것은 극히 이례적인 경우다.
윤국진 교수 연구팀의 논문 12편은 학습 기반의 시각 지능 구현을 연구 논문들로, 가상 시점 합성, 약지도 의미론적 분할, 비디오 품질 개선, 3차원 의미론적 분할, 3차원 객체 인식, 점구름 완성, 이벤트 카메라 기반 낮과 밤 상태 전이, 이벤트 카메라 기반 스테레오 정합, 적대적 공격과 같은 컴퓨터비전 분야의 핵심 주제들에 대한 논문들이다. 특히, 양훈민 박사과정과 정종오 박사과정의 논문 “Prompt-Driven Contrastive Learning for Transferable Adversarial Attacks”은 전체 논문 중 상위 2.3%에 해당하는 구두 발표 논문으로 선정됐다.
앞서 윤국진 교수 연구팀은 올해 6월 개최된 CVPR 2024에도 9편의 논문을 발표한 바 있는데, 이번 ECCV 2024에도 12편의 논문을 발표하게 되어, 컴퓨터 비전 분야에서 세계 최고의 연구 역량을 가진 연구실로 인정받고 있다. 연구팀은 지속적으로 컴퓨터 비전 분야에서 좋은 연구 성과를 달성하고 있기에 앞으로도 도전적인 연구를 계속해 나가며 연구를 진행하겠다는 포부를 밝혔다. ECCV 2024는 2024년 9월 29일부터 10월 4일까지 이탈리아 밀라노의 Mico Milano에서 개최될 예정이다.
2024.08.29
조회수 10633
-
차세대 새로운 패러다임 동영상 인식기술 개발
챗GPT와 같은 거대 언어 모델의 근간이 되는 트랜스포머로 구축된 기존 비디오 모델보다 8배 낮은 연산량과 4배 낮은 메모리 사용량으로도 높은 정확도를 기록했으며, 추론 속도 또한 기존 트랜스포머 기반 모델 대비 4배의 매우 빠른 속도를 달성한 동영상 인식기술이 우리 연구진에 의해 개발됐다.
우리 대학 전기및전자공학부 김창익 교수 연구팀이 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다.
비디오맘바는 기존 트랜스포머 기반 모델들이 가지고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델이다. 기존의 트랜스포머 기반 모델들은 셀프-어텐션(self-attention)이라는 메커니즘에 의존해 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었다.
김창익 교수 연구팀의 비디오맘바는 선택적 상태 공간 모델(Selective State Space Model, Selective SSM)* 메커니즘을 활용해 선형 복잡도**로 효율적인 처리가 가능하다. 이를 통해 비디오맘바는 동영상의 시공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터도 효율적으로 처리할 수 있다.
*선택적 상태 공간 모델(Selective SSM): 입력에 따라 동적으로 매개변수를 조정하여 시퀀스 데이터의 문맥을 더 잘 이해하는 상태 공간 모델
**선형 복잡도:입력 데이터의 크기에 비례하여 계산량이 증가하는 알고리즘 복잡도
김창익 교수 연구팀은 동영상 인식 모델의 효율성을 극대화하기 위해 비디오맘바에 1차원 데이터 처리에 국한된 기존 선택적 상태 공간 메커니즘을 3차원 시공간 데이터 분석이 가능하도록 고도화한 시공간적 전방 및 후방 선택적 상태 공간 모델(spatio-temporal forward and backward SSM)을 도입했다. 이 모델은 순서가 없는 공간 정보와 순차적인 시간 정보를 효과적으로 통합해 인식 성능을 향상한다. 연구팀은 다양한 동영상 인식 벤치마크에서 비디오맘바의 성능을 검증했다.
연구팀이 개발한 비디오맘바는 영상 분석이 필요한 다양한 응용 분야에서 효율적이고 실용적인 솔루션을 제공할 수 있다. 예를 들어, 자율주행에서는 주행 영상을 분석해 도로 상황을 정확하게 파악하고, 보행자와 장애물을 실시간으로 인식해 사고를 예방할 수 있다. 의료 분야에서는 수술 영상을 분석해 환자의 상태를 실시간으로 모니터링하고 긴급 상황 발생 시 신속히 대처할 수 있다. 스포츠 분야에서는 경기 중 선수들의 움직임과 전술을 분석해 전략을 개선하고, 훈련 중 피로도나 부상 가능성을 실시간으로 감지해 예방할 수 있다.
연구를 주도한 김창익 교수는 “비디오맘바의 빠른 처리 속도와 낮은 메모리 사용량, 그리고 뛰어난 성능은 우리 생활에서의 다양한 동영상 활용 분야에 큰 장점을 제공할 것이다”고 연구의 의의를 설명했다.
이번 연구에는 전기및전자공학부 박진영 석박사통합과정, 김희선 박사과정, 고강욱 박사과정이 공동 제1 저자, 김민범 박사과정이 공동 저자, 그리고 전기및전자공학부 김창익 교수가 교신 저자로 참여했다. 연구 결과는 올해 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘European Conference on Computer Vision(ECCV) 2024’에서 발표될 예정이다. (논문명: VideoMamba: Spatio-Temporal Selective State Space Model)
한편, 이번 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. (No. 2020-0-00153, 기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어 기술 개발)
2024.07.23
조회수 9450
-
멀티모달 대형언어모델이 GPT-4V를 뛰어넘다
멀티모달 대형 언어모델이란 텍스트뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 말한다. 해외 대형 기업의 풍부한 컴퓨팅 자원의 지원으로부터 인간의 뇌에 있는 신경망의 개수와 유사한 수준초대형모델들이 만들어지고 있으나 학계에서는 이런 개발이 쉽지 않았다. KAIST 연구진이 오픈AI의 GPT-4V와 구글의 제미나이-프로(Gemini-Pro)를 뛰어넘는 멀티모달 대형언어모델을 개발하여 화제다.
우리 대학 전기및전자공학부 노용만 교수 연구팀이 오픈AI(OpenAI)의 GPT-4V 등 기업에서 비공개하고 있는 상업 모델인 초대형 언어모델의 시각 성능을 뛰어넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.
노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 획기적으로 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 연속적으로 개발했다고 밝혔다.
연구팀이 개발한 첫번째 기술인 ‘콜라보(CoLLaVO)’는 현존하는 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 현저하게 낮은 이유를 일차적으로 물체 수준에 대한 이미지 이해 능력이 현저하게 떨어진다는 것을 먼저 검증해 보였다.
해당 능력을 효율적으로 증가시켜 시각-언어 태스크에 대한 성능을 향상 하기 위해 연구팀은 이미지 내의 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 직접 넣어주는 새로운 방법‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 새롭게 제안했다.
또한 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습해 서로 간의 정보를 잃지 않게 만드는 획기적인 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’를 제안했다. 이를 통해, 콜라보(CoLLaVO) 멀티모달 대형언어모델은 이미지 내에서 배경 및 물체를 구분하는 능력이 뛰어나 일차원적인 시각 구분 능력이 크게 향상됐다고 밝혔다.
두 번째 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아서 만들어졌다고 밝혔다.
이는 기존 멀티모달 대형언어모델이 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면 이해가 부족하다는 점을 지적하며 이런 컴퓨터 비전 모델들의 결과를 받으면 모두 인간이 이해할 수 있는 언어로 변환한 뒤에 멀티모달 대형언어모델에 입력으로 직접 사용했다.
노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있으며, 모든 모델을 공개형 대형언어모델로 출시 했기 때문에 이 연구모델이 멀티모달 대형언어모델 발전에 기여할 것이다”이라고 언급했다.
연구팀이 개발한 멀티모달 대형언어모델인 콜라보(CoLLaVO)와 모아이(MoAI)는 KAIST 전기및전자공학부 이병관 박사과정이 제1 저자로 참여하고 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다.
콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 최고의 국제 학회인 ‘Findings of the Association for Computational Linguistics(ACL Findings) 2024’에 5월 16일 자로 학회에 승인받았고, 모아이(MoAI)는 컴퓨터 비전 최고의 국제 학회인 ‘European Conference on Computer Vision(ECCV) 2024’학회 승인 결과를 기다리고 있다고 밝혔다.
한편 이번 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부의 지원을 받아 수행됐다.
[1] CoLLaVO 데모 GIF 영상
https://github.com/ByungKwanLee/CoLLaVO
[2] MoAI 데모 GIF 영상
https://github.com/ByungKwanLee/MoAI
2024.06.20
조회수 13540
-
한국과학영재학교 2011학년도 입시정책 발표
- 모집정원의 70% 이상 획기적인 입학사정관 제도 도입
우리대학 부설 한국과학영재학교(권장혁 교장)는 공교육 정상화에 기여하고 창의성을 갖춘 글로벌 과학리더를 양성하기 위한 2011학년도 학생선발 기본정책을 발표했다.
2011학년도 입시정책의 가장 큰 특징은 입학사정관 제도 선발의 확대 시행이다. 모집정원 144명에 대해서 2010학년도의 30% 내외 선발에서 2011학년도에는 입학사정관 제도를 70%이상 획기적으로 확대하여 신입생을 선발할 예정이다.
입학사정관 제도를 통한 선발에서는 사교육에 의해 훈련된 영재를 전면 배제할 계획인데, 각종 경시대회 입상실적은 일체 고려하지 않고, 내신 성적과 탐구활동, 독서활동, 봉사활동, 리더십 활동, 발명활동 등을 참고하여 20년 후에 우리나라를 이끌어갈 창의성과 잠재력을 지닌 학생을 발굴할 예정이다.
그리고 한국과학영재학교는 현재 공교육 정상화 및 사교육 배제를 위한 다양한 교육 활동을 추진 중에 있는데, 교과지도 및 진로지도 프로그램인 Help Desk와 Office Hour를 운영하고 있으며, 향후 수학 교과의 모든 필수과목을 수준별로 운영하여 맞춤식 수업을 제공할 뿐만 아니라, 영어능력 개별 지도 프로그램인 ECC(English Communication Center)도 운영할 예정이다. 뿐만 아니라, 한국과학영재학교 과학축전(KSASF) 및 Virtual Science Academy(가상학교)를 운영하여 전국의 초ㆍ중등 과학영재학생들에게 다양한 과학탐구 교육 프로그램을 제공함으로써 사교육 시장에서 제도권 공교육으로 학생을 유인할 예정이다.
또한 올해 외국인 학생 18명을 정원 외로 선발하여 2010학년도 봄학기부터 수업할 예정인데, 국어, 국사, 사회과목을 제외한 전 과목을 영어로 수업할 예정이다.
2009년 3월 1일자로 KAIST 부설이 된 한국과학영재학교는 거의 전원이 KAIST 합격이 보장되어 있으며, 연구 중심 학교를 운영하여, 대학 입시에 구애받지 않고 창의력과 리더십을 키울 수 있는 국내 유일의 학교로 후발 영재학교 및 과학관련 특목고 교육을 선도하고 있다.
2009.07.08
조회수 19011