Multimodal learning란?

멀티모달 학습(Multimodal Learning)은 텍스트·이미지·오디오·비디오·센서 데이터 등 서로 다른 종류(모달리티)의 데이터를 동시에 학습·추론하는 AI 기법입니다. CLIP, GPT-4V, Gemini 같은 모델이 대표적이며, 이미지 캡셔닝, 시청각 음성 인식, 멀티모달 검색, 자율주행 지각 등에 활용됩니다. 인간 수준의 풍부한 이해를 지향하는 AI의 핵심 방향입니다.