논문 리뷰

논문 리뷰

📹빠르게 보는 BLIPv2 논문 리뷰📹

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models NLP 분야에서 유행하는 LLM(Large Language Model)의 성능은 이미 다양한 연구들로 충분히 입증되었습니다. 최근 각광받고 있는 ChatGPT 역시 GPT-3.5라는 LLM 모델을 기반으로 하는데요. Multimodal 분야에서도 Large web dataset으로 학습하는 방법론이 증가하면서, LLM과 미리 학습된 Image encoder를 함께 사용하고자하는 시도가 계속되어 왔습니다. 다만 LLM은 학습 과정에서 이미지 정보를 전혀 받지 못했기에, LLM에 이미지 정보를 전달해줘서 image, text ..

논문 리뷰

📹빠르게 보는 BLIP 논문 리뷰📹

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation CLIP이 생각나는 이름인 BLIP...!! 논문의 내용과 결과도 훌륭하지만, 이름을 정말 잘 지었다는 생각이 드네요. 리뷰 시작하겠습니다! 2줄 요약 1. 기존 VL-Pretraining 모델에서 사용한 web data의 noisy caption 문제 -> CapFilt 구조 제시를 통해 해결 2. Text generation, Image-text retrieval task를 모두 잘하는 새로운 모델 구조 제시(MED) Abstract & Introduction CLIP, ALIGN의 등장으로 Large web sca..

논문 리뷰

📎빠르게 보는 CLIP 논문 리뷰📎

CLIP : Learning Transferable Visual Models From Natural Language Supervision 2021년 등장한 CLIP은 VL(Vision language) pretraining 분야의 새로운 패러다임을 열었습니다. 기존의 고정된 class label(cat, dog 등)을 활용한 supervised learning은 이미지의 semantic 정보를 제대로 추출해내지 못한다는 한계가 존재했는데요. 충분히 성능 좋은 image, text encoder가 있음에도 불구하고, 필요한 정보들을 얻지 못한다는 것은 다양한 downstream tasks(Image retrieval, Image captioning, VQA 등..)에 적용하기 매우 힘들다는 것을 의미합니다..

seandoprep
'논문 리뷰' 카테고리의 글 목록