멀티모달 LLM(Large Multimodal Model)을 이용한 딥페이크 탐지 모델(이미지 분류 모델) 개발 일기
·
카테고리 없음
1. 서론딥페이크(DeepFake)는 인공지능을 이용해 조작된 이미지나 영상을 생성하는 기술로, 점점 더 정교해지고 있다. 하지만 현재 딥페이크를 탐지하는 대부분의 기술은 머신러닝ㆍ딥러닝 기반으로 이루어져 있어, 전문적인 지식과 복잡한 환경 설정이 필요하기 때문에 접근성이 떨어진다. 따라서 탐지 성능은 비교적 떨어지지만, 간편한 접근성과 단서 제공과 의견만을 자연어 형태로 제공하여 최종 판단을 사용자에게 맡기는 LLM 기반의 딥페이크 탐지가 새로운 방법으로 사용될 수 있지 않을까? 하는 마음에 이번 프로젝트를 시작하게 되었다.  같은 생각을 가진 개발자 분들이 해외에 꽤 계셨고, 선행 연구가 어느정도 진행되어 있었다. 따라서 이번 프로젝트에서는 RAG(Retrieval-Augmented Generatio..
멀티모달 챗봇 프로젝트 - OCR 이슈와 새로운 방향
·
카테고리 없음
이전에 진행한 3.2 LLaMA 모델을 활용한 멀티모달 챗봇 프로젝트는 이미지의 OCR(광학 문자 인식) 인식 문제로 인해 잠시 보류하게 되었다. 따라서 이번 포스팅에서는 그 이유와 다음으로 진행할 연차 관리 챗봇 프로젝트에 대해 자세히 이야기해보려 한다. 🚧 멀티모달 챗봇과 OCR 문제멀티모달 기능을 활용한 챗봇에서 중요한 역할을 담당하는 OCR 기술이 기대만큼의 성과를 내지 못했다. 특히 한글 텍스트 인식 시 문제가 발생했는데, 폰트 크기가 작거나 화질이 낮은 이미지에서는 텍스트를 제대로 인식하지 못하는 이슈가 있었다."특정 표나 이미지에 있는 텍스트를 100% 정확도로 인식하지 못한다면, 서비스로 제공하기엔 어려움이 큽니다."이미지 전처리로 어느 정도 정확도를 개선할 수 있지만, 완벽한 정확도를 ..