멀티모달 LLM(Large Multimodal Model)을 이용한 딥페이크 탐지 모델(이미지 분류 모델) 개발 일기
·
카테고리 없음
1. 서론딥페이크(DeepFake)는 인공지능을 이용해 조작된 이미지나 영상을 생성하는 기술로, 점점 더 정교해지고 있다. 하지만 현재 딥페이크를 탐지하는 대부분의 기술은 머신러닝ㆍ딥러닝 기반으로 이루어져 있어, 전문적인 지식과 복잡한 환경 설정이 필요하기 때문에 접근성이 떨어진다. 따라서 탐지 성능은 비교적 떨어지지만, 간편한 접근성과 단서 제공과 의견만을 자연어 형태로 제공하여 최종 판단을 사용자에게 맡기는 LLM 기반의 딥페이크 탐지가 새로운 방법으로 사용될 수 있지 않을까? 하는 마음에 이번 프로젝트를 시작하게 되었다.  같은 생각을 가진 개발자 분들이 해외에 꽤 계셨고, 선행 연구가 어느정도 진행되어 있었다. 따라서 이번 프로젝트에서는 RAG(Retrieval-Augmented Generatio..
멀티모달 챗봇 프로젝트 - OCR 이슈와 새로운 방향
·
카테고리 없음
이전에 진행한 3.2 LLaMA 모델을 활용한 멀티모달 챗봇 프로젝트는 이미지의 OCR(광학 문자 인식) 인식 문제로 인해 잠시 보류하게 되었다. 따라서 이번 포스팅에서는 그 이유와 다음으로 진행할 연차 관리 챗봇 프로젝트에 대해 자세히 이야기해보려 한다. 🚧 멀티모달 챗봇과 OCR 문제멀티모달 기능을 활용한 챗봇에서 중요한 역할을 담당하는 OCR 기술이 기대만큼의 성과를 내지 못했다. 특히 한글 텍스트 인식 시 문제가 발생했는데, 폰트 크기가 작거나 화질이 낮은 이미지에서는 텍스트를 제대로 인식하지 못하는 이슈가 있었다."특정 표나 이미지에 있는 텍스트를 100% 정확도로 인식하지 못한다면, 서비스로 제공하기엔 어려움이 큽니다."이미지 전처리로 어느 정도 정확도를 개선할 수 있지만, 완벽한 정확도를 ..
LLM 파인튜닝(나만의 챗봇)을 위한 사전준비 - 모델 선택
·
카테고리 없음
예전에 나는 송파세무서 민원봉사실에서 근무한 적이 있다. 실제로 처리하는 업무의 90%는 전화 연결에 대한 내용으로, 원하는 민원 내용을 듣고 해당 부서로 연결해주는 업무였다. 매우 간단한 업무임에도 불구하고 기피받는 이유는 하루에 수백통의 전화를 처리하다보면 목도 아프고, 심심치 않게 등장하는 악성 민원의 존재 때문일 것이다. 만약 이러한 단순한 업무를 AI가 처리한다면, 세무서 입장에서는 인원을 부가가치가 더 높은 업무에 투자할 수 있지 않을까? 사실 이러한 내용은 회사에도 고스란히 적용된다.  단순 업무에 지속적으로 인원이 투자되는 회사와 이러한 업무를 AI로 대체하고 미래지향적인 업무에 인적 자원을 투자하는 회사는 당연하게도 성장속도의 차이를 보일 것이다. 이러한 이유 때문인지, 요즘 LLM 기반..
선택 경로 최소 시간 구하기
·
카테고리 없음
처음으로 진행한 프로젝트로써, 사용자가 현재 위치에서 전체 매장 중 n개의 매장을 선택하여 방문할 때, 출발지로 다시 돌아오는 가장 빠른 경로를 찾는 문제 이는 외판원 순회 문제의 변형 형태였다. 간단하게 생각하면 전체 매장의 수를 k, 선택 매장 수를 n 이라고 할 때 경우의 수는 순열의 형태를 가진다. 다만 외판원 문제의 경우 단순히 최단 거리를 구하면 되는데 반해, 이번 과제의 경우 최소 시간을 구해야한다는 차이점이 존재했다. 먼저 데이터를 확보하기 위해 롯데마트, 이마트, 홈플러스의 위치 정보를 selenium 라이브러리를 활용하여 크롤링하였다. 이후 서울 지역의 매장으로 필터링하여 총 63개의 매장 정보를 이용하였다.  이렇게 크롤링 된 주소들은, 네이버 map api를 활용하여 각각 위경도 값..