ChatGPT 멀티모달 도입

드디어 ChatGPT에서 멀티모달이 도입됩니다. ChatGPT 4.0 도입 이후에 가장 큰 업데이트라고 할 수 있는데요. 소문만 무성하던 멀티모달이 드디어 어느정도 완성이 된 모양입니다. ChatGPT는 홈페이지를 통해 이제는 보고 듣고 말할 수 있다며, ChatGPT의 멀티모달 도입을 공식화하였습니다.

ChatGPT Multimodal이란?

ChatGPT Multimodal은 텍스트와 이미지를 모두 이해하고 처리할 수 있는 기술로, 대화 스타일의 인공지능(AI)을 기반으로 한 모델입니다. 즉 기존의 ChatGPT는 Chat이라는 말처럼 텍스트가 주요한 소통수단이자 입출력 방식이었는데요. 이제 이미지와 소리 등을 입력받고 대답받을 수 있습니다. Multimodal AI를 통해 기존과 달리 보다 다양한 입력 형식을 지원하며, 사용자와의 다양한 방식으로 보다 사람같은 대화를 가능하게 될 것으로 기대됩니다.

다양한 형식의 입력 처리

ChatGPT Multimodal은 텍스트와 이미지 두 가지 주요 형식의 데이터를 처리할 수 있습니다. 기존처럼 텍스트 입력은 사용자의 질문이나 명령어를 분석하여 적절한 응답을 생성하여 제공합니다. 이에 덧붙여 이제 새롭게 될 이미지 입력은 이미지를 분석하여 해당하는 정보를 추출하고 이해할 수 있게 되는데요. 이를 통해 ChatGPT는 더욱 강력한 능력을 보여줍니다. 현재 트위터 등에 공개된 자료를 보면 이 두 가지 입력 형식을 결합하여 AI는 더욱 풍부하고 다양한 정보를 제공하는 것으로 알려져 있습니다.

ChatGPT Multimodal의 주요 기능

ChatGPT Multimodal은 여러 가지 주요 기능을 통해 사용자에게 도움을 제공할 수 있을것으로 기대되고 있습니다.

텍스트 분석 및 처리

이 기능은 입력된 텍스트를 분석하고 이해하여, 적절한 응답을 제공하빈다. 기존의 ChatGPT 3.x나 4.x를 지나오면서 텍스트 분석 기술은 자연어 처리(NLP) 기술을 기반으로 하며, 다양한 언어와 방언을 지원합니다. 물론 이 경우에 환상현상 등 거짓된 정보를 제공할 수 있기 때문에 주의를 기울여야 합니다.

이미지 분석 및 인식

이미지 분석 기능은 AI가 이미지 내의 객체나 특징을 인식하고 이를 통해 이미지에 대한 정보를 제공합니다. AI는 이미지를 통해 얻은 정보를 텍스트 데이터와 결합하여 더욱 정확하고 상세한 응답을 제공할 수 있습니다. 즉 트위터에 예시처럼 기존에는 자전거 고장에 대한 일반적인 해결책만을 받아볼 수 있었지만, 이미지 분석을 통해 내 자전거 모델에 맞는 수리 공구라던지, 내 집에 있는 공구를 가지고 자전거를 수리할 수 있는지에 대한 정보를 얻을 수 있습니다.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

ChatGPT Multimodal 사용 방법

ChatGPT Multimodal 사용은 매우 간단합니다. 기존의 ChatGPT에 PDF를 올리는 기능이 활성화되었었는데요. 이처럼 사용자는 텍스트와 이미지를 입력하고 AI에게 질문이나 명령어를 전달하면 사용할 수 있습니다. 즉 기존의 UI/UX의 경험 그대로 Multimodal을 사용할 수 있게 됩니다.

텍스트 입력

텍스트 입력은 일반적인 질문이나 명령어를 포함하여 사용할 수 있습니다. 기존에 프롬프트 엔지니어와 같이 우리는 잘 정돈된 프롬프트를 사용해서 보다 정확한 결과값을 받을 수 있습니다. ChatGPT 사용자는 AI에게 특정 정보를 요청하거나, 이미지 분석 결과에 대한 설명을 구할 수 있고, 답변을 얻을 수도 있습니다.

이미지 입력

이미지 입력은 AI가 분석할 이미지 파일을 업로드하는 것을 의미합니다. AI는 업로드된 이미지를 처리하고 분석하여, 이미지 내의 객체나 특징을 인식하고 이에 대한 정보를 제공합니다. 그리고 이러한 이미지처리를 통해 기존에 ChatGPT가 하지 못했던 다양한 일을 해낼 수 있을것으로 예상됩니다.

정말 세상이 빠르게 변화하고 있는데요. 멀티모달의 도입은 또 한번의 변곡점이 되지 않을까 생각됩니다.

빨리 출시되면 사용해보고 싶네요.

ChatGPT 멀티모달 도입