알리바바, 이미지 입력하면 답하는 AI 챗봇 공개

알리바바 클라우드가 오픈AI 'GPT-4'나 구글 '바드'와 비슷한 기능의 생성 인공지능(AI) 모델과 챗봇을 출시했다. 중국 모델 중 처음으로 이미지를 입력하면 관련 답을 내놓는 기능을 갖췄으며, 오픈 소스 공개라는 점이 눈에 띈다.

CNBC는 25일(현지시간) 알리바바가 이미지를 이해하고 복잡한 대화에 참여할 수 있는 AI 모델 ‘쿠안-VL(Qwen-VL)’과 ‘쿠안-VL-챗(Qwen-VL-Chat)’을 오픈 소스로 출시했다고 보도했다.

이에 따르면 쿠안-VL과 쿠안-VL-챗은 지난 4월 알리바바가 개발한 70억 매개변수의 대형언어모델(LLM) '퉁이첸원(Tongyi Qianwen)'을 미세조정한 멀티모달 버전이다.

두 모델 모두 이미지 입력에 응답하고 설명을 생성할 수 있는 게 특징이다. 특히 쿠안-VL-챗은 여러 이미지 입력을 비교하고 복잡한 대화가 가능하며 입력한 사진을 기반으로 스토리 작성, 이미지 생성, 사진에 표시된 수학 방정식 풀기와 같은 작업을 수행한다.

예를 들어, 중국어를 모르는 외국인 관광객이 병원에 치료를 받으러 갔다가 층별 안내도를 찍어 쿠안-VL-챗에 '정형외과가 몇 층에 있나'와 같이 물어볼 수 있다. 쿠안-VL-챗은 이미지 정보를 기반으로 텍스트 답변을 제공한다.

이런 멀티모달 기능은 중국 AI 모델 중에는 처음으로 출시된 것이다. 바이두의 '어니봇'도 멀티모달 기능을 갖춘 것으로 알려졌으나, 정부 허가 문제로 정식 출시가 늦어지고 있다.

쿠안-VL과 쿠안-VL-챗은 알리바바 클라우드의 AI 모델 저장소인 ‘모델스코프(ModelScope)’에서 무료로 배포하고 있으며, 상업적으로 사용할 수 있다. 사용자는 모델스코프에서 모델을 직접 다운로드하거나 알리바바 클라우드를 통해 직접 액세스하고 호출할 수 있다.

이에 대해 CNBC는 "클라우드 사업부의 기업공개(IPO)를 앞둔 시점에서 사용자를 늘리고 생성 AI 분야에서 영향력을 확대하려는 의도"라고 풀이했다.

한편 알리바바 클라우드는 앞서 8월 초 70억 매개변수 LLM인 ‘쿠안-7B(Qwen-7B)’와 이를 대화형으로 미세조정한 챗봇 ‘쿠안-7B-챗(Qwen-7B-Chat)’을 오픈소스로 공개한 바 있다.

이로써 알리바바는 오픈AI나 구글 등의 폐쇄형 LLM 진영과 경쟁함과 동시에 오픈소스 진영에서 메타나 데이터브릭스와 경쟁을 펼치게 됐다. [출처 : AI타임스(https://www.aitimes.com)]

종합뉴스

알리바바, 이미지 입력하면 답하는 AI 챗봇 공개

포토뉴스

BUSINESS TV

주간 핫 이슈