김세빈 ([email protected]), 2024년 6월 3일 17:00 작성

지난 5월 중순, 구글의 연례 개발자 행사 2024 Google I/O와 OpenAI의 새로운 모델 GPT-4o가 하루 차이로 공개됐습니다. GPT-4o가 공개되면서 자연스럽게 AI와 대화를 할 수 있는 것이 화제가 되었는데요. 영화 her에서처럼 AI와 인간의 깊은 정서적 교류가 가능할 수도 있다는 기대감도 한껏 상승했습니다. openAI의 발표에 어깨가 무거워진 구글도 2024 Google I/O에서 AI 서비스들의 업데이트를 대거 공개했습니다. 기존에 있는 인프라에 AI 서비스들을 더해 구글의 AI 유니버스를 점점 완성해 나가는 행보였습니다. 이번에 공개된 구글의 제품들과 GPT-4o를 어떻게 하면 똑똑하게 사용할 수 있을지 함께 알아볼까요?

기사 읽기 전에…

<aside> ✅ GPT-4o 업데이트 사안

  1. 멀티모달기능
  2. 다양한 언어 지원 및 성능 개선
  3. 안전성 강화
  4. 모델을 사용자에 맞게 커스텀 가능
  5. 성능 및 신뢰성 향상
  6. 실시간 음성 및 비디오 기능 포함
  7. 이용 가능한 질문 갯수 증가
  8. macOS 데스크탑앱 출시

</aside>

<aside> ✅ GPT-4o 공식 발표 링크 https://openai.com/index/hello-gpt-4o/

</aside>

<aside> ✅ Google I/O 업데이트 항목 (AI 기반)

  1. Gemini 1.5 Pro 공개
  2. AI를 이용한 Ask Photo 기능
  3. 멀티모달 기능 강화
  4. 동영상 검색 기능
  5. Gmail 통합
  6. Gems 맞춤형 AI 동반자
  7. 안드로이드용 Gemini
  8. 영상 생성 모델 Veo
  9. Imagen 3 이미지 생성 모델
  10. Google WorkSpace 통합
  11. 클라우드 기반 IDE ‘크로젝트 IDX’

</aside>

<aside> ✅ Google I/O 공식 링크

https://io.google/2024/intl/ko/

</aside>

성능은 GPT-4o > Gemini

벤치마크나 체감 성능이나, GPT-4o를 이길 수 있는 LLM 모델은 없는 듯합니다. 아래의 벤치마크를 보면 모든 부문에서 GPT-4o가 가장 높은 성능을 보여준다는 것을 확인할 수 있습니다.

LLM 벤치마크 비교, MMMU: 멀티모달이해 능력 평가, 텍스트와 이미지를 동시에 이해하고 해석 / MathVista: 수학문제 해결 능력 / AI2D: 다이어그램 해석 능력 / ChartQA: 차트와 그래피 해석 능력/ DocVQA: 문서이해도 / ActivityNet: 비디오 이해 능력 / EgoSchema: 주관적 관점에서 상황을 이해하는 능력

LLM 벤치마크 비교, MMMU: 멀티모달이해 능력 평가, 텍스트와 이미지를 동시에 이해하고 해석 / MathVista: 수학문제 해결 능력 / AI2D: 다이어그램 해석 능력 / ChartQA: 차트와 그래피 해석 능력/ DocVQA: 문서이해도 / ActivityNet: 비디오 이해 능력 / EgoSchema: 주관적 관점에서 상황을 이해하는 능력

체감 성능도 마찬가지인데요, 성능뿐만 아니라 사용성에 관해서도 GPT가 더 사용하기 좋다고 느꼈습니다. 일례로 데이터를 가공해서 표로 그려주는 상황을 비교해 보았습니다.

GPT-4o

요청: 히스토그램 이미지를 선 그래프로 변환

GPT-4o 이미지를 분석하여 데이터를 추출하고 그래프로 가공하여 제공 가능

GPT-4o 이미지를 분석하여 데이터를 추출하고 그래프로 가공하여 제공 가능

Gemini

요청: 히스토그램을 선 그래프로 변환

Gemini 1.5 Pro, 이미지를 분석하고 가공하여 바로 데이터 제공이 불가능

Gemini 1.5 Pro, 이미지를 분석하고 가공하여 바로 데이터 제공이 불가능

Gemini는 답변을 제대로 하지 못하지만, GPT-4o는 데이터까지 제공해 줬습니다. 확연한 차이가 드러난 점은 그래프 제공이었습니다. GPT-4o에서는 그래프를 그려줄 때 배경이 투명한 png 파일로 다운 받을 수 있게 하고 그래프 색깔 등 여러 요소를 커스터마이징이 가능하다는 점이 인상 깊었습니다.

그리고 GPT-4 업데이트에서 실시간 인터넷 검색 기능도 추가되면서, 최근 자료에는 “데이터 베이스에 없는 정보”라고 답하던 아쉬운 측면도 해결이 되었어요.

GPT-4o의 보이스 모드

GPT-4o는 voice 모드를 새롭게 지원합니다. 프롬프트를 음성으로 작성할 수 있고, 답변도 음성으로 받을 수 있습니다. 공식 소개 영상을 보시면, 지금까지의 어떤 서비스들보다도 자연스러운 답변을 제공하는 것을 보실 수 있을 거예요.

비아냥거리는 답변을 제공하는 ChatGPT

비아냥거리는 답변을 제공하는 ChatGPT

직접 기능을 사용하기 전에는 음성을 사용하는 것이 단순히 흥미를 돋우는 것 말고 다른 기능이 있나 생각했었습니다. 그런데 말로 프롬프트를 입력해 보니, 전과는 비교할 수 없을 만큼 편했습니다. 활용도도 훨씬 높아졌습니다. 궁금한 점이 있을 때 데스크탑과 모바일 앱으로 바로바로 물어볼 수 있어서 접근성이 좋아졌습니다. 특히 언어 공부 측면에서 음성 기능의 활용성을 실감할 수 있었는데요. GPT-4o 공개 이후 언어 공부앱 듀오링고의 주가가 괜히 폭락한 것이 아니었습니다.

1. 토플 스피킹 연습하기 영어 시험 스피킹 연습을 할 때, 매번 시간 맞추고 녹음하고 피드백 받기가 곤란하셨죠? GPT-4o로 연습부터 피드백까지 한 번에 가능합니다!

토플 스피킹 연습 (한국어) 사용자: 질문, 답변, 피드백 포맷의 대화 형식 제시 (한국어, 영어) 시스템: 질문 (영어) 사용자: 답변 (한국어) 시스템: 피드백

토플 스피킹 연습 (한국어) 사용자: 질문, 답변, 피드백 포맷의 대화 형식 제시 (한국어, 영어) 시스템: 질문 (영어) 사용자: 답변 (한국어) 시스템: 피드백

2. 프랑스어 회화 연습하기 영어만 가능하냐구요? 아니요! 영어뿐만아니라 20가지가 넘는 언어를 지원합니다! 저의 비루한 프랑스어 실력을 교정해주는 GPT-4o 한번 보시겠어요?

프랑스어 말하기 연습 (영어) 사용자: 질문, 답변, 피드백 포맷의 대화 형식 제시 (영어, 프랑스어) 시스템: 질문 (프랑스어) 사용자: 답변 (영어) 시스템: 피드백

프랑스어 말하기 연습 (영어) 사용자: 질문, 답변, 피드백 포맷의 대화 형식 제시 (영어, 프랑스어) 시스템: 질문 (프랑스어) 사용자: 답변 (영어) 시스템: 피드백