공개된지 꽤 됬고 뒷북이긴 하지만, AI는 어디로 향하는가 갑작스레 궁금해졌었다.
개발자의 방향성, 우리의 삶, AI 기술...그냥 주기적으로 찾아오는 심마다.
그러니 가볍게 한번 AI 선두 기업인 OpenAI의 DevDay 행사를 알아보자.
AI로 무언가를 더 쉽게 만들자
행사 시작부터 개발자들에게 감사인사 한번 박아주고
"AI로 님들 작업 덜어내 드림" 하는데 대체되는 개발자 생각하면 약주고 병주는건지 눈물이 난다.
아무튼 오늘 발표의 주된 내용은 아래와 같다.
ChatGPT 내에서 앱을 구축하고 배포 지원
에이전트 구축을 훨신 빠르고 효과적으로
코딩은 AI가 개발자는 시스템과 창의성에 집중
위에 모든 것을 지원하기 위한 모델 및 API 업데이트
ChatGPT 앱 SDK
ChatGPT안에서 내가 만든 앱이 돌아간다!?
데이터를 연결하고, 액션을 실행하고, 인터랙티브 UI 구현 가능합니다~ 라고한다.
백엔드, 프론트엔드 다 직접 제어가 된다고 하는데 직접 해봐야 알 것 같다.
MCP 기반으로 구축되고, 표준이 공개되어 우리가 외부 시스템 같은거 있으면 SDK를 이용해서 통합도 가능하다.
미래에는 결제까지 제공해서 새로운 Agent Commerce 프로토콜을 포함해 다양한 수익화 방법을 지원한다는데,
어쩌면 앱스토어와 같이 일반인이 AI 앱 개발해서 월 수익 ~천만원의 템플릿이 하나 또 생기지 않을까
지금도 Canva, Spotify 같이 유명 앱들이랑 통합이 진행되서 ChatGPT안에서 플레이리스트 만들어줘 하면~ 음악 UI가 표시되고 Spotify로 연결되서 이동이 가능하다.
시연에서도 Coursera 라고 학습 보조 앱이랑 연결해서 ChatGPT 안에서 강의 영상 플레이 되면서 학습하다가 "여기 내용좀 자세히 알려줘"하니깐 그 컨텍스트에 맞춰서 설명해준다.
Agent Kit
AI는 "무엇이든 질문할 수 있는 시스템"에서 "무엇이든 요청하여 수행하게 할 수 있는 시스템"으로 발전했다.
근데 가진 잠재력에 비해서 실제 운영되는 서비스는 딱히 뭐 안떠오른다.
막상 만들려면 복잡하기 때문이다.
그래서 OpenAI는 에이전트 구축을 쉽게 해주는 도구를 소개했다.
Agent Builder: 시각적 캔버스 바탕으로 로직 단계 설계, 흐름 테스트, 구현을 빠르게 할 수 있음
ChatKit: 간단한 임베더블 채팅 인터페이스를 제공해 앱에다가 채팅 경험을 쉽게 통합할 수 있도록 지원
Evals: 에이전트 성능 측정 기능 제공(기타 자잘한 프롬프트 최적화 같은 기능, 다른 AI 모델 성능 비교도 가능)
중요한건 데이터 연결기능으로 에이전트를 회사 내부 시스템이나 외부 툴이랑 연결 시켜서 제어가 가능하다.
예시에서는 2,000개 식료품점 운영하는 고객을 기준으로 아이스크림 판매가 낮아진 경우를 설명한다.
기존에는 긴 보고 과정, 회의, 혼란이 있었다.
지금은 "아이스크림 왜 판매가 줄었어?" 한번 물어보면 에이전트가 연결된 데이터를 통해 모든 맥락을 판단해 권장사항을 제공한다고 한다.
에이전트라는게 복잡하다보니 이 부분은 아직 나도 감을 못잡고있다.
시각적인 워크플로우 기반으로 일반인들도 자신의 비즈니스 워크플로우를 구축할 수 있게 된다면...
오늘도 개발자의 고민은 쌓여간다.
Codex
시작부터 마음이 아프다
AI와 함께 소프트웨어 작성 방식이 변화하는 시대에 진입하고 있으며,
아이디어를 가진 누구나 자신, 가족 또는 커뮤니티를 위한 앱을 구축 할 수 있다고 한다.
GPT-5 모델이 Codex 기반으로 에이전트 코딩을 위해 특별히 훈련되었다.
코드 리팩토링 및 코드 검토와 같은 작업에 더 뛰어나며, 작업에 복잡성에 따라 생각하는 시간을 동적으로 조정한다고 한다.
OpenAI 내부에서는 Codex가 모든 구축 과정에 사용된다는데,
OpenAI에서 작성되는 거의 모든 새로운 코드는 Codex 사용자가 작성하고,
Codex 엔지니어는 주당 70% 더 많은 풀 리퀘스트를 완료한다.
Codex와 다른 AI 어시스턴트가 차이가 있다면 바로 엔지니어링 팀 서포트다.
Slack에 통합되서 대화에서 직접 코드를 작성하거나 질문에 답하도록 요청 할 수 있고,
Codex SDK가 제공되서 팀의 자체 워크플로우에서도 Codex를 확장하고 자동화 가능하다.
환경제어, 모니터링, 분석, 대시보드 등을 엔터프라이즈급 컨트롤에서 사용 가능한 수준까지 제공한다고 한다.
시연에서는 IDE를 키더니 무대에 있던 카메라 하나 보고 "node에서 Sony FR7 카메라를 제어하는 방법"으로 질문을 입력한다.
Codex가 Node 서버 구축하고, 모델명 찾아서 연결 프로토콜(Visca) 찾아서 연동하고, 카메라 제어기능 넣고 패널 GUI까지 한번에 작성을 해줬다.
자 여기서부터 일어난 일을 축약해서 설명하겠다.
카메라 연결하고 컨트롤 하고 화면에 카메라 장면 송출기능 만듬 => 연결해서 컨트롤 하니 잘 됨
Xbox 무선 컨트롤러로 연결해서 카메라를 제어해줘 => 해줌(어떤 버튼이 무슨 동작을 해야하는지 스스로 생각해서 매핑함)
실시간 API랑 에이전트 SDK를 연결해줘 => 실시간 API 통해서 음성 기반의 상호작용이 가능
실시간 API가 통합이 되면서 음성 대 음성 기능 뿐만 아니라 대화 맥락을 기반으로 한 MCP 서버 연결도 이어진다.
Codex 클라우드에서 조명 시스템을 위한 MCP 서버 연결 프롬프트를 확인하고 작업을 진행한다.
여기서부터는 방금 연결한 음성 인터페이스 기반으로 상호작용을 시작한다.
"카메라에 뭐가 보여?" => "많은 관객이 앉아 있네요"
"관객쪽으로 조명을 비춰줘" => (진짜로 조명을 제어해서 관객에게 비춤)
"조명 효과로 인사좀 해줘" => (진짜로 조명 효과 발생함)
이 과정이 노코드로 일루어졌다.
GPT Realtime Mini: 향상된 음성 모델
API에 작은 음성 모델이 출시 됬다.
기존 고급 음성 모델의 70% 저렴한 소형 버전이지만, 음성 품질과 표현력은 동일하다고 한다.
앞으로 음성이 사람들이 AI와 상호작용하는 주요 방식 중 하나가 된다는데,
얼굴 두꺼운 나도 밖에서 헤이 지피티 하면 조금 부끄러운 편이다.
Sora 2
요즘 비디오 생성으로 유명한 Sora다.
어쩐지 정교한 AI 영상이 판을 치기 시작하더니 나온지 얼마 안됬다고 잠깐 또 유행이 도나보다.
가장 큰 발전은 제어 가능성이며
세부적인 지침을 제공할 수 있으며, 스타일화되고, 정확하며, 구성된 결과를 제공하면서,
상태를 유지한다!
시각과 사운드의 페어링은 제법 자연스럽게 되고있다.
나중에 시간이 된다면 어떻게 이미지, 사운드간 매칭을 시켰는지 알아봐야겠다.
(아마 이미지-텍스트 매핑과 비슷한 방법이지 않을까)
요약
앱 SDK: ChatGPT 내에서 앱 구축 가능
Agent Kit: 에이전트 쉽고 빠르게 배포
Codex: 소프트웨어 작성 방식을 변화시키고 팀에서 더 빠르게 출시하도록
새로운 모델: GPT-5 Pro, Sora 2, Realtime Mini
새로운 시장이 개척됨에 두근거림을 느끼고
코드 어시스턴트 모델이 또 발전함에 호기심이 생기다가도 부담감에 울적해진다.
어쩌면 배부른 생각일 수 있다.
먼 미래에 사람들에겐 지금이 변화와 기회의 시기자 황금의 시대가 아닐까