LLM을 “대본 작성기”로만 쓰지 않고, 그 다음 단계인 음성 합성 → 영상 생성/편집 → 합성까지 이어 주는 에이전트를 만들면, 한 번의 요청으로 동영상이 나오는 파이프라인을 만들 수 있다. 이 글에서는 그걸 어떤 구조로 나누고, 어떤 API를 붙이면 되는지 개발자 관점에서 정리한다.
1. 파이프라인을 단계로 나누기
동영상 에이전트는 보통 대본 → 음성 → 비주얼 → 합성 순서로 단계를 나눈다.
- 대본 생성
사용자 입력(주제, 톤, 길이 등)을 받아 LLM으로 시나리오·나레이션 텍스트를 만든다. - 음성
대본을 TTS API(ElevenLabs, Google TTS, 클로바 등)로 넘겨 음원을 만든다. - 비주얼
장면 설명이나 프롬프트를 비디오 생성 API(Runway, Sora, Kling, Veo 등)나 이미지 생성 후 영상화로 채운다. - 합성
음원 + 영상(·이미지 슬라이드)을 FFmpeg 등으로 타임라인에 맞춰 합친 뒤, 인코딩·출력한다.
에이전트는 이 단계들을 조율하는 역할을 한다. LLM이 “지금 어떤 단계인지, 다음에 뭘 호출할지”를 결정하고, 각 단계는 전용 API나 스크립트를 호출하는 식으로 구현하면 된다.
2. LLM이 기획·대본을 담당하게 하기
입력은 “주제 한 줄” 또는 “타겟, 분량, 톤” 정도로 두고, LLM에게 다음을 시키면 된다.
- 주제를 바탕으로 시나리오/나레이션 대본 생성
- 필요하면 장면별로 쪼개기 (예: “1장면: ~”, “2장면: ~”)
- 각 장면에 맞는 비디오/이미지용 프롬프트 추출
출력 형식은 JSON이나 마크다운으로 고정해 두고, 다음 단계(음성·영상)에서 파싱하기 쉽게 만든다.
예: { "script": "...", "scenes": [ { "narration": "...", "visual_prompt": "..." } ] }
3. 음성·영상 API 고르기
음성(TTS)
- ElevenLabs, Google Cloud TTS, AWS Polly, 네이버 클로바 등
- 대본 텍스트 + 언어/음색 설정만 넘기면 음원 파일이 나오는 API를 쓰면 된다.
영상 생성
- Runway Gen-4: API 제공, 이미지→영상·텍스트→영상 지원, 작업 워크플로에 잘 맞음
- OpenAI Sora: 품질은 높으나 지역·구독 제한 있음, API 정책 확인 필요
- Kling: 긴 구간·물리 시뮬레이션에 강점
- Google Veo: GCP 연동·엔터프라이즈 용도
- DiffusionRouter 같은 통합 API가 있으면, 한 번 붙여 두고 모델만 바꾸는 방식도 가능하다.
에이전트 단에서는 “장면 N용 비디오 생성” 요청을 위 API에 넘기고, 나온 영상 URL/파일을 다음 단계로 전달하면 된다.
4. 합성: FFmpeg로 음원 + 영상 붙이기
음원 길이에 맞춰 영상 클립을 이어 붙이거나, 이미지 + 음원으로 슬라이드 영상을 만드는 식이다.
FFmpeg 예시(음원 + 한 장면 영상):
ffmpeg -i audio.mp3 -i scene1.mp4 -c:v copy -c:a aac -shortest output.mp4
여러 장면이면 concat demuxer로 클립을 이어 붙인 뒤, 마지막에 음원을 믹스하면 된다.
이 부분을 스크립트나 작은 서비스로 만들어 두고, 에이전트는 “음원 경로 + 영상 경로 목록”만 넘겨 주면 된다.
5. 에이전트 구조 잡기
- 오케스트레이터: LLM(클로드, GPT 등)이 사용자 입력을 해석하고, “대본 생성 → 장면 분리 → (장면별) 음성/영상 생성 → 합성” 순서를 정한다.
- 도구(Tools):
generate_script(prompt)→ 대본 + 장면/비주얼 프롬프트generate_voice(text, voice_id)→ 음원 파일generate_video(prompt, options)→ 영상 파일/URLmerge_media(audio_path, video_paths)→ 최종 영상
- 상태: 현재 단계, 생성된 자산(대본, 음원, 장면별 영상)을 메모리나 디스크에 두고, 실패 시 재시도·일부만 재생성하는 로직을 넣을 수 있다.
LangChain, CrewAI, 자체 오케스트레이션 스크립트 등 어떤 스택을 쓰든, “LLM이 도구를 골라 호출하고, 결과를 다음 단계에 넘긴다”는 패턴은 동일하다.
6. 비용·실패 처리
- 비용: TTS·비디오 생성 API는 호출당 과금이 크다. 짧은 영상·저해상도로 프로토타입을 먼저 돌려 보고, 사용량을 모니터링하는 게 좋다.
- 실패: API 타임아웃, 생성 실패(부적절한 콘텐츠 등)가 있으므로, 재시도·폴백(다른 모델/설정)·사용자 알림을 넣어 두면 운영이 수월하다.
7. 참고할 만한 사례
- n8n + LLM: “대본 생성(OpenAI) → ElevenLabs 음성 → Runway 영상 → FFmpeg 합성 → 유튜브 업로드” 같은 워크플로를 노드로 엮은 사례가 있다.
- Director(video-db): 비디오 에이전트용 프레임워크로, 검색·편집·생성·편집을 에이전트로 묶는 구조를 참고할 수 있다.
- Scripts-to-Video(DeepBrain 등): 대본+설정만 넣으면 템플릿 기반 영상을 만들어 주는 API가 있어, “빠른 프로토타입”용으로 활용할 수 있다.
정리하면, LLM으로 동영상을 만드는 에이전트는 “대본 → 음성 → 영상 → 합성”이라는 단계를 LLM이 기획하고, 각 단계를 전용 API로 실행하는 구조로 만들 수 있다. 먼저 단계별로 수동 파이프라인을 돌려 본 뒤, 그걸 도구로 감싸서 에이전트에 붙이는 순서로 진행하면 이해하기도 구현하기도 수월하다.
BlueFox Dev - 2026년 2월 3일