코딩 없이 만드는 AI 영상 공장: 하네스 엔지니어링 실전 가이드

TL;DR

Claude Code 에이전트 6개로 숏폼 영상 제작 전 과정 자동화 파이프라인 구축
프로그래밍 코드 없이 마크다운 파일만으로 시스템 설계 — 이것이 하네스 엔지니어링
에이전트 간 데이터 계약, 모델 배정 전략, 품질 관리 시스템까지 실전 설계 방법 공유

프롬프트 엔지니어링 그 다음은?

AI에게 잘 물어보는 법, 이른바 프롬프트 엔지니어링은 이제 많은 분이 알고 있습니다. 하지만 프롬프트 하나로 해결할 수 없는 복잡한 작업은 어떻게 할까요?

숏폼 영상 하나를 만드는 데 필요한 과정을 생각해 보겠습니다. 대본을 쓰고, 장면을 설계하고, 이미지를 생성하고, 나레이션을 녹음하고, 영상을 만들고, 편집합니다. 각 단계가 전문성이 필요한 별도의 작업입니다.

이 전 과정을 하나의 AI 시스템이 자율적으로 처리하게 만들 수 있다면 어떨까요? 그것이 바로 하네스 엔지니어링(Harness Engineering)입니다.

DEFINITION

하네스 엔지니어링이란

AI 모델을 특정 역할과 규칙 안에서 동작하게 만드는 제어 구조(harness)를 설계하는 것입니다. 코드 대신 자연어로 AI의 행동을 정의하고, 여러 AI 에이전트가 협업하는 시스템을 구축합니다. 프롬프트 엔지니어링이 "AI에게 잘 물어보는 법"이라면, 하네스 엔지니어링은 "AI가 자율적으로 일하는 시스템을 설계하는 법"입니다.

전체 파이프라인 구조

이 파이프라인은 6개의 전문 에이전트가 순차적으로 협업합니다. 주제 하나만 입력하면, 최종 영상까지 자동으로 완성됩니다.

숏폼 자동화 파이프라인 — 6 Agents, 4 AI APIs, 0 Manual Editing

✍️ 대본 작성 Sonnet

→

🎨 장면 설계 Opus

→

🖼️ 이미지 생성 Gemini Pro

→

🎤 음성 합성 Typecast

→

🎥 영상 생성 Veo 3.1

→

🎬 최종 편집 ffmpeg

하네스의 3계층 구조

이 시스템은 세 개의 층으로 이루어져 있습니다. 가장 위에 사용자와 대화하는 오케스트레이터, 중간에 전문 에이전트들, 아래에 실제 도구들이 있습니다.

3-Layer Harness Architecture

Layer 1 — Orchestrator

Claude Code 메인 세션

사용자의 명령을 받아 적절한 서브에이전트를 선택하고 실행합니다. "이 대본으로 장면 설계해줘"라고 말하면, 자동으로 shortform-scene-designer 에이전트를 호출합니다.

↓↓↓

Layer 2 — Agents

6개의 전문 서브에이전트

각 .md 파일이 독립된 에이전트로 실행됩니다. 자신의 마크다운에 정의된 역할, 규칙, 워크플로우만 따릅니다. 메인 세션의 컨텍스트와 완전히 분리되어 독자적으로 동작합니다.

~/.claude/agents/shortform-*.md

↓↓↓

Layer 3 — Skills & APIs

외부 도구와 API

Gemini(이미지), Veo(영상), Typecast(음성), ffmpeg(편집) 등 실제 생성 도구들. 스킬로 분리되어 여러 에이전트가 공유하며, Python 가상환경으로 의존성이 격리됩니다.

~/.claude/skills/gemini-image-general/, veo-video-general/

에이전트 마크다운 해부

이 시스템의 핵심은 에이전트를 정의하는 마크다운 파일입니다. 프로그래밍 코드가 아니라 자연어 명세입니다. 실제 구조를 보겠습니다.

shortform-writer.md

Frontmatter

name: shortform-writer
model: sonnet
tools: Read, Write

YAML frontmatter가 모델, 도구, 메타데이터를 설정합니다

역할 정의

당신은 숏폼 나레이션 스크립트 작성 전문가입니다.
10문장으로 구성된 대본을 작성합니다.

마크다운 본문 전체가 시스템 프롬프트가 됩니다

절대 규칙

- 번호당 정확히 1문장 (이거 어기면 다음 에이전트 깨짐)
- Hook(1-2) → Body(3-6) → Solution(7-9) → Closing(10)

"~하면 ~해라" 형태의 자연어 조건문이 실제로 동작합니다

품질 체크

- [ ] 10문장 정확히 작성했는가?
- [ ] 구체적 행동이 포함되었는가?

에이전트가 자체적으로 품질을 검증합니다

이것이 에이전트 하나의 전부입니다. 코드가 아니라 마크다운 한 장으로 AI 전문가 하나가 만들어집니다.

에이전트 간 데이터 흐름

가장 중요한 설계 포인트는 에이전트 간의 데이터 계약입니다. 에이전트 A의 출력 형식이 에이전트 B의 입력 형식과 정확히 맞아야 전체 파이프라인이 동작합니다.

Agent-to-Agent Data Contracts

Writer

→

10문장 스크립트 (.md) — > ① 형식

→

Scene Designer

→

체이닝 맵 + Gemini 프롬프트 + 실행 커맨드

→

Image Gen

→

10장 PNG (9:16, 2K 해상도)

→

Video Prompter

TTS Gen

→

문장별 초 단위 타이밍 리포트

→

Video Prompter

All Sources

→

오디오 + 영상 + 스크립트(자막용)

→

full_sub.mp4

에이전트 간 통신은 파일 시스템을 매개로 합니다. Writer가 .md를 쓰면 Scene Designer가 그 .md를 읽는 구조입니다. API 연동 없이 Read / Write 도구만으로 데이터가 흐릅니다.

이 방식의 장점은 명확합니다. 중간 결과물이 모두 파일로 남기 때문에 어디서 문제가 생겼는지 바로 확인할 수 있고, 사람이 직접 수정한 뒤 다음 단계를 이어서 실행할 수도 있습니다.

핵심 설계 결정 7가지

설계 결정	선택	이유
에이전트 정의 형식	마크다운 (.md)	비개발자도 읽고 수정 가능. git으로 버전 관리
모델 배정	Opus(설계) / Sonnet(실행)	비용 최적화. 창의적 판단이 필요한 단계만 Opus
에이전트 간 통신	파일 시스템	디버깅 용이. 중간 결과물을 사람이 확인/수정 가능
실행 방식	순차 실행 (직렬)	각 단계 출력이 다음 단계 입력에 의존
도구 권한	최소 권한 원칙	Writer에겐 Bash 불필요. 필요한 도구만 허용
품질 관리	체크리스트 내장	별도 QA 에이전트 없이 자체 검증
에러 처리	자연어 조건문	"429 에러 시 5초 대기 후 재시도" = 실제 로직

품질 관리: 자동화의 함정을 막는 법

AI 자동화의 가장 큰 함정은 "일단 돌아가니까 괜찮겠지"입니다. 이 파이프라인에는 단계마다 자동 품질 검증이 내장되어 있습니다.

이미지 텍스트 3단 방어

AI 이미지의 고질적 문제인 텍스트 삽입을 프롬프트 예방 → 시각적 탐지 → 강화 재생성 3단계로 방어합니다.

시각적 일관성 체이닝

여러 장면에 등장하는 오브젝트를 체이닝 맵으로 관리. 10장의 이미지가 하나의 세계관을 공유합니다.

복잡도 기반 A/B 버전

고난이도 장면은 Standard + Fast 두 버전을 생성. 사용자가 더 나은 결과를 선택합니다.

오디오-영상 자동 싱크

나레이션 길이에 정확히 맞춰 영상 속도를 자동 조절. 무음 트림 + 패딩으로 자연스러운 호흡.

API 장애 자동 대응

Rate Limit 발생 시 5초 대기 후 최대 3회 재시도. 3회 실패 시 스킵하고 리포트에 기록.

자막 위치 최적화

YouTube Shorts UI 요소(좋아요, 댓글 버튼)를 피해 MarginV=280으로 자막을 배치합니다.

완성된 에피소드 폴더 구조

하나의 에피소드가 완성되면 이런 폴더 구조가 생깁니다. 각 에이전트의 출력물이 정해진 위치에 저장됩니다.

episodes/001_brain_health/
├── scripts/
│   └── brain_health.md           # Writer 출력
├── docs/
│   ├── brain_health_scenes.md    # Scene Designer 출력
│   └── brain_health_video.md     # Video Prompter 출력
├── images/
│   ├── scene_01.png ~ 10.png     # Image Generator 출력
├── audio/
│   ├── 01_text.mp3 ~ 10_text.mp3 # TTS Generator 출력
│   ├── _audio_report.md           # 타이밍 리포트
│   ├── trimmed/                   # 무음 제거
│   └── padded/                    # 패딩 추가
└── video/
    ├── drafts/                    # A/B 버전들
    ├── final/                     # 선택된 영상
    └── merged/
        ├── 01.mp4 ~ 10.mp4       # 싱크 완료
        ├── full.mp4               # 전체 이어붙이기
        ├── subs.ass               # 자막 파일
        └── full_sub.mp4           # <-- 최종 결과물

배운 것: 하네스 설계 5원칙

이 파이프라인을 만들면서 정리한 하네스 엔지니어링의 핵심 원칙입니다.

1. 마크다운이 코드를 대체한다

자연어 명세만으로 6단계 자동화 파이프라인이 동작합니다. "프로그래밍을 못 하면 자동화를 못 한다"는 전제가 깨지는 순간입니다. 물론 프로그래밍 지식이 있으면 더 정교한 설계가 가능하지만, 시작 장벽이 사라졌습니다.

2. 데이터 계약이 성패를 결정한다

에이전트가 아무리 잘 동작해도, 출력 형식이 다음 에이전트의 기대와 다르면 파이프라인이 깨집니다. Writer의 "번호당 정확히 1문장" 규칙은 단순한 스타일 가이드가 아니라, Scene Designer가 파싱할 수 있는 데이터 형식을 보장하는 인터페이스 계약입니다.

3. 모델 선택은 비용 전략이다

모든 단계에 최고 모델을 쓰면 비용이 폭발합니다. 창의적 판단이 필요한 장면 설계와 이미지 생성은 Opus, 규칙 기반의 실행 작업(TTS, 편집)은 Sonnet으로 배정했습니다.

4. 파일 시스템이 최고의 디버깅 도구다

에이전트 간 통신을 파일 시스템으로 한 덕분에, 문제가 생겼을 때 중간 파일을 열어보면 어디서 잘못됐는지 바로 알 수 있습니다. 사람이 직접 파일을 수정하고 다음 단계를 이어서 실행할 수도 있습니다.

5. 사람은 감독자 역할만 한다

주제 선정, A/B 버전 선택, 최종 확인만 사람이 합니다. 1인 창작자가 팀 수준의 생산성을 낼 수 있는 방법입니다. 이것이 하네스 엔지니어링이 1인 창업자에게 특히 강력한 이유입니다.

결과와 다음 단계

현재 이 파이프라인으로 "노쭈굴" 캐릭터의 건강/심리 숏폼 콘텐츠를 제작하고 있습니다. 주제 하나를 입력하면 약 30~40분 만에 자막까지 포함된 숏폼 영상이 완성됩니다.

다음 단계로는 파이프라인 전체를 하나의 명령으로 실행하는 "원클릭 모드"와, 에피소드 단위의 일괄 생성 시스템을 계획하고 있습니다.

하네스 엔지니어링은 아직 이름조차 낯선 분야입니다. 하지만 AI가 점점 강력해질수록, "AI를 어떻게 제어하고 조합할 것인가"라는 질문의 가치도 함께 커질 것입니다.