Xem link template không giới hạn phong cách do bạn sáng tạo https://drive.google.com/drive/folders/10_T9n6WdmU-AtTUbxAy1c1CS62_3Hs0v
# AUTO VIDEO CREATOR — TÀI LIỆU SẢN PHẨM
## TỔNG QUAN HỆ THỐNG
Auto Video Creator là hệ thống sản xuất video AI end-to-end hoàn toàn
tự động, chạy local trên máy tính cá nhân. Từ một đoạn văn bản ý tưởng,
hệ thống tự động tạo ra video hoàn chỉnh với voiceover, hình ảnh AI,
phụ đề karaoke và đăng lên đa nền tảng — không cần thuê nhân sự,
không cần API key đắt tiền, chi phí vận hành gần bằng 0.
---
## CÁC THÀNH PHẦN KỸ THUẬT
### 1. GIAO DIỆN UI WEB (Frontend)
- Giao diện web tùy chỉnh để nhập liệu và quản lý
- Chọn template dọc (9:16) hoặc ngang (16:9)
- Chọn phong cách phim: Ghibli, Pixar, Cyberpunk, 2D Motion Graphic,
Anime, Cinematic, Black & White, Paper Cutout, và 80+ phong cách khác
- Chọn chủ đề nội dung: Đạo lý, Tâm lý, Khoa học, Tài chính,
Sức khỏe và 40+ chủ đề khác
- Chọn đối tượng xem: Trẻ em, Thanh niên, Người lớn, Người già, Phụ nữ
- Cài đặt phụ đề: màu sắc, font chữ, nền box, bóng đổ, highlight
- Nút "Tạo kịch bản tự động" bằng AI
- Preview phụ đề realtime
### 2. HÀNG ĐỢI GOOGLE SHEET (Queue System)
- Mỗi yêu cầu tạo video được đẩy vào Google Sheet
- Hệ thống n8n đọc hàng đợi, xử lý tuần tự
- Tracking status: Pending → Running → Done → Published
- Cho phép xử lý nhiều video liên tiếp không cần giám sát
- Kết quả video trả về giao diện UI để người dùng tải xuống
### 3. GEMMA4 LOCAL LLM (AI Sinh Kịch Bản)
- Mô hình ngôn ngữ lớn chạy hoàn toàn trên máy local
- Tự động sinh kịch bản theo chủ đề, đối tượng, độ dài
- Format output: 24-28 chữ/dòng, phù hợp đọc video
- Không cần API key, không giới hạn số lần dùng
- Kiểm soát hoàn toàn dữ liệu, không upload lên cloud
### 4. OMNIVOICE — VOICE CLONING LOCAL
- Nhân bản giọng nói AI chạy hoàn toàn local
- Nhiều giọng đọc: nam/nữ, trầm/cao, ấm/lạnh, theo phong cách
- Clone giọng từ file audio mẫu (15-30 giây)
- Xuất file audio WAV/MP3 chất lượng cao
- Tích hợp hiệu ứng âm thanh: BGM, trend/meme, ASMR
- Không phụ thuộc ElevenLabs hay dịch vụ TTS đám mây
### 5. VEO 3 ULTRA — GEN FOOTAGE AI
- Tạo hình ảnh/video bằng Google Veo 3 Ultra
- Chất lượng điện ảnh, hỗ trợ nhiều phong cách nghệ thuật
- Local bypass server — vượt qua giới hạn rate limit
- Không giới hạn số lượng footage tạo ra
- Tích hợp với pipeline tự động, không cần thao tác thủ công
### 6. PYTHON VIDEO MERGER PIPELINE
- Ghép footage AI + voiceover + nhạc nền thành video hoàn chỉnh
- Xử lý timing tự động: voiceover dài bao nhiêu, video dài bấy nhiêu
- Hỗ trợ format dọc 9:16 (TikTok/Reels/Shorts) và ngang 16:9 (YouTube)
- Xuất MP4 chất lượng cao (CRF tùy chỉnh)
- Batch processing: xử lý nhiều video cùng lúc
### 7. AUTO SUBTITLE SERVER (Whisper + ASS)
- OpenAI Whisper nhận dạng giọng nói và tạo timestamp từng từ
- Hệ thống ASS subtitle với hiệu ứng karaoke — highlight từng chữ theo lời đọc
- Flask server local nhận config từ UI và render phụ đề
- Tùy chỉnh hoàn toàn:
- Font chữ (Dancing Script, Bangers, Courier New, Arial...)
- Màu chữ chính + màu highlight
- Nền box (màu + độ trong suốt)
- Bóng đổ nền (màu + độ lệch)
- Padding ngang/dọc
- Viền chữ
- Burn-in subtitle trực tiếp vào video qua ffmpeg
### 8. AUTO PUBLISH ĐA NỀN TẢNG
- Tự động đăng video lên YouTube (Shorts/Video dài)
- Tự động đăng lên Facebook Fanpage
- Tự động đăng lên GanjingWorld
- Lên lịch đăng theo giờ tùy chỉnh
- Caption thông minh theo từng nền tảng
---
## LUỒNG XỬ LÝ (END-TO-END FLOW)
Người dùng nhập ý tưởng / chủ đề qua UI ↓ Gemma4 local LLM tự động sinh kịch bản ↓ Job được đẩy vào hàng đợi Google Sheet ↓ n8n đọc hàng đợi → bắt đầu xử lý ↓ ┌──────┴──────┐ ↓ ↓ OmniVoice Veo 3 Ultra gen audio gen footage └──────┬──────┘ ↓ Python merger ghép video ↓ Whisper nhận dạng → tạo ASS subtitle ↓ ffmpeg burn subtitle vào video ↓ Video hoàn chỉnh → trả về UI ↓ Auto publish YouTube / Facebook / GanjingWorld