christming
diff --git a/‎README.en.md‎
Lines changed: 97 additions & 52 deletions b/‎README.en.md‎
Lines changed: 97 additions & 52 deletions
diff --git a/‎README.md‎
Lines changed: 59 additions & 28 deletions b/‎README.md‎
Lines changed: 59 additions & 28 deletions
diff --git a/‎config.example.py‎
Lines changed: 12 additions & 16 deletions b/‎config.example.py‎
Lines changed: 12 additions & 16 deletions
diff --git a/‎core/all_tts_functions/azure_tts.py‎
Lines changed: 2 additions & 1 deletion b/‎core/all_tts_functions/azure_tts.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎core/all_tts_functions/fish_tts.py‎
Lines changed: 16 additions & 12 deletions b/‎core/all_tts_functions/fish_tts.py‎
Lines changed: 16 additions & 12 deletions
diff --git a/‎core/all_tts_functions/gpt_sovits_tts.py‎
Lines changed: 0 additions & 2 deletions b/‎core/all_tts_functions/gpt_sovits_tts.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎core/all_tts_functions/openai_tts.py‎
Lines changed: 2 additions & 2 deletions b/‎core/all_tts_functions/openai_tts.py‎
Lines changed: 2 additions & 2 deletions
@@ -30,70 +30,82 @@ VideoLingo 是一站式视频翻译本地化配音工具，旨在生成 Netflix
 
 - **✅ 按照 Netflix 标准检查单行长度，绝无双行字幕**
 
-- 🗣️ 使用 GPT-SoVITS 等方法进行高质量的对齐配音
+- **🗣️ 使用 GPT-SoVITS 等方法进行高质量的对齐配音**
 
 - 🚀 整合包一键启动，在 streamlit 中一键出片
 
 ## 🎥 效果演示
 
 <table>
 <tr>
-<td width="33%">
+<td width="25%">
 
 ### 俄语翻译
 ---
 https://github.com/user-attachments/assets/25264b5b-6931-4d39-948c-5a1e4ce42fa7
 
 </td>
-<td width="33%">
+<td width="25%">
 
 ### GPT-SoVITS
 ---
 https://github.com/user-attachments/assets/47d965b2-b4ab-4a0b-9d08-b49a7bf3508c
 
 </td>
-<td width="33%">
+<td width="25%">
 
 ### Fish TTS 丁真
 ---
 https://github.com/user-attachments/assets/e7bb9090-d2ef-4261-9dc5-56bd67dc710d
 
+</td>
+<td width="25%">
+
+### OAITTS
+---
+https://github.com/user-attachments/assets/85c64f8c-06cf-4af9-b153-ee9d2897b768
+
 </td>
 </tr>
 </table>
 
 ### 语言支持：
 
-当前输入语言支持和示例（暂不支持中文输入）：
+当前输入语言支持和示例：
 
 | 输入语言 | 支持程度 | 翻译demo | 配音demo |
 |---------|---------|---------|----------|
-| 🇬🇧🇺🇸 英语 | 🤩 | [英转中](https://github.com/user-attachments/assets/127373bb-c152-4b7a-8d9d-e586b2c62b4b) | TODO |
-| 🇷🇺 俄语 | 😊 | [俄转中](https://github.com/user-attachments/assets/25264b5b-6931-4d39-948c-5a1e4ce42fa7) | TODO |
-| 🇫🇷 法语 | 🤩 | [法转日](https://github.com/user-attachments/assets/3ce068c7-9854-4c72-ae77-f2484c7c6630) | TODO |
-| 🇩🇪 德语 | 🤩 | [德转中](https://github.com/user-attachments/assets/07cb9d21-069e-4725-871d-c4d9701287a3) | TODO |
-| 🇮🇹 意大利语 | 🤩 | [意转中](https://github.com/user-attachments/assets/f1f893eb-dad3-4460-aaf6-10cac999195e) | TODO |
-| 🇪🇸 西班牙语 | 🤩 | [西转中](https://github.com/user-attachments/assets/c1d28f1c-83d2-4f13-a1a1-859bd6cc3553) | TODO |
-| 🇯🇵 日语 | 😐 | [日转中](https://github.com/user-attachments/assets/856c3398-2da3-4e25-9c36-27ca2d1f68c2) | TODO |
-| 🇨🇳 中文 | 😖 | ❌ | TODO |
+| 英语 | 🤩 | [英转中](https://github.com/user-attachments/assets/127373bb-c152-4b7a-8d9d-e586b2c62b4b) | TODO |
+| 俄语 | 😊 | [俄转中](https://github.com/user-attachments/assets/25264b5b-6931-4d39-948c-5a1e4ce42fa7) | TODO |
+| 法语 | 🤩 | [法转日](https://github.com/user-attachments/assets/3ce068c7-9854-4c72-ae77-f2484c7c6630) | TODO |
+| 德语 | 🤩 | [德转中](https://github.com/user-attachments/assets/07cb9d21-069e-4725-871d-c4d9701287a3) | TODO |
+| 意大利语 | 🤩 | [意转中](https://github.com/user-attachments/assets/f1f893eb-dad3-4460-aaf6-10cac999195e) | TODO |
+| 西班牙语 | 🤩 | [西转中](https://github.com/user-attachments/assets/c1d28f1c-83d2-4f13-a1a1-859bd6cc3553) | TODO |
+| 日语 | 😐 | [日转中](https://github.com/user-attachments/assets/856c3398-2da3-4e25-9c36-27ca2d1f68c2) | TODO |
+| 中文* | 🤩 | [中转英](https://github.com/user-attachments/assets/48f746fe-96ff-47fd-bd23-59e9202b495c) | [罗翔老师脱口秀](https://github.com/user-attachments/assets/85c64f8c-06cf-4af9-b153-ee9d2897b768) |
+> *中文需单独配置whisperX模型，见源码安装
 
 翻译语言支持大模型会的所有语言，配音语言取决于选取的TTS方法。
 
 ## 🚀 一键整合包 for Windows
 
 ### 注意事项：
 
-1. 整合包使用的是 CPU 版本的 torch，大小约 **2.5G**。
-2. 在配音步骤使用 UVR5 降噪时，CPU 版本会显著慢于 GPU 加速的 torch。
+1. 整合包使用的是 CPU 版本的 torch，大小约 **2.6G**。
+2. 在配音步骤使用 UVR5 进行人声分离时，CPU 版本会显著慢于 GPU 加速的 torch。
 3. 整合包**仅支持通过 API 调用 whisperXapi ☁️**，不支持本地运行 whisperX 💻。
+4. 整合包使用的 whisperXapi 不支持中文转录，若需要使用中文，请从源码安装使用本地运行的 whisperX 💻。
+5. 整合包在转录步骤尚未进行 UVR5 人声分离，不建议使用 BGM 较嘈杂的视频。
 
 如果需要以下功能，请从源码安装（需要Nvidia显卡以及至少 **20G** 硬盘空间）：
+- 输入语言为中文
 - 本地运行 whisperX 💻
-- 使用 GPU 加速的 UVR5 降噪
+- 使用 GPU 加速的 UVR5 人声分离
+- 转录 BGM 较嘈杂的视频
 
 ### 下载和使用说明
 
-1. 下载 `v1.2.0` 一键整合包(750M): [直接下载](https://vip.123pan.cn/1817874751/8158115) | [度盘备用](https://pan.baidu.com/s/1H_3PthZ3R3NsjS0vrymimg?pwd=ra64)
+1. 下载 `v1.3` 一键整合包(800M): [直接下载](https://vip.123pan.cn/1817874751/8187706) | [度盘备用](https://pan.baidu.com/s/1H_3PthZ3R3NsjS0vrymimg?pwd=ra64)
 
 2. 解压后双击运行文件夹中的 `一键启动.bat`
 
@@ -112,7 +124,7 @@ https://github.com/user-attachments/assets/e7bb9090-d2ef-4261-9dc5-56bd67dc710d
 | deepseek-coder | [deepseek](https://platform.deepseek.com/api_keys) | https://api.deepseek.com | ￥2 / 1M tokens | 😲 |
 > 注：云雾api 还支持 openai 的 tts-1 接口，可在配音步骤选用。
 
-> 提醒：deepseek在翻译过程有极低的概率错误，若出错请更换sonnet...
+> 提醒：deepseek在翻译过程有极低的概率错误，若出错请更换claude 3.5 sonnet模型
 
 #### 常见问题
 
@@ -146,7 +158,7 @@ VideoLingo 使用 WhisperX 进行语音识别，支持本地部署和云端api
 | 方案 | 缺点 |
 |:-----|:-----|
 | **whisperX 🖥️** | • 安装CUDA 🛠️<br>• 下载模型 📥<br>• 高显存 💾 |
-| **whisperXapi ☁️ (推荐)** | • 需梯子 🕵️‍♂️<br>• Visa卡 💳 |
+| **whisperXapi ☁️** | • 需梯子 🕵️‍♂️<br>• Visa卡 💳<br>• **中文效果差** 🚫 |
 
 #### 获取令牌
    - 在 [Replicate](https://replicate.com/account/api-tokens) 注册并绑定 Visa 卡支付方式，获取令牌
@@ -166,6 +178,12 @@ VideoLingo提供了多种tts接入方式，以下是对比（如不使用配音
 - **Azure TTS 可在QQ群公告获取测试 key** 或自行在 [官网](https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-python) 注册充值；
 - **Fish TTS 可在QQ群公告获取测试 key** 或自行在 [官网](https://fish.audio/zh-CN/go-api/) 注册充值
 
+<details>
+<summary>OpenAI 声音怎么选？</summary>
+
+声音列表可以在 [官网](https://platform.openai.com/docs/guides/text-to-speech/voice-options) 找到，例如 `alloy`, `echo`, `nova` 和 `fable` 等，在 `config.py` 中修改 `OAI_VOICE` 即可。
+
+</details>
 <details>
 <summary>Azure 声音怎么选？</summary>
 
@@ -209,7 +227,7 @@ VideoLingo提供了多种tts接入方式，以下是对比（如不使用配音
       vits_weights_path: SoVITS_weights_v2/Huanyu_v2_e10_s150.pth
       ```
    - 参考方法 a，在和 `yaml` 文件同个目录下，放入后续使用的参考音频，命名为 `你喜欢的英文角色名_参考音频的文字内容.wav` 或 `.mp3`，例如 `Huanyuv2_你好，这是一条测试音频.wav`，程序会自动识别并使用。
-   - ⚠️ 警告：**请使用英文命名 `角色名`** ，否则会出现错误。 `参考音频的文字内容` 可以使用中文。
+   - ⚠️ 警告：**请使用英文命名 `角色名`** ，否则会出现错误。 `参考音频的文字内容` 可以使用中文。目前仍处于测试版，可能产生报错。
 
 
    ```
@@ -248,20 +266,20 @@ VideoLingo提供了多种tts接入方式，以下是对比（如不使用配音
 
 ### 安装步骤
 
-支持Win, Mac, Linux。遇到问题可以把整个步骤丢给 GPT 问问~
+需要一定的 python 基础，支持Win, Mac, Linux。遇到问题可以把整个步骤丢给 GPT 问问~
 
-1. 打开 Anaconda Powershell Prompt 并切换到桌面目录：
+1. 打开 Anaconda Prompt 并切换到桌面目录：
    ```bash
    cd desktop
    ```
 
-2. 克隆项目：
+2. 克隆项目并切换至项目目录：
    ```bash
    git clone https://github.com/Huanshere/VideoLingo.git
    cd VideoLingo
    ```
 
-3. 配置虚拟环境（必须 3.10.0）：
+3. 创建并激活虚拟环境（**必须 3.10.0**）：
    ```bash
    conda create -n videolingo python=3.10.0 -y
    conda activate videolingo
@@ -271,21 +289,33 @@ VideoLingo提供了多种tts接入方式，以下是对比（如不使用配音
    ```bash
    python install.py
    ```
-   根据提示选择所需的 Whisper 项目，脚本将自动安装相应的 torch 和 whisper 版本
+   根据提示选择所需的 Whisper 方法，脚本将自动安装相应的 torch 和 whisper 版本
 
-   注意：Mac 用户需根据提示手动安装 ffmpeg
+5. 仅对于需要使用中文转录的用户：
+   
+   请手动下载 Belle-whisper-large-v3-zh-punct 模型（[度盘链接](https://pan.baidu.com/s/1NyNtkEM0EMsjdCovncsx0w?pwd=938n)），并将其覆盖在项目根目录的 `_model_cache` 文件夹下
 
-5. 🎉 输入命令或点击 `一键启动.bat` 启动 Streamlit 应用：
+6. 🎉 输入命令或点击 `一键启动.bat` 启动 Streamlit 应用：
    ```bash
    streamlit run st.py
    ```
 
-6. 在弹出网页的侧边栏中设置key，并注意选择whisper方法
+7. 在弹出网页的侧边栏中设置key，并注意选择whisper方法
 
    ![settings](https://github.com/user-attachments/assets/3d99cf63-ab89-404c-ae61-5a8a3b27d840)
 
+8. （可选）更多进阶设置可以在 `config.py` 中手动修改
+
 <!-- 本项目采用结构化模块开发，可按顺序逐个运行 `core\step__.py`，技术文档: [中文](./docs/README_guide_zh.md) ｜ [英文](./docs/README_guide_en.md)（待更新） -->
 
+## ⚠️ 注意事项
+
+1. UVR5 对内存要求较高，16G 内存处理极限是 30min， 32GB 内存处理极限是 50min，请谨慎尝试长视频。
+   
+2. 翻译步骤极小可能出现 'phrase' 错误，遇到请反馈。
+   
+3. 配音功能质量不稳定，为最佳质量，请尽量选择适合原视频的 TTS 语速，例如 OAITTS 语速较快，FishTTS 语速请试听后选择。
+
 ## 📄 许可证
 
 本项目采用 Apache 2.0 许可证。使用本项目时，请遵循以下规定：
@@ -300,6 +330,7 @@ VideoLingo提供了多种tts接入方式，以下是对比（如不使用配音
 - [yt-dlp](https://github.com/yt-dlp/yt-dlp)
 - [json_repair](https://github.com/mangiucugna/json_repair)
 - [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS)
+- [BELLE](https://github.com/LianjiaTech/BELLE)
 
 ## 📬 联系我们
 
 
@@ -6,16 +6,16 @@
 MODEL = 'claude-3-5-sonnet-20240620'
 
 # Replicate API 设置
-REPLICATE_API_TOKEN = 'YOUR_API_TOKEN'
+REPLICATE_API_TOKEN = 'YOUR_REPLICATE_API_TOKEN'
 
 # 语言设置，写入prompt中，用自然语言描述即可
 TARGET_LANGUAGE = '简体中文'
 
 ## 字幕设置
 # *每行字幕的最大长度 字母数量
-MAX_SUB_LENGTH = 75
+MAX_SUB_LENGTH = 70
 # *翻译字幕比源字幕字号更大一些，会影响切割字幕的参考长度
-TARGET_SUB_MULTIPLIER = 1.2
+TARGET_SUB_MULTIPLIER = 1.1
 
 # 视频分辨率 [0x0, 640x360, 1920x1080]  0x0会生成一个0秒的黑色视频占位
 RESOLUTION = '640x360'
@@ -30,8 +30,8 @@
 # Whisper 设置 [whisperx, whisperxapi]
 WHISPER_METHOD = 'whisperxapi'
 
-# *Whisper 指定识别语言 [auto, en, ...] auto为自动检测，en为强制转译为英文
-WHISPER_LANGUAGE = 'auto'
+# Whisper 指定识别语言 [en, zh, auto] auto为自动检测，en为强制转译为英文
+WHISPER_LANGUAGE = 'en'
 
 # *llm 多线程访问数量
 MAX_WORKERS = 6
@@ -52,10 +52,8 @@
 OAI_TTS_API_BASE_URL = 'https://yunwu.zeabur.app'
 
 # Azure 配置
-# API文档及申请：https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/get-started-text-to-speech?tabs=windows%2Cterminal&pivots=programming-language-python
-# voice列表见：https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/language-support?tabs=tts#prebuilt-neural-voices
 # 在线体验voice：https://speech.microsoft.com/portal/voicegallery
-AZURE_KEY = 'YOUR_API_KEY'
+AZURE_KEY = 'YOUR_AZURE_KEY'
 AZURE_REGION = 'eastasia'
 AZURE_VOICE = 'zh-CN-XiaoxiaoMultilingualNeural' # 推荐女声 'zh-CN-XiaoxiaoMultilingualNeural' 男声 "zh-CN-YunyiMultilingualNeural"
 
@@ -65,9 +63,9 @@
 REFER_MODE = 3
 
 # FishTTS API
-FISH_TTS_API_KEY = 'YOUR_API_KEY'
+FISH_TTS_API_KEY = 'YOUR_FISH_TTS_API_KEY'
 # FishTTS 角色 确保在下方存在
-FISH_TTS_CHARACTER = '丁真'
+FISH_TTS_CHARACTER = 'AD学姐'
 # *FishTTS角色列表 "角色名" : "角色ID"
 FISH_TTS_CHARACTER_ID_DICT = {
     'AD学姐': '7f92f8afb8ec43bf81429cc1c9199cb1',
@@ -79,10 +77,8 @@
     '邓紫棋': '3b55b3d84d2f453a98d8ca9bb24182d6',
     '郭德纲': '7c66db6e457c4d53b1fe428a8c547953',
 }
-# *FishTTS 音量增益，官方模型一般音量偏小，建议增益1.5
-FISH_TTS_VOLUME = 1.5
 
-# *音频的速度范围控制，实测1~1.35 之间效果自然
+# *音频的速度范围
 MIN_SPEED_FACTOR = 1
 MAX_SPEED_FACTOR = 1.35
 NORMAL_SPEED_FACTOR = 1.2 # 认为的正常语速
@@ -94,6 +90,8 @@
 
 # 压制配音视频中原始人声音量 0.1=10% or 0
 ORIGINAL_VOLUME = 0.1
+# *压制配音音量 1.5=150%, 大部分配音原音都较小
+DUB_VOLUME = 1.5
 
 ## ======================== 额外设定 请勿修改 ======================== ##
 # Whisper 模型目录
@@ -114,9 +112,7 @@
     "es": "es_core_news_md",
     "de": "de_core_news_md",
     "it": "it_core_news_md",
-    
-    # Not supported
-    # "zh": "zh_core_web_md",
+    "zh": "zh_core_web_md",
 }
 
 # 使用空格分割的语言
 
@@ -22,4 +22,5 @@ def azure_tts(text, savepath):
             print(f"Error: {speech_synthesis_result.cancellation_details.error_details}")
         return False
 
-# azure_tts("你好，世界！", "output/audio/azure_tts.wav")
+if __name__ == "__main__":
+    azure_tts("你好，世界！", "output/audio/azure_tts.wav")
@@ -2,15 +2,12 @@
 from pathlib import Path
 import os, sys
 from rich import print as rprint
-import soundfile as sf
-import librosa
-import io
-import numpy as np
-import pydub
+from moviepy.editor import AudioFileClip
 sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
 
+
 def fish_tts(text, save_path):
-    from config import FISH_TTS_API_KEY, FISH_TTS_CHARACTER, FISH_TTS_CHARACTER_ID_DICT, FISH_TTS_VOLUME
+    from config import FISH_TTS_API_KEY, FISH_TTS_CHARACTER, FISH_TTS_CHARACTER_ID_DICT
     if FISH_TTS_CHARACTER not in FISH_TTS_CHARACTER_ID_DICT:
         raise ValueError(f"Character '{FISH_TTS_CHARACTER}' not found in FISH_TTS_CHARACTER_ID_DICT")
     id = FISH_TTS_CHARACTER_ID_DICT[FISH_TTS_CHARACTER]
@@ -35,12 +32,19 @@ def fish_tts(text, save_path):
             wav_file_path = Path(save_path).with_suffix('.wav')
             wav_file_path.parent.mkdir(parents=True, exist_ok=True)
 
-            # Convert mp3 to wav using pydub, otherwise it cannot read the duration
-            audio = pydub.AudioSegment.from_file(io.BytesIO(response.content), format="mp3")
-            
-            # Adjust volume
-            audio = audio + (10 * np.log10(FISH_TTS_VOLUME))
-            audio.export(wav_file_path, format="wav")
+            # Save the MP3 content to a temporary file
+            temp_mp3_path = wav_file_path.with_suffix('.mp3')
+            with open(temp_mp3_path, 'wb') as temp_file:
+                temp_file.write(response.content)
+
+            # Convert mp3 to wav using moviepy
+            audio_clip = AudioFileClip(str(temp_mp3_path))
+            audio_clip.write_audiofile(str(wav_file_path))
+            audio_clip.close()
+
+            # Remove the temporary MP3 file
+            os.remove(temp_mp3_path)
+
             rprint(f"[bold green]Converted audio saved to {wav_file_path}[/bold green]")
             break
         else:
 
@@ -1,12 +1,10 @@
 from pathlib import Path
-import json
 import requests
 from rich import print as rprint
 import os, sys
 import subprocess
 import socket
 sys.path.append(os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__)))))
-import time
 def check_lang(text_lang, prompt_lang):
     if any(lang in text_lang.lower() for lang in ['zh', 'cn', '中文']):
         text_lang = 'zh'
 
@@ -25,5 +25,5 @@ def openai_tts(text, save_path):
 
     print(f"Audio saved to {speech_file_path}")
 
-# Example usage
-# openai_tts("今天是个好日子，适合做点人们喜欢的东西！", "output/audio/tmp/test.wav")
+if __name__ == "__main__":
+    openai_tts("今天是个好日子，适合做点人们喜欢的东西！", "output/audio/tmp/test.wav")