普通话听文章,我很容易走神,听起来比较平淡,而使用粤语听情绪表达更加丰富,能吸引注意力,看看抖音上的直播都非常亢奋,就是为了吸引你的注意力。为了寻找合适粤语 TTS,测试过以下的 TTS
Mac系统自带的 TTS。人机味重,听个响。开启方式很简单,命令行执行say -v "Sinji" "你好,我系靓仔"
Edge的TTS,稍微好些,缺乏情感,加个速才能听下去
GPT-SoVITS复刻声音支持粤语,有感情,但信息会丢失,有英文时,效果差
CosyVoice,听demo音频都听出来是个垃圾了
Gemini 2.5 Pro preview TTS效果不错,不过有些词读不对,长文本合成失败
MiniMax的效果是最强的,情感流畅度都很好,毕竟这是商业模型,就是英文比较多时会翻车