但也确实是用了太多的辅助文字转WAV音频