再加上动作的辅助加成文字转WAV音频