通过对话和举止文字转WAV音频