最终形成适合施展文字转WAV音频