这样就变成了可控的双层面文字转WAV音频