肯定是需要两人来操控文字转WAV音频