因为他很难把握尺度文字转WAV音频