问题在于咱们拍文字转WAV音频