他之前的推断应该是没错的文字转WAV音频