所以唯一合理的解释便是文字转WAV音频