因为他们大多倾向于认为文字转WAV音频