他们原本的底线是文字转WAV音频