所以他们的原则是文字转WAV音频