这个时候的他们完全不会去考虑2文字转WAV音频