然后就把注意力投向了外界文字转WAV音频