他的思路其实还是散修的那一套文字转WAV音频