这也完全达到了杜克的预期文字转WAV音频