他觉得要完成推导肯定会有麻烦文字转WAV音频