你说的难点确实是存在的文字转WAV音频