前提是你在理论上还要给出贡献文字转WAV音频