可以只考虑电子文字转WAV音频