我之所以记得进去的场景和出来的场景文字转WAV音频