里面的景象是重合的文字转WAV音频