他竟能考虑到这一层文字转WAV音频