但最起码是知道他们的样子的文字转WAV音频