那么我们将第二个难点也忽略掉文字转WAV音频