但他们忽略了细节文字转WAV音频