但他的论文在逻辑上是非常清晰的文字转WAV音频