而且他原本的目标就是追到文字转WAV音频