你的最终目标是读到博士文字转WAV音频