这一计划最终大致确定为文字转WAV音频