最终可能仅仅是将无名指的感知提升0文字转WAV音频