也更要求操作的精准度和持续性文字转WAV音频