至少要有c级中段且稳定持续的x能力文字转WAV音频