所以计划应该是尽量精准文字转WAV音频