最终还是选择从他的口中说出来文字转WAV音频