主动开口说话的两次都是跟阵法有关文字转WAV音频