但难度主要是在双方的配合上面文字转WAV音频