但是听懂一般的口语却是没有问题的文字转WAV音频