此时从两人口中说出来最多的词汇就是文字转WAV音频