那么……他是怎么做到对自己说话的文字转WAV音频