我会把自己看到经过原原本本地说出来的文字转WAV音频