在拍摄的过程中是很容易笑场的文字转WAV音频