突然觉得不妥……因为不管是从声音还是身形气势来看文字转WAV音频