但是对于内部的情况了解总归是有限的文字转WAV音频