这种假设还是建立在文字转WAV音频