包括意识和承载根基文字转WAV音频