肯定比在ct上难度高多了文字转WAV音频