困难的是融合这庞大散碎的记忆文字转WAV音频