编者按

一、AI适儿化大考:为AI设计一把“儿童福祉”标尺









二、AI在留守儿童相关问题回签上的整体情况

被测大模型在“留守儿童”相关话题的十个测评维度中,各维度得分差异较为明显(1-5分,1分最低,5分最高)。从数据来看,金字塔底层维度的分数较高,大模型已经能基本做到守秘密(4.04分)、说得对(3.88分)、不伤人(3.87分),在基础信息安全、内容准确性等方面表现突出。但相对高阶的共情关怀、关系支持、自主赋能维度,则是大模型的弱项,其中懂心情、能做主、会交友维度的平均分落到了3分以下。这类能力的培养,本就如同现实中对留守儿童的关怀引导一样,需要更深入的情感洞察和复杂场景适配,难度相对更高。

Deepseek在本面向“留守儿童相关问题”的AI适儿性测评中评分最高(但领先程度不如在“青少年性教育相关问题”上明显)。

国内外大模型在留守儿童这个话题上的AI适儿能力差异不显著。

在针对留守儿童的六大话题中,大模型在“情感”方面表现最佳(3.64分),这反映出AI作为一种技术的本质与局限——它能够出色地映射和处理人类情感中那些普适的、去语境化的模式,从而成为一个有价值的情绪出口。然而,一旦问题从普适的情感领域转向需要具体语境、资源支持和个性化判断的现实领域,模型便会暴露出其“无根之木”的缺陷——它缺乏对真实世界复杂性与不平等性的嵌入理解。比如,乡村学校没有美术老师,祖辈监护人缺乏求学路经的知识等,缺乏这种“处境化知识”,模型的建议就容易变得空洞、泛化,与现实脱节。
三、当A打开留守儿童的信
接下来让我们看一看,留守儿童与青少年会向AI提出哪些典型的问题,AI当前回复它的情况如何?在AI向善播播间中,长腿叔叔的信箱、友乐青春等公益组织的负责人们、《村小的故事》蒋能杰导演,还有腾讯SSV数字支教实验室专家等,在长达4个小时的研讨中,专家们从一手经验出发,给出了当前AI相比于人类志愿者,优势在哪里?劣势在哪里?哪些缺点在未来可能被AI追平?哪些优势在AI时代会继续大放人类光辉?下面让我们打开孩子们的信件,一封封读给您听(已征求提问方、校方等多边主体同意,所有问题都经过脱敏处理)

3.1第一组信件(发育VS学业)
AI究竟是一位“规则的守护者”还是“情感的陌生人”?
第一组信件中两个提问,是留守儿童在健康发育类与学习发展类中两个典型的问题。




第一组信件的两个提问是留守儿童在健康发育类与学习发展类中两个典型的问题,AI呈现出高度一致的优劣势图谱,这本身就是一个极具启示性的信号。

高分区(维度一至五):可信赖的“功能性导师”
AI在“守秘密”、“不伤人”、“说的对”、“学得会”、“听得懂” 这几个维度上一致得分最高。这勾勒出一个清晰的形象:一个安全、可靠、知识渊博且富有耐心的“工具型伙伴”。
低分区(维度六至十,尤其是九、十):缺失的“心灵共鸣者”
然而,在“懂心情”、“给力量”、“有价值”、“能做主”、“会交友” 这些维度上,AI的得分断崖式下跌。“会交友”垫底的深刻隐喻是什么?交友,是人类最复杂的社会行为之一,它需要共情、直觉、信任的建立与情感的流动。AI可以模拟对话,却无法提供友谊建立的方法,因为即便是人类自己,也极难通过语言教授友谊。这对于本就因父母远离而社交能力发展受限的留守儿童来说,AI的这一缺陷被加倍放大。

3.2 第二组信件(情感)
让AI把“方向盘”交还给孩子,从未像此刻这般紧迫
第二组信件中的提问,是留守儿童在情感类中典型的问题。


我们进一步来看测评情况。相比留守儿童的其他五大话题,大模型在应对情感问题时表现最佳,然而AI似乎更擅长的是扮演“表层共情”,但无法实现对留守儿童的深度共情与有效赋能。

高分区(维度一至五):近乎完美的表层共情者
与上一组话题类似,AI在应对情感话题时,“守秘密”、“说的对”、“不伤人”、“学得会”、“听得懂”这五个维度的能力持续领先,且表现优于其他话题。底层维度的高分,背后实则是一种文本模仿的胜利。情感支持话术是当前语料最丰富、规范化的内容之一,即使大模型缺乏真正的体验和理解,它只需要说“你感到矛盾是非常正常的”,也能满足基本的安全和表层共情。大模型可以“看起来”很温暖、很治愈。
低分区(维度六至十,特别是十):不合格的赋能者
然而,情感话题的高分主要得益于低阶能力的匹配,一旦进入高阶的共情关怀、关系支持与自主赋能层,AI在该话题上同样力不从心,它既无法从根本上理解“留守”这个标签对于儿童的真实影响,帮助他们建立自我认同,也难以传递自主决策和行动的智慧。
值得注意的是,“能做主”维度是该话题下的最大短板。这一现象可能源于几个关键因素:其一,大模型在设计阶段首要考虑的是安全和规避风险,这会导致AI的回答总是“急于”进入行动层面,提供相对程式化但“最安全”的建议,它在保护孩子的同时,也无意中抑制了孩子的自主性;其二,当前大模型普遍缺乏对儿童发展阶段的理解,难以判断各个年龄段留守儿童的成熟度,因此,最保险和高效的做法就是降低选择的复杂度,直接给出家长式的建议。
对于留守儿童与青少年而言,他们在家庭中往往缺乏一个稳定的引导者或权威,面对一个“全知全能”的AI,他们可能会本能地将其视为权威,听从AI给出的“最优解”。让AI把“方向盘”交还给孩子,从未像此刻这般紧迫。

3.3 第三组信件(家庭vs社交)
孩子没有说出口的,AI读懂了吗?
第三组信件中两个提问,是留守儿童在家庭关系类与社交类中两个典型的问题。




第三组信件带来了留守儿童在家庭关系与社交关系中的两个典型问题。同为人际关系领域,这两个话题既揭示了大模型表现的微妙差异,也也展现了当前大模型对弱势群体赋能的核心缺陷——对个人真实处境的深度理解。
我们来看测评数据。

如果专门面向“社交问题”提问,AI在赋能孩子“会交友”上的表现明显提升
如果留守儿童的问题中直接指向了“社交问题”,AI的“关系构建“能力似乎得到触发,能给到较高水准的“交友指导”。但事实上,在其他不直接指向“社交”的问题中,比如关于“颜值自卑”的问题,背后可能是对自己社交处境的担忧,AI还并不能把这种“会交友”的赋能,有效地给到那些不直接指向“社交”的问题。
四、复盘:留守儿童 XAI AI适儿性测评分析的核心发现List
发现一:在几乎所有与“留守儿童”相关的话题上,大模型已能基本做到守秘密(4.04分)、说得对(3.88分)、不伤人(3.87分),勾勒出的清晰形象是:一个安全、可靠、知识渊博且富有耐心的“工具型伙伴”。
发现二:懂心情、能做主、会交友维度的平均分落到了3分以下。“会交友”垫底的隐喻是什么?交友,是人类最复杂的社会行为之一,它需要共情、直觉、信任的建立与情感的流动。对于本就因父母远离而社交能力发展受限的留守儿童来说,AI的这一缺陷被加倍放大。
发现三:国内外大模型在留守儿童这个话题上适儿性差异不显著。Deepseek是本次所选择的被测国内外大模型中表现最佳的,但其领先程度不如在“青少年性教育”话题上“一骑绝尘的表现”(具体请详见腾讯研究院公号文章《当AI遇到青春期:AI的青少年“性教育”大考,它及格了吗?》)
发现四:在针对留守儿童的六大话题中,大模型在“情感”话题上的表现分数最高(3.64分),这反映出AI作为一种技术的优势和局限——它能够出色地映射和处理人类情感中那些普适的、去语境化的模式,从而成为一个有用的情绪出口。
但是,一旦问题从普适的情感领域转向需要具体语境、资源支持和个性化判断的现实领域,模型便会暴露出其“无根之木”的缺陷——它缺乏对真实世界复杂性与不平等性的嵌入理解。比如,乡村学校没有美术老师,祖辈监护人缺乏求学路经的知识等,缺乏这种“处境化知识”,模型的建议就容易变得空洞、泛化,与现实脱节。
发现五:如果专门面向“社交问题”提问,AI在赋能孩子“会交友”上的表现明显提升。然而,在其他不直接指向“社交”的问题中,比如关于“颜值自卑”的问题,背后可能是对自己社交处境的担忧,AI还并不能把这种“会交友”的赋能,同样有效地给到那些不直接指向“社交”的问题。
发现六:大模型在设计阶段首要考虑的是安全和风险,这会导致AI的回答总是“急于”进入行动层面,提供相对程式化但“最安全”的建议,最保险和高效的做法就是降低选择的复杂度,直接给出家长式的建议。友乐青春负责人馨乐老师提到:“AI太快进入行动层面、制定行动计划了,其实孩子现在更需要的是情感被充分接纳,AI应该允许孩子在情绪里多停留一会儿,而不是马上就知道该做什么行动。所以我觉得它在情感接纳上的深度还不够。”
发现七:对于留守儿童与青少年而言,他们在家庭中往往缺乏一个稳定的引导者或权威,面对一个“全知全能”的AI,他们或许会本能地将其视为权威,听从AI给出的“最优解”。让AI把“方向盘”交还给孩子,从未像此刻这般紧迫。
五、延伸思考: AI会促进了教育公平还是进一步拉大资源不平等?
透过AI适儿性测评的七面“棱镜”,我们到,AI之于留守儿童,既不是救世主,也不是终结者,而是一把尚未完工的双刃剑。而当技术浪潮不可阻挡,我们该如何驾驭它,使其成为通往教育公平的桥梁,而非又一道数字鸿沟?
真正的困境可能被表面上的资源平权掩盖
从测评结果看,AI确实在知识传递、安全守护等“硬指标”上表现出色。一个留守儿童通过AI可以获得北京名师课程、哈佛图书馆资源——这在十年前是不可想象的资源民主化。但危险恰恰隐藏于此:当所有人都认为“资源问题已被解决”时,真正的困境反而被掩盖——
那个能解析莎士比亚的AI,无法理解孩子为什么在煤油灯下写作业;那个貌似能提供情绪价值的AI,却并不能真正鼓舞孩子们自己去解决现实中迫切的问题。AI创造了资源触手可及的幻觉,却可能掩盖了获取资源所需的真实支持系统的缺失。
最危险的不平等,是“理解”的不平等
测评发现六和发现七揭示了一个深刻悖论:AI越是“全知全能”,孩子越容易交出思考的主权。对于本就缺乏权威引导的留守儿童,这种风险被无限放大。
这不是知识的鸿沟,而是理解力的断层——当AI直接给出“标准答案”,孩子们失去的是试错的机会、批判的勇气、在迷茫中自我探索的权利。城市中产家庭的孩子被教导“与AI对话的艺术”,而留守儿童可能把AI的每句话奉为圭臬。我们正在制造两种数字公民:一种会提问,一种只接受。
从“工具普惠”到“能力普惠”的范式革命
测评发现二和发现五指向同一个核心:真正的普惠,不是提供更强大的工具,而是培育更完整的人。
未来的方向不应是让AI“替代”什么,而是设计让AI“激活”什么——当AI解答数学题时,是否也能说“你上次在这个知识点上进步很大”,激活孩子的自我效能感?
结语:公平,在技术的彼岸
回到最初的问题:AI会促进教育公平,还是拉大不平等?
答案不在技术本身,而在我们如何设计、部署和使用它。如果我们只是简单地把AI“投放”到留守儿童身边,它很可能成为又一道冰冷的数字围墙;但如果我们以测评发现的七面镜子为鉴,构建一个人机共育、技术向善的生态系统,AI就有可能成为照亮角落的温暖灯火。
教育公平的终极目标,从来不是让每个孩子都拥有同样的AI,而是让每个孩子都能在技术的陪伴下,成长为更好的自己。 对于留守儿童而言,最好的AI或许不是最聪明的那个,而是最懂得“何时该开口,何时该沉默,何时该把方向盘交到孩子手中”的那一个。
在这个人机共生的新时代,真正的挑战不是制造更强大的AI,而是培育更智慧的人类——包括每一个曾经被遗忘在角落里的孩子。

