AIGC发展与挑战

2024-07-04 23:31:08沈阳

网络视听 2024年8期

近十年来，清华大学新闻与传播学院的沈阳团队一直专注新闻传播、计算机科学、信息管理和医学等四个专业领域的研究，并通过撰写相关专业报告，建立与公众交流的桥梁。

我们推出的新媒体报告从2015年到2023年已经有9个版本。2021年，我们发布的全球首份元宇宙学术报告更是在全网获得超高人气。2023年开始，相继推出了人工智能生成内容（AIGC）和大模型发展研究报告1.0及2.0版本，持续跟踪和剖析这一领域的最新动态。

AI视频或将成为现实世界决策的新语言

人工智能从哲学层面上看，其实就是从“天人合一”理念过渡到“天人智一”的新境界。这意味着需要将人工智能与人的大脑和灵魂深度融合。在机器人中融入具身智能大模型，使其能够感知并适应环境，人工智能将会绕过人类与现实世界建立连接，这便是天与智的合一。

在此过程中，我们引入一个概念——“身心流固性”。具体而言，“身”的流动指的是社会身份的流动。随着科技发展，我们的身份在真实世界与虚拟世界之间，在虚拟现实、混合显示、增强现实等技术融合下，变得可以流动和变化；“心”的固性则是指我们的思维在一定程度上被AI所圈定。例如，当你在抖音上浏览时，人工智能会根据你的喜好推送相应内容，这在一定程度上固化了你的思维和认知。同样，视频制作者也会根据观众反应调整内容，无论是AI，还是人类制作的内容，都会被智能推荐逻辑去强化我们对现实世界的认知。

当前，视频已经逐步成为我们认知与决策现实世界的新语言，未来AI生成的视频内容或将进一步加强这一进程。特别是在年轻人的圈层化趋势上，不同青年群体倾向于选择特定社交媒体平台获取信息。这些年轻人所选择的平台差异显著，反映了他们不同的信息获取和决策方式。

AI将极大提高工作效率，突破传统局限

从镜像进化论的视角看，人工智能的进化路径与真实宇宙的进化过程呈现一种逆向关系。AI的发展首先是模拟意识，其次是模拟生命，最终是模拟空间。与此同时，人类也正在经历一个高度虚拟化的过程。随着AI普及，人类的物理性劳动将逐渐转变为大脑智力性劳动。

以艺术创作为例，过去需要画家亲身投入、手脑并用，如苏东坡所言“心目手，三者皆得之矣”。然而，如今的AI艺术创作已经转变为一种可以通过语音指令完成的脑力劳动。按照这个趋势，人类或许将更依赖语言提示，通过脑机接口进行思维交流，即可完成各种任务。AI机器人将进一步实体化，在国内大模型的推动下，AI将进一步拓展其应用范围，最终将虚拟世界与真实世界相结合，实现人形机器人的实际应用，帮助人类完成各种工作。这一过程体现了镜像进化论的核心观点。

因此，在追求高效知识产出的过程中，我们采用“零知识启动”的策略。根据我们的分类，知识可分为熟知识、生知识和零知识。例如，某人患有一种罕见疾病，经过医院诊断，仍未能明确病因。对这种疾病，我们同样缺乏了解，这便是我们所说的零知识状态。面对此类问题，我们将患者的病情信息输入AI系统中，让AI不要局限于常规思维，尝试从非传统的角度推测，以寻找可能的罕见病因。AI随后提供了一系列可能的罕见疾病列表。我们将这些结果转达给医院并与医生探讨，看能否从这些罕见病中找到确切病因。这个过程正是以零知识为基础，利用AI工具进行高知识生产的活动，也充分展示了AI在处理复杂和未知问题时的独特优势。

当然，我们在探讨AI在教育领域的应用时，会发现有不同矛盾存在。第一个矛盾是人在学习的过程中，主要以单学科学习为主，而AI具备跨学科学习能力，不受专业限制；第二个矛盾是中小学生在使用AI辅助学习时，往往直接获得了一篇完整的作文，却缺乏了写作过程中的训练与实践。而我们需要解决的问题是把结果过程化，促使他们主动思考与探索；第三个矛盾是如何将开放性的AI知识框架跟我们标准化的知识考核结合起来。

通过这几个矛盾，我们意识到，如果完全依赖AI处理所有事务，最终可能导致AI超越并取代人类，人类丧失主体性地位。因此，我们提出新的观点：完成任何事务都可以划分为100%的任务量，其中AI负责执行99%，而人类则负责发挥审美、判断、决策和认知能力，掌握1%的关键部分。我们倡导的理念是，将知识传授给AI，将智慧保留给人类。

AI助手将成为未来人类改造现实世界的新伙伴

在AI应用方面，我们可以将其归纳为三类核心应用。第一是AI再创，即利用AI将人类已完成的事物重新创造，如用AI绘制《西游记》的图像，未来每个人都可以有自己的《西游记》。然而，这也将带来版权和知识产权保护的问题。第二是AI拟真，即利用AI模拟真实世界，实现虚拟现实等应用场景。第三是AI异感，即利用AI创造我们从未接触过的宇宙、空间和事物，如AI提供的外星生命形态和硅基生命的理论。

在与AI的交流中，我们不仅可以获得新的认知和理解，以及提高研究、文学艺术创作的效率，甚至可以使其不断转化和迭代升级。同时，我们在对AI的“人格”进行研究时发现，在多数情境下，与AI交流，TA会倾向于支持你的观点，展现温暖和同理心，并与用户价值观对齐。

值得一提的是，我们的团队中有一位博士后专门研究AI在疗愈方面的应用。例如，一位母亲表示，她喜欢画画的孩子不太愿意与她交流。这位母亲通过AI生成的一幅以母亲为主题的画作，成功实现了与孩子的沟通。这个例子说明了AI在寻找心理抑郁靶点方面具有一定潜力。通过定向AI的创作，我们可以针对特定心理问题进行靶向疗愈。

关于智能分身的应用，我们当前已创建了六个智能分身。预计在未来一段时间，我们将实现智能分身引入微信平台。届时，当双方进行交流时，用户可能是在与智能分身进行沟通。同时，智能分身还会定期报告交流情况，如今天与多少人进行了对话，并根据设定进行筛选。例如，在相亲场景中，可以先通过虚拟人进行初次交流，若双方感觉良好，再安排真实见面。综上所述，智能体在未来将有一系列新发展，智能分身的应用便是其中的重要一环。

关于如何将AI与中国产能相结合，我们国家拥有几个明显的优势领域。首先，中国拥有世界上最为完整和先进的智能制造产业链，特别是在中低端智能制造方面；其次，中国在短视频、直播带货、短剧及移动游戏等方面，同样保持世界领先地位。为了发挥这些优势，我们计划将AI技术与这些领先全球的行业深度融合。

在产业应用上，大飞机可谓人类制造的最复杂工业品，拥有高达200万个零件。那么，借助AI的力量，我们是否有能力造出零件数量达千万级的工业品？这无疑是一个巨大挑战。在服装领域，我们的目标是在今年穿上由服装大模型设计的AI服装；在教育领域，我们提出了从“多能”到“超能”的转变，注重培养学生对于AI应用的综合能力，等等。

经过深入分析，我们得出一个基本结论：在未来十年内，手机仍将保持其主流交互和计算设备的地位，但随着技术不断进步，AR眼镜和头盔等设备有可能在未来十年之后逐渐取代手机的主导地位。在移动互联网领域，短视频已经成为主要内容消费形式，并正逐渐演变为AI短视频。对于非内容操作方面，AI助手将成为主导，预计每个人都将拥有自己的AI助手。清华大学已宣布2024年下半年新生开学时，每位新生将配备一个AI助手，并且开设了一百多门AI授课课程，充分展示了AI与实践的紧密结合。

AI发展仍有短板

关于AI的短板，尽管人们要多谈及其优势，然而AI幻觉仍是一大问题。以我个人经历为例，我曾尝试将我与我爱人19岁时的照片进行AI合成。结果有的画面我爱人多出一只手，而搭在我肩上的手竟有六根手指，这便是AI在绘制多个物体时可能出现的错误。然而，当我们向AI提出具体要求时，如“请将脸部和手部表现得更清晰”，由于AI具备注意力机制，它在绘制手部时会更为专注，从而减少出错的可能。这样，AI在绘制其他部分时可能不必投入过多算力，从而提高整体准确性。

在与AI的对话中，我们可以发现，尽管AI具有强大的能力，但也存在其局限性。有时AI给出的答案并不能令我们十分满意。因此，在与AI交流时，我们需要提出更具挑战性的问题，利用AI去尝试完成那些以前人类难以完成的任务，这才是我们真正需要的。

随着技术优化和进步，AI现在绘图出现六个手指头的幻觉率已显著下降至10%至20%，这体现了我们在人工智能领域研究的显著进步。但对于容错率较高的行业，如科幻类电影制作，AI技术的运用可以更为大胆，因为即使出现一些瑕疵，观众也不会斤斤计较。然而，对于容错率较低的行业，如严格的医疗系统，AI的应用就需要更为谨慎，以免出现不可挽回的失误。

综上所述，尽管当前的AI技术已经能够实现许多人类难以完成的功能，但人工智能研究公司OpenAI正式对外发布的人工智能“文生视频”大模型Sora仍然存在一些亟待解决的问题。首先，其物理模拟的准确性有待提高；其次，Sora在处理空间关系时存在混淆现象；最后，其对于多角色交互的理解也面临挑战。这些问题的存在，使得我们对Sora1.0版本的评估分数为70—80分，表明其仍有待完善。这同样也为创作者提供了广阔的空间和潜力。我们期待在未来的版本中看到Sora的进一步改进和优化。W

（作者沈阳系清华大学新闻与传播学院教授，新媒体研究中心主任，跨学科知名学者）