在过去的几年(2023年至2025年),人工智能在多个领域实现了飞跃。大型语言模型(LLM)和聊天机器人、多模态系统、科学AI工具以及机器人技术均取得了突破。

科技巨头发布了新的AI助手,开源社区推出了强大的模型,监管机构也开始着手应对AI带来的影响。

以下我们将回顾最引人注目的成就,从GPT-4的扩展、谷歌的Gemini,到AlphaFold获得诺贝尔奖以及AI驱动的科学与艺术发现。

生成式语言模型与聊天机器人

现代大型语言模型变得更加强大且支持多模态。OpenAI于2023年11月发布的GPT-4 Turbo现在可以在一次提示中处理128,000个标记(约300页文本),且运行成本远低于GPT-4。

2024年5月,OpenAI推出了GPT-4o(Omni),这是一款升级模型,能够实时处理文本、图像和音频——实际上赋予了GPT-4“视觉和听觉”的对话能力。ChatGPT本身也集成了图像和语音功能:用户可以上传照片或语音,机器人将基于这些视觉或音频输入进行回应。

  • GPT-4 Turbo和GPT-4o(Omni):GPT-4 Turbo(2023年11月)降低了成本并将上下文长度扩展至128K标记。GPT-4o(2024年5月)实现了真正的多模态,能够以接近人类的速度交替生成文本、语音和图像。
  • ChatGPT的进展:到2023年底,ChatGPT“现在可以看、听和说”——支持上传图像和音频作为提示,机器人能够相应回答。
    它还集成了DALL·E 3(2023年10月),可以通过对话式提示生成图像。
  • 谷歌的Gemini系列:2024年12月,谷歌DeepMind发布了首批Gemini 2.0模型(“Flash”和原型),面向“智能代理时代”——能够自主执行多步骤任务的AI。
    谷歌已开始在搜索(AI概览)及其他面向十亿用户的产品中测试Gemini 2.0,体现了其升级的推理和多模态能力。
  • 其他模型:Meta于2024年4月发布了LLaMA 3(开放权重的大型语言模型,参数规模高达4000亿),声称性能优于许多先前模型。
    Anthropic的Claude 3和微软的Copilot工具也基于这些进展(例如Copilot基于OpenAI技术)。

这些创新使AI助手能够进行更长、更丰富的对话,并处理多样化的输入。

它们还通过API支持新的“助手”应用(如谷歌的“AI概览”、OpenAI的Assistants API等),让开发者和终端用户更容易使用AI。

生成式语言模型与聊天机器人

多模态与创意AI进展

AI的创造力和视觉理解能力爆发式增长。文本生成图像文本生成视频模型达到了新高度:

OpenAI的DALL·E 3(2023年10月)能够根据提示生成逼真的照片级图像,且已集成到ChatGPT中,支持引导式提示编写。

谷歌推出了Imagen 3(2024年10月)和Veo 2(2024年12月)——先进的文本生成图像和视频引擎,大幅提升了AI艺术和视频生成的质量、细节和一致性。

音乐AI也有所提升,谷歌的MusicFX工具及相关研究(如MusicLM实验)推动了进步。

  • 生成艺术模型:DALL·E 3和Imagen 3能够高保真地遵循细微提示(包括图像中的嵌入文本)。
    谷歌的Veo 2可以根据单一文本描述生成短视频片段,是视频合成领域的重要突破。
    Stable Diffusion和Midjourney今年也发布了新版(v3、v6),实现了更高的真实感。
  • 设备中的AI:苹果于2024年底在iOS 18和macOS 15中推出了Apple Intelligence——iPhone/iPad/Mac内置的生成式AI。
    它增加了写作助手(邮件/Pages中的重写、校对、摘要)、更智能的Siri,以及图像工具如Image Playground(通过文本创建趣味插图)和Genmoji(AI生成的定制表情)。
    照片支持自然语言搜索(如“查找Maya滑板”),“清理”AI可移除照片中的不需要物体。
    苹果强调设备端处理和隐私保护。
  • 艺术中的AI:一个引人注目的例子是:2024年11月,苏富比拍卖了首幅由类人机器人创作的画作。
    这幅由AI驱动机器人Ai-Da绘制的艾伦·图灵肖像以108万美元成交。
    这次创纪录的拍卖(“A.I. God: Portrait of Alan Turing”)凸显了AI在创造力和文化影响力上的日益重要地位。

总体来看,生成模型正在普及创作能力:任何人只需几句话就能生成艺术、音乐或视频。
行业重点已从单纯的新奇(超现实图像)转向实用的图像生成(标志、图表、地图)和类人真实感。

(2025年3月,OpenAI甚至发布了“4o图像生成”,将其最佳图像模型集成到GPT-4o中,实现基于对话的精确、逼真输出。)

这些工具正迅速融入应用、浏览器和创意工作流程。

多模态与创意AI进展

科学、医学与数学领域的AI

AI成就推动了科学发现和研究进展:

  • AlphaFold 3——生物分子:2024年11月,谷歌DeepMind(与Isomorphic Labs合作)发布了AlphaFold 3,这是一款能够同时预测所有生物分子(三维结构,包括蛋白质、DNA、RNA、配体等)的新模型,准确度前所未有。
    在蛋白质-药物相互作用方面,AlphaFold 3的准确率比传统方法高出约50%
    其开发者立即发布了免费的AlphaFold服务器,供全球研究人员预测分子结构。
    这在AlphaFold 2仅预测蛋白质的基础上实现了扩展,预计将彻底改变药物发现和基因组学研究。
  • 诺贝尔奖——蛋白质折叠:这一进展的重要性由2024年诺贝尔化学奖体现。
    Demis Hassabis和John Jumper(DeepMind)与David Baker共同获得该奖,表彰他们开发了AlphaFold(蛋白质折叠AI)。
    诺贝尔委员会指出,AlphaFold“开辟了蛋白质设计的全新可能”。
    (这是迄今为止最受瞩目的AI成就之一。)
  • AlphaProteo——药物设计:同样在2024年,DeepMind宣布了AlphaProteo,一款能够设计新型蛋白质结合剂的AI——这些分子能高效结合目标蛋白。
    AlphaProteo通过生成针对特定靶点的潜在蛋白质结构,加速了新抗体、生物传感器和药物先导物的研发。
  • 数学——AlphaGeometry:DeepMind的AlphaGeometryAlphaProof实现了另一项突破。
    2024年7月,AlphaGeometry 2在19秒内解决了国际数学奥林匹克的一道题目,达到了银牌水平。
    这是AI攻克高级中学数学的罕见案例。
  • 量子计算——AlphaQubit与Willow:AI也推动了前沿硬件的发展。
    2024年,谷歌发布了AlphaQubit,这是一款基于AI的解码器,能比以往方法更准确地识别量子计算机(如谷歌Sycamore芯片)中的错误。
    随后在2024年12月,谷歌推出了Willow,一款利用先进纠错技术的新型量子芯片,完成了一个基准任务,耗时不到5分钟,而当今最强超级计算机则需约10^24年。
    这些成果使Willow获得了2024年“年度物理突破”奖,彰显了AI在量子进步中的作用。

在医学和健康领域,AI模型也取得了显著进展。例如,谷歌新推出的Med-Gemini(经过医疗数据微调)在美国医学考试基准(类似USMLE)中得分91.1%,远超以往模型。

放射学和病理学的AI工具(如Derm和Path Foundations)被发布以提升图像分析能力。
总体来看,AI已成为不可或缺的研究伙伴——从纳米级人脑绘图(借助AI辅助的电子显微镜成像)到加速非洲结核病筛查,谷歌研究人员均有报道。

科学、医学与数学领域的AI

机器人与自动化中的AI

由AI驱动的机器人正在学习复杂的现实任务。

特斯拉的Optimus类人机器人于2024年10月公开展示(“我们,机器人”活动)。数十台Optimus机器人在舞台上行走、站立甚至跳舞——尽管后续报道指出初期演示部分由人工远程控制。

尽管如此,该活动凸显了通用机器人快速发展的趋势。

  • DeepMind的ALOHA机器人:谷歌AI实验室在家用机器人领域取得显著进展。
    2024年,ALOHA机器人(自主腿式家务助理)学会了系鞋带、挂衣服、修理其他机器人、安装齿轮甚至清理厨房,仅依靠AI规划和视觉。
    “ALOHA Unleashed”开源项目展示了机器人协调双臂完成任务,这是通用操作领域的首次。
  • 机器人变换器:DeepMind推出了RT-2(机器人变换器2),这是一款视觉-语言-动作模型,能够从互联网图像和真实机器人数据中学习
    RT-2使机器人能够像人类一样理解指令,利用网络知识。
    演示中,机器人通过文本命令帮助分类物品。
  • 工业机器人:其他公司也在推进:波士顿动力持续改进Atlas和Spot机器人(虽无重大突破),AI驱动的自动驾驶汽车有所提升(特斯拉全自动驾驶Beta版推广更广,但完全自动驾驶仍未解决)。
    制造业中,专注AI的企业如Figure AI筹集资金,致力于打造家务机器人。

这些努力表明机器人正逐步完成更复杂任务,无需明确编程。
然而,真正完全自主的类人机器人仍在未来。

这些演示(Optimus、ALOHA、RT-2)是里程碑,但研究人员提醒,机器人要在大规模环境中安全可靠地与人类共事,仍需更多工作。

机器人与自动化中的AI

产品、产业与社会中的AI

AI的影响已扩展至日常产品甚至政策领域:

  • 消费设备:主要科技产品集成了AI代理。
    微软的Copilot(嵌入Windows、Office、Bing)和谷歌的Bard/Bard AI(背后由Gemini驱动)将大型语言模型的能力带给用户。
    苹果设备搭载了Apple Intelligence(如上所述),硬件厂商如Nvidia销售了创纪录的AI GPU,支持云端和消费级AI。
    (Nvidia因AI热潮于2024年成为全球市值最高公司。)
  • 监管——欧盟AI法案:鉴于AI的广泛影响,监管机构也采取了行动。
    2024年8月1日,欧盟AI法案正式生效,这是首部全面的AI法律。
    该法案建立了基于风险的框架:低风险AI(垃圾邮件过滤、电子游戏)规则最少;透明度规则要求聊天机器人等AI系统披露其AI身份;高风险AI(医疗或招聘工具)接受严格监管;明确不可接受的AI(如政府对个人的“社会评分”)被禁止。
    这套规则(及即将出台的通用模型指南)是AI治理的重要成就,预计将影响全球标准。
  • 产业增长:AI行业本身获得了历史性的融资和估值:OpenAI于2023年底估值达1570亿美元,Anthropic、Inflection及中国AI初创企业均完成了数十亿美元融资。
    NVIDIA的AI硬件需求推动其市值于2024年中突破3.5万亿美元。
    这些数字凸显了AI已成为科技经济的核心。

>>> 你是否尝试过比较人工智能与人类智能

产品、产业与社会中的AI


简而言之,AI不再局限于实验室或新奇演示——它已深植于手机、汽车、工作场所和公共政策中。

上述进展——从GPT-4的广博知识到AlphaFold的科学革命——展示了AI的快速成熟。

随着我们迈入2025年,这些成就预示着AI将在日常生活中带来更强大、更实用的应用。