AI风云再起

2024-04-10 03:29《股市动态分析》研究部
股市动态分析 2024年4期
关键词:魅族文本模型

《股市动态分析》研究部

去年年初,尤其是春节期间,ChatGPT的横空出世引发了普通人澎湃的讨论热情与A股AI板块的持续上涨,此后海内外在AI大模型投资上展开了军备竞赛。一切似乎那么类似,近期,也是春节期间,OpenAI发布首个文生视频模型Sora,在自然语言输入基础上可以直接输出长达60秒的视频,包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色,加上国内魅族AllinAI和OPPO开启AI手机新时代等动作,引发了新一轮的AI讨论热潮。

Sora横空出世

2月16日凌晨,OpenAI发布了文生视频大模型Sora,它能够根据文本提示创建详细的视频、扩展现有视频中的叙述以及从静态图像生成场景。

文生視频大模型是一种能够由AI生成视频内容的大型机器学习模型。文生视频基于用户的自然语言描述准确地生成相应视频内容。以用户给出的文本、图像、音频、视频等内容作为提示(prompt),模型能够处理并结合用户提供的内容,创造出完全自主生成或拓展的视频。这些模型通常基于深度学习,尤其是自然语言处理(NLP)、计算机视觉(CV)和语音识别(ASR)等技术的融合。

以OpenAI官方发布的范例视频为例,输入提示词:“一位时尚的女士漫步在东京街头,街上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手中提着一个黑色手提包。她戴着太阳镜,涂着红色口红。走路时自信而随意。街道潮湿且反光,形成了彩色灯光的镜面效果,许多行人来来往往。”(见图)

虽然Sora不是最早的文生视频应用,“文生视频大模型”也并不是一条全新的赛道。在OpenAI登场之前,头部大模型研发商几乎都拥有自己的文生视频大模型,例如Google的Lumiere以及StabilityAI的SVD(StableVideoDiffusion),甚至已经诞生了垂直于多媒体内容创作大模型的独角兽,例如视频生成大模型Gen-2的开发商Runway,在2023年6月底完成由Google、Nvidia、Salesforce参与的C轮融资后,估值超过15亿美元。

是AI能力的体现

但Sora的呈现仍然惊艳,视频中的主体稳定可控,可实现多角度切换,时长方面也突破,最长能生成60秒视频,隐隐有了生产力工具的影子。它的推出已经标志着生成式AI迎来一个里程碑。

与此前的视频生成模型相比,Sora主要实现了以下突破:

视频时长达到60秒:Sora目前可以根据文本要求生成60s的连贯视频,并保持视频主体与背景的高度流畅性与稳定性。

文本的深度理解能力:Sora可以准确理解用户的文本指令,无论是复杂的动作场景还是细腻的情感表达,Sora都能够精确捕捉并展现。

对真实世界的理解:生成的视频除满足了文本要求的主题、要素外,Sora对物理规律的遵循程度较高,对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真,都展示了极高的质量。

根据OpenAI官方介绍,目前Sora具备生成包括多个角色、特定类型的运动、准确细节的主体和复杂场景的能力。同时,还能够创建多个镜头,模拟复杂的摄像机运镜效果,使得生成的视频更加生动。

图:Sora生成一分钟视频示例

资料来源:OpenAI官网

3D一致性:Sora可以生成摄像机动态运动的视频。随着摄像机的移动和旋转,人物和场景元素在3D空间中的移动会保持一致。

当然了,Sora还有很多瑕疵,还不够好,也有人质疑把AI用在短视频上,没有太大价值。真正带来压迫感的,是Sora不可思议的进化速度。

Sora就是AI能力体现,它并不完美,但如今看起来傻傻的、只支持生成“4秒视频生成”并且“掉帧明显到像幻灯片”的Gen-2其实是2023年6月发布的产品,距离Sora的发布日不过8个月。

2023年11月,Meta发布的视频生成大模型EmuVideo看起来在Gen-2上更进一步,能够支持512×512、每秒16帧的“精细化创作”,但3个月之后的Sora已经能够做到生成任意分辨率和长宽比的视频,并且根据上面提到的开发者技术论文,Sora还能够执行一系列图像和视频编辑任务,从创建循环视频到即时向前或向后延伸视频,再到更改现有视频背景等。

AI新时代

2月18日,OPPO创始人、首席执行官陈明永发表员工内部信认为,2024年是AI手机元年,未来五年AI对手机行业的影响完全可以比肩当年智能手机替代功能机,这轮由大模型支撑的AI技术正在重构手机行业的未来,AI手机的全新时代正在加速到来。

同一天,魅族也官宣将AllinAI,停止传统“智能手机”新项目,全力投入明日设备AIForNewGenerations,2024年魅族面向AI时代全新打造的手机端操作系统将进行系统更新,此外,魅族首款AIDevice硬件产品也将在今年内正式发布。

除了OPPO和魅族之外,华为、小米、OPPO等已开始在手机中接入AI大模型,vivo、三星已开始重点发布AI手机,其中三星GalaxyS24系列在全球范围内展现出旺盛需求量,在荷兰、印度和韩国等多个市场的创下预订记录。

各大手机厂商关于AI手机的重点布局表明,随着全球手机市场换机周期延长、消费创新空间有限、行业恶性竞争加剧,手机行业呈现存量竞争态势,同时手机产品单纯依赖硬件升级和参数竞争,已无法满足广大消费者多样化、全面化的使用需求和使用体验,行业亟需寻找新的可持续发展方向,而AI技术有望在手机行业的应用加速发展,并将对手机行业产生深远影响。

另外,随着AI技术的飞速进步,AIPC在2024年的CES展览上备受瞩目。接近半数PC都宣称具备AI功能,预示着AIPC市场的蓬勃发展。

群智咨询表示,2024年,AIPC初现端倪,引领着新一轮的科技革命。PC制造商开始向AI技术领域转型,竞相推出自家的AIPC产品。群智咨询预计,2024年作为AIPC发展的元年,AI笔记本电脑出货量达到1300万台,在笔记本电脑市场渗透率达到7%,2025年渗透率预计逼近30%,2026年渗透率会超过50%,2027年AIPC成为主流PC产品的类别,市场渗透率逼近80%。

根据彭博行业研究,边缘设备(用于控制进出网络间边界的数据流的硬件)推理需求可能会加速个人电脑和智能手机的升级换代(这些设备目前不太能够跟得上AILLM的繁重处理、内存和存储要求),同时催生出可穿戴设备和智能音箱以外的新类别。随着更多应用在OpenAI的ChatGPT、谷歌的PaLM2和Meta的LLaMA等基础模型之上得到开发,对推理的需求料将增加。

资本端同时传来新消息。在完成最新交易后,OpenAI的估值已飙升至800亿美元以上。这笔交易来自于ThriveCapital精心策划的要约收购。

只不过,和去年相比,投资人的心态变了。不是人人都有机会投中OpenAI,但OpenAI的能力边界却实实在在影响着一批创业公司和背后的投资人。

网上有一句话可以反映其火热:今天,所有VC的会上都在谈Sora。

猜你喜欢
魅族文本模型
重要模型『一线三等角』
魅族 17Pro
重尾非线性自回归模型自加权M-估计的渐近分布
在808DA上文本显示的改善
小米蓝牙耳机K歌版(故宫特别版)
基于doc2vec和TF-IDF的相似文本识别
夜空中最亮的星 魅族15拍照手机新疆摄影之旅
魅族15:全球最窄边框
3D打印中的模型分割与打包
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻