按:这篇访谈是在疫情期间进行的,为了响应“不聚集”的号召,采取了“云访谈”的形式,分段分次进行,留有思考空间,也不失为特殊时期的一种“后人类”创新。
吴庭丞,控制专业背景的“非典型”工程师,目前在一家人工智能企业写代码,之前做过智能硬件,参加过航天相关项目,会时不时尝试用工程方法去实现一些奇妙的想法。
吴庭丞、邓菡彬,以下简称吴、邓。
1
吴:阿西莫夫的科幻小说《基地》,它的故事设置让我印象深刻——庞大的银河帝国突然就变成传说,科技变成了上古文明的东西;散布在银河系各个行星上生活的人类,又处于野蛮状态中。
邓:科技突然失传了,这个很有意思。这在“后人类”的讨论中,是一个独特的可能性。
吴:其实就是在问一个历史学问题,罗马帝国为什么突然会消失,突然变成中世纪?据《华尔街日报》报道,去年全球有300多次断网,而且有不少是发生在像埃及和印度这种被西方世界认为是“民主样本”的国家。全球的网络社交媒体也呈现出一种现象,就是常常撺掇大家去仇恨一群见都没见过的人。
邓:信息社会变成媒体化社会。信息社会的到来原先被盼望是一个乌托邦,结果却变成媒体化争夺的战场。
吴:问题是大家愿意相信自己相信的观点。
邓:这就是现在常常说的“信息茧房”:信息的智能传播导致你只会看到你愿意看到的信息。是否越来越会出现这样一种状态,每个人看到的信息都是人工智能算法为你特意定制的一套信息?
吴:但是也有另外一种努力的方向,或者至少说,我们能看到另外一种可能性。我看到有一种深度报道,它是由当事人直接来讲的。推荐你去听一个叫作“故事FM”的公众号,每周一、三、五推送一个故事。其中有一期讲,一个武汉女孩从方舱医院转院到火神山医院,去照顾她奶奶。虽然整理出来的文字跟语音差别其实并不大,但是差别很微妙,有很多情绪信息,文字是体现不出来的,而且文字会做一些删改。
邓:这种删改有时候是无意识的,虽然我还没有看过你说的这个。一种文本生产方式会有它自己的套路,有时候仅仅只是选择这种套路或者那种套路的问题。你说的这个直接把语音放上去还是蛮让人兴奋的。这个就像纪录片和电视专题片的区别。电视台放的那种有时候也叫“纪录片”,但其实只能称为“专题片”,它往往是掐掉受访人的原声,而采用画外音来进行叙述的。真正的纪录片应该是放原声的。但是你说的这个公众号可能又不太一样,纪录片一般不可能有那么多长镜头,让一个被访人一直讲下去。那么剪辑方式也可能带来类似传统的文本生产的套路。《大河唱》其实就中了这个招,记录很好,剪辑很套路。科技的发展有可能帮助改变这些套路吗?
吴:你可以去看看阿西莫夫的小说是怎么写的。(笑)
2
邓:我看了阿西莫夫的《基地》,真的很有你说的那种感觉,文明在一个瞬间突然就不可逆地走向衰落。《论语》里面记载孔子碰到困厄之时,说,如果是上天要把这个文明毁灭的话,那就让它去吧。孔子是以“文明的薪火相传者”自居,如果不是这个文明要亡,那困难不会让我走投无路。在孔子那个时代,可能就是一个文明即将毁弃的时代。孔子可能像《基地》里的谢顿博士。(笑)虽然作者应该是比照希腊罗马文明的消亡来想象银河帝国的故事。
吴:对,罗马帝国的消亡。
邓:阿西莫夫对于人类的科技文明有可能消亡的科学幻想,太有逻辑了。如果科学只是导致大家熟悉很多科学的结论,而不关心科学的过程或者说科学思维的话,那真的有可能离野蛮越来越近。不懂科学方法,那就只能迷信结论、迷信专家。迷信专家也是一种迷信。
吴:对,其实科学方法和结论应该是相辅相成的。
邓:然后我顺便又看了《基地》的第三部,也就是《第二基地》。那里面对精神科学的发展所作的科学幻想,正好跟我们现在做的事情有一些相近呢!那我们聊聊——“植基于精神科学的文明”有没有可能出现?
吴:我就对第一部印象比较深刻,后面的剧情都有点忘了。(捂脸)
邓:第一部《基地》确实在逻辑和才情上是最厉害的。但是小说家嘛,毕竟不是哲学家,主要还是搭架子出来,在这个架子上不同的人看到不同的东西。文明的毁灭这一点确实也是最触目惊心的,而且依赖的不是科学知识,而是某种科学哲学或者说科学社会学。《第二基地》讲精神分析和精神控制,感觉在作者那个时代,这方面人们还所知甚少,可供幻想的材料不够。他的逻辑架构几乎就是用人工智能来分析精神了,而且最主要的居然是分析人类的情绪!最重要的是情绪,这一点跟我俩和龙星如老师现在正在做的情绪识别人工智能的尝试倒是有些吻合。
吴:小说毕竟还是在一个虚拟环境中去构想一种解决手段。科学哲学或者说科学社会学应该是在科学知识上又一层萃取之后的更本质的方法论。但如果说从控制论对自然物理系统的控制实践出发,有时候首先对系统进行精确的建模和结构反倒不是最好的方法。
邓:阿西莫夫的小说提到,在人类历史中,主要都是“有形的科技在不断进展”,人类驾驭外部世界的能力越来越强,但“人类对于自身以及社会的控制,凭借的只是随机的摸索,或者是以灵感、直觉、情感为基础的伦理体系”。小说中第二基地的科学家们坚信这导致人类社会的稳定性总是不高。他们还认为,在过去的时代,有能力研究人类精神的人会变成宗教领袖。他们很不愿意见到这种情况。
吴:是的,我想起来这个设定了。
鄧:这简直都有点柏拉图的《理想国》的意思。但是怎么说呢,我们过去对于科学哲学或者科学社会学,其实是有积累的。因为科学毕竟已经发达了几百年了。人类文明可能没有那么容易毁灭,就是因为还是有这一层科学哲学的反思的。而更古老的希腊罗马或者东周的时代,就更有可能像是小说中所写的那种情况,只有相当精巧的技术,但没有对技术的哲学反思。所以,可以从科学发展的角度重新梳理人类文明史,以此来进行科学幻想,就会有很多相关的社会学、政治学、经济学的历史研究材料可匹配,可以纳入小说的虚构中。但是精神科学发展的时间非常短,相关的科学哲学和科学社会学、伦理学的反思,也刚刚开始,所以小说的这一部在情节展开上就缺少比较硬核的材料。好像还没有人从精神科学的角度梳理过人类文明史。
3
吴:我理解,对人类精神世界的这种精确结构和建模,就像上面说的科学哲学对社会规律的精确描述,然后解开各种结、去获得一个顺理成章的社会控制方法。
邓:你说的建模不是最好的方法,也是“罗莎”(注:“罗莎”,由吴庭丞和邓菡彬、龙星如合作开发的情绪识别人工智能系统)在展览的过程中经常会被提到的一个疑问。
吴:是的,当代控制理论的实践中,最基础的还是各种各样的PID和PID算法变形。(注:PID控制算法是结合Proportional比例、Integral积分、Differential微分三种环节于一体的控制算法,它是连续系统中应用广泛的一种控制算法,出现于20世纪三十至四十年代,适用于对被控对象模型了解不清楚的场合。)然后再是后面发展起来的各种高级控制算法。然而这些控制算法越精妙,对建模误差的容忍程度总体上也越来越小:模型参数的较大改变或者建模的不精确会更多地导致被控制系统的发散。社会系统应该是一个有着特别大延迟、诸多无法精确测量参数、太多可被改变的内部状态的系统,这样的系统应该反倒是需要更高“鲁棒性”的控制方法的一个系统。(注:“鲁棒”是“Robust”的音译,也就是“健壮”和“强壮”的意思,它是在异常和危险情况下系统生存的能力,比如计算机软件在输入错误、磁盘故障、网络过载或被有意攻击的情况下,能否不死机、不崩溃,就是该软件的鲁棒性。“鲁棒性”,也指控制系统在一定的参数摄动下,维持其他某些性能的特性。)
邓:对,涉及到情绪首先就有一个相互影响的问题。现在我们做的是试图把受试者当作小白鼠,在实验室条件下,让受试者独自地展现情绪。但是更多的情绪状态是在交互环境中的。
吴:各种各样的数字化和物联网技术会给这样的控制理论一个机会,社会学、经济学领域的各种模型建立会变得愈发容易。
邓:阿西莫夫的小说也谈到对于社会人群的演化,比较容易建模、进行数学计算。但是对个体的因素则不太好计算。
吴:嗯,就看是将受试者作为个体研究,还是研究整个大团体的运行规律了。就像阿西莫夫提到的,社会人群在个体层面的运动和选择是杂乱的,就像热力学系统里的分子运动一样,但更大范围的群体就会出现统计学规律。
邓:对的,谢克纳研究印度舞蹈表演中的情绪,发展出“罗莎美学”(Ras aesthetics)的理论来,排斥西方学说中认为情绪是更属于个人的说法。他认为情绪还是更属于社会。从这个角度来说,个人的情绪也是可以被计算的。但可惜我们“罗莎”现在的模型还是从一个个体本身的身体运动来进行分析的。主要是一种归类,不带任何预测。(笑)
吴:所以说预测应该是一种怎样的展现形式?采样你前五分钟的情绪,预测未来一分钟的情绪?
邓:这个想法很牛!情绪预测对一个人可能会不准,但是对一群人就不一定了。如果设想一种纪录片或者是戏剧演出的场景,在一段记录影像拍摄的同时,采集五分钟的情绪,来预测未来一分钟的。
吴:嗯,这种模型我相信还是很容易训练的,只要有大量的标注数据,或许就会有比较好的预测结果,尤其是在片段没有出现转折或者各种蒙太奇的情况下。
邓:这个思维模式是一个突破。之前老想着下一代芯片出来了,就可以同时判断多个个体。这其实很傻。应该是判断一个情绪场的整体走向。
吴:这种通过过去时间的状态推断未来的状态应该就是马尔科夫链(注:马尔可夫链“Markov Chain”是概率论和数理统计中具有马尔可夫性质且存在于离散的指数集和状态空间内的随机过程,可能具有不可约性、重现性、周期性和遍历性,被用于动力系统、化学反应、市场行为和信息检索的数学建模,一些机器学习算法也以马尔可夫链为理论基础)或者是贝叶斯网络(注:贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一,适用于表达和分析不确定性和概率性的事件,应用于有条件地依赖多种控制因素的决策,可以依不完全、不精确、不确定的知识或信息做出推理)。
邓:这也是阿西莫夫的启发呀。对于一个群体的情绪走向作预测,就有比较好的社会功能,而不是像现在针对个人情绪的,简直是塔罗牌的小游戲。
吴:那采集的输入需要有比较全面的输入。
邓:去年夏天在中科院做数据采集,我感觉对演员们真的是无语。他们的表现太差了。大部分的演员都中了情绪是属于个人的这种毒。只有舞蹈演员在这方面比较好。以为演员能够更好地面对自己的情绪,真是一个不够正确的设想。我们如果采集的话,可以主要去寻找现实环境中的人群,比方说,学校、监狱、戒毒所、农民工聚集等待招工的地方、足球队员的更衣室……这些都是传统的做纪录片的地方。有经费了再去人类学家爱去的非洲部落、英国老工业区、加勒比海白人退休养老地之类的。(笑)
吴:之前听说好像表演是有两个流派的?一个是希望演员清晰地认识到自己在表演,而另一派是希望演员充分融入角色?
邓:对,其中一个流派,也是现在所有文明世界占主导的流派,就是心理现实主义流派。这个流派的人希望自己充分融入角色,更容易相信情绪是绝对属于自己个人的,也比较容易发精神病。(笑)其实斯坦尼斯拉夫斯基这样的大师不完全是心理现实主义的,但是徒子徒孙们不会有那么辩证。
吴:嗯嗯,也就是,最基础的是身体语言应该需要贴近真实状况?
邓:哈哈,关键什么是真实?其实我现在也有点迷惑。因为我最早学说相声,那情绪肯定是更属于社会性的。但是后来又学了心理现实主义表演,再后来,又学着抽身出来。对一种社会性“真实”的认知是会影响个人情绪的。这种“真实”的特点也就是更稳定。而心理现实主义那种个人化的情绪真实,则非常不稳定,而且能量消耗巨大。所以那个派别的演员一般下了戏出来,根本就不愿意再给你演什么。
吴:嗯嗯,所以“真实”本来就是非常主观的一种概念。
邓:在社会性状态里是很客观的。所以用人工智能判断群体情绪的走向很靠谱,可以预测一些风险和危机的发生,就像阿西莫夫小说里写的那样。我们人其实有可能过去是有这种能力的,但首先进化的是根据语言表达以及与视觉识别相关的判断能力。
吴:关于这种依靠肢体语言对群体情绪判断输出的准确度,其实我个人是不太乐观的。目前市场上大多数产品也是靠提取人体动态,再通过一些策略去判断状态。不过允许一定模糊度或者简单氛围的评价,我觉得还是有一定可做的空间的。目前业界预测群体风险、危机用的方法很原始,但同时,好处就是“鲁棒性”很强。
邓:最大的问题是,仅仅靠视觉是有点违背“罗莎美学”的理论初衷。虽然我们可以说,姿势判断采集的一些很微观的人体运动并不在人类符号系统的判断之内,可以说,对机器学习是更有价值的,但是“罗莎美学”的理论是根据味觉、嗅觉等多种知觉建立起来的,应该更希望能超越对视觉的知觉依赖。
吴:或者说,是由表演,由视觉、听觉信号产生嗅觉的联觉?
邓:对,就是联觉!上次邱志杰老师在上海采集他写书法时的脑电波,科学家们认为是分析不了的,因为杂波太多,我觉得那是因为没有引入人工智能的分析手段。理论上,人工智能也可以把杂波的影响考虑进来,只要样本的量达到一定的规模。而像老邱这样“疯狂”的艺术家,如果你告诉他,到某个规模就能行的话,他是可以不断地去写书法的。疯狂的艺术家是最合格的“小白鼠”。上次去就是测写书法时候的不同情绪,老邱认为这种情绪与写出来的书法之间是有关联的。
吴:我觉得老邱做的这个事情就是一种AI字库。字库这个目前有人在做,也是希望自动训练出来大量字体,但是好像也没有能做得特别好的。
邓:还有听觉。听觉这一块,已经有很多做表演的人试图研究。但是到目前为止,得到的结果还是比较不明晰的。我相信应该是缺乏大数据。声音创作,包括台词的处理,什么样的材料引起什么样的情绪,只有一些天才靠直觉判断。所以好的艺术家会充分利用在表演空间里的各种声音,尤其是通过人的身体发出来的声音,用这种声音来制造“共情”。
吴:但是也要看样本的量达到什么样的规模。理论上来说,既然人脑的神经网络能产生如此丰富的思维活动或者推理能力,那任何问题都可以求助于神经网络的训练和运算,而现实的情况是,目前的算力水平和存储能力以及能量消耗是无法支撑一个确定量级以上的运算的。
邓:哈哈哈,是的是的,真的做过一次之后也发现,我们的硬件条件还是很受限的。
吴:这导致我们其实需要大量的时间依靠人脑的逻辑思维能力,尽量去解决能够解决的问题,把一些难以用固定规律或简单程序实现的步骤丢给机器学习去实现。所有简单的问题都能“端”到“端”地由大量数据和训练完成是一个美好的梦想,但现实往往并不这么美好。以脑电波的提取为例,很多时候我们还是更多依赖成型的“傅里叶变换”(注:Fourier transform,一种分析信号的方法)等频域方法去做处理,直接的神经网络降噪可能效果还远不如这些传统方法。
邓:上次在上海中科院,我就跟科学家们辩论过这个问题。我觉得这是因为现在对脑电波图像的要求是一种本质意义上的最终图像。但是根据“罗莎”的成功经验,我们根本就不需要人类能够看明白的、本质意义上的一个最终图像,我们只需要确定几个分类就好。机器到最后很可能能够识别这几个分类。
吴:作为自然科学方法论培养出来的人,我也是更倾向于中科院上海神经科学所他们的看法:如果要用于严肃的科学研究,应该是需要更严谨的实验环境和实验设计。简单的分类可以作为展示,但是没法使用科学的方法去证明或证伪,那用来做实验科学研究就是有缺陷的。
4
邓:情绪属于个人,这在目前是一个主流的看法。阿西莫夫也会在小说里面设置,“第二基地”要把自己隐蔽起来,因为大多数人会恐惧于对情绪的干预。小说里第二基地要花1000年来做隐蔽呢,不然人类发现了这一点,可能就要把它干掉。(笑)人类太习惯了那个小世界是属于自己的。
吴:其实还有一个情绪的来源问题,牵扯到了自由意志的问题。如何区分什么样的情绪是完全“由个人生发出来的”,而非一种社会性的训練后产生的反馈。
邓:没错,自由意志,这是一个非常关键的问题!
吴:相关概念我想也许心理学里有答案?
邓:我可以去问一下心理学的专家朋友。但是我很怀疑,就我微薄的了解,现在心理学很倾向于解决具体问题,已经很久没有心理学哲学的大家出现了。在实验科学这么占主导的情况下,连过去的一些心理学哲学大家也饱受“是不是伪科学”的质疑。自由意志这个话题实在是太大了。比如说检测一群小学生是不是有过量的负面情绪,从实用的角度来说是有用的,从自由意志的角度来说——
吴:是危险的。
邓:阿西莫夫居然还预测了马斯克搞的那个头发丝一样细的大脑电极植入。
吴:脑机接口一直是大家饱含期望的一个方向,因为基于语言和运动的交流方式实在是太慢了。
邓:其实“联觉”应该比单一的脑电波更有意思。
吴:嗯,但是好像没有特别多的研究?
邓:是的,联觉太神秘主义了。就是对演员来说,也只有最顶尖的演员,才依稀觉得是可以有点依赖它的。但是现在如果能够把架构想好,是不是也可以交给机器去分析?就像之前我们所说的,拍纪录片的模式:把一个一个真实的人类活动的现场记录下来。去年在上海中科院做了差不多两三个星期的个案采集,当这么多个体的具体情况暴露无遗地展现在采集台上的时候,我感觉我的情绪能量是有些不够用的。一天最多只能采集4个人,足以让我体力虚脱。我想是不是还是因为我的态度不够客观。李澄宇派了两个博士,轮流跟着实验采集。他俩好淡定啊。
吴:或许只是对所做工作的距离感让他们感觉很轻松?
邓:哈哈,你这个解释让我很放松。
吴:哈哈,也只是猜测吧。
邓:的确,我有一种强烈的想从这些具体的个案中探索出规律的焦虑感。我想,如果没有去年的这些经历,我可能看《银河帝国》的第三部《第二基地》也不会有现在这样的感触。毕竟《基地》那一篇还是更直接,甚至有点像历史小说。
吴:嗯嗯,毕竟第一部最初只是把罗马史放到了宇宙里。
5
邓:我在听“故事FM”,真的很有意思,绝好的表演教材。书面语言和口头语言差别还是很明顯,很微妙。文字就是有一个速度问题。比如我一般都是用语音软件把语音转成文字,再发给朋友,就是觉得这样让对方看起来会方便一些,扫一眼就知道大致的信息。如果需要听语音的话,那就得按照时间的正常流逝速度,那么就会“干货”的信息量比较小,情绪的信息量比较大,可能只适合很亲密的人之间。在一个语音传播已经非常便利的时代,文字还这么有市场,我想可能就是有一个信息传播效率的问题。很多人都会为了这个传播效率牺牲语音的额外信息、接受编撰者的“文本”权力。比如我为了看看他每期都在讲什么,就得放弃听很多语音,直接一目十行扫看文字。
吴:是的,我是选择在上班途中、做家务或者运动这种没法阅读的时候听语音。
邓:我刚才给学生推荐这个号了。我跟他们说:从观察生活训练来说,这个号里的语音故事,比影视剧里的演员演出来的情绪“处理”,要真实太多了。去年演《大海》,电话戏那一场,我批评了部分演员:只有表达没有克制,是不真实的——当时只是从表演理论来说的。而从生活本身来说,也是这样的,有克制,才更真实。在现实处境中,真正遭遇强烈的情绪时,人越是主动去控制,越是控制不住的点突然溢出。那种瞬间的冲击力,跟影视剧标配的情绪表达真不可同日而语。
吴:你还听了什么?
邓:我还听了那个代驾司机的故事。很多情绪上微小的转折点,光看文字真的是看不出来。文字不经意地就套路化了,它指向一种可以让你一目十行的阅读方式,指向你熟知的那些故事,让你看着看着就觉得这是你熟悉的经验,太阳底下无新鲜事。
吴:其实重点不在故事,而在于经历这个故事和讲述这个故事的人对它的态度。
邓:一种老的社会交流模式,已经失效了。
吴:“故事FM”这个号上的文字和语音已经如此地接近,但是改写还是很明显的。
邓:改写是整合化思维,觉得一种经过整合之后的东西,才适合放在公共的平台上,呈现出来。总是希望用一个声音,一个标准的、高度修饰过的声音来说话。所以,现在大家那么喜欢说,“重点看评论区”。哪怕是一篇大家觉得说得不错的文章,它的整合性力量还总是会让大家觉得不够满意的。没有评论区的文章是“跛足文章”。懂得怎么去回应你一个个评论、让大家“上墙”的作者,才是真正的好作者。但是现在来看,很多人显然是非常不适应这种交流结构的变化。有时候,就像我姐教育我外甥女那样,觉得放低姿态跟她做一样的事、说差不多的话,就能交流了。这有点奢望,因为底子里的整合性思维没有变,很容易被不同的话语扰乱。
邓:阿西莫夫的《基地》里面也有一个很有意思的细节,就是谢顿教授之后,他那帮人第一次碰到危机,是旁边的一个野蛮王国要来打他们。当时银河帝国和这个野蛮王国签订了一个条约,基地理事会的头觉得这个条约意思就是,帝国仍然会保护基地。但是市长通过一套分析方法剔除掉所有没用的信息之后,得出来的信息就是,帝国已经对这里没有任何保护了。这个科学幻想都过去这么多年了,现在关于交流结构,有没有什么科学模型?
吴:这个我倒没听说过。只是语言分析那边有很多模型,RNN的。(注:循环神经网络Recurrent Neural Networks的缩写是RNN。)
邓:这个人工智能应该是可以的吧?
吴:关于语言分析其实很早就有了,语法分析和大数据流派交替出现;也有很多公司在做。这个让我想起来了,可以用身体语言加语音语调什么的细节搞测谎或者像刚才说的真实意图分析,甚至在谈判专家手上,用于评估对方心理状态。目前的研究状况也是很早期,主要是“鲁棒性”太弱。每个人撒谎、怯懦、言不由衷的表现都不太一样,倒是生理特征比较一致一点,之前展会上看过有用红外监控毛细血管状况作为测谎辅助评估的。不知道对于这种个体间的不一致,表演是怎么处理的?我理解,表演是会提取出统一的一套大家都会表现的共性?
邓:其实最好的表演是社会性的。我现在觉得,比较差的演员都会觉得情绪是个人化的;现在实验科学架构的很多东西,也都是针对个体来研究。这在方法论上其实是有问题的,就会导致“鲁棒性”太弱。阿西莫夫其实已经说出了这个真理。个人的种种不确定性,当放到一个群体中的时候,总的趋势就会变得明确。比较牛的演员,就是特别会把握这种总的趋势。他懂得剧本里的社会性存在,以及剧场的现场、存在的社会性。所以,“提取出统一的一套大家都会表现的共性”就是比较依赖技巧的表演了。
吴:嗯嗯,理解了,也就是大量输入,然后提取一个共性的状态。
邓:在学术上大家提“表演转向”,就是因为表演性和文本性是两个截然相对的东西。
吴:嗯嗯,不过“表演转向”的概念是?
邓:文本性,可以理解为官方文书。表演性可以理解为弹幕。(笑)典型案例,就是某种伪装成流行文化的八股被评论区轰炸。
吴:(笑)那是没有还手之力的。
邓:最近的这几次评论区“排队”狂欢、朋友去“接龙”,有好多人说像行为艺术,我也觉得“操演性”非常强。“操演性”是“performativity”,跟“表演”的“acting”还不一样。简而言之,这几件事里虽然这么多文字,但是其实观点讨论已经不是核心了,姿态是核心。还是那个问题,人工智能有没有可能作为某种辅助系统,实现人类增强。
吴:得看增强哪个方面。
邓:先解决情商低的问题。(笑)就是太依赖语言,感知不到语言之外的东西。据说古代的人类应该是身体感觉很敏感。比方说一个人要过来杀你,他浑身都是杀气,你会很敏感。这就是一种动物的感知。古希腊悲剧《美狄亚》就讲了这个问题。
吴:解析语言我觉得也会因人而异吧,敏感的人和大条的人可能对同一个词语的解析完全不一样,但又没有对错之分。用计算机进行辅助的话,会不会导致某种标准答案,忽视人的个体多样性?
邓:从个体的角度来说是没有对错之分的。敏感常常还会过度敏感。这种人工智能对人类的增强,应该是像很好的演员那种动态感知,从而让自己说话的时候也不会那么依赖语言;是对一件事情的行为本身有所判断。
吴:这里面还有一个,表演输入的图像是变化的,每次不那么一样,但文字是完全可控的,编码完全一样,所以每次的结果会绝对一致。只要没有重新训练模型,固定的模型对同一个输入只会有同一个结果,除非上下文变化。
邓:RNN的模型现在能做些什么事情?
吴:RNN主要用来处理序列性的信息,这种主要的就是语言,也有手写识别什么的。只是大家一般都是分段进行处理,先从语言提取文字,然后再作自然语言处理,最后再理解。其实是提取最核心的信息,而没有处理其他信息。
邓:对,我觉得现在好像主要的方向是把语音直接转成文字了。我们那个情绪数据采集,如果加上一个语音的采集,应该更容易进行分析吧。纯身体的有点难,是不是得在嘴里面塞一个感应器?
吴:实时测温应该红外相机就可以?应该是喜怒哀乐什么的可以和温度相关,之前有产品测专注度就用了一个温度传感器。
(责任编辑:李璐)