特德·斯拉伯斯
2009年的复活节可能会因为一件事情被人们所铭记,那就是亚马逊网站的热度居然超过了耶稣基督。不管怎样,在推特上这一情况是真实的。在4月的那个长周末,有关亚马逊在线零售商的短消息突然大量涌入推特,一跃成为推特热门话题排行榜的榜首,在复活节这天击败了耶稣基督。然而,正如披头士乐队在1966年所领教过的那样,“比耶稣更受欢迎”(约翰·列侬曾这样评价乐队)并不一定是一个值得令人艳羡的处境。数万条由推特达人推送的消息标签#AmazonFail 表明,亚马逊公司遇到了麻烦。这些网民质疑亚马逊为什么开始把同性恋主题的书排除在其销售排名、搜索和畅销书排行榜之外?
作家马克·R.普罗普斯特(Mark R.Probst)首先使这一问题引发广泛关注。在耶稣受难日这一天,他注意到几本同性恋浪漫小说在亚马逊销量排行榜上消失了,包括他自己的小说《小母马》(The Filly)。他给亚马逊客服写信,希望这只是一个简单的错误。给马克回邮件的客服回复说,亚马逊有一项措施是把带有“成人”内容的作品过滤出最畅销的产品列表。愤怒的马克在复活节的凌晨时分在他的博客上发表了一篇关于此事的文章,他指出了亚马逊前后政策的不一致。这一事件随后被各大新闻媒体报道,他们追踪到自2009年2月起,同性恋书籍就从亚马逊的主要产品列表中消失了。
随即在周一下午发布的新闻稿中,亚马逊的一位发言人将此次错误归因于“一个令人尴尬且愚蠢的编目错误”。超过57000本书受到此事影响,除了同性恋主题的书外,在标题中包含“健康、精神、身体、繁殖、性医学和色情文学”的书也受到了影响。据报道,一名在法国的亚马逊技术人员将单个数据属性“adult”的值从false 更改为true。这一改变随即蔓延到了全球范围内的亚马逊零售商在线商品目录,在列表中删除了所有使用相应元数据标记的图书。亚马逊坚称,这次事故不是因为同性恋恐惧症,而是由于技术系统的自动调试放大了人为错误而导致的失误。
在这场争议之后,作家兼LGBT 活动家拉里·克莱默(Larry Kramer)指出:“我们现在必须更加关注亚马逊,以及它们如何掌控世界文化遗产。”①Rich M, Amazon Says Error Removed Listings, The New York Times, 2009.的确,亚马逊可能一开始只是一家零售商,但它已发展成为人类将文化工作委托给数据密集型竞争过程的许多方式中的一个范例——对人、地点、对象和想法进行排序、分类和分级。②这并不是说算法文化在某种程度上是严格的计算文化而不受人类的影响。最好将算法设想为将人与非人、文化与计算结合在一起的“社会技术的集合体”。同时,算法文化的一个关键点是文化决策过程的自动化,使其大大脱离了人类的掌控。事实上,亚马逊的后端数据基础设施是如此庞大,以至于2006年它开始以“亚马逊网络服务商”的名义向客户出售过剩的产能。它还通过其Kindle 电子书阅读器来收集关于人们如何阅读的敏感数据——更不用说它是如何根据用户的浏览记录和购买模式对产品进行配置和营销的。无论是亚马逊,还是它的同类产品谷歌、脸谱网、推特、奈飞等,都是将人类的思维、行为、组织和表达融合到大数据和大规模计算的逻辑之中。这一举措改变了“文化”这一类别长期以来的实践、体验和理解方式。这就是我在亚历山大·加洛韦(Alexander R.Galloway)之后称为“算法文化”③加洛韦没有给出“算法文化”的具体定义,也没有为这个术语提供任何类型谱系。这却是本文的主要动机。的现象。
本文的目的是追溯数据驱动算法文化发展的一系列条件,并在此过程中提供“它”是什么的初步概念。尽管可以有很多方式来探讨,这里最重要的推动力是历史定义。可以关注与算法文化相关的真实陈述(即话语)的传播,④Foucault M, The Archaeology of Knowledge, New York:Pantheon, 1972.或者绘制这个概念在世界上传播的社会学图谱。⑤Mannheim K, Ideology and Utopia: An Introduction to the Sociology of Knowledge(Reprintedn), San Diego, CA: Harcourt,1995.或者,可以从词源学的角度来追溯特定词语的起源,或者从语言学的角度来理解词语在历史上的确切用法。
虽然本文结合了这些理论路径来讨论,但本文的主要思路来自雷蒙·威廉斯对关键词的研究。这篇文章分析了词语“误用”的一些实例,用来给某些特定单词和词簇进行具体化的选项语义学分析。这些时刻使通过语言来理解现实的新途径或至少是不同的方法成为可能。例如,将长期以来被认为是定性人类经验的概念性必要条件——“文化”绘制到计算数据处理的轨道上的时刻。⑥Kittler F, Thinking Colour and/or Machines, Theory,Culture, & Society, vol.23, 2006, pp.39-50.本文的论点是算法文化的语义维度至少和技术维度一样重要,后者或许因为显而易见的原因往往成为人们关注的焦点。但是正如威廉斯所述“一些重要的社会和历史进程发生在语言中”,语言生产了新的存在领域,在此之后这些领域才被技术制品填充。⑦Striphas T., The Internet of Words: The Chronicle of Higher Education, http:// chronicle.com/article/The-Internet-of-Words/148179/.
此外,关键词方法对于理解意义和意义的潜在性方面是非常有用的,这些潜在性在当代的用法中作为“没有……一种清单的痕迹”而持续、坚持和存在。⑧Gramsci A., Selections from the Prison Notebooks, Reprint ed, NYC: International Publishers Co., 1989.研究这些关键词不仅可以将算法文化置于一个更长的时间长河中去分析,还可以反思现在以算法的名义所宣称的客观性和平等主义。在语义学之外,算法文化的风险在于它逐渐放弃文化的公共性,与之相反的是出现了一套新的精英文化。
加里·霍尔(Gary Hall)在《文化的碎片》(Culture in Bits)的最后一章开篇写道:“如果理查德·霍格特(Richard Hoggart)的时代有电子邮件会怎样?”①Hall G., Culture in Bits: The Monstrous Future of Theory,New York: Continuum, 2002, p.126.这相当于在问,“如果经典的文化研究者身处这个充斥数字计算技术的时代,会创作出什么样的文化研究著作?”想象一下如果雷蒙·威廉斯写《文化与社会》(Culture and Society)的时候碰到#AmazonFail 事件。他将会如何理解他所定义为“文化为一切人类社会都将面对的法庭”②Williams R., Culture and Society, 1780-1950, New York:Columbia University Press, 1958.与“计算化决策制定”③Hallinan B.and Striphas T., Recommend for You: The Netflix Prize and the Production of Algorithmic Culture, New Media & Society, 2014.的文化交织?
威廉斯最初的目的是展示文化如何从一个曾经在英语中相对晦涩的单词转变为20世纪初“最复杂的两三个单词之一”。④Williams R., Keywords: A Vocabulary of Culture and Society, New York: Oxford University Press, 1983.他通过在术语网络中追踪语义变化的方法来做研究,其中许多术语成为了他的著作《关键词:文化与社会的词汇》一书的基础。《文化与社会》的绪论提供了一个更简洁版本的故事,通过聚焦工业、民主、阶级、艺术和文化这5个关键词的历史和互连性表明我们对我们普通生活的思维模式发生了一般性的改变。在前4章中,威廉斯搭建了一组语义坐标,用于描绘文化的转变意义和重要性:从一个以畜牧为基础的前现代的理解到一个更有远见的现代观点——“一件事物本身”,它不仅包括“艺术的整体”,而且包括“整个物质的、智力的和精神的生活方式”。⑤Williams R., Culture and Society, 1780-1950, New York:Columbia University Press, 1958.
《文化与社会》一书所讨论的历史时间跨度从1780—1950年,这一时间的选取涉及两个标志性的历史事件,工业革命和第二次世界大战的结束。后者促成了另一场伟大的变革,被称为计算机革命、通信革命或控制论革命等。⑥Beniger JR.,The Control Revolution: Technological and Economic Origins of the Information Society, Cambridge, MA:Harvard University Press, 1986.尽管威廉斯很有先见之明,但他能否完全洞察自己所述终章的意义仍值得怀疑。更有可能的是,他选择1950年,是因为这一天标志着本世纪中叶,历史和未来的象征或多或少地自由交融。不过,我们可以看到当威廉斯在《文化与社会》的结尾处总结“传播”概念时,提到了他对新技术的关注。然而,直到出版了《文化社会学》(The Sociology of Culture),威廉斯才指出了文化、信息和数字技术之间的关系,并且只是在著作的结束语中顺便提到。⑦Williams R., The Sociology of Culture, Chicago, IL:University of Chicago Press, 1981, pp.231-232.他可能无法提出一个有关文化的完整的修正理论,但他为如何评估自1950年以来的文化语义,以及实践与经验的坐标变化奠定了重要基础。
我们仍然生活在这种转变之中,尽管这些威廉斯在20世纪80年代所试图理解的各种新趋势和新倾向在今天变得更连贯一致了。#AmazonFail事件说明了这一点,反映了消费、商品化和一系列其他日常文化活动都是数据驱动的活动,受到基于机器的信息处理的影响。实际上,如果不对“文化”一词周围的术语进行重新组合,这个事件就难以甚至不可能被理解。威廉斯在《文化与社会》一书中所指出的那些因素无疑仍然很重要,但在最近几十年里,许多其他因素涌现了出来。扩展的关键词列表将包括模拟、应用、云、代码、控制、聚合、复制、数据、设计、数字、格式、免费、朋友、游戏、图表、黑客、人、身份、机器、消息、移动、网络、噪音、对等、平台、协议、搜索、安全、服务器、共享、社交、状态、网络等等。然而,就像威廉斯一样,我想挑出一小部分词汇,它们的语义曲折,能够告诉我们一些有关今天“文化”一词的意义,以及有关大数据、数据挖掘和数据分析的政治。威廉斯讨论过第一个词“信息”,其他两个词“群众”与“算法”由我来分析。
如果“文化”一词的使用情况非常“复杂”,那么“信息”的使用也同样是非常矛盾的。约翰·彼得斯(John Durham Peters)将其词源描述为“充满了颠倒和妥协的历史”。①Peters JD., Information: Notes toward A Critical History,Journal of Communication Inquiry, vol.12, 1988, pp.9-23.就像一个喜怒无常的青少年,它在专一性到普遍性,经验性到抽象性之间摇摆不定。然而,从算法文化的角度来看,这一摇摆也让“信息”变得有趣,它引出了一个更古老的词义,《牛津英语词典》将其描述为“现时的稀缺”(now rare)。
“信息”这个词来源于拉丁语,自公元12或13世纪出现在英语中,这个词的核心张力就已经显现出来了。在早期阶段,信息主要有两个语义域:宗教和法律。《牛津英语词典》中提到的“现时的稀缺”主要是宗教用法,尽管它可能更倾向于描述为精神上的,甚至是神圣的。在此,信息表示“给予某物形式或本质特征;使充满一种特殊性质的行为;激励”。这一定义假定一种在某事物的形塑与赋予其性格、实质或生命之间的不可化约的联系。
信息的法律定义源于古罗马法典。广义上讲它指涉的是“传授犯罪知识”,在美国法律中更具体地指“未经大陪审团起诉而向法官提出的指控或刑事指控”。虽然这里的信息指拟人化的人类代理之间的传递,但这一定义不同于近期对“信息”这一词的理解,即“关于特定事实、主题或事件的知识传播”。在法律意义上,这里的信息不是指信息本身,指的是一些范围更窄的东西——“一条信息”,甚至“信息”。作为动词形式的“信息铺设”(laying of information)是一种特殊的交流方式,是一种言语行为,其结果是把无辜的人变成被告,并制定社会仪式,以便在发生某种动乱之后恢复秩序。这里的定义最接近宗教意义上的品格或品质的给予,虽然现在的信息“来源”是指世俗的互动。
近代早期的经验主义和唯心主义思想对“信息”概念的影响不容小觑。我之前提到的“关于某一特定事实、主题或事件的知识传播”的定义,表明这个术语遇到了早期现代思想的影响,因为这种设定意味着信息不是作为内在的性质或特质,而是一种外在的感觉数据。这种语义上的微变是很重要的,它强调了信息的轨迹已经从前现代到早期现代甚至更远。尽管它继续指神圣或世俗的存在,但一种更加对象化的定义逐渐地使这一词原本的意义边缘化了。
“知识传播”(knowledge communicated)的被动语态结构是很重要的,因为它表明信息被认为是一种来源于自身之外的东西。在康德(Immanuel Kant)的框架内,它属于本体,或非中介意义的数据范畴。这标志着与精神和法律定义的重大偏离,相对于它的化身,神圣性或表述行为,这两者都将信息定位于身体。而另一种对象性的定义则开创了从主体中抽象信息的过程;信息不再属于主体,成为一种相对于我们的认知能力来说是有序的独立的原材料。
20世纪的信息理论家诺伯特·维纳(Norbert Wiener)有一句名言:自然世界由“无数可能与信息有关的人”组成,①Rheingold H., Tools for Thought: The History and Future of Mind-Expanding Technology, Cambridge: MIT Press, 1985.这个观点与他近代早期的前辈们的著作划清了界线。他们同样地想象了一个通过感官输入轰炸我们的世界。然而之后的发展不是一脉相承的,导致这个词的意义变得更加分散。如果信息类似于“与谁有关的消息”,那么它就不需要特别指向任何人。更重要的是,在维纳的构想中,信息根本不需要指向任何人。
顺便说一句,维纳关于控制论和信息的两本主要著作的主角既不是大脑,也不是据称能规定人类世界构成方式的认知结构。相反,维纳认为它们是光电池和高射炮,以及更实用的东西,如自动开门器和恒温器。与上发条的时钟或其他简单的机械装置不同,这些装置的工作方式或多或少与环境条件不协调,这些机器“必须通过感觉器官与世界和谐相处”,并根据它们接收到的信息调整它们的行为。②Wiener N., The Human Use of Human Beings: Cybernetics and Society, 1954, pp.21-22.1944年,物理学家薛定谔(Erwin Schrödinger)主张生活“以负熵为能源”,也就是说生活不多不少正是一个小小的在充满信息的世界中有秩序的小口袋。③Schrödinger E., What is Life? The Physical Aspect of the Living Cell, New York: Cambridge University Press, 1967, p.70.维纳在4年后讲述了一个类似的故事,但加入了一个重要的转折情节。如果机器对信息有自主意识,那么显然信息并不是专属于人类。
因此,从第二次世界大战开始,机器不仅仅被视为有用的工具,而且开始被视为秩序的守护者。格列高里·贝特森(Gregory Bateson)认为信息对他们的工作至关重要,他将信息定义为“一种带来改变的差异”(a difference that makes a difference)。④Bateson G., Steps to an Ecology of Mind: Collected Essays in Anthropology, Psychiatry, Evolution, and Epistemology,Chicago, IL: University of Chicago Press, 2000, p.315.贝特森和维纳一样是控制论领域内的专家,所以如果贝特森用“比特”或简单的“是与否”来定义信息并不会令人感到惊讶。但贝特森同时也是一位训练有素的人类学家,并且与他有过14年婚姻的妻子是著名的美国人类学家玛格丽特·米德(Margaret Mead)。他们有一个孩子玛丽·凯瑟琳(Mary Catherine),也成为了一名著名的人类学家。因此他的定义在这一方面看会让人感到讶异。因为在一个对人和文化具有如此浓厚兴趣的家庭里,当贝特森把信息称为“一种带来改变的差异”时却从来没有问过“对谁?”的问题。到20世纪70年代初,信息如之前一样仅是人类和事物被赋予物质、特性或特征的残余过程。它已经成为一种反人类学的标杆,消除了人类和机器之间长期存在的差异:告知—统一(Inform-uniform)。詹姆斯·格莱克(James Gleick)简洁地阐述了这个问题:“这全是一个问题”。⑤Gleick J., The Information: A History, A Theory, A Flood,New York: Pantheon Books, 2011, p.280.
1966年,米歇尔·福柯(Michel Foucault)在《词与物》(The Order of Things)的结尾处说“人是近代的一个发明……同时它可能已经接近它的尾声”。⑥Foucault M., The Order of Things: An Archaeology of the Human Sciences, New York: Vintage Books, 1971.6年以后,吉尔·德勒兹(Gilles Deleuze)和菲利克斯·伽塔利(Félix Guattari)在《反俄狄浦斯》(Anti-Oedipus)开篇中写到“所有东西都是机器”——包括植物的生命、动物的生命、机械装置、电子产品、经济活动、天体等等。⑦Deleuze G.and Guattari F., Anti-Oedipus: Capitalism and Schizophrenia, 1983, p.2.夹在他们之间是贝特森,对于这位人类学家来说,文化生活成为了很多类型的信息处理任务之一。另外还可以看到,文化对象、实践和偏好的感觉构成了一个数据语料库(“数据”这个词来自拉丁语,指“一些给定的东西”),尽管这些数据超出了人类科学对预期接受者不可知论的传统观点。人类将不再享有作为文化生产者、仲裁者、策展人或阐释者的专属权。考虑到长期以来精英们以文化差异的名义所践行的耻辱、无礼和残暴,这或许是一个好的发展。但是,如果人与机器之间表面上一致性导致文化实践和决策不能更好地展开,又会怎样呢?
“群众”这个词的词源学考察与“信息”一样,是一项极性倒转的研究。这个词大约在15世纪进入英语中,是对荷兰语、德语和弗里斯兰语中表示施压或推动的动词的改编。英语中的动词形式“to crowd”保留了这个单词的早期含义,尽管在某些上下文中,物理力的元素可能是比喻性的,而不是字面意义的。《牛津英语词典》中提到,“直到1600年,‘crowd’这个词还比较少见”,这意味着这个词的兴起大致与早期现代性同步。这个词的名词形式经常与mass、mob、multitude和throng 互换使用,通常指在公共场合,特别是在城市环境中举行大型集会的人群。通常,它表示“拥挤”“效率低下”和“挫折”,比如在短语“与群众作战”(fighting the crowds)和“三人成群”(three’s a crowd)中。它也暗含了个人的匿名性和参与的不作为的意思,比如短语“一群旁观者”(a crowd of onlookers)。由于这些原因,直到最近,“群众”还几乎只包含贬义的含义。
从语义上来讲,在19世纪,“群众”这个词已经形成,成为新闻业和学术关注的主流。①威廉斯(1983)指出,在此之前英语词汇“诸众”(multitude)占据了主导地位。18世纪和19世纪“大众”(mass)这个词开始崛起,同时“群众”(crowd)也相应崛起。查 尔 斯· 麦 基(Charles Mackay)于1841年 在英国首次出版的《大众的错觉与群众的疯狂》(Extraordinary Popular Delusions and the Madness of Crowds)是相关方面的重要著作。这本书记载了一些事件,麦基叙述到“整个社群突然把注意力都放在了同一个对象上,并且对其展开疯狂地追求”。②Mackay C., Extraordinary Popular Delusions: And the Madness of Crowds, Amherst, NY: Prometheus Books, 2001, p.ix.这些事件从股市泡沫到发型变迁、口头禅、慢性中毒、决斗、超自然实践和17世纪荷兰人对郁金香狂热等。这是一本包罗万象的书,然而在对“群众”的明确洞察方面,它提供的信息少得惊人,即集体是通过在集体实践与事件中集体放弃理性来消除罪恶感的。对麦基来说,这些实践和事件证明了集体对理性的弃置。相反,他似在迎合当时的传统观点:“俗话说的好,人总在人群中思考;我们会看到,他们成群结队地发疯,而他们只是慢慢地、一个接一个地恢复知觉。”③Mackay C., Extraordinary Popular Delusions: And the Madness of Crowds, Amherst, NY: Prometheus Books, 2001, p.ix.
麦基不仅遵循传统智慧,他还利用了这种说法。在他关于“群体思维”(thinking in herds)的论述之前,他引用了一个类似的概念叫“大众心理”(popular mind)。这两个术语有些许不一样,但从语义上来看就是偷梁换柱。动词短语“群体思维”似乎是指一个活跃的、有生命的过程,尽管在这个过程中,任何个人的贡献都被广泛地记录了下来。名词形式的“大众心理”在很大程度上省略了过程,提出了一些泛指所有人而不是特定人的概念。在这个意义上,“群众”的词源与“信息”的词源非常相似,从人体中剥离出来,转化为非物质的物体,然后扩散到世界。
这种对群体的理解方式被古斯塔夫·勒庞(Gustave Le Bon)的《乌合之众:大众心理研究》(The Crowd: A Study of The Popular Mind)终结。勒庞提供了一套麦基没有的解释框架。勒庞的这本书与“大众阶层进入政治生活”有关,他把大众阶层描绘成一个邪恶的、不加思考的群体(horde):“历史告诉我们从一个文明赖以生存的道德力量失去影响力的那一刻起,我们完全有理由相信这个文明的最终瓦解就由那些无意识的被称为野蛮人的野蛮群体带来。”④Le Bon G., The Crowd: A Study of the Popular Mind(Reprint edition), Mineola, NY: Dover Publication, 2002.
勒庞的书被理解为是对大众的抨击。可以肯定的是,这书是一首对少数特权统治衰落的挽歌,类似于埃德蒙·伯克(Edmund Burke)的《对法国大革命的反思》(Reflections on the Revolution in France)。勒庞的文章中明显流露出一种无可奈何的语气,暗示着他不情愿地接受了当时正在出现的政治现实:“我们即将进入的时代,实际上是一个大众的时代(Era of Crowds)。”①Le Bon G., The Crowd: A Study of the Popular Mind(Reprint edition), Mineola, NY: Dover Publications, 2002.这或许有助于解释为什么《乌合之众》中也包含了一些勒庞提出的更为模棱两可的观点,比如下面这段:“举例来说,还有什么比一种语言更复杂、更有逻辑性、更奇妙的呢?然而,这种令人钦佩的有组织的生产从何兴起的呢?它一定是群众无意识的天才结果。”②Le Bon G., The Crowd: A Study of the Popular Mind(Reprint edition), Mineola, NY: Dover Publications, 2002, p.v.
无论是巧合还是有意为之,勒庞都勾勒了一条关于理解群众的重要思路。这条路线是在古典自由主义和苏格兰启蒙运动的重叠中发展起来的,并在亚当·斯密(Adam Smith)的著作中得到了充分的彰显。斯密在《国富论》中试图解释那些显然是自发的经济活动,用勒庞的话来说就是“巧妙地组织生产”的经济活动。但是,斯密并没有注意到“群众”的意义。事实上,在他37.5万字的巨著中,“crowd”这个词只出现过4次,而且都是动词形式。斯密解析了另一个不同类型的概念,虽然它在修辞上可以媲美勒庞的“天才”人群。这就是著名的“看不见的手”,在斯密的观点中,“看不见的手”把个体经济行为者的利益与整个社会的需要联系起来。③Smith A., An Inquiry into the Nature and Causes of the Wealth of Nations, 1977.
神秘的、幽灵般的“看不见的手”本质上是一种经济活动的神谕,在这一方面来说它与前面提到的“信息”的精神意义并没有太大的区别。到了20世纪,弗里德里希·哈耶克(Friedrich A.Hayek)更加明确了这种联系,有助于支持一种萌芽于斯密和勒庞的有关“群众”的更为积极的观点。哈耶克的重要著作《通往奴役之路》(Road to Serfdom)在欧洲和美国都具有丰碑性的意义。哈耶克相信,应该有一种力量被赋予控制国家的任务;对他来说,这种力量就是经济领域。因此,他认为国家不应该干预经济活动,应当把经济活动的协调任务留给分散在各地的个别行动者。④Hayek FA, The Road to Serfdom: Text and Documents -Definitive Edition, Chicago, IL: University of Chicago Press, 2007, p.232.哈耶克并没有把这种协调归因于神秘的看不见的手,而是强调了“信息”的作用。用他自己的话说,信息在编排这种复杂的集体舞蹈时,尤其是在价格系统中扮演了关键角色。
和亚当·斯密一样,哈耶克对群众本身也没有诉诸笔墨。不过,他对“个人”的理解却可以追溯到最早英语中“群众”(crowd)的概念,即对他人施加压力。基于此,他带来了有关群众是睿智的、有建设性的观念。哈耶克并不是唯一。1965年,哈耶克的朋友、经济学家曼瑟尔·奥尔森(Mancur Olson)通过描述集体行动背后隐藏着的“逻辑”,驳斥了群体本质上是愚蠢和非理性的说法。⑤Olson M., The Logic of Collective Action: Public Goods and the Theory of Groups, Cambridge, MA: Harvard University Press, 1971.社会学家斯坦利·米尔格拉姆(Stanley Milgram)也是如此,他早期关于服从权威的著作在他后期关于群体的著作中得到了脚注,在他的著作中,他否定了一种观点,即群众会使原本有思想的人受到迷惑。⑥Milgram S., et al., The Individual in a Social World:Essays and Experiments(3rd edn), London: Pinter & Martin Ltd,2010, pp.237-305.最后,尽管威廉斯在意识形态上与哈耶克截然相反,但我们仍必须提及他为群众的救赎所做的贡献。《文化与社会》的结论是对“大众即乌合之众”这一概念的延伸批判,最终洞悉到“事实上没有大众;只有把人们看作大众的方法”。⑦Williams R, Culture and Society, 1780-1950, New York:Columbia University Press, 1958, p.300.威廉斯提出的“社区”或“共同文化”(common culture)与我在这里追溯的群众概念有着不可思议的相似之处:一个“需要不断调整和重新绘制的复杂组织”;虽然否认个人“充分参与”的可能性,但仍给予他或她一定的影响或感化;以及没有能力达到“完全意识到自己”的状态。
正是这一系列正向的含义催生了当今的“众包”“群体智慧”等概念,这些概念在过去20年间广为流行,如:“蜂群思维”、“集体智慧”、“智能系统”、“团体天赋”等等。由于对群众的理解产生于各式各样的传统,更不用说上个世纪发生的技术变革,从那时到现在的转化很难用完美来解释。当威廉斯写到“团结”是维持“共同文化”的必要条件的时候,他能预料到今天这种团结能够通过计算被伪造吗?与此同时,当专有的计算机平台成为在线互动网络的主要中心时,如何使群众得到救赎呢?
与“信息”和“群众”相比,在理解当今文化上,算法并不是一个十分显耀的关键词。如果说前两个词被认为具有主导性或者普遍性的意义,那么算法则被描述为是新兴的,或者是倾向于传统观念上的被认为是受控制的。然而,正如詹姆斯·格莱克(James Gleick)在《信息》(The Information)中所指出的那样:“算法在二十世纪发挥了核心作用。”①Gleick J., The Information: A History, A Theory, A Flood,New York: Pantheon Books, New York: International Publishers Co, 2011, p.280.②虽然算法这个词在英语中并不常见,但它的使用大约从1960年起出现了一个戏剧性的高潮。在那之前,它几乎没有怎么出现过,但在1970—2000年间,它的使用量增加了约3500%,接近与“群众”。
“算法”(algorithm)是从阿拉伯语、希腊语、中世纪拉丁语、古法语和中世纪英语传入现代英语中的。从历史上看,算法与希腊词汇“Arithm”(αριθμός),即“数”高度相关,英语中的“算术”(arithmetic)由此派生。尽管《牛津英语词典》认为这是一种词源学的上曲解,算法最常见的当代定义是指一个正式的过程或一组按步骤进行的程序,往往在数学上表达为在连接上的流动。实际上,算法这个词出自“Algoritmi”,是对9世纪波斯数学家阿布·阿卜杜拉·穆罕默德·伊本·穆萨·花拉子米(Abū Jafar Muammad ibn Mūsā al-Khwārizmī)姓氏“al-Khwārizmī”的拉丁文音译。“算法”在13世纪初被首次记录在英语中,当时在乔叟的《坎特伯雷故事集》中算法的写法是“augrim”。从18世纪早期到20世纪早期,这个词经历了一系列的正字法变换,最终形成了它约定俗成的拼写法“algorism”③Karpinski LC, The Algorism of John Killingworth, English Historical Review, vol.29, 1914, pp.707-717.。今天的算法“algorithm”一词的写法也出现在18世纪初,但直到1940年才成为标准的正字。
困惑的原因主要来自于两篇关键性数学著作,它们的作者都是花拉子米,“算法”一词就来源于他的名字。最终导致“算法”这个词有两种不同但又相关的意思。第一篇手稿名为《积分和方程计算法》(Al-Kitāb al-Mukhtaar fī isb al-jabr wa-al-Muqābala,简称为《代数学》(The Compendious Book of Calculation by Restoration and Balancing),介绍了许多代数的基本方法和操作。“代数”(algebra)这个词本身,源自自阿拉伯语中的“al-jabr”,由西班牙摩尔语传入西欧语言中。④Karpinski LC, Introduction, in Karpinski LC (ed.), Robert of Chester’s Latin Translation of the Algebra of Al-Khowarizmi,New York: The Macmillan Company, 1915.⑤Smith DE and Karpinski LC, The Hindu-Arabic Numerals,London: Ginn and Co., 1911.⑥Crossley JN and Henry AS, Thus Spake al-Khwārizmī:A Translation of the Text of Cambridge University Library Ms.Ii.vi.5, Historia Mathematica, vol.17, 1990, pp.103-131.顺便说一下,“al-jabr”这个词出现在阿拉伯版本的标题之前,“isāb”被翻译成运算,也表示算术。从概念上讲,“算法”“算术”(arithmetic)这两个词自9世纪以来一直是一箭之遥。因此,这两个词相互腐化的结果是不太可能的。更准确地说,直到20世纪初期,“算法”这个词的算术意义还不占主导地位或者说不受欢迎。
另一个关键性的文本是花拉子米所著的有关印度或印度阿拉伯数字的,或者今天西方人称之为“阿拉伯数字”的无标题手稿。人们普遍认为花拉子米的这一无题手稿在中世纪向欧洲人介绍阿拉伯数字的过程中发挥了关键作用。正如花拉子米的名字在代数书中成了算术(arithmetic)的同义词,他的名字也成为了阿拉伯语记数系统本身的同义词。作为这种联系的遗产,“algorism”作为“算法”这个词的过去形式在今天已经失宠了。直到20世纪初,阿拉伯数字还通常被称为“算法数字”(the numbers of algorism)。
不过,这并不是“Algorism”唯一的意思,也不是最有趣的解法。“Algorism”的语义语境包括一系列次要意义,这些意义是理解算法文化的关键。其中最重要的是它与零的密切联系。①Smith DE and Karpinski LC, The Hindu-Arabic Numerals,London: Ginn and Co., 1911.“零”(Zero)这个词来自梵语“空白”(ūnya),引入到阿拉伯语中为“空的”(ifr),词根源自于现代英语形式的“cypher”。因此,“cypher in algorism”长期与“零”互换使用并非是巧合。有时“cypher”会用来指定阿拉伯数字中的任何一个,这时候与“algorism”同义。此外,直到19世纪中叶,“cypher”和“zero”一样,都可以指一个占位符——通常带有贬义,表示“无用的”人。与此同时,今天出现了“cypher”更为常见的定义,即密码或破解密码的方式。
所以,一方面,我们有“algorithms”,指运用揭示有关世界真相与趋势的一组数学程序。另一方面,我们有“algorisms”,指编码系统,它可能会揭示,也可能会隐藏。一个吹嘘说能提供接近真实的途径;另一个,就像一个替补,占据了它的位置。然而,为什么在20世纪早期,“algorithm”比“algorism”更受欢迎,以至于后者形式现在几乎成了一种古词?
简言之,是“信息”。出自美国贝尔实验室工程师的具有里程碑意义的两篇论文成为了这一问题的试金石。第一篇是拉尔夫·哈特利(Ralph Hartley)1928年出刊的《信息的传递》(Transmission of Information)。第二篇是克劳德·E.香农(Claude E .Shannon)于1948年出版的《传播的数学理论》(Mathematical Theory of Communication)。哈特利的论文值得注意的点有很多,主要涉及技术领域,但也许他最大胆的举措就是将传播纳入了信息的范畴。他说,在任何给定的传播中,传播者都会在心里选择一个特定符号……随着选择的进行,越来越多可能的符号序列被消除,信息将变得更加精确。②Hartley RVL, Transmission of Information, Bell System Technical Journal, vol.7, 1928, pp.535-563.因此,哈特利把传播理解为一种程序性的活动——一种碰运气的游戏,其中的赌注是信息,或者在特定的交互环境中实现信息同一性的可能性。香农后续研究了这一问题,对哈特利的理论提出了质疑。
哈特利和香农论文的不同之处在于香农对传播过程的信任明显不足。对哈特利来说,符号的揭示导致理解和秩序是一件相对自然的事情。而对香农来说,传播是一件纷乱的事情,它由过去和现在的许多复杂的决定因素所组成,混乱是传播的自然状态。因此,传播发生在充满不确定性的环境中,或者用信息论的语言来说即为:熵;秩序不能被视为理所当然,而是需要加以设计。香农的问题是如何解析信号和噪声,从而增加系统达到足够有序程度的几率。因此,他需要设计一套程序用以处理支配传播过程的一系列决定因素,可以把这套程序称为算法,尽管他没有特别使用这个术语。香农可能认为他在发展一种“传播的数学理论”,但事实上,他是最早提出信息算法理论的人之一。
值得一提的是,香农不仅是一位才华横溢的电气工程师,还是一位世界级密码专家。二战期间,香农在贝尔实验室参与了几个政府资助的“保密”项目。在那期间,他发表了一篇不太为人所知的,最初是保密的题为《密码学的数学理论》的论文。①Shannon C., A Mathematical Theory of Cryptography,Murray Hill, NJ: Bell Labs, 1945.换句话说,香农是在算法和编码系统的结合点上运作的。或者正如他多年后描述他在传播和密码学方面的工作时所说,“它们靠得太近了,你无法把它们分开”。②Kahn D., The Codebreakers: The Story of Secret Writing,New York: The Macmillan Company, 1967, p.744.对香农来说,传播的确在一般意义上只不过是密码学或加密和解密的一种特殊的、更简单的情况。他认为信号和噪音被困在令人眼花缭乱的熵的舞蹈中,同时还有明显的冗余,如果使用正确的数学方法加以利用,可以在很大程度上缓解动荡,从而为秩序指明方向。③Rheingold H., Tools for Thought: The History and Future of Mind-Expanding Technology, Cambridge, MA: The MIT Press,1985, p.119.香农在工作中提出的具体建议是,使用算法来削弱编码系统。
本文尽可能地去连接“信息”、“群众”与“算法”三者之间的关联点。当然,我意识到还有很多遗漏的有待连接点,遗漏在这种概要性的论述中是不可避免的,弗兰克·莫莱蒂(Franco Moretti)曾称这种方法为“遥读”(distant reading)。④Moretti F., Graphs, Maps, Trees: Abstract Models for a Literary History, London, New York: Verso, 2005, p.1.我很清楚这项研究中的偏见,尤其是文章中所引用的欧洲血统白人男性在工作和经验中享有特权。这样做的目的不是为了抬高他们。相反,我想讲一个关于词语世界的故事,或者说是通过非常规地使用特定的术语来帮助形成“参考的世界”。⑤Guattari F., Chaosmosis: An Ethico-Aesthetic Paradigm,Bloomington, IL: Indiana University Press, 1995, p.9.尽管如此,我想再多说几句关于我在这里展示的概念历史是如何与文化,以及大数据、数据挖掘和分析联系起来的。
马修·阿诺德(Matthew Arnold)的《文化与无政府状态》(Culture and Anarchy)因为以精英视角来定义文化,即“人们思考和说过的最好的东西”⑥Arnold M., Culture and Anarchy and Other Writings,Cambridge, New York: Cambridge University Press, 1993, p.190.而臭名昭著。在其书的另一处,阿诺德把文化称之为“甜蜜和光明”,从而为他想象中的一小群文化使徒定义了一个理想状态,他认为他们会像他一样传播文化的福音。除此之外,书中还有关于文化的第三个观念,虽然很难被忽视,但却被前两个更容易引用的定义所掩盖。他把文化称为“一种权威原则,以抵消似乎要威胁我们的无政府主义倾向”。⑦Arnold M., Culture and Anarchy and Other Writings,Cambridge, New York: Cambridge University Press, 1993, p.89.对于阿诺德来说,作为权威原则的文化意味着一种选择性的民族传统,尤其指英国的艺术和文学传统。在他看来,在阶级对立加剧威胁的英国社会中,这将为民族团结和道德提升创造基础。
“文化作为权威原则”在算法文化中以及围绕算法文化运作中起到主要作用。然而,今天的“文化”本身并不是“权威原则”,而是算法被越来越多地赋予了消除熵的任务,或者用阿诺德的话说,消除“无政府状态”。你甚至可能会说“文化”正在迅速发展,从零售到租赁、搜索到社交网络,远远超出了特定信息处理任务产生的积极影响,尤其是当它们与群体信息学相关时。在这个意义上,算法,至少从阿诺德起,在很大程度上承担了文化的主要职责,即“重组社会”。正如布鲁诺·拉图尔(Bruno Latour)所说:“尽管,在此使用一整套分析工具用以在庞大的数据体中发现统计的相关性,似乎将原本不相干且离散的人群团结在了一起。”①Hallinan B.and Striphas T., Recommend for You: The Netflix Prize and the Production of Algorithmic Culture, New Media & Society.
我在本文的开头与文中的论述过程中已经提到,算法文化的关键性有一部分在于过程的私有化:指为确立包含特殊社会团体的价值观、实践与人造物在内的文化,进行的持续性斗争的决策和辩论形式。特尔顿·吉莱斯皮(Tarleton Gillespie)通过研究推特热门话题趋势列表来探讨了这一问题。他指出,推特公司的黑箱算法在如何确立话题的重要性上面令人迷惑不解。他写道:“有趣的问题不是推特是否在审查它的热点话题趋势列表”,“有趣的问题是我们如何理解话题趋势列表……当我们认为它是‘错的’时,我们可以认为它是应当负责任的”。②Gillespie T., Our Misplaced Faith in Twitter Trends, Salon, http://www.salon.com/2011/10/19/our_misplaced_faith_in_twitter_trends/.他认为推特之类的网站利用人民所相信的“算法真实”(algorithmic real)为热门话题排序,好像它们忠实呈现了现实一样。但是问题比这更复杂。吉莱斯皮补充说,“我们没有足够多的词汇来评估像‘趋势’这样的算法工具所作出的干预”,这一洞察强调了语言、技术、大数据、统计分析和政治经济等问题是多么错综复杂。因此,我们首先探讨了有关算法文化的语义文本或者说关键词,用以作为研究问题的框架,然后才能再在此基础上讨论文化决策的私有化的问题。
简言之,关于在亚马逊网站中看到的产品推荐。零售商会说,这些都是一个人浏览和购买历史的结果,这些历史与亚马逊的数百万其他顾客(一种群众)的历史记录相关联,可以用来确定谁的购买行为模式与自己的相似。你也可能会喜欢这类的基于圈层的算法推荐,反之亦然,亚马逊称之为“协同过滤”。谷歌的工作原理据报道也与此类似。尽管谷歌公司的算法技术早就超越了最初的“网页排名”(Page Rank)算法,即通过衡量传入一个网站的链接数量来确定其相对重要性,但它仍然利用广泛的用户数据来判断什么在网站中最重要。正如《连线》杂志在2010年描述的那样:
网页排名被认为是在搜索引擎中引入了一种民粹主义的衡量标准:基于数百万人的民主决定在网络上链接什么内容。但是谷歌的工程师们……正在开拓另一种民主——数以亿计的人在谷歌上搜索,利用收集到的海量数据来支持其算法。
所有这些说法使得算法文化听上去像是民主公共文化的最终成果。现在,任何一个可以连接互联网的人都可以参与到决定什么是“最好的想法与最好的内容”的角色中去。我很想说,“要让马修·阿诺德失望了”,我不相信算法文化在精神上,甚至在执行上,与阿诺德式的项目有那么大的差距。尽管可能是民粹主义言论,但我相信我们正在回归他的使徒式的文化愿景。我上面引用的《连线》杂志上的一篇文章也说:“你可能认为谷歌的算法只是一个搜索引擎,但是等着瞧吧,钻到它后台去看看它能做什么。”③Levy S., How Google’s Algorithm Rules the Web, http://www.wired.com/magazine/2010/02/ff_google_algorithm/.关键问题是,由于商业机密法、保密协议和非竞争性条款的制约,实际上几乎没有人知道亚马逊、谷歌、脸谱网或其他任何一家领先的科技公司的“后台”到底是怎么运作的。正如吉莱斯皮所说,你无法看到被焊接过了的引擎盖下面到底有什么。④Gillespie T., Wired Shut: Copyright and the Shape of Digital Culture, Cambridge, MA: The MIT Press, 2007, p.222.
回归最古老的“信息”观念的本源——某种赋予人和物体以形状、品质或特性的神秘实体。我并不是要贬低“群众”在生成原始数据方面发挥的作用。而是在我看来“群体智慧”在很大程度上只是数据处理过程中的一个占位符,或者说是一种算法。而它正日益成为一种私有的、排他性的、以及有利可图的事情。这就是为什么,我相信在这个时代“算法”将越来越起到决定性作用,也可以解释为什么像亚马逊、谷歌和脸谱网这样带有民粹主义言论的公司居然可以迅速成为新的文化传道者。