每秒1000亿数据行：21世纪早期的媒体分析 *

2021-04-14 21:29:28列夫曼诺维奇

国外社会科学前沿 2021年10期

列夫•曼诺维奇 /文张斌 / 译

今天的文化让一切都变得千篇一律。电影、广播和杂志形成了一个体系……利益团体喜欢用技术术语来解释文化工业。他们争辩说，数以百万计的参与者需要复制过程，这不可避免地导致使用标准过程来满足无数地方的相同需求……实际上，操纵和追溯需求的循环使系统更加紧密地统一起来。1Max Horkheimer and Theodor Wiesengrund Adorno, Dialectic of Enlightenment, trans. By E. Jephcott, Stanford, CA:Stanford University Press, 2002.

斯库巴（Scuba）是Facebook的快速切片数据存储库。它存储了成千上万表格，数据高达100TB。它每秒吸收数百万新数据行并删除同样多的数据行。它的吞吐量峰值大约为每秒100个查询，每秒扫描1000亿行，大多数响应时间低于1秒。1Jo-Ann Wiener and Nathan Bronson, Facebook’s Top Open Data Problems, https://research.fb.com/facebook-s-topopen-data-problems/.

我们的数据真的很重要。衡量全球大多数主要网站的每一个页面上的每一秒用户参与度意味着科学定义的海量数据。2About Chartbeat, https://chartbeat.com/about/.

技术媒体的历史可以想象为一系列相互重叠的阶段。在每一个阶段，创建、存储、分发和使用内容的新技术和新实践都很突出。但是这些实践不会以线性的方式相互替换。相反，旧的系统会继续与新系统共存。例如，印刷的大规模复制、广播、使用个人电脑创建媒体、网络作为出版和分发平台、社交网络和媒体共享网站等都只是这些实践中的一部分。它们现在都很活跃，尽管在很长一段时间内，早期的实践可能并不那么重要，或者以重要的方式进行了转变。

这篇文章旨在描述现代技术媒体发展的最新阶段。我称这个阶段为“媒体分析”（media analytics）。与其他阶段不同，它的核心不是创作、出版或发行，尽管它也会影响这些业务。这个新阶段的核心是对所有在线媒体内容以及在线个人和群体行为和交流的自动计算分析。因为这个行业没有一个单独的术语来指代这些实践，所以我姑且命名为“媒体分析”。

媒体分析的动机和用途是多种多样的，但它们都与21世纪早期数字文化的规模有关。这个规模就是数字内容的数量——网络有140亿网页，每天分享20亿张照片，流媒体Spotify有3000万首歌曲，等等。它还包括分享、互动或购买这些内容的人数。截至2017年初，世界有25亿活跃社交网络用户和37亿互联网用户，这些数字还在继续增长。因此，说媒体分析和“大数据”范式的兴起有关就有些轻描淡写了。事实上，谷歌和Facebook开发的下一代存储、检索和分析大数据的技术现在也用在其他领域，因为它们的媒体和交互记录的数量非常庞大。

一、媒体分析案例

通过网站或应用程序（app）销售文化商品和服务的公司（如亚马逊、苹果、 Spotify、Netflix），组织和制作可搜索的信息和知识（谷歌、百度、Yandex），提供推荐（Yelp、TripAdvisor），实现社交交流、信息共享（Facebook、QQ、微信、WhatsApp、推特等）和媒体分享（Instagram、Pinterest、YouTube）都依赖于对大量媒体数据集和数据流的计算分析。这些数据包括：

● 用户在线行为的痕迹（即数字足迹）：访问网站、跟踪链接、分享帖子和“点赞”、浏览和点击广告；

● 物理行为的痕迹：地理位置、用户发布到社交网络的日期和时间、连接到互联网的用户计算机的位置；

● 公司创建的媒体内容：歌曲、视频、书籍和电影；

● 社交网络用户创建的媒体内容：帖子、对话、图片和视频。

我用数据集（data sets）这个术语来指代在自动分析之前数据库中的组织化的静态或“历史”数据。在工业数据分析应用程序中，“历史”一词指的是过去几秒钟以上的事情，有时甚至是几分之一秒。数据流（data streams）是指实时到达并使用诸如Spark streams和Storm这样的平台进行不间断分析的数据。在这两种情况下，收集的数据也使用平台存储，比如Cassandra、HBase、MongoDB。到目前为止，数字人文和计算社会科学只分析了历史上静态的数据集，与此同时，产业越来越多地使用数据流的实时分析，这些数据流的规模较大，需要前面提到的特殊平台。

让我们考虑一个媒体内容的计算分析和使用这种分析的例子。Spotify分析了3000多万首歌曲中每首歌曲的许多特征。这些特征，或者说“特性”，也可以通过Spotify向外部开发者开放API方法“为歌曲获取音频特性”。该方法的当前规范列出了13个特性。其中许多都是建立在较低层次的特征之上，这些特征是由算法从音轨文件中提取的。这些特征是“声学性”、舞蹈性、持续时间（以毫秒计）、能量、“器乐性”、声调、“活跃”、响度、模式、“言语”、节奏、时间特征和效价。

Spotify和其他音乐流媒体服务使用这种提取的功能，为用户自动创建自定义播放列表，从一首歌、专辑、艺术家或流派开始。你可以从一首歌曲开始，然后应用程序的算法会在一个功能空间中选择和它相近的歌曲，并进行流媒体播放。这种方法的优点是新歌不必属于同一专辑或同一歌手，他们只需要与以前的歌曲共享一些音乐特征。

媒体分析还有很多其他的例子。例如，为了使其搜索服务成为可能，谷歌不断地分析全部内容并标记数十亿个Web页面。它通过爬虫软件查看Web上可以触及的每一个页面以及它的文本、布局、使用的字体、图像，等等。电子邮件的垃圾邮件检测依赖于对大量电子邮件文本的分析。亚马逊通过分析数百万客户的购买情况来推荐图书。Netflix分析了数百万用户对推荐电影和电视节目的选择。它还分析了所有产品的信息，创建了超过7万种类型类别。语境广告系统，如AdSense，分析网页内容，并自动选择相关广告显示。电子游戏公司捕捉数百万玩家的游戏动作，并以此来优化游戏设计。Facebook的算法会分析每个用户所有好友的所有更新，然后自动选择哪些更新会显示在用户订阅中。媒体分析在产业中使用的其他例子包括自动翻译（谷歌、Skype）和推荐人们关注或添加到你的朋友列表（推特、Facebook）。使用语音界面进行谷歌搜索，谷歌语音转录（Beaufays）、微软的小娜（Cortana），或苹果的Siri也依赖于对之前数百万小时语音交互的计算分析。

使数据收集、分析和后续行动成为可能的算法和软件的开发是由许多学术领域的研究人员进行的，包括机器学习、计算机视觉、音乐信息检索、计算语言学、自然语言处理、数据挖掘和计算机科学的其他领域。其中许多领域是在20世纪50年代开始发展的，大约在1950年出现了关键的概念“信息检索”。最新的术语是数据科学（data science），在2010年之后开始流行。它是指了解当代的数据分析算法和方法（今天是机器学习、数据挖掘和人工智能的重叠术语）以及经典统计，能够利用现有技术，如我之前提到的平台实现了大数据的收集、分析、报告和存储。

业界以外的人可能会惊讶地发现，媒体分析技术的许多关键部分都是开源的。为了加快研究进度，大多数顶级公司会定期共享它们代码的许多部分。例如，在2015年11月9日，谷歌开源了它的数据和媒体分析系统TensorFlow，以支持它的许多服务。其他公司，如Facebook和微软也开放了用于组织海量数据集的软件系统（Cassandra和Hive是Facebook的两个流行系统，现在很多商业和非营利组织都在使用它们）。反之亦然。拥有超过200万会员的社区地图项目Openstreetmap.org的数据被许多商业公司使用在它们的应用程序中，包括微软和Craigslist。目前用于媒体分析研究的最流行的编程语言是开源的R和Python。

如果我们想确定跨文化产业对内容和互动数据的大规模分析实践的建立日期，我们可以选择1995年（早期的网络搜索引擎）作为开始的日期，而2010年（Facebook用户数达到5亿）是这些实践完全成熟的日期。如今，媒体分析被认为是理所当然的，每一家提供社交网络或在线销售媒体产品的大公司每天都在做这件事，而且越来越实时。数百家提供社交媒体仪表盘（用于监控和分析用户活动和发布内容的网络工具）的公司也进行了同样的分析，并为大量客户进行定制分析。

二、媒体分析的两个部分

媒体分析是媒体技术的新阶段，它影响着数十个使用互联网和计算设备的国家中很大一部分人口的日常文化体验。媒体分析的一部分——用户交互数据（如数字跟踪）的收集和算法分析——已经得到了很大的关注。然而，对这些实践的讨论大多集中在政治和社会问题上，如隐私、监视、访问权、歧视、公平、偏见等等，而不是技术媒体的历史和理论。

相比之下，媒体分析的第二部分，也就是业内对所有类型的在线媒体内容进行算法分析的实践受到的关注较少。然而，只有当我们把媒体分析的两个部分，用户交互数据分析和媒体内容分析放在一起考虑时，1995—2010年之间逐渐发生的转变的规模才会完全显现出来。尽管大众媒体上的文章讨论了在某些情况下对文化内容和数据进行计算分析的细节，比如谷歌搜索、Netflix的推荐系统，或者2008年奥巴马的竞选活动，但它们没有解释媒体分析现在在整个文化产业中的使用情况。

媒体分析实践和技术被应用于人们分享、购买和与文化产品互动的大多数平台及服务中。公司使用其来自动选择在这些平台上将向每个用户显示什么、如何显示、何时显示，包括好友的更新和推荐内容。也许最重要的是，这些技术内置于许多应用程序和Web服务中，不仅由企业和非营利组织使用，还被成千上万的个人使用。这些人不仅作为消费者，而且也作为内容和意见的生产者参与到文化产业中。乔治•瑞泽尔（George Ritzer）和奈森•杰根森（Nathan Jurgenson）称这种混合了消费和生产的状况为“产销者资本主义”（prosumer capitalism）。例如，用于网站和博客的谷歌分析，以及由Facebook、Twitter和其他主要社交网络提供的分析仪表板，被数以百万计的人用来调整他们的内容和发布策略。

媒体分析的这两个部分都是历史上新出现的。马克斯•霍克海默和西奥多•阿多诺撰写《启蒙辩证法》时，人际交往和群体互动不是文化产业的一部分。但是今天，它们也变得“工业化”了——部分受算法的影响，这些算法决定了网络向你展示什么内容、更新和信息。这些交互也在不同的意义上工业化了。社交网络和通讯应用的界面和工具都是由UI（用户交互）科学家和设计师设计的，他们会测试无限的可能性，以确保每个UI元素，比如按钮和菜单都经过优化和设计，以获得最大的效果。

媒体分析的第二部分——媒体内容的计算分析在文化产业的应用方面也是最近才出现的。20世纪40年代诞生了首个能够响应查询要求、进行计算机编码文本查询的计算机技术。1948年的一次会议上，霍尔姆斯特伦（Holmstrom）描述了一种“名为Univac的机器”，它能够搜索与主题代码相关的文本引用。代码和文本存储在一个磁钢磁带上。卡尔文•莫尔斯（Calvin Mooers）在其麻省理工学院的硕士论文中创造了信息检索（information retrieval）这个词，并于1950年发表了他对这个词的定义。根据这个定义，信息检索是“寻找那些位置不明，甚至不知存在与否的信息”。虽然最早的系统只使用主题和作者代码，但在20世纪50年代末，IBM的计算机科学家汉斯•彼得•卢恩（Hans Peter Luhn）引入了全文处理，我认为这是媒体分析的真正开端。

在20世纪80年代，最早的搜索引擎将信息检索技术应用到互联网上。在万维网开始成长后，新的网站搜索引擎被创造出来。首个著名的搜索网站文本的引擎是1994年发布的WebCrawler。在20世纪90年代的后半段，许多搜索引擎，包括Yahoo!、Magellan、Lycos、Infoseek、Excite和AltaVista陆续出现。在21世纪初，对其他类型的网络媒体，包括图片、视频和歌曲的大量分析也开始了。例如，在2016年初，TinEye的图片搜索服务收录了超过140亿张网络图片。Spotify和Deezer等流媒体音乐服务分析了数百万首歌曲的特征，并以此为推荐依据。截至2017年初，Spotify分析了3000万首歌曲，并自动生成了20亿个播放列表。YouTube会分析发布的视频内容，以确定一个新视频是否与数据库中数百万受版权保护的视频的内容相重合。

三、媒体分析的自动化

如果我们从自动化的角度来看媒体历史的文化分析阶段，它跟随了软件工具和计算机被用于创作个人媒体产品的早期阶段。在这一历史中，里程碑式的发展包括视频效果软件Quantel Paintbox（1981年）、写作软件Word（1983年）、视频编辑软件Amiga（1985年）、桌面发布软件PageMaker（1985年）、矢量绘图软件Illustrator（1987年）和图像编辑软件Photoshop（1990年）等。这些软件工具使得更快的工作流程、交换和共享项目的数字文件和资产、创建模块化内容成为可能（如Photoshop中的图层），并且可以随时便利地修改已创建内容。后来，其他技术加入了这些工具，使计算媒体创作成为可能，例如渲染农场（render farms）和媒体工作流管理。

媒体分析的工具各不相同。它们可以自动分析：（1）数以十亿计的在线媒体内容；（2）来自用户与软件服务和应用程序之间数以万亿计的交互数据。例如，用谷歌分析Web上的图像内容，当你输入搜索词时，系统将根据你在安全搜索选项中的选择显示全部或部分图像。如果有需要，它们也可以在此分析的基础上实现自动操作——例如，自动放置广告。

因此，现在自动化的不再是单个媒体条目的创建，而是所有网络内容的展示和相关内容的检索。这包括选择和过滤（展示什么）、内容放置（行为广告）和发现（搜索、推荐）。另一个不断增长的应用是“如何展示”。例如，流行新闻门户Mashable在推特上有850万粉丝（截至2017年3月），它会根据对用户与内容互动的实时分析自动调整内容块的位置。媒体分析的另一个应用是“要创造什么”。例如，在2015年，《纽约时报》的作者开始使用内部应用程序来推荐要报道的主题。

正如采用计算机进行媒体创作并逐渐使这个过程民主化一样，媒体分析的概念、技术、软件和硬件的发展也使其使用民主化。如今，每一个网络内容的创建者都拥有免费的工具，而这些工具直到最近还有只有大型广告公司或市场营销者才能使用的。现在，每个经营博客网站或在自己的社交媒体上发布内容的人都可以像一家媒体公司一样，研究有关点击、分享和点赞的数据，付费推广任何帖子，并系统地规划她或他分享的内容和地点。所有流行的媒体共享和网络平台，从Facebook、YouTube、推特到Academia.edu，都会向人们展示与网络用户互动的详细图表和统计数据。

另一个例子是MailChimp，它是用于发送和跟踪大量电子邮件的流行服务。当我使用MailChimp向我的小型邮件列表发送电子邮件时，我使用它们的发送时间优化选项。它分析了我以前的电子邮件活动的数据，并“为你要发送的用户确定最佳发送时间，并在最佳时间进行分发”。为了创建我在Facebook和推特上的帖子，我使用了一款应用程序，它能计算出我在每个网络上发帖的最佳时间。如果我想推广我的Facebook页面或推特帖子，我可以使用免费的广告功能，通过在它们的网络上根据数百种设置（包括国别、年龄、性别、兴趣和行为）选择用户，为我的活动创建一个定制的受众。虽然基于分类的市场细分早已经在市场营销和广告中使用，推特也允许你触达任何一个与关注“你”账户相似的“目标用户”。在这种新情况下，我不再需要从明确的类别或术语开始，相反，我可以让推特的媒体分析为我建立一个自定义的受众。

以谷歌和Facebook等网络巨头为例，它们用于数据分析的技术和人才资源，以及数亿人每天使用其服务的数据访问，都给了它们显著的优势，用以分析用户的互动和行为。这与对单个用户或公司使用谷歌或Facebook分析其账户，或使用任何社交媒体仪表盘对其进行分析，在量化层面是有差异的，但从质化层面上说，概念和大多数技术是完全一样的。谷歌、Facebook、百度和易趣（eBay）等巨头与小公司的一个关键区别在于，前者拥有顶尖科学家开发的自己的机器学习系统（即现代形式的人工智能），这些系统可以根据几乎实时捕获的数十亿数据点进行分析并作出决策；另一个不同是谷歌和Facebook在许多国家主导着在线搜索和广告。因此，与小公司相比，它们对数亿用户发现新内容和信息的影响是不成比例的。

所以媒体分析很重要，它被应用于整个文化产业。但是，为什么我称它为“舞台”，而不是当代文化产业的“趋势”之一呢？因为在某些行业中，媒体分析被用于算法化处理每一种文化产物并对其采取行动。例如，2014年，使用媒体分析的数字音乐服务就占了美国该行业音乐收入的70%。媒体分析也被用来对在数十个国家的大多数年轻人使用的平台上的每一个用户互动进行分析并采取行动。这是媒体内部运作和社会运作的新逻辑。总之，这在实践上和理论上都是至关重要的。任何关于媒介理论或传播的未来讨论都必须从这种情况开始。

当然，我并不是说在1993年之后媒体技术领域就没有发生过其他事情。我可以列出许多其他重要的发展，如从信息的层级组织到搜索、社交媒体的兴起、地理位置信息的整合、移动计算、相机和网页浏览集成到手机和2010年后转向跨媒体分析应用程序和其他数据分析领域的机器学习。

在“大媒体”数据处理领域扮演关键角色的公司只有10～15年的历史——谷歌、百度、VK、亚马逊、易趣、Facebook、Instagram等是在网络时代发展起来的，而不是像电影公司或图书出版商这样的20世纪文化产业的老牌公司。这些老玩家过去是，现在仍然是“专业”内容的生产者。新玩家则充当人们与这些专业内容以及“用户生成内容”（UGC）之间的接口。老牌参与者正在逐渐采用分析技术，但关键决策（如出版一本书）仍然是由个人按照自己的直觉作出的。相比之下，新玩家从一开始就把它们的业务建立在计算媒体分析之上。

它们分析和优化的主要是分销、营销、广告、发现和推荐，也就是说，在文化产业中，消费者寻找、购买和“使用”文化产品的部分。然而，同样的计算范式也被社交网络公司所实现。从这个角度来看，这些网络的用户成为了彼此的“产品”。例如，亚马逊的算法分析人们看什么商品和购买什么商品的数据，并利用这些分析为每一位用户提供个人建议。与此同时，Facebook的算法分析人们在其网站上做什么，以选择每个人的新闻订阅中出现什么样的内容。

虽然“算法”和“算法文化”这两个词很方便，因为它们似乎很好地总结了自动分析和决策制定的概念，但它们也可能会误导人。这就是我使用“媒体分析”的原因。如今，用于大数据分析和预测的最常用技术是机器学习，它与我们通常所理解的为完成某项任务而执行的有限步骤序列有很大不同。一些机器学习应用程序是“可解释的”，但很多（如果不是大多数的话）都不是。创建计算机系统的过程往往会导致一个“黑箱”，它具有良好的实用性能，但不可解释，也就是说，我们不知道它是如何产生结果的。由于这些原因，当提及公司部署的用于分析数据、作出预测或基于分析执行自动操作的真实系统时，我倾向于避免使用算法（algorithms and algorithmic）这样的术语。我更喜欢的术语是软件，它更通用，因为它不假设系统使用传统的算法，也不假设这些算法是可解释的。

媒体分析是当今媒体“物质性”的关键方面。15年前，这个概念可能已经被用于计算机硬件、编程语言、数据库、网络协议以及媒体创作、出版和共享软件的讨论中）。如今，媒体的物质性还与大数据存储和处理技术（如Hadoop和Storm）、监督机器学习和深度学习等范式，以及流行的机器学习算法（如k-means、决策树、支持向量机器和KNN）有关。物质性就是Facebook“每秒扫描1000亿行”，谷歌每天处理100+TB的数据。物质性也是谷歌自动创建的“根据时间为每个人建立的多重（预测）模型”。

四、媒体行为的自动化

到目前为止，我们的讨论集中在媒体内容的自动分析和用户与内容的交互。现在我想讨论一下今天媒体文化的另一个新方面，它是由媒体分析所促成的：基于先前和/或实时分析结果的“媒体行为”的自动化。这些行为可以分为两种类型：（1）部分由显性用户输入或选择设置控制的自动行为；（2）非由显性用户输入控制的自动行为。

部分由显性用户输入或选择设置控制的自动行为包括：为响应文本搜索查询返回的搜索结果；为响应用户选择要查找的图像类型而产生的图像搜索结果；音乐流媒体服务响应用户对音乐家或音乐的初始选择而推荐的音乐。例如，谷歌图像搜索选项目前有面部、照片、剪贴画、线条绘制或动画，以及全彩和黑白。用户可以更改的设置包括系统根据用户的广告偏好选择显示的广告，以及根据“安全搜索”设置显示的图片类型。

这些用户的输入和设置与内容和交互分析的结果相结合，以确定软件所采取的行动。操作的选择可以来自特定用户的先前数据或所有用户的数据，比如所有亚马逊客户的购买历史记录。还可以使用其他信息来确定操作。例如，涉及成千上万个广告的实时算法操作决定了在给定时刻哪些广告将显示在用户的页面上。

不受显性用户输入控制的自动行为依赖于对用户交互活动的分析，但不要求用户显性地选择任何内容。换句话说，用户用他或她以前的所有动作“投票”。谷歌自动将电子邮件过滤为“重要”和“一切”就是这类操作的一个很好的例子。大多数我们今天在网络服务和应用程序的互动中遇到的大多数自动行为，可以通过设置部分地由我们控制。然而，并不是每个用户都愿意花时间去理解和更改每个服务的默认设置（比如https://www.facebook.com/settings）。

我们还将自动行为分为两种类型，这取决于它们是以确定性或非确定性的方式实现的。确定性行为是通过计算产生的，这些计算总是在相同的输入下产生相同的输出；不确定性行为也是通过计算产生的，然而这些计算可以在相同的输入下产生许多不同的输出。如今，大多数使用大数据的算法决策都依赖于概率论、统计学和机器学习。这包括文化产业的网络服务和应用程序中的自动决策。例如，推荐系统可以通过添加一个随机参数来改变结果，从而每次生成不同的结果。但即使在一个计算系统使用确定性方法时，如果输入的数据发生了变化，它仍然可以每次生成不同的动作——这通常发生在不断发展的Web或社交网络中。

总的结果是另一种媒体的新情况——我们每次展示和推荐的内容并不完全由我们或系统设计者决定。从20世纪文化产业的严格确定性技术和实践到21世纪头十年的非确定性技术的转变是媒介文化新阶段的另一个重要方面。在某种程度上，过去严格属于实验艺术领域的东西，如约翰•凯奇（John Cage）对不确定性的使用，或者伊安尼斯•塞纳基斯（Iannis Xenakis）利用随机过程来创作或表演作品这样的做法已经被文化产业采用，作为一种处理新出现的大规模可用内容的方法。但是，当然，现在的目标是相当不同的——不是创造一种可能令人不舒服和震惊的审美体验，而是让一个人接触更多的现有内容，这些内容符合这个人的现有品味，就像她或他之前的选择所表现出来的那样。但是，我们应该记住，如果一个人逐渐远离他或她最初的选择，产业推荐系统也可以用于扩展一个人的品味和知识。当然还有Web超链接结构、维基百科、开放访问的出版物和各种其他Web内容也可以用于此。

除了我前面提到的基于媒体分析的自动行为的例子外，还有许多其他类型的此类操作也使得当代媒体有别于过去。例如，关于用户与Web服务、应用程序或设备交互的数据也经常用于其自身的自动设计调整。这些数据还被用于创造更多的认知自动化，允许系统“预测”用户在任何给定的情境下需要什么，并提供最适合该地点、时间、用户画像和活动类型的信息。情境感知（context-aware）这个术语通常用于描述计算机系统可以对位置、时间、身份和活动作出反应。谷歌的Now assistant就是这种情境感知计算的一个例子。

20世纪的工业和软件设计师及广告商使用用户测试、焦点小组和其他技术来测试和改进新产品。但在媒体分析阶段，服务或产品可以根据用户的互动历史以及对其他用户与服务或产品互动的分析，自动调整每个用户的行为。遵循谷歌推广的模式，每个Web和应用程序用户都成为了不断变化的系统的更好测试者，这些系统从每次交互中学习。

五、媒体分析和文化分析

相对于经济、社会和政治而言，新的计算媒体文化组织（computational organization of media culture）的许多文化效应还没有被产业或学术研究者系统地加以实证研究。例如，我们现在知道很多关于美国保守派和自由派推特用户的语言，或者同一平台上政治两极分化的事情；但我们不知道Instagram上全世界成千上万个城市分享的内容类型的差异，也不知道过去10年里数亿个博客主题的演变。业界确实从这中间提取了一些信息，并将其用在搜索和推荐服务中，但是它没有公布这些信息。我们也应该记住，业界通常感兴趣的是对与某些内容和用户活动关系的趋势分析，这和学者感兴趣的历史性的或大规模的跨文化分析不同。

然而，有一件事对我来说是清楚的。文化产业中使用的数据分析方法也可以用于定量研究和理论化媒体分析的文化效应。2005年，当产业媒体分析刚刚兴起时，我介绍了一个术语，文化分析（cultural analytics），指的是使用计算方法来探索当代数字媒体的大样本，以提出与媒体研究和人文学科相关的问题。在过去的10年里，计算机科学、计算社会科学和数字人文学科的研究人员发表了数以万计有趣的研究，这些研究将这些方法应用于社交网络上对文学、音乐、艺术、历史的分析，包括Facebook、推特、Flickr和Instagram。然而，对大量媒体内容（例如图像、视频和声音，而不是用户的在线活动）进行计算分析还没有成为媒体和传播研究的范式。为了激励这种未来的研究，并为之命名，我们可以创造一个术语：计算媒体研究。

1944年，霍克海默和阿多诺在他们出版的《启蒙辩证法》一书中引入了“文化工业”一词。这本书是在洛杉矶写的，当时好莱坞的演播室制度还在“古典”时期，也就是最完整的时期。当时有八大电影集团，其中五家（福克斯、派拉蒙、雷电华、华纳兄弟和勒夫）有自己的制作工作室、发行部门、连锁影院、导演和演员。一些电影理论家认为，这一时期这些电影公司制作的电影也有着非常一致的风格和叙事结构。无论霍克海默和阿多诺的想法是不是从德国移民抵达洛杉矶之前已经完全成形了，这本书的基调和它的语句，如名言“今天的文化让一切都变得千篇一律”，似乎特别适合好莱坞经典时代。

新的“计算基础”（即媒体分析）如何影响文化产业创造的产品，以及消费者看到和选择的东西？如亚马逊、谷歌等公司现在使用的计算推荐系统，是帮助人们更广泛地选择应用程序、书籍、视频、电影或歌曲（即长尾效应），还是相反地，引导人们进入“排行榜”？推特和Facebook的系统又会如何向我们推荐哪些人可以关注？哪些群组可以加入？

或者考虑一下流行媒体捕捉和共享应用程序的接口和工具，例如它的标准滤镜和调节控制以一定的顺序出现在用户的手机上。这是否会导致图像样式的同质化，而使用相同的几个过滤器来控制其他的？这些关于多样性和同质性的问题，现在可以用从来自网络的大规模的文化数据和数据分析的计算方法进行定量研究。例如，在我们的文化分析实验室（http://lab.culturalanalytics.info），我们对全球13个城市分享的230万张照片进行了Instagram滤镜使用比较，发现这些城市之间存在显著的一致性。不同滤镜在各个城市的相对频率是相似的，它们的受欢迎程度几乎与它们在Instagram应用程序界面上出现的顺序完全相关。

历史文化媒介（historical cultural media）的数字化也使得从历史的角度分析文化的多样性与同质性的维度成为可能。一个研究小组发表了一篇文章《衡量当代西方流行音乐的演变》（Measuring the Evolution of Contemporary Western Popular Music）。在这项研究中，他们对1955—2010年期间的4464411份不同的音乐录音数据进行了计算。近年来，许多计算机和信息科学的研究者也在研究社交网络中的审美偏好和动态注意。例如《一张图片价值超过一千个收藏》（An Image Is Worth More Than a Thousand Favorites），这篇文章使用了900万张Flickr图片，来呈现“普通人对网络图片的审美感知分析”。在对大量使用大数据的定量研究进行文献回顾时，作者说：

社交媒体中的动态注意倾向于服从权力法则。注意力集中在少数受欢迎的项目上，而忽略了群众制作的绝大多数内容。尽管受欢迎程度可以是一个项目在其社区内的感知价值的指标，但以前的研究已经暗示了一个事实，即受欢迎程度不等同于内在质量。因此，能见度低但质量高的内容潜伏在流行分布的尾部。这种现象在照片分享社区中尤为明显。在那里，那些不太参与在线社交互动的有价值的摄影师提供了高质量的照片，而这些照片却没有被看到。

作者提出了一种算法，可以找到在审美质量上与流行图片相同的“不受欢迎”图片（即只有一小部分用户看过的图片）。用这样的算法将允许更多的创作者为他们的作品找到观众。这样的研究例证了，计算媒体研究不只是对文化情境的描述和“批判”，它还能够提供建设性的解决方案，以此改变特定的文化情境。

虽然对内容和来自成千上万用户的交互数据进行大规模的计算媒体分析，给了一些顶级公司很多权力，如谷歌、Facebook，但我们必须记住，它们不只是20世纪40年代紧密整合的好莱坞集团的新翻版。如果说20世纪的文化产业是在创造、发行和营销内容（电影、书籍、歌曲和电视节目），那么我们这个时代的新兴文化产业则专注于组织、展示和推荐他人创作的内容。“媒体分析”分析了媒体内容和人们的在线互动，它是为了支持这一目标和支持这些平台上的广告，这通常是它们的主要收入来源（换句话说，在大多数情况下，这些公司本身并不是内容创造者）。这些“其他人”包括专业制作人和数亿偶尔使用的普通用户，以及成千上万处于这两个极端之间的人。比如社交媒体上的网红；自由职业者或拥有工作室的健身、瑜伽教练、发型师、室内设计师；动漫音乐视频创作者；在Deviantart.com网站上分享他们作品的3500万艺术家；在academia.edu网站上有账户的2800万学者等等。

内容本身也与霍克海默和阿多诺写书的时候（20世纪40年代）有质的不同。不仅是歌曲、电影、书籍和电视节目，还有我们在推特、Facebook、Vine、Instagram、YouTube、Vimeo上分享的个人帖子、信息、图片、视频、学术论文、代码，等等。如果20世纪40年代美国整个文化产业发布的所有内容每年大概只有几百万条，那么今天所有在社交网络上分享的内容加起来每天就有数十亿条。只能运用计算的方法，我们才能通过“呈现”内容的可变性来理解和解释这些内容。直到最近,只有计算机科学家使用这些方法，但就像数字人文、数字历史和数字艺术史这些新领域已经开始在研究中使用它们，媒体研究中使用这些方法也只是一个时间问题。