金晓红 整理
科学与艺术之间的一座小桥
——李幼平院士在“网络科学”论坛的讲话
金晓红 整理
由中国传媒大学主办的“2012年中国网络科学论坛”4月27日于北京顺利召开。论坛围绕“探讨科学与艺术的和谐统一之路”的全新主题,以促进我国网络科学与社会科学、艺术、传媒、人文之间的交叉与和谐统一发展为目的而展开。本次论坛也荣幸邀请到重量级演讲嘉宾,网络科学领域专家:其中包括著名通信技术专家,中国工程院院士李幼平先生。UCL即“统一内容定位”,是数据广播网络平台及IP交互网络平台上实现信息资源组织管理的创新技术理念,其目标是实现网络信息资源的“个性化按内容主动服务”。4月27日,论坛开幕的首日,UCL概念的提出者中国工程院李幼平院士在重感冒的情况下为我们带来了他的精彩演讲。以下是李院士的演讲内容整理:
有一个著名的理论叫六度分离,指地球上任意两个人之间的平均距离为6。而实测数据表明,TCP/IP从工程上实现 D 因为受到同胞的影响,令李院士产生了很多的启示。复杂网络有三个概念,一个叫连接度值,一个叫平均路程,还有一个叫聚类系数,这是该领域三个十分重要的概念。但是他们之间没有联系的。我的同胞中国专家用聚类的概念,把聚类突出来了,用聚类的概念把度值和路径联系了起来,让连接度大的公共内容缓存于网络边缘,这样就形成了路由跳数少于3-4跳的小跳环境。为响应建设“国家公共文化服务体系”,近年国家已经投了几十亿的人民币做小跳数。已付诸实施具体工程的有邬江兴院士的ACR,A就是一个大规模汇集路由器,它既是路由器,又是汇聚服务器。还有中国科学院唐辉教授带领做的在P2P技术上发现的PPCache,以及有线电视双向互动的TVCache等。 可以说小跳数的环境在中国已经初见端倪,邬江兴从互联网的桥头堡,做一个桥向广播网靠拢,它的概念就是NGB的概念。那么广播网,也想做一个桥往互联网靠拢,就是TV Cache。比如说一个信息,二三四个电视台都可以连起来,然后你就可以就近地去访问他。那么唐辉所研究的内容就可以在广播网和互联网之间,搭建一个交集小跳数环境。 我们希望用小跳数环境来帮助未来的互联网。公共内容的度值服从幂律,而且它的∑都在2.2到2.4之间。然而,传统TCP/IP不过问内容,路由跳数与连接度无关,造成核心层流量随网络规模和视频应用呈爆炸性增长,大有“十年千倍”之势。也就是说2010年到2020年这十年里面流量会增加一千倍。如果用小跳数这个创意就顺应幂律了,迁移高度值的常用内容,赋以边缘层拦截常用访问的强大能力。 这样就可以希望实现核心层流量明显回落,QoS和耗能问题均获转机。QA是有保证的,因为跳数少,安全比较好做,能耗问题都可以获得转机。更重要的是,在大聚类、大迁移过程中,借助于内容指纹,获得科学治理互联网的机会。因此就希望国家利用卫星广播的泛在(ubiquitous)分发,发明“更小跳数” 的另类技术,形成一个技术上的突破,在物理上形成一个跟节点数无关的辐射,营造无标度(scalefree)无扭斗(no tussle)的未来网络环境。 另外一个很重要的概念就是现在用的URL,URL是定值定位,它的前缀在什么网站,后缀就是在这个网站的服务器的库里面怎么拿到这篇文章,基本是定位,要改成内容定位,要向着UCL来映射,国家制定统一内容标签UCL,使各种小跳数环境得以科学整合。 2006-2009年,李幼平、倪光南、陈式刚、张尧学四位院士,工程院信息学部两个咨询项目《播存网格工程构思》、《信息化推动先进文化》,总结国人实证研究,有三个发现: 1、公共文化服务占用互联网的大半带宽,这是清华大学在2006年做的流量表,是用数据包的数目来代表流量,不是用点击数,就发现大部分业务的带宽都是给公共文化服务用的,而真正个人使用的像MSN,通话服务相对只用很少的带宽; 2、第二个发现和第三个发现是连在一起的:文化服务聚焦在前一千种网站,而且广播有能力推送前一千种网络。因此就产生了所谓小跳数的创意,这个创意应该归功于北京的李晓明教授,他很大贡献,他有一个说法是“small can act big”,中文意思是四两可以拨千斤。阿基米德有一个名言,给我一个支点,我可以橇动地球。就是说存储,实际上就是一个技术杠杆,而广播就是一个支点。李教授统计下来,非视频类的网页一篇大概只有15K左右,每天全国产生200万到300万种网页,一共也就是30~50GB,那么一年加起来就是12TB。 对于一个卫星频道而言,24小时推送数据就有410GB,远远大于网页每天所产生的30~50GB的数据量。因此可以拓展李晓明教授所想,用广播来分发web博物馆。 在以上提到的四位院士里面有两位是从事核武器研究的,他们就觉得这种想法类似于核武器的次级创新。科学家发现,单几何中心的原子弹难以获得当量可持续扩展,于是,发明了在第二几何中心工作的氢弹次级。氢弹次级依靠初级产生的x射线驱动,实现当量的极大拓展。 今天的互联网遇到的也是“可拓展性”问题,有必要发明辐射驱动的某种次级结构。我们把IP当成原创主结构(primary),把广播存储当成是极大拓网民数量的次结构(secondary),主次结构之间依靠辐射驱动。所以通信和广播、对流和辐射、主和次结构其实是一个很美的相异相成的结构。不同的两个东西组成一个稳定的架构就像一男和一女组成家庭,带正电的原子核和带负电子层组成一个稳定的原子。以后的网络应该是通信网和广播网,对流和辐射共同来组成相异相成的一个美好网络。 此外,李院士还指出,他们发现了一个用卫星来分化安全指纹的问题。公共内容同公共药品、食品一样,实施注册管理,如果能对每一项已注册内容附加哈希指纹,并通过“点对面”卫星辐射手段在全国发放内容指纹。根据国家注册机构发放的指纹,任何地点上的任何终端,都有可能在域名和路由均不可信的情况下,直接判断公共内容的真伪,保护公共内容的安全,防止恶意攻击,代码可以造假,但空间、时间关联的“唯一性”指纹难以造假。 这也是最近美国人提出的广播信道从物理上增强NDN的内容指纹安全概念。 而这个创意的内核是统一内容标签,映射并拓展web服务的URL标签。URL只提供地址信息,缺失标题、摘要等语义元数据。 我们建议国家制定统一内容标签(Uniform Content Label),它是一种感知内容属性的简短数据包。那么UCL是做什么的,主要是感知内容的度值,可以把高度值的内容自动的镜像在网络的边缘。针对个人,统计个人过往的UCL历史数据,感知个人优先连接性(经常到何网站何话题获取内容),按话题排序从广播中过滤内容,维持库存最高服务度值;针对边缘存储,统计用户群过往的UCL历史数据,感知每一项标题的受访频度排序,按排序优先淘汰访频度低的网页,维持库存最高服务度值;针对广播发送端:统计全国过往的UCL/ URL历史数据,感知各网站长期的“人分钟总数”排序,决定应当广播那些网站的内容。 其实科学家和鞋匠的感悟存在相似,鞋匠按手工方式做鞋,因各人尺寸各异,觉得鞋子采用个案生产,天经地义,但做到第1000双时,感悟复杂中存在简单,几十种鞋码足以满足大众个性,他不再做鞋,开鞋厂去了。“鞋码”,是一种“可类聚”的感悟。 我们新闻传播界也有这种感悟,就是全中国如果有1千类,1千个话题,或者1万个话题,大概是千到万之间的话题,就能满足老百姓的个性化需求了。Web服务20年历史,一直采用点对点个案生产。十几年前,Watts发现Collective Dynamics 是小世界的成因,感悟网络也是“可类聚”的。而今天,我们终于感悟:引入辐射复制与聚类计算,有可能使个案生产的web类服务,大踏步进入工业化生产的全新年代。因此,可聚类,科学家与鞋匠所见略同。 B(C/S)小跳数平台代表广播/客户机/服务器三点架构。通过BC、BS两种单向下载,帮助IP的C/ S架构。BC下载:针对全民的公益、免费、自选下载, 向全国所有终端(含手机电视机)送去统一内容标签UCL,让所有公民都获知最新网页的标题、摘要,并告知如何通过电信商获取全文。BS下载:针对电信服务器的收费、自选下载,向全国电信行业边缘服务器送去最新网页全文,让用户只用最少路由跳数获取全文,广播可用CA码收费,电信商也可按流量向用户收费。 B( C/S )小跳数平台,既帮助传统TCP/IP,也帮助不久前提出的NDN、SOFIA、CoreNet等新体系结构。 网络建立播存结构就是两个因素,网络周边都是CS结构,C就是终端客户机,S就是接收服务器。那么现在多了一个东西,客户既需要的东西,告诉接入服务器,接入服务器从internet拿了网页回来,现在我们多了一个广播,广播可以把全文广播给接入服务器,可以把标题和摘要广播给C,就是这个终端客户机,这样的话很多用处,就在S和C之间一跳就解决了。可能用不到10几跳,这样整个网络的运作就会出现很大的变化。那么很重要就要迁移这个大度值的内容,你要识别什么是大度值的内容,这就要靠USR的工具来识别,如果讲的是一个接入服务器,如果许多接入服务器都接受广播的帮助,那实际上就是让它在intelnet的边缘就建筑一个铜墙铁壁,穿一个外套,你常用的媒体都在一跳两跳里面都可以拿到的话,internet的负担就可以大大减轻。这样其实可以组成很有趣的,相异相成的小跳数环境: 以地址为中心-小跳环境-以内容为中心 地址命名数据包-小跳环境-内容命名数据包 名称地址合一-小跳环境-名称地址分离 网络内核-小跳环境-网络外延 网络外延-小跳环境-网络内核 信源指定信宿-小跳环境-信宿指定信源 未聚类无限内容-小跳环境-已聚类有限内容 全民各献所知-小跳环境-全民各取所需 尽力而为传输-小跳环境-尽力而为存储 民主思想-小跳环境-科学手段 大众民主权-小跳环境-大众知情权 文化产业-小跳环境-文化事业 单网络多服务-小跳环境-单服务多网络 share式分享-小跳环境-copy式共享 收费经营 -小跳环境-公益免费 由上我们可以看出,互联网广播网两园相交,小跳数是交集。小跳数理念就是相异相成和谐至美。 刚才讲到社区网络,或者叫社交网络,它有一个特点就是短,短是它很重要的自然科学的特征,短就可以快。一个因短而快的文化载体就诞生了。UCL,1kB,是短的数椐分组,也是一篇短文。短文含25字的标题300字摘要,几秒至几十秒内读完 ,是热门网站中连接度值最大的网页,以每1Mb/ s的广播带宽,每天推送千万种短文,任何人总可以从中找到满足好奇心的最新短文。我们可以随时打开随身携带个人数据库,立即得知你有兴趣天下事,第一时间满足好奇心。同时,一秒内把地震、海啸、战争信息告知全国同胞,比“navigated in ultrashort time”更快。 有这样一个科学道理,凡是紧要的事一般都是短的,还有因短而泛的概念,就是时时处处人人的概念。但这种文化有问题要解决,就是防偏止假的概念,“快与泛” ,难免产生“假与偏”,假和偏是两个概念,安全不等于可信,应该分两手治理假和偏。广播UCL指纹,从内容上防止造假与恶意攻击;物理学的“测不准”,人文科学的“说不准”,都与独立样品数目不足有关。淀积多元内容( 正面反面、赞成反对、过去当前),就是用聚类计算储存内容来解决的问题。例如,我们如何认知非典,如何认知九级地震?我们经过非典的知道是怎么回事,9级地震也是有一个过程,所以它这是一个过程,这个问题我们以后可以再来讨论。什么叫民主,民主就是对多元世界的科学表达,或者叫统计表达,相关表达。 演讲最后,李院士为我们留下了两个深刻而值得思考的问题:“五四”运动已经快100周年了,我想提个问题,科学和民主是不是正在出现由于网络科学的进展,正在呈现出某种交集,就像是两头,中间一个交,左边是德先生,右边是赛先生,未来网是不是应该承担起这么一个交集的作用?第二问题,未来网应该成为沟通科学和民主的某种渠道,就所谓社会网络,社区网络,或者社交网络,应该起到这个渠道的作用,而我们现在做的UCL,内容定位好像是科学和人文之间的一座小桥,能不能这样理解这个问题呢?