云计算全球网能否转化为个人库?

2012-08-24 02:29王银凤
科学中国人 2012年18期
关键词:客户机网页聚类

本刊记者 王银凤

近几年,云计算在世界范围内都非常热门。云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可以是其他服务。

目前全世界所有的国家都采用分享带宽的共享信息的机制。带宽是一种物质性能资源,享用的人多了就会出现有你没有我的冲突,共享信息的速度就要慢下来。

与此同时,目前几乎每个人都拥有数据库,比如手机、PC机,或者IPAD机都有存储功能,这意味着个人拥有数据库的年代已经来到。www已经给人类提供了一个各献所知的大数据环境,能不能把www全世界范围的网变成个人的私有财产,即能不能使得全民能得到普遍的普惠的各取所需?

记者从此次创新论坛中了解到,这种不限共享分数的信息分发机制其实是存在的,那就是播存结构,在科学上摆脱物质分配或者带宽分配的思维。

从2006年开始,李幼平、陈思刚、倪光南和张耀群四位院士对这个问题做了认真的研究,并得出了以下结论:

第一,文化服务占用互联网大半带宽。

第二,文化服务聚焦前一千种的网站。

第三,卫星广播有能力推送前一千种网站当天内容。卫星广播有能力通过辐射,地面又有储存器,只要发明一个选择的漏斗,这样互联网得到一个巨大的突破,有可能未来互联网就形成一个以计算机通讯为主的IP结构,还会加上以广播和储存为主的BS结构。

第四,一旦个人成为现实,播存结构将帮助电信网分担流量,并成为IP结构的次级结构。

从哪入手呢?李幼平院士介绍到:互联网从内容的纬度来看,互联网或者是万围网有三层结构,一个是网站,每个网站底下都有很多栏目,栏目下面才是网页,栏目是重要的结构。现在每个网站都有自己的栏目,比如百度网大的栏目有财经、军事,小的比如女人也是一个栏目,一个话题,大家根据话题分类学的办法来选择自己的需求。

只要经常统计个人最喜欢到哪个网站去看哪个栏目,就可以对个人的栏目进行排序,获取个人最有兴趣的栏目。故研究人员可以做一个内容漏斗——UCL(Uniform Content Label),统一的内容标签。可以从一个无限的网页中根据个人的需求,根据昨天、前天的行为判断明天、后天的需求,定制满足个人的需求内容。

李幼平院士还表示,要达到这样的目标,需要发明一个工具,虽然已经研究很多年,还没有最后成熟。李院士把它叫做UCL,统一的内容标签。它是一个简短的数据包,即一种贯穿网站、栏目和网页三层结构的一种代码,人类智慧的一种代表。

这个可以用中国的国家标准GB/T20092代码的基础上形成一个国家监管机构统一注册颁发的代码,这个代码要是能够被证实和发明出来,将会在无限的网络中选择每一个自己有限的需要去做工作,跟现在所有的搜索引擎概念完全是两回事。

怎么做呢?目前Internet都有一个边缘网或者服务器客户机结构,工作流程如图所示,C客户机如果需要一个网页就把它的URL告诉S, S就到Internet经过K跳路由拿到这个网页给S,然后S再还给客户机,完成一个从远处取来网页的过程。

如果添加多层结构,就是广播一些热门的内容,一方面把它的全文告诉服务器,一方面把它的标签告诉客户机,客户机得到标签,标签规定的UCR里面有它的标签和摘记,人们就可以产生新的要求,C就会告诉我要这个网页,这个时候由广播同时要把全文交给接受服务器,因此这个接受服务器S就直接给终端服务器回答,用不着通过K跳路由。就把Internet跳过,直接用边缘的存储把内容给个人的网库。这就是说分担流量的机制。

非常遗憾的是,万维网发明了20年,Web服务一直采用点对点的,你需要什么,请你把URL给我,我用URL到远处把这个网页拿来。另外的人如果需要同样的网页,他又来一次,他不知道聚类学的生产。

1998年,Watts在顶级杂志上发表一篇文章,发现Collective Dynamics 是小世界的成因,感悟网络也是“可聚类”的。因此如果用这种可聚类的思想,就是用广播和存储来代替这种完全个案的Internet访问,有可能使个案生产的web服务大踏步进入工业化的全新年代,现在web服务还是个案生产,你要你的,他要他的,可能上海市一天有一万人同时要向新浪网要同样一个网页,它是一个一个来服务,其实完全相同内容的网页在完全相同的上海和北京这两个路径中间一天要冗余的、毫无疑义的走一千次甚至一万次。

总之,这个聚类概念和聚类计算是祖先留给我们的财富。毕升的聪明过人之处在于,他把单个的汉字当成可聚可分的最小单元,而现在,UCL聚类计算是把网页当成一个可聚可分的单元,让13亿同胞可以自由的拆卸和装备,个案生产的电信网络可以变成一个工业生产时代。大家都说信息化带动工业化,李院士却表达了相反的观点,在十年里看信息化本身要进行工业化。如果工业化聚类概念把网页服务一个一个去拿的概念改革掉,巨大的生产力就会迸发出来。

www是一个人类的伟大发明,它几乎是给人类提供了一个各献所知的大环境。从信息意义上的各尽所能、各献所知,我们中国科学技术工作者有没有可能发明普惠全民的各取所需呢?

因此创造不限人数的播存结构也许是个起点。播存结构是一个只有中国做得最有深度的研究领域,现在还在基础研究阶段,总有一天它会用这个域名聚类的计算概念把有限的域名聚类不断出现的大数据网页。中国有两句话,一个叫博大精深,李院士认为互联网IP网就是博大精深;他希望年轻人做另外一句话——大道至简。网上东西非常多,但每个人需要的就那么一点,因此发明漏斗,直接向个人提供有兴趣的内容,将来完成各献所知,各取所需是一个伟大的前景。

猜你喜欢
客户机网页聚类
一种傅里叶域海量数据高速谱聚类方法
基于HTML5与CSS3的网页设计技术研究
基于HTML语言的网页制作方法
面向WSN的聚类头选举与维护协议的研究综述
基于HTML5静态网页设计
隔山亦能打牛,本本巧变远控利器
改进K均值聚类算法
搜索引擎怎样对网页排序
基于Spark平台的K-means聚类算法改进及并行化实现
升腾瘦客户机借神码翱翔“云端”