涂海丽唐晓波
(1.武汉大学信息管理学院 湖北武汉 430072)
(2.东华理工大学经济与管理学院 江西抚州 344000)
·交流与探索·
对社会化媒体资源长期保存的思考*
涂海丽唐晓波
(1.武汉大学信息管理学院 湖北武汉 430072)
(2.东华理工大学经济与管理学院 江西抚州 344000)
社会化媒体是给予用户极大参与的网络媒体,社会化媒体资源指的是所有形式的社会化媒体工具、网站,以及其中多数由用户生成的信息内容。文章在借鉴现有国内外理论研究与实践探索的基础上,结合社会化媒体资源不同于一般网络资源的特性,从社会化媒体资源保存的必要性、资源的选择、保存主体、保存方法及保存过程中要注意的问题等方面进行探讨,提出对用户产生内容进行加工后保存、让平台运营商参与保存、利用云存储等技术、广泛开展合作联盟、妥善解决法律及成本等问题的观点,为社会化媒体这一特殊网络资源的长期保存与有效利用提供参考。
社会化媒体数字资源长期保存
社会化媒体是依赖Web2.0发展起来的给予用户极大参与空间的工具和平台。在社会化媒体上,人们可以随时随地发布最出现的新鲜事,自由分享意见、观点及经验。目前,社会化媒体呈现形式越来越多样化,出现了满足不同用户群体个性化需求的平台或工具,权威咨询公司CIC将社会化媒体分为“基础功能网络”(如在线百科、博客等)、“核心网络”(如微博、社交网站、即时通信、视频/音乐分享、论坛、消费评论等)、“增值衍生网络”(如社会化电子商务、社交游戏、社会化搜索等)和“新兴/细分网络”(如图片分享、商务社交、婚恋交友、轻博客、在线旅游等)四大类。据中国互联网络信息中心(CNNIC)的最新统计,截止2014年6月,我国即时通信用户达到5.64亿,占整个网民用户的89.3%;博客/个人空间用户达到4.44亿,占整个网民用户的70.3%;微博用户达到2.75亿,占整个网民用户的43.6%;社交网站用户达到2.57亿,占整个网民用户的40.7%;论坛/BBS用户达到1.24亿,占整个网民用户的19.7%。社会化媒体资源是指所有形式的社会化媒体工具、网站平台以及这些工具、平台上的信息内容。它仅包括:技术资源和内容资源。社会化媒体工具、平台承载了其构建的技术、程序,是开发人员集体智慧的结晶,称为技术资源;而社会化媒体上的信息内容大部分是用户生成内容,也包含相关机构发布的信息,如社会化媒体建设机构、其他媒体或经济实体,信息内容多样化,包括文字、图片、声音、视频等多媒体信息,多数以非结构形式存在,称为内容资源。社会化媒体资源属于一种网络数字资源,具有种类繁多、产生速度快、体量大、价值稀疏的特点。近二十年来,数字资源长期保存的问题一直是图书情报领域的热点问题,学者们围绕着哪些数字资源应该保存、如何保存、由谁保存、长期保存存在的问题及挑战等问题展开了深入研究。随着社会化媒体对用户和研究者影响的逐步深入,以及社会化媒体资源不同于一般媒体及网站资源的特点,社会化媒体资源的长期保存问题值得关注,但是是否有必要保存?是否都保存?由谁保存?如何对社会化媒体资源进行长期有效保存以方便利用?保存过程要解决哪些问题?这都是需要面对的重要问题。本文试图借鉴前人理论与实践研究,结合社会化媒体资源的特性,对社会化媒体资源长期保存的必要性、资源的选择、保存主体等问题提出一些看法。
社会化媒体资源保存是数字资源长期保存的一个前沿课题,研究范围涵盖了采集,管理,保存和社交媒体的可用性等方面。Nikos Kasioumis等认为对于博客信息的收集和存档,关键是要建立系统,并介绍了建立一个具有强大的数字化保存、管理和传播功能的新的博客保存平台的工作进展,这个平台将为任何个人和组织博客提供保存服务。Michael L.Nelson等提出使用网络基础设施固有保存网页的功能及信息检索方法来保存网页,以减少资源选择的纠结,并指出这只是现有存档方法的补充,而不是替代。Donghee Sinn和Sue Yeon Syn认为社交网络上个人用户丰富的生活记录保存问题给档案工作者提出了一个重要的研究课题。文章以Facebook为研究对象,通过网络调查,了解了Facebook如何展现用户及其日常生活,用户是否将Facebook作为个人数字存档的工具及其原因。结果表明,对Facebook的态度和在Facebook上的活动是用户选择保存个人文件和个人存档行为的主因。最后讨论了专业存档机构在网络个人数字资源保存中的作用。Catherine C.Marshall指出博客和在线银行帐户、个人网站、电子照片及个人电脑文档一样,属于个人的数字化资产。这类个人数字资源有必要保存以备将来使用,但归档面临资产价值的识别、便于存取等众多挑战。国内鲜见直接关于社会化媒体资源长期保存的研究,从理论研究来看,大部分文献将社会化媒体资源作为网络资源的一部分来研究网络资源长期保存的问题。文献[8-10]介绍了国外网络资源长期保存及其对我国的启示。文献[11-13]对网络资源采集与保存的技术及方法进行了探讨。一些少数文献则直接研究社会化媒体的典型代表,如微博、博客的长期保存问题。文献[14]论证了微博信息长期保存的价值。文献[15]运用专家调查法,从微博长期保存的原因、面临的威胁、保存的费用、保存的职责四个方面对微博长期保存的可行性进行调查。调查发现“微博能够为数据挖掘提供条件”、“其潜在的经济价值”这两个因素构成了微博长期保存的主要动力。并指出微博信息的长期保存工作存在产权纠纷与保存技术难题、费用与保存机构难定两大障碍,需要相关各方共同参与,并提出图书馆要积极主动地承担保存职责。文献[16-18]研讨了博客保存的现状、困境与对策。
从以上相关文献的回顾可以看出,到目前为止,大部分学者把社会化媒体中的典型类型,如微博、博客、即时消息等看成是个人资产或网络资源的一种形态,而采取像其它个人资产或网络资源一样的保存策略,鲜有学者将社会化媒体资源作为网络资源的特例单独开展长期保存的研究,虽然社会化媒体资源在资源形式、资源的构建等方面有一般网络资源的共性,但也有其资源内容产生、生命周期上独特的个性,这必将给网络资源长期保存带来更大的挑战。
3.1 社会化媒体资源是否有必要长期保存
社会化媒体资源是否有必要保存的问题是近年来数字资源长期保存研究领域争论的焦点之一。否定者认为,社会化媒体上的信息大多由用户生成,主要是记录日常生活的琐事、所感、所想、对时事的评论,价值稀疏,信息质量良莠不齐,这些内容没有保存的必要。另外一些专题知识,分布广泛,更新速度快,而且重复、无序内容较多,很难收集和辨别源头,不易保存。研究机构Pearanalytics对Twitter的抽样调查显示,有40.5%的信息没有价值。MarketWatch网站科技专栏作家John C.Dvorak总结了Twitter作为新闻源有报道片面、缺乏分析等七大不足。《广州日报》载文称,微博已经从一个社交平台变成许多垃圾信息、八卦、恶搞甚至谣言的集散地。央视《朝闻天下》栏目就曾报道了微博造假现象,引发了网民热议。一些信息技术专家也认为,博客随网络产生,保存意味着脱离产生背景,在保存条件不具备情况下,没有保存的必要。
认为微博等社会化媒体资源有必要保存主要从其保存价值角度进行论证。历史学家Dan Snow认为,正是博客中记录的那些琐碎、枯燥的细节对几百年后的人们来说才意义非凡。美国国会图书馆认为Twitter的价值主要有三:直接提供因Twitter引发的事件的第一手资料,可称为一个新闻聚合发布器,记录当时普通人的社会生活。有人从“生产成本”降低这点推算有意愿写有价值微博的人是博客的4倍,加上“消费成本”的降低,认为微博的传播力是博客的200倍。从这个意义上来说,由博客进化而来的微博应比博客具有更大的保存价值。西方国家对微博的研究价值已经有所认识,并已开展保存工作。OCLC董事会主席Larry P.Alford称收集社会媒体信息是学术图书馆的使命之一。我国学者徐宽、任河认为微博等社会化媒体上个人发布的信息由于是“未经证实、非正式、效用价值难确定”的信息,严格来讲不在长期保存之列,但部分内容对公众产生了很大影响,客观反映了一段历史时期的社会状态和现实,具有时代感,也可列为记录历史的内容,需要保存下来。笔者同意这些观点,同时认为:社会化媒体资源作为一种凝聚了开发者和用户智慧的有用数字资源应该长期保存下来,正是因为社会化媒体的信息大多由用户生成,给予了用户极大自由表达对社会现象所持观点的权力,留下了一个时期内的历史记忆,虽然价值稀疏,但可以通过人工智能等手段发掘其重要价值,发现其运动规律,这将给企业更好了解顾客需求及学术研究提供重要情报;由于社会化媒体的开放性和易用性,一些重要新闻或热点可以第一时间在微博、微信等社会化媒体工具上实时发布和进展跟踪,便于找到信息发布的源头,为后续溯源及可能涉及的法律纠纷提供凭证;一些专题知识,如百科知识,正是由于在线用户的贡献,使得知识内容更加完善,也正是由于社会化媒体这个开放平台,使得知识共享和知识的获取变得更加容易,这些珍贵的资源不能因为难以保存而丢弃,而应该尽快解决保存的技术问题。总之,社会化媒体第一次将全人类聚集在一起去分享自己的知识,凝聚了全人类的智慧,对后世来说是一笔重要的数字文化遗产,但社会化媒体资源更新速度太快,生命周期极短,如果不对社会化媒体资源进行长期保存,将永无再现机会,对我们及后世造成无法弥补的缺憾。
3.2 是否所有的社会化媒体资源都要保存
保存是为今后的利用服务的,没有人能够回答现在网络上的哪些资源今后会用到,哪些资源绝对不会用到,这是摆在社会化媒体资源选择面前的一大难题。赵俊玲认为,网络信息资源缺少像文献出版过程中期刊社这样的一层过滤机制,一些重复的、低俗的、甚至垃圾信息充斥着网络,因此网络信息资源的保存不得不面临资源选择的问题。网络资源保存研究的学者们对于保存哪些网页的问题各持见解,统一的认识是保存重要的网页,但是哪些网页重要本身不好判断。有的学者认为为了不遗漏重要信息,应该尽量多、大范围地保存各种形式网页。徐宽、任河提出数字资源保存的内容要具备客观性、科学性、原创性、代表性和可操作性的要求,并进一步将长期保存的网络资源划分为科学数据类、公共记录类、技术设计类、共用软件类、科学文献类、原创文体类和私人发布类七大类。学者们的这些研究为社会化媒体资源的选择提供了很好的借鉴,笔者认为,社会化媒体资源中的技术资源属于技术设计类资源,应该全部保存,存在争议的是内容资源。对于在当时产生重大关注和影响的科学数据、事件、原创体、私人发布的内容资源,由于转载、复制、引用较多,应该去重后保存;但用户关注信息,如评论、跟帖等,由于体量大、价值稀疏,无需保存原始数据,利用现在成熟的情报分析技术对这些信息进行价值挖掘,如情感分析、舆情分析、可视化分析等,对处理之后的二次信息进行分类与其处理技术进行保存,并进行后续的数据监护、实时跟踪数据变化,根据社会化媒体信息的生命周期特性进行周期性抽取、统计、汇总等处理之后进行保存。另外,可以利用一些网络自动保存工具,按照规则要求,自动获取和选择要保存的资源。
3.3 社会化媒体资源由谁来保存
社会化媒体资源比其他数字资源更新速度更快,生命周期更短,量大异构,这就注定了其保存的难度,不是哪一个机构能够胜任的。纵观包含博客、微博等网络资源长期保存的实践,可将保存主体分为三种类型:国家层面、组织联盟和项目。国家层面一般由国家图书馆主导,广泛吸纳档案馆、博物馆、高校图书馆等机构参与。如澳大利亚国家图书馆启动的PANDORA项目2005年将博客纳入长期保存的范围;2010年,美国国会图书馆与Twitter签订协议,将Twitter平台上所有公开信息长期保存。组织联盟是在国际或区域合作前提下,形成以图书馆为主,档案馆、文化遗产保存单位等机构参与的格局。像英国网页归档联盟UKWAC收集了几十个博客,但仅对部分时期的部分博客内容(不包括链接)归档;互联网档案馆(美国的非赢利性组织)已经保存了自1996年以来的550亿份包含部分博客的网页。项目形式的保存主要对网络资源从保存策略、技术、方法等方面进行深入研究,一般都有基金支持,选取的保存对象体量有限,以提供研究实证数据为目的,提出的策略、方法等需要实践的检验。如美国NDIIPP资助的Web at risk项目开发了网页保存的WAS系统。目前,图书馆保存的大都是版权和产权明确的重要数字资源,而网络环境下,数字资源可以无限转载和复制,版权和产权不那么容易识别,因此图书馆数字资源保存模式在社会化媒体资源保存问题上受到新的挑战。另外收集社会化媒体资源的工作是一项非常复杂的工作,涉及到用户和网站,而用户只管信息发布不管保存,网站是技术提供和用户信息及用户发布信息的保存者,可以说是网络版权所有者,因此提供社会化媒体平台的企业参与社会化媒体资源的保存显得理所当然。但是,社会化媒体平台种类繁多,此起彼伏,谁能担此重任呢?目前法律法规没有明确界定,学术界也没有统一看法。以美国数字信息保存特别工作组为代表的责任主体学派和以澳大利亚学者为代表的非责任主体学派都认为保存信息的主要责任者之一应该是信息形成者。但是博客等社会化媒体的信息形成者多数为个人,依赖个人对社会化媒体资源进行保存显然是不可行的。笔者认为,应该由图书馆为主导,吸纳那些对社会化媒体资源保存的重要性有足够的认识、有意向参与这项公益事业、数字保存技术有保障的网站平台运营商参加。这些企业提供的网络数据采集、云存储及智能搜索等技术,与现有的图书馆等已经开展数字资源保存的机构组成联盟,分类保存、分工协作,共同承担包含社会化媒体资源的网络资源的长期保存工作。
3.4 如何收集、保存、利用
社会化媒体资源的长期保存不可避免地涉及数字资源的长期保存收集、保存和提供利用。在这些环节上,一些项目组或学者做过相关探索:荷兰1995年启动的DNEP项目,开启了深层网络资源缴送与长期保存的先河;美国的Internet Archive项目(网页信息存档)自1996年起就对全球可抓取的网页定期收录和进行长期分类保存,并开发了针对这些保存网页的检索系统,现已与多家机构合作共享,为公众提供网页全文检索服务;法国国家图书馆按网页信息资源收集的难易程度采取的自动收集、手动收集、专题收集,并对收集的数据进行长期保存;英国的Archive Press项目在保存博客信息内容上另辟蹊径,开发基于网络种子的保存模式,去除用户不需要的网页框架、色彩等内容,选择并整合博客信息内容进行保存。David Tarrant提出了数据载体关联保存的思想,并进一步指出用RDF和OWL技术构建载体关联可以减少数据冗余,为数据资源的载体保存提供了很好的思路。以上的缴送、分类保存、跨平台信息检索、自动收集、进行选择整合保存、联合保存和基于语义网技术的载体保存都给社会化媒体资源如何保存提供了很好的方法。由于社会化媒体资源分布的广泛性和数量之多,无法用手工方式进行,因此自动采集工具、元数据、大容量存储设备、搜索技术的开发和应用是关键。Angela Dappert指出数字资源的保存依赖元数据,元数据需要描述资源、组织需求、环境、行为等要素。云存储技术可能是未来解决网络数字资源长期保存的可行技术。2009年在华盛顿召开的“数字资源保存存储架构设计”会议上,Fedora Commons、DuraSpace、Meta Archive、LOCK SS、Library of Congress等机构的研究人员都提及云存储研究。总之,社会化媒体资源的保存需要平台运营商的参与,与图书馆等机构合作,分类分流保存,平台运营商通过云平台进行存储,保存用户信息、用户生成信息、用户隐私信息;进行用户关注信息的二次处理;提供图书馆等机构需要的资源和保存技术。其他机构为辅,如国家图书馆、国家博物馆,保存网站框架与技术信息,网上公开信息。保存和利用并重,随时为国家安全机构或国家统计机构提供用户总体信息和必要的个人及个人行为信息。另外,数据自动更新、迁移、仿真、数据再造(数据恢复与数据考古)、数据转换等技术解决了资源受设备生命周期的影响而损毁的问题,也是在社会化媒体资源长期保存的维护过程中可以借鉴的方法。
3.5 如何解决保存中的法律、资金问题
商业网站及个人博客等都有自己的访问权限,未经授权私自抓取与保存,将面临侵权控告的风险。由于社会化媒体资源的数量多且分散,不像出版产品的创作者、制作者、保存者的角色那么明确,创作源头难寻,知识产权所有者难以明确,使得征求网络资源的创作者及版权所有者获得公益保存权的难度太大,这就需要建立国内的数字资源主动存缴机制,使社会化媒体资源保存工作顺利开展。互联网本身无国界,一国未经他国允许擅自收集和保存他国网络资源,将会面临同样的问题,而各国法律不一,跨国侵权将会使问题变得更加复杂和严重。需要争取国际立法,在保护知识产权及版权的基础上,给予为谋求长远公共利益而非私自营利为目的数字资源长期保存机构的正当权利。另外,长期保存过程中也会遇到内部安全管理不善和受黑客攻击的威胁,因此保存过程中的安全问题也需要技术防范和法律支持。网络资源的保存成本很高,2004年就有人做过分析,1TB的存储设备需花2万元,可以存发1亿个网页。Internet Archive项目组估算,光收集1T网络资源需花费3,000美元。Gartner集团经过预算认为购买设备的费用占数字资源保存总投入的三分之一,另有些人认为初期投入占总投入不到10%。初期购买设备的投入只是总投入的一小部分,后续的软硬件更新、系统维护、数据监护的费用将占绝大部分。经费的预算和来源将是社会化媒体资源保存的又一大问题。英国的LIFE项目通过建立数字资源保存生命周期模型,研究数字资源保存的成本。丹麦借助于OAIS的数字资源长期保存过程模型来评价保存成本。社会化媒体资源的保存不仅要考虑保存过程中的成本还应该计算数字资源二次加工及后续的维护成本。经费的来源应该学习国外的做法,像LOCKSS项目和Portico项目经费均来自多个渠道,LOCKSS项目经费来自梅隆基金、国家科学基金及联盟成员经费,Portico项目经费来自梅隆基金、图书馆出版商年费、慈善机构基金会及政府机构资助。社会化媒体资源长期保存的经费应该来自互联网企业、图书馆等成员经费,还应该争取政府、慈善机构资助,及收取其他资源使用企业或个人的年费或会员费。
社会化媒体资源是一种重要的网络数字资源,是Web2.0技术应用的产物,包括社会化媒体工具和网站,以及这些工具和网站上主要由用户分享的信息内容。社会化媒体资源凝结着在线媒体开发者和用户的智慧,反映了这种新媒体时代的历史印迹,是一种重要的数字文化遗产,需要长期保存下来。现有的保存策略是由图书馆将博客、微博等某些社会化媒体资源作为网络资源进行长期保存,这势必会遗漏一些重要的资源。本文认为:(1)应该吸纳有资质的平台运营商参与长期保存工作,与图书馆分工合作,互联网企业提供自动采集技术、云存储、智能搜索等技术,负责用户生成内容的二次加工及保存,图书馆负责网站、工具及重要事件信息、原创网络作品等的保存,双方资源通过公共入口为用户提供服务。(2)保存工作分数字资源采集、保存和使用三个方面的工作。参照已有的资源选择标准,运用自动采集工具加手动采集;运用云存储技术开展保存工作;运用智能搜索技术进行资源的提供。(3)社会化媒体资源无国界,知识产权、出版权、保存权三权分离,要使长期保存这种公益活动正常开展,就应该寻求国际立法,明确规范保存机构的权利、义务及守则。(4)社会化媒体资源保存保存需要巨额资金的支持,一方面要合理评估保存和维护成本,另一方面寻求政府、慈善机构、使用者等多方面的资助。
[1]CIC中国社会化媒体格局图2013[EB/OL].[2013-04-02].http://www.ciccorporate.com/index.phpoption=com_c ontent&view=article&id=1079&catid=84:archives-2013 &Itemid=194&lang=zh.
[2]第34次中国互联网络发展状况统计报告[EB/OL].[2014-07-21].http://cnnic.cn/gywm/xwzx/rdxw/2014/ 201407/t20140721_47439.htm.
[3]Alexandra I.Cristea,Dimitrios Katsaros,annis Manolopoulos.Introduction to the special issue of the World Wide Web journal on“Social Media Preservation and Applications”[J].World Wide Web,2014,(17):691-693.
[4]Nikos Kasioumis,Vangelis Banos,Hendrik Kalb.Towards building a blog Volume preservation platform[J]. World Wide Web,2014,17,(4):799-825.
[5]Michael L.Nelson,Frank McCown,Joan A.Smith,etal. Using the web infrastructure to preserve web pages[J]. International Journal on Digital Libraries,2007,6,(4):327-349.
[6]Donghee Sinn,Sue Yeon Syn.Personal documentation on a social network site:Facebook,a collection ofmoments from your life[J].Arch Sci,2014,14:95-124.
[7]Catherine C.Marshall.Rethinking Personal Digital Archiving,Part 1:Four Challenges from the Field[EJ/ OL].[2014-05-20].http://www.dlib.org/dlib/march08/ marshall/03marshall-pt1.html.
[8]向菁,吴振新,司铁英,等.国际主要Web Archive项目介绍与评析[J].国家图书馆学刊,2010,(1):64-68.
[9]傅泽平.PANDORA项目及其对网络信息长期保存的启示[J].情报杂志,2012,(5):172-175.
[10]郭红梅,张智雄.欧盟数字化长期保存研究态势分析[J].中国图书馆学报,2014,(2):120-127.
[11]罗倩,姜恩波.基于合作式的网站资源采集系统的建设[J].情报杂志,2011,(6):178-181,177.
[12]张智雄,林颖,吴振新,张晓林.数字信息资源长期保存技术体系研究[J].现代图书情报技术,2006,(4):2-7.
[13]王畅.网络信息资源保存——基于多元层次描述的构建方法探析[J].图书情报工作,2010,(21):80-83.
[14]刘超,郑建程.论微博信息的长期保存价值[J].图书馆论坛,2014,(6):101-105.
[15]廖璠,刘国敏.微博长期保存的可行性研究—基于德尔菲法的调查报告[J].图书馆论坛,2013,(2):45-49.
[16]谢春枝.博客长期存取的现状和对策研究[J].图书情报知识,2009,(6):81-86.
[17]谢春枝.博客资源长期存取的困境探析[J].图书馆论坛,2009,(4):96-99.
[18]郭红梅,张智雄,刘振.网络日志存档研究现状分析[J].图书情报工作,2013,(12):143-148.
[19]Pearanalytics.Twitter Study[EB/OL].[2014-02-12]. http://www.pearanalytics.com/wp-content/uploads/2012/ 12/Twitter-Study-August-2009.pdf.
[20]MarketWatch.The seven flaws of Twitter[EB/OL].[2014 -01-04].http://www.marketwatch.com/story/as-newssource-twitter-has-seven-deadly-flaws.
[21]李光焱.微博还能搏动多久?[N].广州日报,2011-03-23(C12).
[22]Catherine 0'Sullivan.Diaries,Online Diaries,and the Future Loss to Archives;or,Blogs and the Blogging BloggersWho BIog Them[J].The American Archivist,2005,68(1):53-73.
[23]ALA.Thousands blog for British Library[EB/OL].[2014-02-12].http://www.ala.org/Template.cfm%20Sec tion=news&template=/ContentManagement/Content Di splay.cfm&Content ID=140832.
[24]Library of Congress.The Library and Twitter:An FAQ[EB/OL].[2014-02-12].http://blogs.loc.gov/loc/2010/ 04/the-library-and-twitter-an-faq/.
[25]刘洁.微博在电视新闻节目中的运用[J].视听界,2011,(3):61-63.
[26]Larry P.Alford.严丹,钱卓珺.把握当下:为学术图书馆的未来而定义[J].图书馆杂志,2013,(7):4-8.
[27]徐宽,任河.数字资源长期保存的内容价值判断依据研究[J].图书情报工作,2013,(13):72-75.
[28]赵俊玲.网络信息资源长期保存初探[J].图书馆工作与研究,2006,(1):31-33.
[29]Online Australian Publications:Select ion Guidelines for Archiving and Preservation by the National Library ofAustralia[EB/OL].[2008-09-30].http://pandora.nla. gov.au/archived/select ionguidelines2003.htm l#s3.7.
[30]Library of Congress.Update on the Twitter Archive At the Library of Congress[EB/OL].[2014-01-04].http:// www.loc.gov/today/pr/2013/files/twitter_report_2013jan. pdf.
[31]About the Archive[EB/OL].[2008-09-30].http://info.webarchive.org.uk/about the archive.html.
[32]陈清文.网络信息资源长期保存责任的研究[J].中华医学图书情报杂志,2006,(6):49-51.
[33]宛玲.国外数字资源长期保存的最新发展及对我国的启示[J].中国图书馆学报,2004,(2):24-28.
[34]National Library of Prance.Digital legal deposit:four questions about Web Archiving at the BnF[EB/OL].[2011-09-23].http://wwv.bnf.fr/en/professionals/digital legal deposit/a digital legal depositweb archiving.html.
[35]Pen nock M.Archive Press:A Really Simple Solution to Archiving Blog Content[EB/OL].[2011-02-18]. http://www.cdlib.org/services/uc3/iPres/presentations/Pe nnockm.pdf.
[36]Tarrant D.Where the Semantic Web and Web2.0 Meet FormatRiskManagement:P2Registry[EB/OL].[2011-02-18].http://www.cdlib.org/iPres/presentations/Tarrant.pdf.
[37]Dappert A,Farquhar A.Implementing Metadata that Guides Digital Preservation Services[EB/OL].[2011-02-18].http://www.cdlib.org//services/uc3/iPres/present ations/Farquhar.pdf.
[38]Designing Storage Architectures for Dig ital Preservation[EB/OL].[2010-04-20].http://www.digital preservation.gov/news/e vents/other_meetings/storage09/index. htm l.
[39]Wheatley P.LIFE3:Predicting Long Term Preservation Costs[EB/OL].[2011-02-18].http://www.cdlib.org/iPre s/presentations/Wheatley.pdf.
[40]Kejser U B,Nielsen A B,Thirifays A.CostModel for Digital Preservation:Cost of Digital Migration[EB/ OL].[2011-02-18].http://www.cdlib.org/iPres/presentations/Kejser.pdf.
[41]What is LOCKSS Program[EB/OL].[2011-04-02].http://locks.standford.edu/lockss/home.
[42]Portico:A Digital Preservation and Electronic Archiving Service[EB/OL].[2011-04-02].http://www.Portico. org/digital-preservation/.
Thinking About the Long-term Conservation of Social Media Resources
Social media is online media w ith users involved greatly.Socialmedia resources refers to all form s of social media tools,sites,and information content that generated mostly by users.Drawing on domestic and international theory and practice and w ith the characteristics of social media resources in mind,the author discussed the necessity of social media resources conservation,choices of resource,saving subjects,preservation methods and issues in the preservation process,etc.It is proposed that user-generated content should be preserved after processing,Internet companies involve in the preservation,cloud storage technology should be used,relevant agencies should have extensive cooperation,and legal and cost issues should be properly resolved.
socialmedia;data resource;long-term conservation
G203;G253
:A
:1003-6938(2014)05-0112-06
涂海丽(1979-),女,武汉大学信息管理学院博士研究生,东华理工大学经济与管理学院讲师;唐晓波(1962-),男,武汉大学信息管理学院教授,博士生导师。
*本文系国家自然科学基金项目“社会化媒体集成检索与语义分析方法研究”(项目编号:71273194)研究成果之一。
2014-09-10;责任编辑:魏志鹏