杜英
大数据背景下社交聊天软件模型构建
——“寻ni”:基于大学生群体的社交聊天分析
杜英
随着信息技术的发展,特别是互联网、云计算和社交网络等技术的突飞猛进,大数据正成为信息社会的重要财富的同时也带来了巨大的挑战。该项目针对大学生群体(包括留学生),通过市场调查、模型构建和概念测试,对已有常用的聊天和服务软件研究分析,了解大学生群体对于大数据的获知程度和需求角度,同时利用可使用的数据“寻ni”。遇你所想遇,聊你所想聊,扩大个性化服务。
大数据;社交;有效整合;模型构建
(一)时代背景
大数据真正的价值是从海量且多样的内容中提取用户行为、用户数据、特征并转化为数据资源,对其加以挖掘和分析。但大数据的存储、管理、挖掘、分析等缺乏全面系统的研究,数据可用性问题及如何提供精准的个性化服务值得深思。
(二)大数据研究现状
大数据获取和整合,通过分布在Web上的丰富数据库资源,科学实验与观测数据;大数据融合与集成,集成和分析来自多个源的数据;大数据现有分析方法主要包括分类分析、聚类分析、数据挖掘、回归分析。
目前大数据的趋势,即数据的去冗分类、去粗取精。近10年来增长最快的数据是网络上传播的非结构化或半结构化的数据,要研究如何科学合理地抽样采集数据。
2012年3月29日,美国政府宣布“大数据研究和发展倡议”,提出增强收集海量数据、分析萃取信息的能力。2013年6月,安倍内阁正式公布了新IT战略——“创建最尖端IT国家宣言”。2014中国互联网安全大会(ISC2014)在国家会议中心召开,涵盖了安全领域顶尖的12场核心技术分论坛演讲以及前瞻技术蜂会,预示着大数据在我国的良好发展,但我国仍存在着对数据保存不够重视,对存储数据的利用率不高,一些部门和机构拥有大量数据却不愿与其他部门共享,导致信息不完整或重复投资等问题。
微信:立足双向关注和对等交流,注重私密社交,沟通效率高,但不能获取与其有微小关系的用户信息,添加好友的难度大,较封闭,难以爆发大规模的传播。在打折促销、客户服务、信息推送等服务方面较好,但信息推广难度大,微信公众平台信息过载。
QQ:用户基数大且有自带的邮件功能,最大的价值是已有的大数据资源。
来往:主要的菜单页面是:扎堆、群聊、私信,总体的知名度、影响和功能定向,不够明确。
微博:基于单项关注和非对等交流,注重提供信息,尤其是精选内容,传播速度快,粉丝获取难度小,较开放,便于信息广泛传播。但微博现僵尸粉众多,信息碎片化,信噪比高,广告众多,损坏体验,且私信中多是关注对象所发送的官网信息,信息管理不便,不适合个人用户之间的交流。
以杭州市各大高校的学生为调查研究对象开展聊天和服务平台体验调查,调查方式以问卷调查为主,访问调查为辅的方式进行。
(一)关于在校大学生社交聊天软件的使用情况的市场调查分析
在你的学历、平时喜欢哪种网络聊天工具和使用这个网络聊天工具的频率三题中,相关数据结果如图1、图2、图3。
由此推断,现下微信、微博的模式相对较受欢迎,超过一半的人喜欢使用,而QQ的使用人群(17.5%)相对前几年逐渐下降,调查中发现,硕士及以上使用QQ较少,而使用其他软件包括外国软件如facebook的较多。在使用频率一题中,很少使用的仅占14.2%,每天用但时间不多和需要时用共计62.9%,大部分时间在用达到22.9%。
在喜欢怎样聊天、和谁聊天中,统计结果如图4、图5。
各选项统计结果比例相差较小,说明软件设计要注意精确分组、陌生人等因素。
(二)“寻ni”——大学生社交聊天的模型构建概念测试调查分析
当问到是否在使用现有社交聊天软件中遇到困扰一题中,有93个人表示没有遇到问题,有45个人表示,在使用过程中找不到人聊天。深入询问之后,7个人表示,使用太多社交软件,但精力有限,导致许多朋友是泛泛之交;17个人表示,有聊天欲望时,期待的聊天对象却不在线;21个人表示,找不到“聊得来的人”,即有共同话题且性格、三观相似的人。
当问及是否会下载这样一款软件时,结果如图6。
肯定会下载和可能会下载超过50%。
根据中国统计局资料可知,2013年末杭州普通高等学校在校学生数为471820人。A假设市场有30%的人能够知道并且能够购买该产品。由样本得出的肯定会购买的比率=Fdefinitely=59/170=35%,由样本可能的肯定会购买的比率=Fprobably=43/170=25%。
可见,“寻ni”软件具有一定市场前景。
基于以上调查研究,初步构建了基于大数据背景的聊天软件模型。软件中将强化分组概念和推荐功能,加强搜索和精确匹配功能,该软件主要包括交流区、通讯录、动态区、服务区四大板块内容,通过设置可更改个人信息。
(一)交流区:兴趣小组:以兴趣为导向加入,可对于话题展开评论;身边的人聊天:主要是生活中常接触的人;与上帝聊天:智能系统利用时下流行语,以幽默的口吻对答;异国益友:留学生专区,不出国交上外国朋友,了解他国风土人情;前辈专区:不同学校不同专业不同年级的朋友。
(二)通讯区:除常规的通讯名录外,“寻你”特有的基于大数据的“寻ni查找”,系统通过分析与用户账号绑定的QQ、微信、手机通讯录等账号内大量的聊天数据、搜索记录等数据,系统自动匹配相似度最高的用户。用户也可以通过设定年龄、地区、爱好等关键词进行用户匹配。
(三)动态区:广告动态、时事动态、身边动态、校园动态等
(四)服务区:助力创业:为大学生创业店提供宣传平台,大学生经过实名认证发布信息。互帮互助:搜索相关课程的问题系统自动推荐符合条件的不同的人,再根据查看不同的人的个人资料符合条件可申请交流,帮助他人者能够升等级。应用推荐:包括一些appstore里的热门软件,根据通讯录朋友对该应用的添加量和根据你的兴趣爱好系统自动推荐或按照该软件使用点赞数和下载排名推荐。
(五)软件设计图
底端四个标志分别代表交流区、通讯区、动态区、服务区。图为进入软件界面时默认为交流区的图。
大数据研究及其应用开发前景广阔,也是趋势所致。该计划具有未来性和全球性,是未来聊天软件市场的导向,如若能研发推广,其可颠覆当下社交聊天软件,必将成为大学生的“宠儿”。
[1]严霄芸.大数据时代[J].计算机技术与发展第23卷第4期,1673-629X(2013)04-0168-05.
[2]李国杰,程学旗.大数据研究未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[M].中国科学院计算技术研究所.
[3]Fact Sheet:Big Data Across the Federal Government[R].USA: ExecutiveO fficeofthePresident.2012.
[4]ObamaAdm inistrationUnveils"BigData"Initiative:Announces$200 M illion in New R&D Investments[R].USA:Executive Office of the President.2012.
[5]2014中国大数据发展分析报告,www.36dsj.com.
[6]大数据IoT时代并袭:技术革新、机遇与挑战[J].IT时代周刊,2014,(19).
[7]詹涵菁,何人可.产品设计与开发第三版[M].北京:高等教育出版社,2012.
[8]基于JAVA语言的聊天软件的设计与实现[J].信息科技中国科技信息,2013,(12).
[9]大数据IoT时代并袭:技术革新、机遇与挑战[J].IT时代周刊,2014,(19).
杜英,女,浙江海宁人,浙江工商大学杭州商学院学生,研究方向:社交软件。
F224.33
A
1008-4428(2015)03-117-02
合作创作者:楼培娜,蔡杨颖。