幸福在哪里——基于语料库技术关于80后90后幸福指数的研究

2013-05-14 11:20
当代教育理论与实践 2013年9期
关键词:幸福观例句语料

旷 敏

(湖南科技大学潇湘学院,湖南湘潭411201)

在当代中国,改革开放带给社会诸多方面的变化,当代中国人的幸福观也发生了根本性的改变,开始具有多样性和差异性。这些改变对当代中国人特别是青少年幸福观的形成产生了非常重要的影响。伴随着价值观的多元化发展,一些消极和负面的思想也纷至沓来,人们的幸福感不但没有与物质生活水平同步提升,反而有不断下降的趋势,也暴露出一些由此引发的社会问题。探讨当代中国人的幸福观,能为国民幸福体系的建设、实现真正的社会和谐提供有益的参考意见。

学界对幸福观的研究主要从两个视角展开:历时的视角和共时的视角。例如,孙春晨(2008)从历时视角考察了古代儒家幸福观的特征、现代政治挂帅主导下的幸福和当代改革以来中国人的幸福观。孙春晨(2011)从共时视角研究了改革开放以来中国人幸福观,其总体特征为:(1)幸福观与实现个人价值紧密结合;(2)幸福观趋向世俗化;(3)幸福观具有明显的差异性。研究的方法主要基于社会学的分析方法,但由于没有进行大规模的社会调查,欠缺真实的统计数据,且研究的结论局限于内省式的综合分析,因而缺乏确凿的、令人信服的证据。

本研究试图探索和寻求当代中国人的幸福源头,与以往研究不同的是,本研究采用经验主义的方法,借助自然语言处理技术对一定规模的真实文本语料进行自动化的统计,再经人工分析得出结果;同时,为了验证上述方法的有效性,进行了一项主题为“幸福在哪里”的小规模问卷调查,统计和分析了调查结果,并对两种结果进行了对比考察。

一 基本观点和研究思路

(一)基本观点

关于“幸福在哪里”,我们认为有如下观点:

1.语言既是人们沟通交流的最重要的工具,又是人们用以表达自我思想和内在情感的最重要的手段,文字则记录了人类的这些思想和情感。追求幸福一直是全人类矢志不渝的目标,也是全人类长久以来思考和探究的命题,自有文字记载的历史以来,一定存在有关幸福的书写片段。因此,总可以从文本中挖掘出与幸福有关的信息。

2.随着互联网的高速发展,人类进入了一个全新的信息时代。信息时代改变着人们的生活方式,互联网为人们提供了一个表达和分享自我思想、观点、见解等思维活动结果的场所,博客、微博等网络书写和共享平台更使得人人成为“自媒体”。很多人习惯在互联网上写作,用文字记录个人生活,抒发情感,表达意见。因此,可以通过大规模自动化的方法,采集特定类别的网络文本资源,并将其建设成语料库,用以替代传统意义上的纸质文本资料。

3.幸福是一种心理感受,是人们对于外部世界的人、物、事的积极、正面的反应,属于情感的正极方。因此,可以采用情感分析(自然语言处理的一个研究领域)的一些方法对它进行研究。人们对情感的表达,体现在语言形式上,表现出与对非情感活动的表达的一些差异性,这些差异性可以通过归纳和总结得出不同的句式和表达方式,因而总结出这些固定的表达模式,也就相当于获得了挖掘幸福源泉的具体的形式化规则。

4.个体对于幸福在语言形式上的表达,具有差异性。因此,需要对固定的表达模式进行必要的调整和扩充,使其具有更强的概括力和普适性,以获得更高的召回率。为此,可以采用“同义替换”和“同类替换”的方式,对形式化规则进行扩充。

5.要检验基于语料库方法探寻幸福源泉的实验结果是否有效,需要有一个可供参考的“标准答案”。显然,要想知晓人们的幸福到底在哪里,最可靠的方法莫过于直接采访。限于时间精力,可以将其“简化”为对特定人群进行问卷调查,以其结果作为“标准答案”。

(二)研究思路

基于上述观点,制定本研究的思路如下:

1.问卷调查。设定调查主题为“幸福在哪里”,依据一般的问卷调查方法和流程进行操作,问卷回收后进行统计、分析,获得调查结果。

2.语料收集。首先规划待收集语料的范围、类别和规模;其次根据各类语料的性质和特点,制定采集方案,编制相应的采集软件;其次利用采集软件,从互联网上自动获取语料,语料文本经过清洗、校对等必要的预处理后,形成生语料库;最后对生语料进行自动词语切分和标注后,形成熟语料库。熟语料库按类存储,并将其按2∶8的规模比例形成两个子语料库,其中占规模2/10的小语料库称为规则提取语料库,用于人工归纳幸福源泉的表达模式,占规模8/10的大语料库称为测试语料库,用于挖掘幸福源泉。

3.模式归纳。利用规则提取语料库,人工归纳幸福源泉的表达模式,并将其形式化。

4.模式扩充。利用同义词词典、义类词典和情感词典,对已形式化的模式进行扩充。

5.实验和结果分析。编制相应的文本分析和模式匹配软件,从测试语料中提取结果。将实验结果和问卷调查结果进行对比分析,得出结论。

二 问卷调查的实施及结果

因为80后和90后逐渐成为社会的中坚力量,所以我们主要考察的对象为80后和90后。“幸福在哪里”问卷的对象以这两个群体居多,采样的范围在湖南省湘潭市,调查共发出问卷500份,回收有效问卷489份。调查的主要结果如下:

1.职业(专业)幸福指数偏低

80后、90后群体对其专业或职业的满意度为29.42%。对于90后群体(主要是学生)而言,现在最重要的是学习以及为将来的工作做好充足的准备,但他们对现就读专业的满意度仅为39.93%。专业是学生自己当初的选择,可现在的满意度却不高,可能学生对自己没有充分的认识,或是当初是因为某种原因而选择现在就读的专业。人们都希望自己的工作就是自己的爱好,那样工作会开心点。可刚步入社会的80后群体对职业的满意度仅为24.7%,可能对他们而言工作只是赚钱的一种手段和途径,但好在他们都觉得就业压力不是很大。在所调查的对象中,有69.7%的人认为有就业压力。目前整个就业形势不太乐观,用人单位的要求也越来越高,只有将我们自己的能力提升,才能更好的就业,从而也可提升幸福感。

2.收入幸福指数较高

82.85%的调查对象认为经济收入在幸福概念中占据较为重要的比重。刚步入社会的80后和一小部份90后群体的月收入多数为3000元左右,其整体满意度为76.8%。

3.住房幸福指数偏低

房价也是影响幸福的一个关键因素。80后和90后群体对商品房价格的满意度为18.15%,其中90后群体对商品房价格的满意度为27.3%,步入社会的80后对商品房现在价格的满意度为19.8%,可见住房会在相当长的一段时期内影响80后和90后群体的幸福感。

4.社会生活幸福指数尚佳,但个别问题突出

人们常说80后和90后群体是“垮掉的一代”,因为他们常抱怨社会的种种问题,对各方面感到种种不满。然而,据我们的调查,80后和90后也是理性的人群,他们看得到社会的不足,同时也看得到社会美好的一面。表1列出了他们在社会生活方面的一些幸福指数情况。

表1 社会幸福指数情况

80后和90后群体对社会总体环境的满意度较高,其中环境卫生和社会道德风气的满意度最高,但对于交通状况、物价水平等方面则相对较低,这反映了当今社会在这些方面存在的问题。

三 基于语料库方法的幸福源泉挖掘

为了探寻当代中国人的幸福源头,我们构建了一个中等规模的语料库。该语料库共含词语约100万条,由5个类别组成:电视剧本、流行歌曲歌词、日志和博客文章、微博文本、当代文学作品。选材的依据是其中是否含有与幸福有关的语言表达,以下列举每类的典型作品或文本。

1.电视剧本:《北京青年》、《男人帮》、《蜗居》、《我的青春谁做主》、《媳妇的美好时代》

2.流行歌曲歌词:《还是要幸福》、《幸福一辈子》、《满满的都是爱》、《那些年》、《有你的快乐》

3.日志和博客:《给我点小幸福吧》、《另一种幸福》、《惬意生活》、《两元钱的温暖》、《妈妈的幸福》

4.微博文本:陈默、谢娜、姚晨、蒋方舟、刘同、杨石头、何炅、李茜、赵婕、周思成、六六、韩寒、李响、刘猛、杨紫、袁弘、刘雨晨

5.当代文学作品:《最好的幸福》、《收藏幸福》、《娜是一阵疯》、《幸福是什么》、《女人的幸福与什么有关》《幸福书》、《幸福是什么》

将这些语料同样按类别和规模分成两份,一份为20万词的规则提取语料库,一份为80万词的测试语料库。使用ICTCLAS汉语词法分析器分别对其进行词语切分和词性标注后,由研究人员手工从规则提取语料库中总结幸福的语言表达模式。同时为了验证这些模式的典型性和有效性,利用Google搜索引擎对这些模式进行了在线检索,参考了检索结果。此外,我们依据《同义词词林》和《HNUST情感词典》,分别对模式中的非关键词(除关键词以外的词)进行了同义替换以及对关键词(“幸福”)进行了义类替换。目前共计归纳了24条表达模式,择要举例说明如下:

【模式1】因为……,所以幸福。

【例句】因为有爱,所以幸福。

因为快乐,所以幸福。

因为住大房子,所以幸福。

【Google检索结果】219,000,000条

【模式2】其实(也许,或许,原来)幸福就是……。

【例句】其实幸福就是学生尊敬你。

原来幸福就是做一件喜欢的事。

也许幸福就是快快乐乐地生活着。

【Google检索结果】275,000,000条

【模式3】……好幸福啊!

【例句】怀孕好幸福啊!

安慰短信让我好幸福啊!

收到战友的信好幸福啊!

【Google检索结果】914,000,000条

【模式4】越……越幸福。

【例句】越单纯越幸福。

事业越成功越幸福。

越有钱越幸福。

【Google检索结果】238,000,000条

【模式5】有……很幸福。

【例句】有你陪着很幸福。

有事做很幸福。

有大房子很幸福。

【Google检索结果】40,700,000 条

【模式6】……是幸福。

【例句】睡到自然醒是幸福。

劳动是幸福。

身体健康是幸福。

【Google检索结果】179,000,000条

【模式7】幸福源于……

【例句】幸福源于关爱。

幸福源于遵从内心的声音。

幸福源于爱。

【Google检索结果】18,000,000 条

【模式8】……让我很幸福。

【例句】你的宽容与理解让我很幸福。

有小宝贝让我很幸福。

住上大房子让我很幸福。

【Google检索结果】15,600,000 条

将上述表达模式形式化以后,编制出相应的检索软件,把形式化规则作为输入,在测试语料库中提取到共计478条检索结果,这些结果就是预期获得的幸福源泉。我们对检索结果进行了细致地归类和分析,排除了重复的内容,以下是对各类别语料的分析结果:

1.日志和博客的内容非常接近日常生活,它们代表一个较为理想的数据来源传递着个人的幸福情感。从日志和博客的语料中得出构成幸福的最重要的三个要素:爱、乐趣、成功。同时微博、博客的使用人群主要集中为80、90后,大多数人为工薪族,他们心里较为焦虑,大多数人幸福感不高的原因是过早变成孩奴、车奴、房奴。

2.流行歌曲歌词来源于最真实的生活,一般都是抒发或记录生活的体现,没有过多的加工与琢磨。这样,语料便是人们的真实情感的流露。我们可以从歌词中得出影响幸福的要素主要是:爱情、工作、孩子。

3.当代文学作品材料是对80后生活的集中体现与反应。我们可以从文学作品中得出主要的幸福要素有:心态、态度、生活。

4.我们所选取的电视剧语料是最能体现我们生活特点的典型代表,集中反应了80后生活。从电视剧语料中我们得到影响幸福的主要因素是:房价、物价、爱情。

5.微博语料具有很强的草根性,最大的特点是普遍性和透明化,微博上记录着大多数人每天的喜怒哀乐的变化,同时因为微博使用门槛低、有字数限制,使得大量信息未经加工就进入传播过程,很可能导致信息泛滥,但从另一方面这也是最能体现微博的高度可靠性、真实性。来自微博语料的幸福源头主要有:工资、旅游、孩子。

从检索结果中,我们还统计了出现频次最多的幸福词语或者短语为:购物、睡懒觉、旅行、看书、美食、宝贝(孩子)、运动。

四 调查问卷与语料库的对比分析

调查问卷与语料库的结合可以更好地研究问题,提出解决对策。调查问卷的形式具有直接性,可以直接获取到大概信息。但同时存在的缺陷是由于精力、时间有限,我们只能对特定地域进行调查采样,可能无法获得更为全面、广泛的资料。语料库恰好弥补了这一局限,语料库中的语料覆盖面广,同时具有高度真实性、可靠性。我们从文学作品、微博、博客、日志、歌词、电视剧本中收集语料。但语料库也存在一点局限,有些日志、博文上了锁,我们无法获得此类的语料。

从调查问卷中,我们可以得到影响80、90后幸福因素排名前三的是:物价、房价、交通。从语料库中我们可以得到制约80、90后的幸福因素分别是:孩奴、房奴、爱情。

总之,语料库与调查问卷两种方法的结合,补足相互的缺陷之处,此来,才得到了一个更为全面、准确、可信的结果。

五 结论

人人都有幸福的需要和权利,幸福不是只供少数人享用的专利。追求幸福感受是千百年来人们奋斗不息的动力源泉,找到幸福其实并不难。通过语料库中的挖掘和幸福问卷的调查结果,我们从实际可行的角度给出一些建议。

如果你感到不幸福,或许你可以尝试一下这样一个“治疗方案”:(1)接触一些新事物;(2)吃一些喜爱的美食;(3)去一个有趣的地方;(4)看一本好书,晒晒太阳;(5)陪孩子一起做游戏。对于大多数人而言,如果想保持一种幸福的状态,我们建议:去购置一些新东西,一些你非常喜欢的物品;或者可以准备一顿丰富的晚餐,或者和心爱的人去一个有趣的地方或是一次远行;可以看一场电影,听一场音乐会,睡一个懒觉,参加一个晚会或者是去其他的地方,尽情享受;要尽可能多地接触自然,多呼吸室外的新鲜空气,尽情享受;多陪陪孩子,爱人,倾听他们的心声,与爱人孩子在一起通常是很多人感到最快乐的。

在寻求幸福的问题上,可以说“条条大道通幸福”,但是,这条条大路之中却有远近之别和正歧之分。如果不慎走上一条远路或歧路,那样不但会多走许多冤枉路,甚至于会南辕北辙,背离原来的目标,明明要寻求幸福,结果却陷入苦恼与痛苦之中。寻找幸福的源泉就从那些被忽略的事开始行动,幸福之门也会为你打开。

[1]孙春晨.中国人幸福观的演变[J].政工研究动态,2008(23):7-8.

[2]孙春晨.改革开放以来中国人幸福观分析[J].思想政治工作研究,2011(1):21-23.

猜你喜欢
幸福观例句语料
青年要树立正确的幸福观
——评《当代中国青年幸福观及其培育研究》
浅谈高职院校“奋斗幸福观”教育
基于语料调查的“连……都(也)……”出现的语义背景分析
好词好句
好词好句
好词好句
好词好句
当代大学生幸福观现状、问题及对策
领导干部正确幸福观的着力点
《苗防备览》中的湘西语料