综合大学学报

2019-01-28 10:01
中国学术期刊文摘 2019年12期
关键词:硅质龙马页岩

基于主题情感混合模型的无监督文本情感分析

孙艳,周学广,付伟

摘要:目的:针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在 LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型),为应对互联网上的海量中文信息自动评价和情感自动分类提供一种文本情感分析工具。方法:在LDA主题模型基础上,添加情感模型,从而构建UTSU模型。LDA模型是一个完全的生成模型,是一种三层贝叶斯模型。UTSU模型是一个四层贝叶斯模型,该模型假设一个句子的所有词由一种情感产生(转折句除外),沿用LDA模型假设每个词有不同的主题,对每个词采样主题标签,建立“文档-主题-词”关系;对每个句子采样情感标签,建立“文档—情感—句子”关系。在运行UTSU模型前,先要对文档进行预处理,将转折句拆分为两句。采样使用 Gibbs采样算法。Gibbs采样算法是马尔可夫链蒙特卡罗理论(MCMC)中用来获取一系列近似等于指定多维概率分布观察样本的算法。结果:完成两个实验。(1)主题-情感词发现实验。利用UTSU模型进行主题情感发现实验,得到的主题-情感词按照在文档集中的概率大小,排列如表3所示。从表3中可以看出,正负情感词在主题-情感发现中分类比较明显,如表3上半部表示贬义的情感词“郁闷、慢、重、一般”等,表 3下半部表示褒义的情感词有“不错、漂亮、小巧、喜欢、舒服、精致”等。去除噪声词后获得了效果更好的分类结果。(2)情感分类对比实验。比较对象是与 UTSU模型相近的ASUM模型、JST模型和Pang方法。实验效果最好的是Pang方法,其次是UTSU模型。究其原因,Pang方法是基于向量空间模型的有监督学习方法,需要预先标注样本、再对样本进行训练,而后才能完成分类测试,有监督学习方法是 Pang方法分类效果好的基础。其他3种无监督主题情感混合模型实验结果是:UTSU模型的情感分类在4个数据集上综合指标平均值比ASUM模型高约2%,比JST模型高约16%。具体分析如下:UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各个主题的主题情感词。JST模型每次采样情感标签时,对每个词都采样,不符合自然语言的情感表达,故其情感分类效果最低。结论:本文重点从无监督机器学习和文本表示模型的角度对中文文本情感分类进行了研究。在 LDA模型的基础上融入情感模型,提出无监督的主题情感混合模型UTSU模型。UTSU模型采样方式既符合中文的情感表达,又不会缩小词与词之间的主题联系。实验表明UTSU模型比有监督情感分类方法稍差,但在无监督的情感分类方法中效果好,可用于中文文本情感自动分类工作。

来源出版物:北京大学学报(自然科学版), 2013, 49(1):102-108

入选年份:2017

四川盆地富有机质页岩硅质生物成因及对页岩气开发的意义

王淑芳,邹才能,董大忠,等

摘要:目的:随着四川盆地页岩气勘探工作的深入,下志留统龙马溪组页岩成为中国页岩气突破的重点层系。页岩层底部富含硅质成分,但尚未对硅质来源及意义做深入研究,缺乏对页岩生物硅质成因的重要性以及生物成因硅在页岩中所占比例的认识。方法:通过岩石学、有机碳含量、主量元素和力学性质分析,对四川盆地长宁双河剖面上奥陶统五峰组和下志留统龙马溪组页岩硅质的生物成因及其意义进行探讨。结果:根据薄片观察及岩石学和地球化学分析,获得结果如下。(1)在五峰组和龙马溪组页岩中发现大量微体生物化石,主要为海绵骨针、放射虫、有孔虫等,指示页岩中硅质成分可能为生物成因。(2)通过计算,得出五峰组和龙马溪组页岩过量硅含量为 40%~62.7%。虽然在五峰组和龙马溪组页岩中不能忽视硅质的碎屑来源,但该套页岩中约40%~60%的过量硅质是生物来源。长宁双河剖面下部 Al2O3与 TiO2具有较高的相关性(R=0.99),但含量相对偏低(分别不高于 5.52%和 0.28%),并且与SiO2含量没有任何相关性(R=-0.34,-0.25),说明陆源物质对硅质成分贡献不大。长宁剖面底部富有机质页岩4个样品的Al/(Fe+Al+Mn)比值为0.67~0.71,在Al-Fe-Mn图解上落于生物成因区,Si/(Si+Al+Fe)比值为 0.89~0.93,平均 0.90,表明页岩硅质为生物成因。(3)长宁双河剖面下部富有机质页岩的TOC含量与硅质含量呈现较好的正相关性,说明硅质成因可能与生物有关。(4)硅质生物成因对于页岩古沉积条件重建以及成岩作用研究有重要指示意义,五峰组和龙马溪组页岩中放射虫等生物体反映静水和相对深水的陆棚沉积环境。同时,这种环境对生物死亡后的埋藏和保存也起积极作用,且生物生产率高,有利于形成富有机质页岩,对页岩气有利层位选择有重要意义。(5)硅质含量越高,页岩脆性越大,越有利于裂缝形成,页岩天然裂缝的发育直接影响页岩气藏的开采效益和产量。长宁双河剖面页岩裂缝发育程度与硅质含量有正相关关系。(6)富含硅质的页岩比富含黏土质的页岩在人工压裂中产生更多的裂缝系统,样品岩石抗压强度为38.51~111.41 MPa,杨氏弹性模量为10.15~35.09 GPa,泊松比为0.12~0.28,具有高弹性模量、低泊松比特征,有利于人工压裂。结论:四川盆地长宁双河剖面五峰组和龙马溪组页岩中发现大量放射虫、海绵骨针等微化石,粒径为25~1000 μm,多被硅质、钙质和黄铁矿充填,或被溶蚀呈铸模孔洞,说明页岩中硅质可能为生物成因。五峰组和龙马溪组页岩富含 SiO2,含量为43.34%~73.8%,具高SiO2,P2O5和Fe2O3,低Al2O3,TiO2,FeO和MgO特征。通过计算,得到剖面下部40%~62.7%的SiO2为过量硅,且Al2O3与TiO2含量具有高相关性,而与SiO2含量无相关性,说明陆源碎屑贡献较小。Al/(Fe+Al+Mn)比值为 0.67~0.71,Si/(Si+Al+Fe)比值为 0.89~0.93,表明页岩硅质的生物成因。剖面下段页岩TOC含量较高,平均 3.86%,TOC>2%的页岩中SiO2含量大于60%,TOC与硅质含量有正相关关系,说明硅质成因与生物有关。硅质生物成因对页岩气勘探开发具有重要意义,指示沉积环境为富硅深水陆棚,有利于生物保存和富有机质页岩的形成。硅质成分越高,岩石脆性越大,可形成自然裂缝,并有利于后期页岩储层压裂改造,形成有效人工缝,这是目前页岩气富集高产的主要原因。

来源出版物:北京大学学报(自然科学版), 2014, 50(3):476-486

入选年份:2017

猜你喜欢
硅质龙马页岩
龙马春风、忠义千秋
“龙马”巡游
硅质结核的岩石学、地球化学特征及成因综述
页岩油藏提高采收率技术及展望
旺苍地区灯影组层状硅质岩类孔洞充填特征
未来30 年美国页岩气产量发展趋势预测
东昆仑温泉沟地区硅质岩地球化学特征及沉积环境分析
美度
美页岩油业很受伤
页岩气新矿潮