江苏 宋卫东
新课标下的概率统计考点分析与命题规律
江苏 宋卫东
新课标指出,中国学生在数学学习中应培养数学抽象、逻辑推理、数学建模、数学运算、直观想象、数据分析六大核心素养,它是每一名学生获得成功生活、适应个人终生发展和社会发展都不可或缺的共同素养.在概率统计部分中,频率分布直方图是其中重要的考点,频率分布直方图作为一种提供背景材料的很好载体和工具,被称为考查简单数据处理能力的重要载体,因此备受高考命题者的青睐,仔细分析近年来,尤其是近几年的高考试卷会发现,频率分布直方图、茎叶图等图表问题成为仅次于数学文化素养考查的热点题型.
【例1】(2016·山东理)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20), [20,22.5), [22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是
( )
A.56 B.60 C.120 D.140
【解析】自习不少于22.5小时是后三组,200×(0.16+0.08+0.04)×2.5=140,故选D.
【例2】(2014·广东理·第17题)随机观测生产某种零件的某工厂25名工人的日加工零件数(单位:件),获得数据如下:30,42,41,36,44,40,37,37,25,45,29,43,31,36,49,34,33,43,38,42,32,34,46,39,36,根据上述数据得到样本的频率分布表如下:
分组频数频率[25,30]30.12(30,35]50.20(35,40]80.32(40,45]n1f1(45,50]n2f2
(Ⅰ)确定样本频率分布表中n1,n2,f1和f2的值;
(Ⅱ)根据上述频率分布表,画出样本频率分布直方图;
(Ⅲ)根据样本频率分布直方图,求在该厂任取4人,至少有1人的日加工零件数落在区间(30,35]的概率.
(Ⅱ)样本频率分布直方图如下:
(Ⅲ)根据样本频率分布直方图,每人的日加工零件数落在区间(30,35]的概率为0.2,
设所取的4人中,日加工零件数落在区间(30,35]的人数为ξ,则ξ~B(4,0.2),
P(ξ≥1)=1-P(ξ=0)=1-(1-0.2)4=1-0.409 6=0.590 4,
所以4人中,至少有1人的日加工零件数落在区间(30,50]的概率约为0.590 4.
【例3】(2014·全国新课标Ⅰ理)从某企业生产的某种产品中抽取500件,测量这些产品的一项质量指标值,由测量结果得如下频率分布直方图:
s2=(-30)2×0.02+(-20)2×0.09+(-10)2×0.22+0×0.33+102×0.24+202×0.08+302×0.02=150.
点评:组中值是上下限之间的中点数值,以代表各组标志值的一般水平.组中值并不是各组标志值的平均数,各组标志值的平均数在统计分组后很难计算出来,就常以组中值近似代替.由频率分布直方图可估计样本特征数,如众数、中位数、均值、方差.若同一组数据用该组区间中点代表,则众数为最高矩形的中点横坐标,中位数为左边和右边的小长方形的面积和是相等的点,均值为每个矩形的中点横坐标与该矩形面积的累加值,方差是矩形的横坐标与均值的差的平方的加权平均值.
【例4】(2016·全国新课标Ⅰ理)某公司计划购买2台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:
以这100台机器更换的易损零件数的频率代替1台机器更换的易损零件数发生的概率,记X表示2台机器三年内共需更换的易损零件数,n表示购买2台机器的同时购买的易损零件数.
(Ⅰ)求X的分布列;
(Ⅱ)若要求P(X≤n)≥0.5,确定n的最小值.
【解析】(Ⅰ)先确定X取值分别为16,17,18,19,20,21,22,再用相互独立事件概率模型求概率,然后写出分布列:
X16171819202122P0.040.160.240.240.200.080.04
(Ⅱ)P(X≤18)=0.44,P(X≤19)=0.68,满足P(X≤n)≥0.5的n的最小值是19.
点评:柱状图是一种以长方形的长度为变量的表达图形的统计报告图,由一系列高度不等的纵向条纹表示数据分布的情况,用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常用于较小的数据集分析.
【例5】(2013·福建理)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为
( )
A.588 B.480
C.450 D.120
【解析】由频率分布直方图知40~60分的频率为(0.005+0.015)×10=0.2,故估计不少于60分的学生人数为600×(1-0.2)=480.故选B.
点评:在频率分布直方图中,每个小矩形面积就是相应的频率或概率,频率×样本容量=频数,所有小矩形面积之和为1,这是解题的关键.
【例6】(2014·辽宁理)一家面包房根据以往某种面包的销售记录,绘制了日销售量的频率分布直方图,如图所示:
将日销售量落入各组的频率视为概率,并假设每天的销售量相互独立.
(Ⅰ)求在未来连续3天里,有连续2天的日销售量都不低于100个且另一天的日销售量低于50个的概率;
(Ⅱ)用X表示在未来3天里日销售量不低于100个的天数,求随机变量X的分布列、期望E(X)及方差D(X).
【解析】(Ⅰ)设A1表示事件“日销售量不低于100个”,A2表示事件“日销售量低于50个”,B表示事件“在未来连续3天里有连续2天日销售量不低于100个且另一天的日销售量低于50个”.因此可求出P(A1)=0.6,P(A2)=0.15,利用事件的独立性即可求出P(B)=0.108.
(Ⅱ)由题意可知X~B(3,0.6),所以即可列出分布列,求出期望为E(X)和方差D(X)的值.因为X~B(3,0.6),所以期望为E(X)=3×0.6=1.8,方差D(X)=3×0.6×(1-0.6)=0.72.
点评:每个区间内的频率就是本区间内所有个体个数与样本容量的比值,这与古典概型概率计算原理是一致的,因此可以把频率近似地看作概率.
【例7】(2016·北京文)某市民用水拟实行阶梯水价,每人用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
(Ⅰ)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
(Ⅱ)假设同组中的每个数据用该组区间的右端点值代替,当w=3时,估计该市居民该月的人均水费.
【解析】(Ⅰ)由图可知,用水量不超过2立方米的频率是(0.2+0.3+0.4)×0.5=0.45,
用水量不超过3立方米的频率是(0.2+0.3+0.4+0.5+0.3)×0.5=1.7×0.5=0.85.
显然为使80%以上居民在该月的用水价格为4元/立方米,w至少定为3.
(Ⅱ)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:
组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27]频率0.10.150.20.250.150.050.050.05
根据题意,该市居民该月的人均水费估计为
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).
点评:频率分布表在数量表示上比较准确,直方图比较直观,频率分布表中的频数之和等于样本容量.居民该月的人均水费,也就是总水费除以样本容量10 000,其中计算总水费可以一人一人地加起来,也可以对落在每个区间内的人数乘以相应的水费,再加起来,而后者再分别除以样本容量之后,实际上频率就成了每个水费数据的权重,这就是一种简便计算.
【例8】(2016·四川文)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5), [0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(Ⅰ)求直方图中的a值;
(Ⅱ)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;
(Ⅲ)估计居民月均用水量的中位数.
【解析】(Ⅰ)由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.
(Ⅱ)100位居民月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(Ⅲ)设中位数为x吨.因为前5组的频率之和为 0.04+0.08+0.15+0.21+0.25=0.73gt;0.5,
而前4组的频率之和为0.04+0.08+0.15+0.21=0.48lt;0.5,
所以2≤xlt;2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.
故可估计居民月均用水量的中位数为2.04吨.
点评:在一般问题中,中位数就是将所有数据按照从小到大顺序排列,位于最中间的数据或者相邻两个数据的均值,本题因为前5组的频率之和为0.73gt;0.5,而前4组的频率之和为0.48lt;0.5,所以中位数应该在第5组内,所以 2≤xlt;2.5,中位数x到2之间的频率等于0.5(x-2),也等于0.5-0.48,因此x=2.04.可见探求中位数的本质也是探究频率恰为0.5时相应的用水量.
【变式】若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.
【解析】因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73lt;0.85,
而前6组的频率之和为0.73+0.30×0.5=0.88gt;0.85,
所以2.5≤xlt;3.由0.3×(x-2.5)=0.85-0.73,解得x=2.9.
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.
【例9】(2016·全国新课标Ⅰ文)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:
记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
(Ⅰ)若n=19,求y与x的函数解析式;
(Ⅱ)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(Ⅲ)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?
【解析】(Ⅰ)因为购机的同时购买的易损零件数为19,
所以当x≤19时,y=3 800;
当xgt;19时,y=3 800+500(x-19)=500x-5 700.
(Ⅱ)由柱状图知,需更换的零件数不大于18的概率为0.46,不大于19的概率为0.7,故n的最小值为19.
若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000元,10台的费用为4 500元.
比较两个平均数可知,购买1台机器的同时应购买19个易损零件.
点评:柱状图本身不连续,图形只有高度没有宽度,它的高就是频数.柱状图在本题中起到了提供数据的作用,并且更为直观形象.
【例10】(2013·全国新课标Ⅱ文·第19题)经销商经销某种农产品,在一个销售季度内,每售出1 t该产品获利润500元,未售出的产品,每1 t亏损300元.根据历史资料,得到销售季度内市场需求量的频率分布直方图,如图所示.经销商为下一个销售季度购进了130 t该农产品.以X(单位:t,100≤X≤150)表示下一个销售季度内的市场需求量,T(单位:元)表示下一个销售季度内经销该农产品的利润.
(Ⅰ)将T表示为X的函数;
(Ⅱ)根据直方图估计利润T不少于57 000元的概率.
【解析】(Ⅰ)当X∈[100,130)时,T=500X-300(130-X)=800X-39 000;
当X∈[130,150]时,T=500×130=65 000,
(Ⅱ)由(Ⅰ)知利润T不少于57 000元当且仅当120≤X≤150.
由直方图知需求量X∈[120,150]的频率为0.7,所以下一个销售季度内的利润T不少于57 000元的概率的估计值为0.7.
点评:频率分布直方图所研究的数据是分区存放的,在该区内的数据都满足同样函数关系,因此频率分布直方图也可以用分段函数表达.此外频率分布直方图可以很好地反应数据分布规律服从正态分布,2014全国新课标Ⅰ理第18题就考查过该种问题.
江苏省赣榆县教育局教研室)