大语言模型在电视领域的应用

2024-04-28 12:28程小梅

电视技术 2024年3期

程小梅

（国家知识产权局专利局专利审查协作北京中心，北京 100160）

0 引言

2022年11月30日，OpenAI公司推出了基于GPT-3.5大型语言模型架构的对话式人工智能（Artificial Intelligence，AI）应用ChatGPT[1]，引起了社会、学术和商业界的广泛讨论。ChatGPT应用在庞大文本数据集的基础上进行了预训练，使其具备了处理多领域目标任务的强大能力。ChatGPT为用户提供了一个灵活且智能的交流平台，使得与AI的互动更加自然且富有趣味性。大语言模型赋能的终端产品如电视等，拥有更丰富的内容生态系统。ChatGPT已经广泛应用于医疗、金融、法律及教育等领域[2]。大型语言模型在技术推进和商业应用上正经历着前所未有的变革发展。其发展前景既包含技术上的突破，又包含商业场景中的拓展创新[3]。

由于ChatGPT的广泛应用，其使用的大语言模型越来越受人关注。越来越多的企业、机构、团体或个人对知识产权的保护意识逐渐加强。为了保护创新成果，大量的专利申请得以提交。本文对截至2024年1月22日公开的大语言模型相关专利进行了统计分析，以揭示大语言模型技术的最新研究进展，为研究大语言模型的相关人员的研发和专利申请工作提供参考。

1 大语言模型技术专利分析

本文以关键词电视、大语言模型及其相关扩展词在中国专利全文数据库（China Patent Full-text Database，CNTXT）中进行检索，统计大语言模型在电视领域的相关专利申请情况。

1.1 专利申请量年份分布分析

我国大语言模型相关专利申请数量按照年份的变化如图1所示。2023年，我国的大语言模型在电视领域的相关申请的申请量出现爆炸式增长。2023年之前，大语言模型每年的申请量均为个位数，而在2023年的申请量却超过200件（由于公开时间的限制，申请量统计并不完整），这与2022年底发布的ChatGPT-3.5所体现的强大应用紧密相关，也离不开我国政府的大力支持。2017年，国务院印发了《新一代人工智能发展规划》，提出了6个方面的重点任务和众多保障措施，要求人工智能技术及其应用与世界先进水平同步发展。2023年，国家又发布了《数字中国整体布局规划》。在新一代人工智能技术和数字中国建设中，大语言模型扮演着重要角色，甚至是国家竞争力和综合实力的重要体现[4]。

图1 国内大语言模型专利申请量年份分布图

1.2 专利申请人分析

本文对国内大语言模型专利申请人进行统计分析，大语言模型技术在电视领域的主要申请人如图2所示。申请量最突出的主导申请人是腾讯科技（深圳）有限公司，其在大语言模型技术的专利申请中占据了领先地位。广州商研网络科技有限公司、北京奇艺世纪科技有限公司、北京百度网讯科技、科大讯飞股份有限公司和阿里巴巴（中国）等公司也在该领域展现出了积极的专利申请态势，彰显了它们在大语言模型技术领域的研究和创新实力。这些主要申请人的专利活动不仅反映了行业内的研发竞争态势，也为电视领域的技术创新提供了有力的支持和引领。

图2 国内大语言模型专利主要申请人排名

2 研究与发展方向

下面主要针对以上主要申请人的相关专利申请进行深入研究，系统剖析大语言模型技术在电视领域的多个重要方向，以全面了解和掌握这一领域的发展趋势，供业界从业者和研究人员参考，帮助他们更好地把握大语言模型在电视领域的应用前景和创新方向。通过浏览去噪，本文将大语言模型在电视领域的应用分为以下4个大方向。

2.1 内容生成与编辑

大语言模型可以用于生成电视剧本、新闻稿件、广告文案等各种内容。它能够根据输入的主题或情境生成自然流畅的语言，为广播电视业务提供更高效的内容创作和编辑工具。

CN117422069A公开了一种内容生成方法，通过将新闻内容和/或客户端的历史对话信息作为参考素材进行内容理解处理，得到话题内容之后，根据话题内容生成提示文案，将提示文案输入大语言模型中，得到满足该提示文案所指示要求的欢迎语；向客户端发送欢迎语，以在客户端启动时展示[5]。

2.2 智能推荐系统

大语言模型能够分析用户的观看历史和喜好，提供个性化的电视节目推荐。这种智能推荐系统可以提升用户体验，增加用户满意度，并促使用户更多地参与观看。

CN117009650A公开了一种推荐方法，用于基于语言模型进行召回、推荐等，从而实现利用语言模型的自动化推荐，泛化能力强。该方法首先获取用户特征集合，包括描述用户画像的文本或者关键词；通过语言模型基于用户特征集合生成召回路径，召回路径表示针对用户进行推荐的路径，其中语言模型用于对输入的数据进行分类并为每个类别生成对应的权重，根据每个类别生成对应的权重生成召回路径；最后，通过语言模型基于召回路径生成针对用户的推荐列表[6]。

2.3 语音识别与交互

大语言模型的语音识别能力可用于实现语音操控电视的功能，使用户能够通过语音命令控制电视节目、调整音量等，提高用户的操作便利性。

CN117311839A公开了一种播放控制方法，接收播放需求信息，根据播放需求信息对播放目标进行切片分析，以确定切片分析结果；基于切片分析结果和播放需求信息，生成第一Prompt文本；将第一Prompt文本输入预设的自然语言处理模型，使预设自然语言处理模型基于第一Prompt文本确定播放策略；基于播放策略控制播放目标的播放，可以为用户提供更准确、灵活和个性化的播放控制。用户可以根据个人喜好，在播放目标的切片级别上获得适合自己的播放策略，从而提升播放体验的个性化程度，更好地满足个性化需求[7]。

CN117082435A公开了一种虚拟音频的交互方法。该方法获取音频发送请求，响应音频发送请求，分别获取第一音频交互对象在不同数量的第二音频交互对象同时发声时的有效感知参数。该方案解决了虚拟音频的交互效率较低的技术问题[8]。

2.4 广告个性化投放

基于大语言模型的用户分析和理解能力，广播电视业务可以实现更精准的广告个性化投放，进行商品导购，有助于提高广告效果，减少广告浪费，同时为广告商和电视台提供更有针对性的商业机会。

CN116976920A公开了一种商品导购方法，能够获取用户输入的搜索文本，基于搜索文本的向量化语义表示，分别与商品数据库中所有商品的商品标题对应的向量化语义表示进行匹配，确定相匹配的多个商品标题对应的商品作为目标商品，获取每个目标商品的销售特征、反馈特征、价格特征中任意项，构造出生成提示文本。基于大语言模型，根据每个目标商品对应的生成提示文本生成相应的导购语，由此可精准地导购商品[9]。

3 结语

总体来看，大语言模型的快速发展将推动电视产业走向更为个性化、智能化和创新化的方向，为观众提供更加智能、个性化和充实的观看体验。为了充分发挥大语言模型技术的潜力，需要进一步加大对该技术的研发投入力度，以更有效地促进未来人类生活的智能化，推动科技与社会的深度融合，为人类创造更加智能、便捷和安全的生活环境。