一种天气预报服务文本数据集生成方法、系统及相关装置与流程

文档序号:41022235发布日期:2025-02-21 19:34阅读:9来源:国知局
一种天气预报服务文本数据集生成方法、系统及相关装置与流程

本发明提出了一种天气预报服务文本数据集生成方法、系统及相关装置,属于气象数据。


背景技术:

1、近年来,openai、meta、百度等公司相继推出了gpt、llama、文心一言等大语言模型,旨在理解、解释和生成类人类语言的文本,使其在文本生成、问答系统、数学推理等应用领域取得突破性的进展。大语言模型本质上是一种基于深度神经网络的自然处理工具,通常是以transformer(基于注意力机制的神经网络)架构为基础,通过大量文本数据训练得到的大参数量的模型。复杂的规模和架构使其发生了“涌现效应”(特指小模型不存在,但是大模型所拥有的能力和特性),使其可以通过迁移学习的方式适配到金融、教育、交通、医疗等各个垂直领域中,从而提高业务效率,获取经济效益。现今,专业领域的大语言模型都是基于专业数据集训练而成的,因此构建高质量的专业数据集尤为重要。

2、目前,主流的大语言模型在天气预报服务专业领域均表现不佳,主要源于模型的训练数据多来自于网站、论坛和社交媒体等网络平台,数据质量无法保证,使其无法提升大语言模型在气象领域的能力。与此同时,天气预报由于其行业特殊性,中央气象台等官方机构每日公开发布的天气预报服务产品在内容和结构上均有专业要求,且数量有限,导致面向天气预报服务的文本数据普遍偏少,构建数据集的流程多为人工撰写,繁琐且效率低下,无法满足当前大语言模型应用所需要的数据量。因此,需要针对天气预报服务领域,设计一套天气预报服务文本数据集的生成方式,以此满足大语言模型应用需要大量、多样、专业数据集的需求。


技术实现思路

1、为解决现有技术存在的问题,本发明提出了一种天气预报服务文本数据集生成方法、系统及相关装置,该方法可以实现天气预报服务文本数据集的半自动化构建,有效提升了数据集的生成效率。

2、为了解决上述技术问题,本发明采用的技术方案为:

3、第一方面,本发明提供一种天气预报服务文本数据集生成方法,包括:

4、采集天气预报服务数据;

5、对天气预报服务数据进行预处理,得到天气预报服务文本数据;

6、基于大语言模型,对天气预报服务文本数据进行扩展,得到天气预报服务文本扩展数据集;采用大语言模型和定量评估算法相结合的方式,对天气预报服务文本扩展数据集进行检验评估;

7、将天气预报服务文本扩展数据集中满足检验评估的数据构建得到天气预报服务文本数据集。

8、作为本发明进一步改进,所述采集天气预报服务数据,包括:

9、通过结合人工筛选与网络爬虫技术,从多个网络平台批量采集面向公众、媒体及气象从业人员的天气预报服务数据。

10、作为本发明进一步改进,所述对天气预报服务数据进行预处理,得到天气预报服务文本数据,包括:

11、设计数据集的存储结构,包含题目、类别、时间、内容四个部分;其中,题目代表原始数据的标题,类别代表原始数据包含的气象要素,需要结合大语言模型提示词技术和数据标注算法进行标准化提取,时间代表数据的发布时间,内容代表原始数据的正文部分;

12、基于所述数据集的存储结构对天气预报服务数据进行预处理,得到天气预报服务文本数据。

13、作为本发明进一步改进,所述对天气预报服务文本数据进行扩展,得到天气预报服务文本扩展数据集,包括:

14、如需生成单气象要素的天气预报服务文本数据,则只需从原始数据中获取包含目标要素的数据,基于包含目标要素的数据构建few-shot提示词工程,采用大语言模型和思维链技术,使大语言模型根据few-shot提示词工程的提示词指令对天气预报服务文本数据进行扩展;

15、如需生成多气象要素的天气预报服务文本数据,则需构建知识向量库,对天气预报服务文本数据依次进行数据切片、数据存储、数据检索和数据生成,并根据应用意图构建提示词指令,使大语言模型生成全新的包含多气象要素的天气预报服务文本数据;

16、扩展后得到天气预报服务文本扩展数据集。

17、作为本发明进一步改进,所述如需生成多气象要素的天气预报服务文本数据,则需构建知识向量库,对天气预报服务文本数据依次进行数据切片、数据存储、数据检索和数据生成,并根据应用意图构建提示词指令,使大语言模型生成全新的包含多气象要素的天气预报服务文本数据,包括:

18、通过数据题目、类别、发布时间从预处理数据中获取和指定气象要素相关的数据;

19、基于指定气象要素相关的数据构建知识向量库生成扩展数据,主要分为以下四个步骤:

20、第一步数据切片:采用基于内容的数据切片方法,分析数据的篇章结构,利用标题层级判断段落之间的关系,再利用大语言模型判断相邻段落的内容是否相似,若高于阙值则进行段落合并,使得每片数据包含完整的气象信息;

21、第二步数据存储:采用微调后嵌入模型对切片后的数据进行编码,将文本数据转换成一组高维向量,使高维向量包含文本深层的语义结构,并存储至向量数据库中;

22、第三步数据检索:根据预生成的数据应用需求,采用混合检索的方法进行指定气象要素内容的检索召回;

23、第四步数据生成:构建提示词,结合检索召回的内容,让大语言模型按照提示词的逻辑扩展数据,扩展完成得到天气预报服务文本扩展数据集。

24、作为本发明进一步改进,所述采用大语言模型和定量评估算法相结合的方式,对天气预报服务文本扩展数据集进行检验评估;包括:

25、定量评估算法应用glm模型作为评估模型,评估天气预报服务文本扩展数据集的扩展数据,判断扩展数据是否能描述原始数据完整的内容;

26、利用glm模型提取原始数据和扩展数据中各级别气象要素对应的描述内容,再计算两者的杰卡德相似系数;

27、所述定量评估算法采用杰卡德相似系数,评估指标为:

28、,

29、其中,代表原始数据中的描述内容,代表扩展数据中的描述内容,代表两者的杰卡德相似系数,用于判断两者的相似程度,结果越高,则两者越相似;

30、针对多气象要素天气预报服务文本数据进行评估,还包括:

31、采用glm模型对扩展数据进行整体评估,判断它是否包含指定气象要素的内容,是否符合常用的描述逻辑;

32、利用glm模型提取扩展数据以及召回数据切片中各级别气象要素对应的描述内容,计算评估指标:

33、

34、其中,代表气象要素的类型,代表包含气象要素的数量,代表召回数据中涉及气象要素的描述内容,代表扩展数据中涉及气象要素的描述内容,代表两者的杰卡德相似系数。

35、第二方面,本发明提供一种天气预报服务文本数据集生成系统,包括:

36、采集模块,用于采集天气预报服务数据;

37、预处理模块,用于对天气预报服务数据进行预处理,得到天气预报服务文本数据;

38、扩展与评估模块,用于基于大语言模型,对天气预报服务文本数据进行扩展,得到天气预报服务文本扩展数据集;采用大语言模型和定量评估算法相结合的方式,对天气预报服务文本扩展数据集进行检验评估;

39、构建模块,用于将天气预报服务文本扩展数据集中满足检验评估的数据构建得到天气预报服务文本数据集。

40、第三方面,本发明提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述天气预报服务文本数据集生成方法。

41、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述天气预报服务文本数据集生成方法。

42、第五方面,本发明提供一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令指示计算机执行所述天气预报服务文本数据集生成方法。

43、本发明相对于现有技术具备的有益效果为:

44、本发明基于大语言模型,提供了包含单气象要素和多气象要素的天气预报服务文本数据集的生成方法,该方法可以面向天气预报服务中的不同应用场景,采用提示词工程、增强检索和文本生成的技术,生成包含不同气象要素和文本结构的天气预报服务文本数据集,有效解决了现有数据集质量参差不齐,无法满足当前应用需求的问题。与此同时,该方法相较于传统人工构建的方式,可以实现天气预报服务文本数据集的半自动化构建,有效提升了数据集的生成效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1