本公开涉及人工智能视觉,特别涉及一种点云理解的方法、装置、设备、存储介质和程序产品。
背景技术:
1、随着人工智能视觉技术的发展,计算机可以基于图像进行对象检测,获取有意义的对象信息,其中,对象可以是任意人或物。例如,计算机从汽车摄像头采集到的图像中提取对象(如侧方车辆)的文本描述信息,驾驶员根据文本描述信息确定驾驶操作,又例如,无人机采集不适宜人进入的场所(如某个毒气污染区域)的图像,计算机在图像中提取对象(如某个疑似泄漏毒气的设备)的文本描述信息,从而确定该场所的情况。
2、但是,通过上述方法在一些极端环境下(例如环境光强过低)采集到的图像可能不够清楚,导致对象信息获取失败。
技术实现思路
1、为了解决相关技术问题,本公开提供了一种点云理解的方法、装置、设备、存储介质和程序产品。技术方案如下:
2、第一方面,提供了一种点云理解的方法,所述方法包括:
3、获取点云采集设备采集的点云数据;
4、基于点云编码器对所述点云数据进行处理,得到所述点云数据对应的特征数据;
5、基于文本描述模型对所述特征数据进行处理,得到所述点云数据对应的至少一个目标对象的文本描述信息,其中,所述文本描述信息至少包括对象类型;
6、输出所述至少一个目标对象的文本描述信息。
7、在一种可能的实现方式中,所述方法还包括:
8、获取训练样本,其中,所述训练样本包括样本点云数据和对应的基准文本描述信息;
9、基于所述训练样本,对待训练的点云编码器和待训练的文本描述模型,进行训练。
10、在一种可能的实现方式中,所述获取训练样本,包括:
11、获取基准文本描述信息;
12、基于点云生成模型,生成所述基准文本描述信息对应的点云数据,作为样本点云数据;
13、基于所述样本点云数据和所述基准文本描述信息,确定训练样本。
14、在一种可能的实现方式中,所述基于点云生成模型,生成所述基准文本描述信息对应的点云数据,作为样本点云数据,包括:
15、在所述基准文本描述信息中增加不同的扩展描述信息,得到多个扩展后的基准文本描述信息;
16、将所述多个扩展后的基准文本描述信息,分别输入所述点云生成模型,得到所述点云生成模型输出的多个点云数据,作为多个样本点云数据;
17、所述基于所述样本点云数据和所述基准文本描述信息,确定训练样本,包括:
18、将多个样本点云数据分别与所述基准文本描述信息组合,得到多个训练样本。
19、在一种可能的实现方式中,所述在所述基准文本描述信息中增加不同的扩展描述信息,得到多个扩展后的基准文本描述信息,包括:
20、将所述基准文本描述信息输入大语言模型,以通过所述大语言模型在所述基准文本描述信息中增加不同的扩展描述信息,得到所述大语言模型输出的多个扩展后的基准文本描述信息。
21、在一种可能的实现方式中,所述在所述基准文本描述信息中增加不同的扩展描述信息,得到多个扩展后的基准文本描述信息,包括:
22、在所述基准文本描述信息中随机增加不同的扩展描述信息,得到多个扩展后的基准文本描述信息。
23、在一种可能的实现方式中,所述文本描述信息还包括对象方位、对象形状、对象尺寸中的至少一种信息。
24、第二方面,提供了一种点云理解的装置,所述装置包括:
25、获取模块,用于获取点云采集设备采集的点云数据;
26、处理模块,用于基于点云编码器对所述点云数据进行处理,得到所述点云数据对应的特征数据;基于文本描述模型对所述特征数据进行处理,得到所述点云数据对应的至少一个目标对象的文本描述信息,其中,所述文本描述信息至少包括对象类型;
27、输出模块,用于输出所述至少一个目标对象的文本描述信息。
28、在一种可能的实现方式中,所述装置还包括训练模块,用于:
29、获取训练样本,其中,所述训练样本包括样本点云数据和对应的基准文本描述信息;
30、基于所述训练样本,对待训练的点云编码器和待训练的文本描述模型,进行训练。
31、在一种可能的实现方式中,所述训练模块,用于:
32、获取基准文本描述信息;
33、基于点云生成模型,生成所述基准文本描述信息对应的点云数据,作为样本点云数据;
34、基于所述样本点云数据和所述基准文本描述信息,确定训练样本。
35、在一种可能的实现方式中,所述训练模块,用于:
36、在所述基准文本描述信息中增加不同的扩展描述信息,得到多个扩展后的基准文本描述信息;
37、将所述多个扩展后的基准文本描述信息,分别输入所述点云生成模型,得到所述点云生成模型输出的多个点云数据,作为多个样本点云数据;
38、所述基于所述样本点云数据和所述基准文本描述信息,确定训练样本,包括:
39、将多个样本点云数据分别与所述基准文本描述信息组合,得到多个训练样本。
40、在一种可能的实现方式中,所述训练模块,用于:
41、将所述基准文本描述信息输入大语言模型,以通过所述大语言模型在所述基准文本描述信息中增加不同的扩展描述信息,得到所述大语言模型输出的多个扩展后的基准文本描述信息。
42、在一种可能的实现方式中,所述训练模块,用于:
43、在所述基准文本描述信息中随机增加不同的扩展描述信息,得到多个扩展后的基准文本描述信息。
44、在一种可能的实现方式中,所述文本描述信息还包括对象方位、对象形状、对象尺寸中的至少一种信息。
45、第三方面,提供了一种计算机设备,计算机设备包括存储器和处理器,存储器用于存储计算机指令,处理器执行存储器存储的计算机指令,以使计算机设备执行第一方面及其可能的实现方式所提供的方法。
46、第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序代码,当计算机程序代码被计算机设备执行时,计算机设备执行第一方面及其可能的实现方式所提供的方法。
47、第五方面,提供了一种计算机程序产品,计算机程序产品包括计算机程序代码,当计算机程序代码被计算机设备执行时,计算机设备执行第一方面及其可能的实现方式所提供的方法。
48、本公开中,对采集的某场景下的点云数据进行处理,得到该场景中对象(任意人或物)的文本描述信息。这样,在一些无法获取清楚图像的极端环境下,例如环境光强过低的环境,点云数据一般都能够正常采集,进而通过上述方法依然能够获取到场景中对象的文本描述信息,从而保证对象信息的正常获取。
1.一种点云理解的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述获取训练样本,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于点云生成模型,生成所述基准文本描述信息对应的点云数据,作为样本点云数据,包括:
5.根据权利要求4所述的方法,其特征在于,所述在所述基准文本描述信息中增加不同的扩展描述信息,得到多个扩展后的基准文本描述信息,包括:
6.根据权利要求1所述的方法,其特征在于,所述文本描述信息还包括对象方位、对象形状、对象尺寸中的至少一种信息。
7.一种点云理解的装置,其特征在于,所述装置包括:
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器用于存储计算机指令;
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序代码,当所述计算机程序代码被计算机设备执行时,所述计算机设备执行上述权利要求1-6中任一项所述的方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序代码,当所述计算机程序代码被计算机设备执行时,所述计算机设备执行上述权利要求1-6中任一项所述的方法。