一种基于图像识别的点餐方法、电子设备及存储介质与流程

文档序号：18001316发布日期：2019-06-25 22:52阅读：174来源：国知局

本发明涉及一种点餐技术领域，尤其涉及一种基于图像识别的点餐方法、电子设备及存储介质。

背景技术：

市面上现有的自助服务机包括有自助点餐机，在一些餐厅中，可以通过自助点餐机自助点餐，这样可以减轻工作人员的工作量。但是这样的点餐机器铺设成本相对较高。随着社会的进步，餐饮业也在不断的进步当中，时下有一种新的点餐方式正在逐渐流行开来，这个便是电子点餐，比较常用的方式是通过扫描二维码的方式进行。目前的电子点餐系统中，用户可以快速浏览和选择菜品，并进行下单，速度高于传统菜谱，这使用户的点餐过程变得非常随意自由，给用户带来美好的用餐体验。但是这种方式还是应用于比较常规的需要服务员服务的方式，对于更智能的无人餐厅来说，如何降低顾客的使用负担，使得用户可以只是通过讲话和简单的动作就实现点餐成为本领域技术人员所要解决的技术问题。

技术实现要素：

为了克服现有技术的不足，本发明的目的之一在于提供一种基于图像识别的点餐方法，其能解决通过图像与语音配合实现点餐的技术问题。

本发明的目的之二在于提供一种电子设备，其能解决通过图像与语音配合实现点餐的技术问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能解决通过图像与语音配合实现点餐的技术问题。

本发明的目的之一采用如下技术方案实现：

一种基于图像识别的点餐方法，包括以下步骤：

图像采集步骤：通过图像采集设备获取当前的图像信息；

声音采集步骤：通过声音采集设备获取当前的声音信息；

第一判断步骤：当检测到图像信息中出现用手指向菜品的动作时，判断当前的声音信息所对应的语句是否是疑问句，如果否，则识别图像信息中的菜品名称信息并生成点餐指令。

进一步地，在图像采集步骤之前还包括唤醒步骤：当打开桌面上的菜单时，控制启动图像采集设备。

进一步地，所述唤醒步骤具体为：当打开桌面上的菜单时，控制启动图像采集设备并同时启动声音采集设备。

进一步地，在第一判断步骤中，所述菜品名称信息的识别通过识别图像信息中的菜品图片获取得到或者是通过识别图像信息中的菜品名称获取得到。

进一步地，在声音采集步骤之后还包括以下步骤：

定位步骤：采用声源定位技术以定位声音信息所在位置；

第二判断步骤：判断所述声音信息所在位置是否存储在服务器中，如果是，则执行信息提取步骤；

信息提取步骤：提取声音信息中的菜品名称信息，并生成点餐指令。

进一步地，在信息提取步骤之后还包括信息读取步骤：当接收到点餐结束指令时，通过扬声器读取获取到的所有的菜品名称信息。

进一步地，在信息读取步骤之后还包括以下步骤：

接收步骤：接收当前用户发出的信息确认指令；

第三判断步骤：根据信息确认指令以判断是否需要修改对应的点餐指令，如果是，则修改对应的点餐指令；

点餐步骤：将最终的点餐指令发送至服务器端以完成点餐。

进一步地，所述定位步骤中，所述声源定位技术为基于时延估计的算法或者基于高分辨率谱估计的算法或者基于稀疏表示的算法，且所述定位步骤具体为：当采用声源定位技术定位声音所在位置后，关闭除了与声音信息所在位置最近的麦克风外的其余麦克风，且所述获取步骤中具体为：通过环形麦克风阵列获取当前用户的声音信息。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明目的之一中任意一项所述的一种基于图像识别的点餐方法。

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一任意一项所述的一种基于图像识别的点餐方法。

相比现有技术，本发明的有益效果在于：

本发明的基于图像识别的点餐方法通过同时检测图像信息以及语音信息，来比对判断是否进行点餐操作，通过结合两者特征能够大大提高点餐的准确性，使得用户点餐更为的方便。

附图说明

图1为实施例一的基于图像识别的点餐方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

如图1所示，本实施例提供了一种基于图像识别的点餐方法，包括以下步骤：

s1：通过图像采集设备获取当前的图像信息；这一步主要是为了获取到对应的图像信息，因为在本实施例中最为主要的一种方式是通过图像来获取得到的，通过图像识别得到画面中的图像信息，然后分析其中展示的菜品信息；在具体进行操作的时候，最主要的方式是获取视频流，然后抽取视频中的关键帧，然后对关键帧进行识别，这样得到的图像信息更为的高效。

在本实施例的步骤s1之前还包括唤醒步骤：当打开桌面上的菜单时，控制启动图像采集设备。在进行唤醒的时候，可以有如下几种方式，一种是直接对图像采集设备以及声音采集设备进行唤醒，另一种方式是分别对图像采集设备和声音采集设备进行唤醒。所有的系统在启动的时候，有几种启动唤醒的方式，一般的唤醒方式是直接通过电源按键来实现唤醒的；比较有一种方式是通过声音进行唤醒的，通过声音进行唤醒的方式需要通过设置麦克风已经相应的唤醒词来进行识别实现。在本实施例中优选的采用设置传感器的方式，该传感器可以是设置于菜单上，也可以是设置于桌面上，当打开菜单的时候，所述传感器感应到这个动作信号，就实现图像采集设备的启动。这个传感器可以是红外传感器，也可以是距离传感器等等。只要能够实现菜单这个打开的动作即可。除了这种启动方式，还有一种启动方式是，在对应的座位上设置距离传感器，当检测到有用户坐上去的时候，控制启动该系统以实现语音以及图像的检测。

s2：通过声音采集设备获取当前的声音信息；所述声音采集设备最为优选的，采用环形麦克风阵列以采集当前用户的声音信息；这一步主要是为了获取到对应用户的声音信息，这也是下面所有步骤的基础。通过环形麦克风可以更为高效准确的获取圆桌四周的声音信息，获取到的声音源信息越清晰，那么后期进行语音翻译也就会使得其越准确。该环形麦克风一般设置于餐桌上，针对于不同的餐桌设置有不同的数量的麦克风数，比如针对于四人桌，环形麦克风中拥有麦克风的数量为四个，针对于六人桌，环形麦克风中拥有麦克风的数量为六个，针对于十人桌，环形麦克风中拥有麦克风的数量为十个；这样在进行具体操作的时候，可以设定每个座位有对应一个麦克风。除了上述这样的方式之外，还可以设置固定数量的麦克风，比如不论是几人桌，环形麦克风中拥有麦克风的数量均为六个。

这一步主要是为了获取到声音信息，具体的该位置或者说话的声音是否有录音权限需要进一步判断，该系统可以在开始的时候设置所有的用户声音均具有权限，只要其完成对应的两个动作即可完成对应的点餐操作。除了这种方式外，还可以针对于声纹信息或者是位置信息进行录音授权。在本实施例中具体针对于位置授权的方式进行详细说明：

在步骤s2之后还包括以下步骤：

定位步骤：采用声源定位技术以定位声音信息所在位置；所述定位步骤中，所述声源定位技术为基于时延估计的算法或者基于高分辨率谱估计的算法或者基于稀疏表示的算法，且所述定位步骤具体为：当采用声源定位技术定位声音所在位置后，关闭除了与声音信息所在位置最近的麦克风外的其余麦克风。这样能够更为有效的获取当前说话者的声音信息，而屏蔽掉一部分说话者的低语，不会因为产生多处声源而造成声音获取处于一种比较混乱的状态。因为如果当说话的人不是一个的时候，而此时又同时开启有多个麦克风，那么就无法判断他们的来源强弱，而会将所有的声音信息都录入，从而会产生一定的混乱，而只开启说话者面前的麦克风的话，其可以通过声音强弱，声音方向等来定位是否需要记录对应的信息，并且判断是否需要进行录音更换等。

所述声源定位技术其是基于tde的算法核心在于对传播时延的准确估计，一般通过对麦克风间信号做互相关处理得到。进一步获得声源位置信息，可以通过简单的延时求和、几何计算或是直接利用互相关结果进行可控功率响应搜索等方法。这种类型的算法实现相对简单，运算量小，便于实时处理，因此在实际中运用最广。

第二判断步骤：判断所述声音信息所在位置是否存储在服务器中，如果是，则执行信息提取步骤；这一步主要是为了筛选出具备点菜权限的用户，当所有用户都在说话的时候，只选择其中的拥有点菜权限的从而完成对应的点餐。

当定位到声源的位置之后，就开始从后台获取拥有权限的用户。在声源位置没有改变之前，所识别的语音结果都会对应这个位置。因为本实施例是通过位置来判断是否记录该说话者的声音信息的，所以在最开始进行会议之前就要分配好对应的位置，比如在一个环形点餐桌前，有8个座位，其编号分别是1、2、3、4、5、6、7和8，并且规定只有1号的声音信息可以被录制并记录，而其他的号码的声音不可以，这个时候，在进行点餐的时候，一般发起这个饭局的用户来坐到1号位，然后开始进行点餐操作。或者在进行设置的时候，设定两个座位使得其拥有点餐权限，具体的设定方式在本实施例中不进行限定，餐厅可以根据自己的实际需求进行设定，针对不同的餐位进行不同的设定，所以在进行设计的时候可以开放这个设定，使得各个餐厅自身拥有权限去进行修改。

当有多个用户拥有点餐权限的时候，还会出现位置变化的问题，为了使得其拥有更高的自动化程度，本实施例还提供了这样的方式来进行实施。当获取到的声音信息所在位置改变时，则返回步骤s2以对声音信息进行重新定位；当语音的方向改变之后，要重新对语音的方向进行定位，重新获取声源位置和对应的人的信息。如果是原来讲话的人已经停止说话了，需要判断整个点餐是否结束了，如果没有结束，就等待之后讲话的人。如果点餐结束了，提示询问点餐是否结束，点餐结束了就停止录音，准备点餐确认。因为在整个点餐的过程中，声音的方位是不断的改变的，如果只能够记录单一用户的信息，那么会使得点餐很不完整；并且当人数比较多的时候，所有的信息都需要一个用户来进行确认的话，会加重该用户的任务，并且使得整个就餐过程不是特别的愉快。所以在整个点餐的过程中，除了能够识别到当前的声音，当声音的方位变换的时候，该系统也可以根据实际的情况来重新的定位从而完成对声音信息的采集。上述为通过位置来进行权限的确认，除了这种方式之外，还可以通过声纹信息的方式来进行权限的确认。

信息提取步骤：提取声音信息中的菜品名称信息，并生成点餐指令。这一步主要是为了提取声音信息中包括的菜品名称信息，但是这个菜品名称信息的确认不单单是识别到其中拥有菜品名称信息之后就直接进行提取，而是需要进一步判断的；只有在确认点这个菜品的时候才提取并生成点餐指令。比如，当出现有“鱼香肉丝怎么样？”这样的信息的时候，肯定是不需要提取，只有出现陈述句的时候才提取，“我要鱼香肉丝。”所以在这个过程中还需要对获取到的声音信息进行语义识别，只有再确认该语句是进行点餐的时候，才进行点餐操作。

s3：当检测到图像信息中出现用手指向菜品的动作时，判断当前的声音信息所对应的语句是否是疑问句，如果否，则识别图像信息中的菜品名称信息并生成点餐指令。所述菜品名称信息的识别通过识别图像信息中的菜品图片获取得到或者是通过识别图像信息中的菜品名称获取得到。在进行图像识别之前，需要对所有的菜品进行识别训练，由于在这个过程中获取到的图像是固定的，而不要针对实体食物进行识别，所以在进行训练的时候训练集应该是处于各个角度以及各个光照条件下的物品的图像。最为优选的方式，当识别到的菜品图像与菜单上的图像一致的时候，才对其进行记录，也就是将获取到的文字信息作为一个判断条件进行识别。还有一种方式是将其作为一个整体，去进行一种菜品的识别。只是出现用手指向菜品还不行，因为通常我们在点菜的时候，可能会出现询问的方式去询问就餐人员，所以出现的是询问语句的时候，也就是这个菜品还是处于待定的状态。比如在整个过程中一个用户指向鱼香肉丝，说“这个菜怎么样？”这是询问意见而不是下单，所以系统在判断的时候，需要将其排出在外，而当出现说“点这个”或者“就他”或者“点鱼香肉丝”等等陈述类型的语句的时候，完成点菜。

在步骤s3之后还包括以下子步骤：

信息读取步骤：当接收到点餐结束指令时，通过扬声器读取获取到的所有的菜品名称信息。通过扬声器读取获取到的所有的菜品名称信息。为了使得整个点餐过程中的服务信息能够更为的准确，在接收到点餐结束指令的时候，通过扬声器来进行读取所获得的所有的菜品的名称。因为点餐与会议不同，会议结束的时候，其会有停顿的发生，而点餐这个过程却不同，点餐结束后不会有停顿，朋友之间还会进行交谈，所以需要采用直接的方式对该系统进行关闭，以防止点到不必要的菜品。在进行关闭的时候，也是可有物理关闭方式和软件关闭方式，物理关闭方式是直接点击电源开关；而软件关闭方式是通过说“点餐结束”这样的词语来进行关闭的；在本实施例中优选的采用软件关闭的方式。当接收到这样的指令之后，会发送完成的点餐目录给当前的用户确认是否是所有的这些菜品。这里由于可能会通过语音获取到菜品名称，以及通过图像与语音结合的形式获取到菜品信息，所以需要进一步与就餐用户进行确认。

接收步骤：接收当前用户发出的信息确认指令；用户听完所有的菜品之后，如果准确无误，则直接回复不需要修改或者是点餐没有错误这样的信息给到系统去进行进一步确认。而当出现有修改的时候，比如用户中间有一个菜品突然不想要或者是用户没有点，则其说出“不要鱼香肉丝”这样的话语指令给到系统去进行进一步判断。

第三判断步骤：根据信息确认指令以判断是否需要修改对应的点餐指令，如果是，则修改对应的点餐指令；系统在接收到这样的指令之后，需要进一步分析这句话中包含的内容信息，比如“不要鱼香肉丝”通过语义分析是确认将菜单目录中的鱼香肉丝这个条目给删除，而当出现“增加茄子煲”这样的话语的时候，通过语义分析确认是需要通过增加菜品来实现的，这时候则在菜单目录中增加对应的菜品信息。

点餐步骤：将最终的点餐指令发送至服务器端以完成点餐。最终的点餐指令指的是经过用户确认的所有的菜品信息，当获取到这样的最终的菜品信息的时候，只需要将这些信息发送至后台服务器去确认即可，这时候后台服务器发送至后厨去进行备餐。这样就可以实现整个点餐操作。由于点餐操作已经完成，所以这时候需要控制关闭声音采集设备或者使得声音采集设备处于休眠状态，从而使得该系统不能够接收点菜指令去进行点餐，以防止用户误点。

当在就餐过程中，该餐桌的用户需要加菜的时候，这时候还是对应的拥有点餐权限的用户去对该声音采集设备进行唤醒。这时候的唤醒词最好与开始的时候唤醒词不一样，可以将其设定为“需要加菜”。这样有利于一个完成的就餐过程中的判断，使得在进行结算的时候能够更方便。

实施例二

实施例二公开了一种电子设备，该电子设备包括处理器、存储器以及程序，其中处理器和存储器均可采用一个或多个，程序被存储在存储器中，并且被配置成由处理器执行，处理器执行该程序时，实现实施例一的一种基于图像识别的点餐方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。

实施例三

实施例三公开了一种计算机可读存储介质，该存储介质用于存储程序，并且该程序被处理器执行时，实现实施例一的一种基于图像识别的点餐方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于内容更新通知装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅峰峰
技术所有人：广州富港万嘉智能科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。