程序、信息处理装置及信息处理方法与流程

文档序号：33347067发布日期：2023-03-04 03:54阅读：71来源：国知局

1.本发明涉及程序、信息处理装置及信息处理方法。

背景技术：

2.具有对认知症等脑功能障碍的诊断进行支援的技术。例如在专利文献1中，公开了如下认知症诊断装置：将对象人员针对规定问题回答出的发声语音转换成文本数据，计算出该文本数据与比较用文本数据的编辑距离，并判断对象人员是否有认知症发病的可能性。
3.现有技术文献
4.专利文献
5.专利文献1：日本特开2020-483号公报

技术实现要素：

6.但是，专利文献1的发明无法向使用者提示是根据发声语音的哪个部分判断成有脑功能障碍的可能性。
7.在一个方案中，目的在于提供一种能够容易掌握对象人员的异常的程序等。
8.一个方案的程序使计算机执行以下处理：从对象人员受理语音的输入，将输入的上述语音转换成文本，从上述文本检测异常部位，在检测到上述异常部位的情况下，使将与上述异常部位相对应的文字列以与其他文字列不同的显示样态示出的上述文本显示于显示部。
9.发明效果
10.在一个方案中，能够容易掌握对象人员的异常。
附图说明
11.图1是表示对话系统的结构例的说明图。
12.图2是表示服务器的结构例的框图。
13.图3是表示移动终端的结构例的框图。
14.图4是表示扬声器终端的结构例的框图。
15.图5是表示实施方式1的概要的说明图。
16.图6是表示消息的显示画面例的说明图。
17.图7是表示服务器所执行的处理步骤的流程图。
18.图8是表示实施方式2的服务器的结构例的框图。
19.图9是表示回答历史db的记录结构的一个例子的说明图。
20.图10a是表示扬声器终端的显示画面例的说明图。
21.图10b是表示扬声器终端的显示画面例的说明图。
22.图11a是表示实施方式2的消息的显示画面例的说明图。
23.图11b是表示实施方式2的消息的显示画面例的说明图。
24.图12是表示推断结果显示时的聊天画面的其他例子的说明图。
25.图13是表示历史画面的一个例子的说明图。
26.图14是表示实施方式2的服务器所执行的处理步骤的一个例子的流程图。
27.图15是表示实施方式2的服务器所执行的处理步骤的一个例子的流程图。
具体实施方式
28.以下，基于示出本发明的实施方式的附图来详细叙述本发明。
29.(实施方式1)
30.图1是表示对话系统的结构例的说明图。在本实施方式中，说明基于对象人员输入的发声语音判断对象人员的异常、优选判断有无脑功能障碍的对话系统。对话系统包括信息处理装置1、移动终端2、扬声器终端3。各装置与因特网等网络n通信连接。
31.信息处理装置1是能够进行各种信息处理、信息的发送接收的信息处理装置，是例如服务器计算机、个人计算机等。在本实施方式中设为信息处理装置1是服务器计算机，以下为了简洁而另称为服务器1。服务器1根据对象人员输入的发声语音，判断是否有脑功能障碍的可能性。具体而言如后述那样，服务器1根据作为发向包含对象人员在内的多个使用者所参加的聊天群的消息而由对象人员输入的发声语音、或者对象人员输入到基于规定的对话引擎而工作的聊天机器人系统中的发声语音等，检测怀疑有脑功能障碍的可能性的异常部位。
32.设为对象的脑功能障碍并没有特别限定，能够列举例如认知症、失语症等。服务器1对因认知症、失语症等引发而产生的异常发声(不清晰的单词、说错等)进行检测，并向其他使用者(例如对象人员的家人、诊治对象人员的医疗工作者等与对象人员相关的使用者)提示异常部位。
33.移动终端2是包含对象人员在内的各使用者所使用的信息处理终端，例如是智能手机、平板终端等。此外，虽然在图1中仅图示了一台移动终端2，但设为对象人员及其他使用者各自的移动终端2与服务器1连接。服务器1从移动终端2获取作为发向聊天群的消息等而由对象人员输入的发声语音，并将其转换成文本。并且服务器1从转换后的文本检测异常部位。
34.扬声器终端3是设置在对象人员的自家等的语音输入输出终端，是所谓智能扬声器。此外，扬声器终端3并不限定于被称为智能扬声器的扬声器，只要具备语音的输入输出功能和图像显示功能即可。另外，扬声器终端3的设置场所并不限定于对象人员的自家，也可以为自家以外的设施(例如护理院)等。扬声器终端3作为聊天机器人系统的终端装置发挥功能，进行与对象人员之间的对话。如后述那样，服务器1也可以从扬声器终端3获取对象人员的发声语音并检测异常部位。
35.此外，在本实施方式中作为与服务器1协作的终端装置列举了移动终端2、扬声器终端3，但也可以为其他形态的终端装置(例如机器人式的装置)。终端装置只要为具备语音输入输出功能、图像显示功能等的本地终端即可，其形态并没有特别限定。
36.图2是表示服务器1的结构例的框图。服务器1具备控制部11、主存储部12、通信部13及辅助存储部14。
37.控制部11具有一个或多个cpu(central processing unit，中央处理器)、mpu(micro-processing unit，微处理器)、gpu(graphics processing unit，图形处理器)等运算处理装置，通过读出并执行辅助存储部14所存储的程序p1，进行各种信息处理、控制处理等。主存储部12是sram(static random access memory，静态随机存取存储器)、dram(dynamic random access memory，动态随机存取存储器)、闪存等临时存储区域，暂时存储控制部11为了执行运算处理而需要的数据。通信部13是用于进行与通信相关的处理的通信模块，与外部进行信息的发送接收。辅助存储部14是大容量存储器、硬盘等非易失性存储区域，存储控制部11为了执行处理而需要的程序p1、其他数据。
38.此外，辅助存储部14也可以是与服务器1连接的外部存储装置。另外，服务器1可以为由多个计算机构成的多计算机，也可以为由软件虚拟地构建的虚拟机。
39.另外，在本实施方式中服务器1并不限于上述的结构，例如也可以包含受理操作输入的输入部、显示图像的显示部等。另外，也可以是服务器1具备读取cd(compact disk)-rom、dvd(digital versatile disc)-rom等移动式存储介质1a的读取部，并从移动式存储介质1a读取并执行程序p1。或者服务器1也可以从半导体存储器1b读入程序p1。
40.图3是表示移动终端2的结构例的框图。移动终端2具备控制部21、主存储部22、通信部23、显示部24、输入部25、语音输出部26、语音输入部27、拍摄部28、辅助存储部29。
41.控制部21具有一个或多个cpu、mpu等运算处理装置，通过读出并执行辅助存储部29所存储的程序p2，进行各种信息处理、控制处理等。主存储部22是ram等临时存储区域，暂时存储控制部21为了执行运算处理而需要的数据。通信部23是用于进行与通信相关的处理的通信模块，与外部进行信息的发送接收。显示部24是液晶显示器等显示画面，显示图像。
42.输入部25是触摸面板等操作界面，从使用者受理操作输入。语音输出部26是扬声器，输出语音。语音输入部27是麦克风，从使用者受理语音的输入。拍摄部28是具备cmos(complementary mos，互补金属氧化物半导体)等拍摄元件的摄像头，对图像进行拍摄。辅助存储部29是硬盘、大容量存储器等非易失性存储区域，存储控制部21为了执行处理而需要的程序p2、其他数据。
43.此外，移动终端2也可以具备读取cd-rom等移动式存储介质2a的读取部，从移动式存储介质2a读取并执行程序p2。或者移动终端2也可以从半导体存储器2b读入程序p2。
44.图4是表示扬声器终端3的结构例的框图。扬声器终端3具备控制部31、主存储部32、通信部33、显示部34、输入部35、语音输出部36、语音输入部37、拍摄部38、辅助存储部39。
45.控制部31具有一个或多个cpu、mpu等运算处理装置，通过读出并执行辅助存储部39所存储的程序p3，进行各种信息处理、控制处理等。主存储部32是ram等临时存储区域，暂时存储控制部31为了执行运算处理而需要的数据。通信部33是用于进行与通信相关的处理的通信模块，与外部进行信息的发送接收。显示部34是液晶显示器等显示画面，显示图像。
46.输入部35是触摸面板等操作界面，从使用者受理操作输入。语音输出部36是扬声器，输出语音。语音输入部37是麦克风，从使用者受理语音的输入。拍摄部38是具备cmos等拍摄元件的摄像头，对图像进行拍摄。辅助存储部39是硬盘、大容量存储器等非易失性存储区域，存储控制部31为了执行处理而需要的程序p3、其他数据。
47.此外，也可以是扬声器终端3具备读取cd-rom等移动式存储介质2a的读取部，从移
动式存储介质3a读取并执行程序p3。或者扬声器终端3也可以从半导体存储器3b读入程序p3。
48.图5是表示实施方式1的概要的说明图。基于图5，说明本实施方式的概要。
49.如上述那样，服务器1根据发向包含对象人员在内的多个使用者所参加的聊天群的消息等，判断对象人员的状态是否异常。在图5中，图示了聊天群中的对话画面。图5的右侧表示来自对象人员的消息，左侧表示来自其他使用者(例如家人)及系统(服务器1)的消息。此外，对象人员也能够利用文本输入或语音识别功能通过语音输入消息。
50.服务器1将对象人员输入的语音转换成文本，从转换后的文本检测异常部位。在图5的例子中，图示了针对来自其他使用者的消息“今天去哪里了？”，由服务器1将对象人员的发声语音转换成文本“今天去桃园了”的情况。在该情况下，服务器1从该文本检测到异常部位“桃园”。
51.具体的对异常部位的检测方法没有特别限定，例如服务器1进行词素解析将文本分割成多个文字列(单词)，参照保存了大量单词的单词词典(数据库，未图示)，将各文字列与单词词典的各单词进行比较。此外，虽然在本实施方式中将文本的分割单位设为单词，但可以以比单词长的单位(例如文节)进行分割，也可以以比单词短的单位进行分割。服务器1将单词词典中没有保存的文字列检测为异常部位。此外，例如服务器1也可以在单词词典中事先规定出现频度低的单词(例如常用词以外的单词)，将出现频度低的单词检测为异常部位，诸如此等。
52.另外，服务器1也可以事先存储对象人员输入的语音所涉及的文本，并基于过去的文本检测异常部位。例如服务器1将通过词素解析分割文本得到的文字列作为新单词保存(录入)到单词词典中，针对每个对象人员构建单词词典。并且服务器1在从对象人员受理了语音的输入并将其转换成文本的情况下，参照与该对象人员相对应的单词词典来检测异常部位。由此，能够考虑对象人员的发言倾向来提高异常部位的检测精度。
53.此外，在上述中使用单词词典来检测异常部位，但异常部位的检测方法并不限定于此。例如服务器1也可以进行文本的语法解析、意思解析等来检测异常部位。另外，检测方法并不限定于规则库(rule base)，例如服务器1也可以为了在输入了文本的情况下检测异常部位而事先准备学习完毕的机器学习模型(例如神经网络)，并将转换发声语音得到的文本输入到该模型中来检测异常部位。像这样，异常部位的检测方法并没有特别限定。
54.在检测到异常部位的情况下，服务器1生成对异常部位进行反问的疑问句并将其输出到对象人员的移动终端2。该疑问句优选设为6w3h(who、whom、when、where、what、why、how、how many、how much)中的某一个形式。服务器1将与异常部位相对应的文字列适用6w3h中的某一种形式的疑问句的模板，生成疑问句。服务器1作为聊天群内的消息而输出疑问句，并使其显示于移动终端2。此外，例如服务器1也可以将疑问句转换成语音并输出到移动终端2。
55.服务器1从对象人员受理针对上述疑问句的回答的输入。该回答与消息输入时同样地，以语音受理输入。服务器1将输入的回答语音转换成文本，并判断对象人员的状态是否异常、具体而言判断是否有脑功能障碍的可能性。
56.在图5中作为回答例图示了模式1～3。在模式1的情况下，由于从语音识别到正确的单词“公园(日语假名：
こうえん
)”，所以服务器1判断成对象人员的状态正常。另一方面，
在模式2的情况下，由于从语音再次识别到异常部位“桃园”，所以服务器1判断成对象人员的状态异常。另外，在模式3的情况下，虽然包含“桃园(日语假名：
とうえん
)”这一文字列，但由于从前后的逻辑性来看从语音识别到正确的语句，所以服务器1判断成对象人员的状态正常。
57.像这样，服务器1根据对疑问句的回答判断对象人员的状态。在该情况下服务器1也可以根据语音以外的数据判断对象人员的状态。例如移动终端2对输入针对上述疑问句的回答时的对象人员进行拍摄，服务器1根据拍摄图像(例如动态图像)判断对象人员的状态。
58.具体而言，服务器1从图像识别对象人员的面部，根据面部的左右的不对称性判断对象人员的状态。例如在由于脑梗塞、脑溢血等而发生了脑功能障碍的情况下，会观察到面部的左右动作不同、单侧下降、单侧歪斜等面部左右不对称的状态及动作。服务器1将图像中的面部区域分割成左右两个区域，对各区域的状态(眼、口的端部等各特征点的坐标)及动作(特征点的移动)进行确定，判断面部的左右状态及/或动作是否不对称。在判断成不对称的情况下，服务器1判断成对象人员的状态异常。
59.此外，在上述中设为在针对疑问句的回答输入时拍摄对象人员，但也可以在刚开始的消息(检测到异常部位的消息)的语音输入时拍摄对象人员，并根据输入该消息(语音)时的图像判断面部的左右的不对称性。即，图像的拍摄时点并不限定于针对疑问句的回答输入时，也可以为消息的语音输入时。
60.另外，虽然在本实施方式中设为将图像及语音组合来判断对象人员的异常，但也可以仅根据语音(文本)来判断对象人员的异常。
61.如上述那样，服务器1从对象人员作为发向聊天群的消息而输入的语音的文本，检测怀疑有脑功能障碍的可能性的异常部位，对异常部位进行反问，并根据对疑问句的回答语音、及/或输入回答时的图像判断对象人员的状态。
62.此外，在上述中以对象人员与其他使用者进行群聊的情况作为一个例子进行了说明，但本实施方式并不限定于此。例如服务器1也可以从基于规定的对话引擎实现的聊天机器人和对象人员对话时的输入语音检测异常部位。
63.聊天机器人可以在智能手机等移动终端2中进行语音的输入输出，但也可以在设置于对象人员的自家等的扬声器终端3(智能扬声器)中进行语音的输入输出。在此设为扬声器终端3从对象人员受理语音的输入、且输出应答语音来进行说明。
64.扬声器终端3受理例如日常的打招呼(“早上好”等)、信息的输出要求(例如今天的天气、安排等)、设备(家电等)的操作要求等各种语音输入。扬声器终端3针对这些输入语音进行各种信息处理(例如在输入了打招呼后输出打招呼的应答语音、在输入了设备操作的语音后输出设备的操作信号，诸如此等)。服务器1获取输入到扬声器终端3中的语音并将其转换成文本，检测异常部位。异常部位的检测方法与上述相同。
65.另外，服务器1也可以经由扬声器终端3从系统侧向对象人员进行呼叫，并受理语音的输入。例如服务器1在每个固定期间将询问规定事项的语音(“今天的天气如何？”等)输出到扬声器终端3，从对象人员受理回答的语音输入。由此，例如在对象人员为独居老人的情况下，能够定期地敦促会话，同时能够从会话内容检测对象人员的异常。
66.像这样，服务器1也可以从与聊天机器人的对话语音检测异常部位。即，作为异常
部位的检测对象的语音并不限定于发向其他使用者的消息，也可以为任意的发声语音。
67.图6是表示消息的显示画面例的说明图。在图6中，图示了被检测到异常部位的消息(文本)显示于群聊的状况。具体而言，在图6中，图示了与对象人员交换消息的其他使用者(家人等)的移动终端2所显示的聊天画面。在图6中，将来自对象人员及系统的消息图示在左侧，将来自其他使用者的消息图示在右侧。
68.服务器1在从对象人员的消息检测到异常部位的情况下，使与异常部位相对应的文字列以与其他文字列不同的显示样态显示。例如服务器1改变与异常部位相对应的文字列的显示颜色，并且改变(高光)该异常部位的背景颜色。此外，在图6中为图示方便，以加粗字体图示了文字列的显示颜色改变了的状况，以阴影图示了背景颜色改变了的状况。另外，服务器1使从系统侧(服务器1)输出的疑问句和针对该疑问句的对象人员的回答一并显示。
69.另外，服务器1与对象人员的消息中的异常部位相对应地使目标对象61显示。目标对象61可以是示出与异常部位相对应的文字列的显示样态的一个例子，也可以是用于使对象人员输入的语音播放的图标。在受理了向目标对象61的操作输入的情况下，服务器1将输入语音输出到移动终端2，使其播放。由此，其他使用者(家人等)能够听到输入语音来确认对象人员的状态。此外，服务器1也可以不仅将检测到异常部位的刚开始的语音播放，还能够将针对之后的疑问句的回答语音播放。
70.而且服务器1在判断成对象人员有脑功能障碍的可能性的情况下，将判断结果通知给其他使用者。例如如图6所示，服务器1输出对象人员有脑功能障碍的可能性这一主旨的评语(信息)并使其显示于移动终端2。具体而言，服务器1使在敦促去医疗机构接受诊治的同时敦促实施用于检查是否是脑功能障碍的测试的评语显示。例如服务器1在该评语中显示用于选择实施或不实施测试的按钮，在受理了对“测试”按钮的操作输入的情况下，向对象人员的移动终端2(或者其他使用者的移动终端2)输出测试数据。测试数据例如为加法、减法等计算测试、触碰拍在照片中的物体的测试等，并没有特别限定。
71.此外，当然服务器1不仅可以向与对象人员相关的其他使用者(家人等)，还可以向对象人员本人通知有脑功能障碍的可能性这一主旨的判断结果。
72.基于以上，通过从对象人员的平时的对话语音(发向聊天群的消息、发向聊天机器人的输入语音等)检测异常部位，能够简易地检测对象人员的异常并敦促去医疗机构接受诊治等。
73.此外，服务器1也可以在使检测到异常部位的消息显示时，与根据对疑问句的回答、及/或回答输入时的图像判断出的对象人员的状态相应地，改变异常部位的显示样态。例如服务器1在根据对疑问句的回答语音判断成对象人员的状态异常的情况下，使与异常部位相对应的文字列以红色显示。另一方面，在虽然从消息检测到异常部位、但根据对疑问句的回答语音判断成对象人员的状态正常的情况下，服务器1使与异常部位相对应的文字列以蓝色显示。由此，在单纯地说错了的情况等下，能够对异常程度赋予程度轻重后向其他使用者提示异常部位。
74.图7是表示服务器1所执行的处理步骤的流程图。基于图7，说明服务器1所执行的处理内容。
75.服务器1的控制部11从对象人员受理语音的输入(步骤s11)。如上述那样，该语音是例如发向包含对象人员在内的多个使用者所参加的聊天群的消息，但也可以是发向基于
规定的对话引擎的聊天机器人的输入语音。控制部11将输入的语音转换成文本(步骤s12)。控制部11从转换后的文本检测异常部位(步骤s13)。例如控制部11进行文本的词素解析将文本分割成多个文字列，并将规定的单词词典中所保存的各单词和各文字列进行比较，检测与异常部位相对应的文字列。
76.控制部11判断从文本是否检测到异常部位(步骤s14)。在判断成没有检测到异常部位的情况下(s14：否)，控制部11将转换后的文本作为对象人员的消息输出到其他使用者的移动终端2，并使其显示(步骤s15)。在判断成检测到异常部位的情况下(s14：是)，控制部11将对与异常部位相对应的文字列进行反问的疑问句输出到对象人员的移动终端2(步骤s16)。控制部11从对象人员受理针对疑问句的回答的语音输入(步骤s17)。另外，控制部11从移动终端2获取对回答输入时的对象人员进行拍摄得到的图像(步骤s18)。
77.控制部11基于在步骤s17中输入的语音、及/或在步骤s18中获取到的图像，判断对象人员的状态是否异常(步骤s19)。具体而言，控制部11判断对象人员是否有脑功能障碍的可能性。例如控制部11与步骤s14同样地将输入语音转换成文本并将文本分割成多个文字列，将多个文字列与单词词典的各单词进行比较，判断是否有与异常部位相对应的文字列。另外，控制部11从步骤s18中拍摄到的图像识别对象人员的面部，判断面部的左右的状态及/或动作是否不对称。在判断成不异常的情况下(s19：否)，控制部11将处理转移到步骤s15。
78.在判断成异常的情况下(s19：是)，控制部11使将与异常部位相对应的文字列以与其他文字列不同的显示样态示出的消息(文本)显示于其他使用者的移动终端2(步骤s20)。具体而言如上述那样，控制部11改变与异常部位相对应的文字列的显示颜色、且改变该文字列的背景颜色而使其显示。另外，控制部11使用于将对象人员输入的语音播放的目标对象61显示。
79.控制部11根据向目标对象61的操作输入，判断是否使输入语音播放(步骤s21)。在判断成使输入语音播放的情况下(s21：是)，控制部11使其他使用者的移动终端2播放对象人员输入的语音(步骤s22)。在执行步骤s22的处理后，或在步骤s21中为否的情况下，控制部11结束一系列的处理。
80.此外，在本实施方式中为了便于说明，设为服务器1执行输入语音的文本转换、异常部位的检测等处理，但也可以是本地的移动终端2(或扬声器终端3)执行一部分或全部的处理。例如可以是移动终端2进行文本转换，服务器1进行异常部位的检测。像这样，一系列处理的处理主体并没有特别限定。
81.基于以上，根据本实施方式1，将对象人员输入的语音转换成文本并检测异常部位，将与异常部位相对应的文字列以与其他文字列不同的显示样态显示，并向其他使用者提示。由此，其他使用者能够容易掌握对象人员的异常。
82.另外，根据本实施方式1，能够从聊天群中的对话消息、发向聊天机器人的输入语音等对象人员的日常的对话语音检测对象人员的异常。
83.另外，根据本实施方式1，通过参照对象人员过去的输入语音所涉及的文本，能够提高异常部位的检测精度。
84.另外，根据本实施方式1，通过在检测到异常部位的情况下输出对异常部位进行反问的疑问句并受理回答的输入，能够更良好地判断对象人员的状态是否异常。
85.另外，根据本实施方式1，通过根据对回答输入时的对象人员进行拍摄得到的图像判断面部的左右的不对称性，能够更良好地判断对象人员的与脑功能障碍相关的异常。
86.另外，根据本实施方式1，通过与根据对疑问句的回答、及/或拍摄对象人员得到的图像判断的对象人员的状态相应地，改变与异常部位相对应的文字列的显示样态，能够对异常程度赋予程度轻重后向其他使用者提示异常部位。
87.另外，根据本实施方式1，通过将对象人员输入的语音播放，其他使用者能够容易掌握对象人员的状态。
88.(实施方式2)
89.在实施方式1中，说明了从对象人员输入的语音检测异常部位的方式。在本实施方式中，叙述在检测到异常部位的情况下进行基于语音及文本的提问来推断脑功能障碍的可能性的方式。此外，关于与实施方式1重复的内容，标注相同的附图标记并省略说明。
90.图8是表示实施方式2的服务器1的结构例的框图。本实施方式的服务器1的辅助存储部14存储回答历史db141。回答历史db141是保存后述的对象人员对提问的回答、和基于该回答的脑功能障碍的可能性的推断结果的数据库。
91.图9是表示回答历史db141的记录结构的一个例子的说明图。回答历史db141包含日期列、对象人员列、语音列、文本列、反应列、推断结果列、图像列。日期列存储对象人员针对提问进行回答的回答日期。对象人员列、语音列、文本列、反应列、推断结果列及图像列分别与回答日期建立对应地存储进行回答的对象人员名、对基于语音的提问(后述的第1提问)的回答的正误、对基于文本的提问(后述的第2提问)的回答的正误、对象人员对提问的反应、基于回答推断出的脑功能障碍的可能性的推断结果以及进行回答时拍摄对象人员得到的拍摄图像(例如动态画面)。在反应列中如后述那样除了根据对象人员的拍摄图像判断的面部的左右的对称性、手指或视线方向的动作、表情等的判断结果以外，还存储有从输出提问后到输入回答为止的回答时间等。
92.图10a及图10b是表示扬声器终端3的显示画面例的说明图。图11a及图11b是表示实施方式2的消息的显示画面例的说明图。基于图10a、图10b、图11a及图11b，说明本实施方式的概要。
93.如在实施方式1中所说明那样，服务器1从对象人员输入的语音检测异常部位，并向其他使用者提示。在本实施方式中服务器1在检测到异常部位的情况下，针对对象人员进行基于语音及文本的提问。并且服务器1基于对象人员对提问的回答，推断脑功能障碍的可能性。
94.具体而言，服务器1将基于语音的第1提问和基于文本的第2提问输出到扬声器终端3，进行与各提问相对应的语音输出及图像显示。在图10a、图10b中分别图示了进行第1提问的情况下的画面例和进行第2提问的情况下的画面例。服务器1针对各提问使回答的选择项显示于扬声器终端3，并通过受理从显示的选择项选择某一个的画面操作，受理回答的输入。
95.此外，虽然在本实施方式中设为经由扬声器终端3进行提问，但也可以经由移动终端2进行提问。
96.在说明图10a及图10b之前，基于图11a进行说明。在图11a中与图6同样地，图示了其他使用者的移动终端2所显示的聊天画面。在从对象人员输入的语音所涉及的文本检测
到异常部位的情况下，移动终端2与实施方式1同样地，显示被检测到异常部位的对象人员的消息。
97.在本实施方式中在服务器1检测到异常部位的情况下，经由该画面从其他使用者受理发向对象人员的消息的输入。消息内容并没有特别限定，但优选受理包含图像在内的消息的输入。在图11a的例子中，作为发向对象人员的消息，输入了包含对象人员的亲人(例如孙子)的图像在内的消息。
98.服务器1对从其他使用者输入的消息进行解析，提取用于生成第1及第2提问的数据。例如服务器1提取文本中的固有名词(例如人名、在图11a及图11b的例子中为孙子的名字“太郎”)及图像。服务器1基于提取出的数据生成第1及第2提问，并输出到扬声器终端3。
99.返回到图10a及图10b继续进行说明。首先服务器1生成基于语音的第1提问并将其输出到扬声器终端3。例如服务器1如图10a所示那样将从其他使用者的消息提取的图像和与该图像不同的其他图像输出到扬声器终端3并使其显示，并且输出敦促选择某一个图像的画面操作的语音。
100.例如服务器1从自消息提取的图像，提取拍出人物(孙子)的图像区域并生成缩略图，使其显示于扬声器终端3。另外，服务器1使预先准备的无关图像作为其他选择项显示。此外，在图10a的例子中显示图像为两个，但也可以为三个以上。另外，在本实施方式中设为使其他使用者输入的图像显示，但例如也可以针对每个对象人员预先将图像准备(录入)到数据库中，并使数据库中所准备的图像显示。服务器1将从消息提取的固有名词(孙子的名字)适用于模板的疑问句，生成敦促选择与固有名词相对应的人物图像的语音，并将其输出到扬声器终端3。
101.服务器1受理针对第1提问的回答的输入。具体而言，服务器1受理从显示于扬声器终端3的多个图像选择某一个的画面操作。此外，回答的输入也可以通过语音等来受理。
102.在受理了针对第1提问的回答的输入的情况下，服务器1输出基于文本的第2提问。例如服务器1如图10b所示那样使询问是否阅览图像(照片)的疑问句显示，并且使用于选择是否阅览的目标对象(按钮)显示。此外，在图10b中图示了在图10a的画面中选择了正确的图像(孙子的图像)的情况，在该情况下作为疑问句显示了“要看照片吗？”，但在图10a的画面中选择了不正确的图像的情况下，作为疑问句显示“不看照片吗？”。
103.服务器1受理从“看照片”或“不看照片”这两个选择项选择某一个的画面操作。在选择了“看照片”的情况下，服务器1将其他使用者的消息输出到扬声器终端3。具体而言，服务器1使其他使用者输入的图像显示于扬声器终端3。此外，当然也可以显示除了图像以外的文本。在选择了“不看照片”的情况下(或在没有操作任一个按钮的情况下)，服务器1以规定时间等待处理，在经过了规定时间的情况下不显示消息而结束一系列的处理。
104.服务器1判断对第1及第2提问的回答是否正确。并且服务器1基于对第1及第2提问的回答的正误，推断脑功能障碍的可能性。具体而言，服务器1基于各回答的正误的组合，推断是否有脑功能障碍的可能性，并且推断有可能性的脑功能障碍的种类。
105.设为推断对象的脑功能障碍并没有特别限定，但在本实施方式中，将失语症和认知症(或者因脑梗塞等导致的短暂性的认知功能的降低)设为推断对象。服务器1基于各回答的正误的组合，推断是否有失语症的可能性、以及是否有认知症的可能性。
106.具体而言，服务器1在对基于语音的第1提问的回答错误、且对基于文本的第2提问
的回答正确的情况下，推断成有失语症的可能性。另外，服务器1在对第1及第2提问的回答双方均错误的情况下，推断成有认知症的可能性。此外，在第1及第2提问双方的回答均正确的情况下推断成正常，在仅第2提问的回答错误的情况下作为偶发性的回答失误来处理。
107.虽然失语症及认知症被混同的情况多，但失语症是妨碍语言能力的障碍，认知症是通常妨碍包含非语言能力的认知能力的障碍。根据是哪一个的症状，对语音及文本的反应不同。因此在本实施方式中，进行基于语音的第1提问和基于文本的第2提问，根据对各提问的回答的正误的组合，识别失语症及认知症。
108.服务器1除了对第1及第2提问的回答以外，还基于拍摄回答时的对象人员得到的图像来推断脑功能障碍的可能性。例如扬声器终端3在输出第1提问及/或第2提问的情况下，同时拍摄对象人员。服务器1从扬声器终端3获取对各提问的回答，并且获取回答时的图像来进行推断。
109.例如服务器1与实施方式1同样地基于对象人员的面部的左右的不对称性，推断脑功能障碍的可能性。即，服务器1将图像中的面部区域分割成左右的两个区域，确定各区域的状态(眼睛、嘴的端部等各特征点的坐标)及动作(特征点的移动)，判断面部的左右的状态及/或动作是否不对称。由此服务器1能够检测由于脑梗塞等而发生了脑功能障碍的事态。
110.在本实施方式中服务器1除了面部的左右不对称性以外还根据图像判断对象人员是否为回答为难的状态，由此判断脑功能障碍的可能性。具体而言如以下那样，服务器1根据图像检测适合为难状态的特定事象。
111.例如服务器1从图像检测对象人员的手(手指)、或对象人员的视线方向，判断对象人员的手或视线方向的动作是否与特定动作相符。具体而言，由于对象人员对选择项的选择犹豫不决，所以服务器1检测对象人员的手或视线方向在各选择项(在第1提问中为图像、在第2提问中为按钮)之间来来回回的动作。例如在布洛卡失语症的情况下，在口头命令了从多个选择项进行正确选择的情况下，由于不理解命令内容，所以观察到回答为难、对选择项犹豫不决的事象。于是，服务器1从例如对基于语音的第1提问进行回答时的图像检测手或视线方向，来判断手或视线方向是否在图像之间来来回回，由此推断失语症的可能性。
112.另外，例如服务器1也可以识别对象人员的面部表情，来判断是否与特定的表情(苦恼、焦急、窘迫等)相符。在该情况下也能够与上述同样地判断是否为回答为难的状态。
113.另外，例如服务器1也可以通过根据图像推断对象人员的生物体信息来判断为难状态。生物体信息例如为瞳孔的打开情况、脉搏、面部的温度(体温)、血流速度等。服务器1根据图像推断这些生物体信息来检测生物体信息的变化(例如瞳孔打开、脉搏变快等)，由此判断是否为回答为难的状态。
114.在上述中设为根据图像判断是否是为难状态，但例如也可以是服务器1除了图像以外还基于针对提问的回答时间来判断是否是为难状态。具体而言，服务器1对从输出提问(例如第1提问)到输入回答为止的回答时间进行计测，判断回答时间是否为规定阈值以上。由此，能够检测由于处于为难状态而回答花费时间的事态。
115.服务器1如上述那样，除了针对第1及第2提问的回答以外，还根据拍摄对象人员得到的图像及/或回答时间推断脑功能障碍的可能性。例如服务器1即使在针对第1及第2提问的回答双方均正确、而推断成对象人员正常的情况下，在面部的左右的动作及/或状态不对
称的情况下，或者在判断成为难状态的情况下，也会推断成有脑功能障碍的可能性。或者即使在针对第1提问的回答正确、且针对第2提问的回答错误而作为由对象人员做出的偶发性回答失误来进行处理的情况下，同样地在面部的左右的动作及/或状态不对称的情况下，或者在判断成为难状态的情况下，也可以进行改变疑问句等来重复提问的处理。
116.服务器1将推断结果输出到其他使用者的移动终端2，并使其显示。图11b图示了推断结果显示时的聊天画面。例如服务器1使示出推断结果(判断结果)的文本显示，并且使将推断结果数值化的分数显示。
117.服务器1计算出与第1提问相对应的“语音”、与第2提问相对应的“文本”、以及与图像及回答时间相对应的“反应”各自的分数，并使其显示于移动终端2。分数的计算方法并没有特别限定，例如服务器1汇总在过去规定期间(例如一周)进行的第1及第2提问各自的回答的正误，计算出分别对语音识别能力及文字识别能力进行评估得到的分数(例如规定期间中的正确率)，将其输出为“语音”及“文本”的分数。另外，例如服务器1根据图像及/或回答时间计算出为难状态的程度，将其输出为“反应”的分数。
118.图12是表示推断结果显示时的聊天画面的其他例子的说明图。在图12中，图示了推断成脑功能障碍的可能性高的情况下的聊天画面。在推断成脑功能障碍的可能性高的情况下，服务器1将推断结果通知给其他使用者的移动终端2并使其显示于聊天画面。
119.具体而言，服务器1与图11b同样地使将推断结果数值化的分数显示，并且使脑功能障碍的可能性高这一主旨的文本显示。例如服务器1如图12所示那样示出推断成可能性高的脑功能障碍的种类，并且显示敦促去医疗机构接受诊治的评语。
120.此外，服务器1当然也可以不仅向与对象人员相关的其他使用者(家人等)，还向对象人员本人通知有脑功能障碍的可能性这一主旨的推断结果。
121.服务器1还使用于阅览(确认)对象人员的回答历史的链接121显示于聊天画面。链接121是用于输出(显示)表示对象人员过去的对第1及第2提问的回答、以及脑功能障碍的可能性的推断结果的历史的历史信息的目标对象，是用于跳转到图13的历史画面的目标对象。在受理了针对链接121的操作输入的情况下，移动终端2跳转到图13的历史画面。
122.此外，也可以设为即使在推断成对象人员的状态正常的情况下(图11b)也能够阅览历史信息。另外，当然也可以是不仅在从聊天画面跳转时，任何时候均能够阅览历史信息。
123.图13是表示历史画面的一个例子的说明图。历史画面是显示对象人员针对第1及第2提问的回答的正误、回答时拍摄到的对象人员的拍摄图像、基于回答及图像得到的脑功能障碍的推断结果等一系列历史信息的显示画面。服务器1将各种历史信息存储到回答历史db141，根据来自移动终端2的要求输出历史信息。例如历史画面包含回答历史表131、图像显示栏132、分数曲线图133。
124.回答历史表131是一览示出过去各时点下的针对第1及第2提问(“语音”及“文本”)的回答的正误、基于回答时的拍摄图像等判断出的对象人员的为难状态的程度(“反应”的分数)以及脑功能障碍的推断结果(“判断”)的表。另外，在回答历史表131中与各时点建立对应地显示有用于播放拍摄图像(动态画面)的播放按钮1311。
125.图像显示栏132是显示在针对第1及/或第2提问的回答时拍摄对象人员得到的图像的显示栏。在受理了针对播放按钮1311的操作输入的情况下，移动终端2显示在相对应的
时点拍摄到的图像(动态画面)。
126.分数曲线图133是以时序示出在图11b、图12中例示的各分数的曲线图。移动终端2显示示出基于针对第1提问的回答正误评价语音识别能力的“语音”、基于针对第2提问的回答正误评价文字识别能力的“文本”以及基于拍摄图像等评价对象人员的状态的“反应”各自的分数的曲线图(例如折线图)，将对象人员的变化提示给使用者。
127.如上述那样，服务器1在从对象人员的发声语音检测到异常部位的情况下，输出第1及第2提问，根据针对各提问的回答的正误、以及回答时的图像等推断脑功能障碍的可能性。由此，能够尽早地发现对象人员的异常，进行脑功能障碍的分析。
128.图14及图15是表示实施方式2的服务器1所执行的处理步骤的一个例子的流程图。在执行步骤s22的处理后，或者在步骤s21中为否的情况下，服务器1执行以下的处理。
129.服务器1的控制部11从其他使用者受理包含图像的消息的输入(步骤s23)。控制部11对该消息进行解析，提取消息所含的图像，并且提取文本中的固有名词等(步骤s24)。
130.控制部11基于在步骤s24中解析出的消息，将基于语音的第1提问输出到扬声器终端3(步骤s25)。例如控制部11使提取图像的一部分得到的缩略图、以及与该图像不同的其他图像作为选择项显示于扬声器终端3，并输出敦促选择某一个图像的画面操作的语音。控制部11受理针对第1提问的回答的输入(步骤s26)。具体而言如上述那样，控制部11受理从所显示的多个图像(选择项)选择某一个的操作输入。
131.控制部11将基于文本的第2提问输出到扬声器终端3(步骤s27)。例如控制部11使用于选择是否阅览图像的按钮作为选择项显示，并且使询问是否阅览在步骤s26中选择的图像的文本显示于扬声器终端3。控制部11受理针对第2提问的回答的输入(步骤s28)。例如控制部11受理从所显示的多个按钮(选择项)选择某一个的操作输入。
132.控制部11判断针对第2提问的回答是否正确(步骤s29)。例如控制部11判断是否受理了阅览图像这一主旨的选择输入。在判断成正确的情况下(s29：是)，控制部11将来自其他使用者的消息(图像)输出到扬声器终端3(步骤s30)。
133.在判断成不正确的情况下(s29：否)，控制部11判断是否从输出第2提问后经过了规定时间(步骤s31)。在判断成没有经过规定时间的情况下(s31：否)，控制部11使处理返回到步骤s29。在执行了步骤s30的处理后，或者在步骤s31中为是的情况下，控制部11从扬声器终端3获取拍摄步骤s26及/或步骤s28的回答时的对象人员得到的图像(步骤s32)。
134.控制部11基于针对第1及第2提问的回答、以及回答时的对象人员的图像及/或回答时间，推断对象人员的脑功能障碍的可能性(步骤s33)。具体而言，控制部11推断是否有脑功能障碍的可能性，并且推断脑功能障碍的种类(失语症及认知症)。例如控制部11在针对第1提问的回答错误、且针对第2提问的回答正确的情况下，推断成失语症的可能性高。另外，控制部11在针对第1及第2提问的回答双方均错误的情况下，推断成认知症的可能性高。
135.而且控制部11根据回答时的对象人员的图像判断面部的左右的状态及/或动作是否不对称。另外，控制部11根据对象人员的图像及/或回答时间判断对象人员是否处于为难状态。控制部11即使在根据针对第1及第2提问的回答推断成正常的情况下，也会根据面部的左右的不对称性及/或为难状态的判断结果，推断成有脑功能障碍的可能性。控制部11将针对第1及第2提问的回答的正误、回答时的对象人员的拍摄图像、脑功能障碍的可能性的推断结果等存储到回答历史db141(步骤s34)。
136.控制部11将推断结果输出到其他使用者的移动终端2(步骤s35)。例如控制部11使是否有脑功能障碍的可能性的推断结果显示，并且基于针对第1提问(语音)的回答、针对第2提问(文本)的回答以及回答时的对象人员的图像及/或回答时间计算出对对象人员进行评估得到的分数，并使其显示于移动终端2。
137.控制部11判断是否输出示出对象人员过去的对第1及第2提问的回答、以及基于回答得到的脑功能障碍的可能性的推断结果的历史的历史信息(步骤s36)。例如控制部11判断在图12中例示的聊天画面中是否受理了针对链接121的操作输入。在判断成输出历史信息的情况下(s36：是)，控制部11将历史信息输出到其他使用者的移动终端2，并使其显示(步骤s37)。具体而言如上述那样，控制部11除了过去的各时点下的针对第1及第2提问的回答、脑功能障碍所涉及的推断结果以外，还使拍摄对象人员得到的图像等作为历史信息显示。在执行了步骤s36的处理后，或者在步骤s36中为否的情况下，控制部11结束一系列的处理。
138.此外，在上述中设为接收来自其他使用者的消息输入并输出第1及第2提问，但本实施方式并不限定于此。例如也可以是服务器1无论有无其他使用者的消息，均在每个固定期间将第1及第2提问输出到扬声器终端3并受理回答的输入。在该情况下，服务器1只要预先将提问用的图像(在上述的例子中为孙子的图像)等准备到数据库中、并使用该图像等生成第1及第2提问即可。像这样，也可以是无论有无来自其他使用者的消息均输出第1及第2提问。
139.基于以上，根据本实施方式2，通过进行基于语音的第1提问和基于文本的第2提问，能够良好地推断脑功能障碍的可能性。
140.另外，根据本实施方式2，能够基于针对各提问的回答的正误组合，推断脑功能障碍的种类(优选的是失语症及认知症)。
141.另外，根据本实施方式2，通过将回答的选择项显示于扬声器终端3，并通过画面操作受理回答的输入，即使在由于脑功能障碍而识别能力降低的情况下，也能够良好地敦促输入回答。
142.另外，根据本实施方式2，在从对象人员的对话语音检测到异常部位的情况下开始提问。由此，能够尽早发现脑功能障碍。
143.另外，根据本实施方式2，从作为对象人员的对话对方的其他使用者的消息生成第1及第2提问。由此，能够进行与对象人员相应的提问。
144.另外，根据本实施方式2，除了回答自身以外，还基于回答时的对象人员的图像及/或回答时间推断脑功能障碍的可能性。由此，能够检测发生了脑梗塞等的状态(面部的左右的不对称性)或者回答为难的状态，从而能够更良好地推断脑功能障碍的可能性。
145.本次公开的实施方式在所有的方面均是例示，应被认为并不是限制性的。本发明的范围并不是上述的意思，而由权利要求书示出，意图包含与权利要求书均等的意思以及范围内的所有变更。
146.附图标记说明
147.1服务器(信息处理装置)
148.11控制部
149.12主存储部
150.13通信部
151.14辅助存储部
152.p1程序
153.141回答历史db
154.2移动终端
155.21控制部
156.22主存储部
157.23通信部
158.24显示部
159.25输入部
160.26语音输出部
161.27语音输入部
162.28拍摄部
163.29辅助存储部
164.p2程序
165.3扬声器终端
166.31控制部
167.32主存储部
168.33通信部
169.34显示部
170.35输入部
171.36语音输出部
172.37语音输入部
173.38拍摄部
174.39辅助存储部
175.p3程序。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：本间康之前田直之内田贵之
技术所有人：泰尔茂株式会社
我是此专利的发明人

上一篇：一种金属矿中有价金属的生物浸出方法与流程
上一篇：地面大口径钻井保直防斜钻具组合的制作方法