专利名称:信息处理装置、信息处理方法和程序的制作方法
技术领域:
本发明涉及信息处理装置、信息处理方法和程序。
背景技术:
近年来,使用被称作EPG(电子节目指南)的电子节目表的系统已投入广泛使用, 该电子节目表由与广播节目有关的元数据构成。例如,EPG信息是通过从广播电台与广播波一起发送来被提供的。EPG信息还经由因特网被提供。通过使用以这种方式提供的EPG 信息,在诸如电视接收机、移动电话和PC(个人计算机)之类的装置中,实现了诸如将频道改变到由用户在EPG上指定的节目以及预约由用户在EPG上选择的节目以供记录之类的功能。还在数字记录装置中实现了这样的功能使用被包括在EPG信息中的各种信息来自动指定并记录用户可能希望观赏的节目。EPG信息是由与多个节目有关的节目信息构成的。多个字段被包括在与一个节目有关的信息中。作为一个示例,示出节目标题的字段、示出节目的广播时间的字段、其中写入了示出节目内容摘要的文本的字段以及其中列出了节目的演出成员(cast member)的字段被包括。注意,对于本说明书而言,表述“演出成员”包括在所广播的节目或电影中出现的任何人,比如演员、主持人、新闻广播员、客串演员、乐队或音乐演奏者或者喜剧表演者。在上述字段中,设置在EPG信息中用于诸如节目标题和广播开始时间之类的特定信息的字段被预先决定。另一方面,设置在EPG信息中用于节目的演出成员、给出节目的摘要的文本等的字段不被决定。这意味着为了指定其中特定人员出现的节目,必须首先指定其中列出了演出成员的字段。作为一个示例,日本特开专利公开No. 2009-60567公开了一种信息处理装置,其对EPG信息执行形态分析(morphological analysis)并且将分析结果与指定的演出成员姓名列表图进行比较以有效地提取出关于节目的演出成员的信息。作为另一示例,日本特开专利公开No. H11-164223公开了一种信息处理装置,其生成其中识别代码通过由操作者执行的动作而被附加到EPG信息的数据以实现对所希望信息的识别。
发明内容
在公开No. 2009-60567中所公开的装置中,用作用以提取所希望信息的条件的列表图被预先登记。就在公开No.Hll-164223中所公开的装置而言,识别代码通过操作者的动作被指派给操作。即,就在公开No. 2009-60567中所公开的装置而言,存在必须预先调查在先知识(priorknowledge)的问题,这是麻烦且耗时的。具体地,因为该在先知识随语言的不同而不同,所以必须针对每种语言调查不同的在先知识。就在公开No.Hll-164223中所公开的装置而言,是操作者来判断信息内容的,从而产生对能够自动作出这样的判断的装置的需求。在考虑到上述问题的情况下构思了本发明,并且本发明致力于提供一种能够在不使用在先知识的情况下指定EPG中的其中列出了演出成员姓名的字段的新颖且改进的信息处理装置、信息处理方法和程序。根据本发明的实施例,提供了一种信息处理装置,包括获取单元,从被包括在电子节目指南信息中的节目信息中的多个字段中顺次指定要处理的字段,并且获取被包括在每个所指定字段中的字符串(characterstring);分析单元,分析由获取单元获取的字符串,并且输出将字符串划分为多个单位的分析结果;序列生成单元,基于由分析单元输出的分析结果,针对每个字段生成与各单位的字符串长度相对应的序列;离散值计算单元,针对每个字段计算示出序列中各项的值的量值(magnitude)的离散程度的离散值;以及指定单元,基于由离散值计算单元算出的离散值,针对每个节目从多个字段中指定其中列出了演出成员姓名的演出成员字段。根据上述配置,该信息处理装置能够从EPG信息中的作为关于某一节目的信息的节目信息中所包括的多个字段中,指定其中列出了演出成员姓名的演出成员字段。当这样做时,与通过划分被包括在字段中的字符串而产生的各单位的字符串长度相对应的序列被生成,并且针对序列中各项的值具有最小离散值的字段被指定为演出成员字段。该指定方法具有这样的效果与指定演出成员字段的现有方法不同的,能够在不使用在先知识的情况下指定演出成员字段。此外,就通过与在先知识进行匹配来指定演出成员字段的现有技术而言,当在多个字段中给出了演出成员列表时,所有这样的字段都将被提取出来。例如, 当演出成员列表被包括在节目信息中的节目摘要字段的文本中并且单独的演出成员字段被包括在节目信息中时,现有方法将提取出这样的字段二者。另一方面,根据本发明实施例的信息处理装置能够指定这样的字段中的具有最小离散值的字段作为单个演出成员字段。分析单元可以分析由获取单元获取的字符串,根据指定的分类标准将被包括在字符串中的各字符分类为有意义字符和无意义字符,并且输出分类结果作为分析结果,并且序列生成单元可以利用分析结果来计算示出字符串中的无意义字符的位置信息的序列的差分序列,以生成与各单位的字符串长度相对应的序列。获取单元可以判断从字段获取的字符串的大小是否落入指定的字段长度范围内, 并且当长度落入该字段长度范围内时可操作用于将从所述字段获取的字符串输入到分析单元中。指定单元可以指定作为在针对每个字段计算出的离散值中的最小值的最小离散值,并且指定具有该最小离散值的字段作为演出成员字段。指定单元可以指定作为在针对每个字段计算出的离散值中的最小值的最小离散值,并且当该最小离散值小于指定的判断阈值时可操作用于指定具有该最小离散值的字段作为演出成员字段。指定单元可以输出示出对演出成员字段的指定是否成功的成功/失败信息,并且信息处理装置还可以包括反馈控制单元,该反馈控制单元基于由指定单元输出的成功/失败信息来调节判断阈值的值。在从多个字段中指定了其中列出了演出成员姓名的演出成员字段之后,指定单元可以计算并存储演出成员姓名平均长度,并且基于所存储的演出成员姓名平均长度来指定演出成员字段,演出成员姓名平均长度是被包括在被指定为演出成员字段的字段的序列中的值的平均值。根据本发明的另一实施例,提供了一种用于信息处理装置的信息处理方法,该信息处理装置从被包括在电子节目指南信息中的节目信息中的多个字段中指定其中列出了演出成员姓名的演出成员字段,该方法包括以下步骤从被包括在电子节目指南信息中的节目信息中的多个字段中顺次指定要处理的字段,并且获取被包括在每个所指定字段中的字符串;分析所获取的字符串,并且输出将字符串划分为多个单位的分析结果;基于所输出的分析结果,针对每个字段生成与所述单位的字符串长度相对应的序列;针对每个字段计算示出序列中各项的值的量值的离散程度的离散值;以及基于离散值,针对每个节目从多个字段中指定其中列出了演出成员姓名的演出成员字段。根据本发明的另一实施例,提供了一种用于致使计算机执行以下处理的程序从被包括在电子节目指南信息中的节目信息中的多个字段中顺次指定要处理的字段并且获取被包括在每个所指定字段中的字符串的处理;分析所获取的字符串并且输出将所述字符串划分为多个单位的分析结果的处理;基于所输出的分析结果针对每个字段生成与所述单位的字符串长度相对应的序列的处理;针对每个字段计算示出序列中各项的值的量值的离散程度的离散值的处理;以及基于离散值针对每个节目从多个字段中指定其中列出了演出成员姓名的演出成员字段的处理。根据上述本发明的实施例,能够在不使用在先知识的情况下从EPG中指定其中列出了演出成员姓名的字段。
图1是示出根据本发明第一实施例的信息处理装置的功能框图;图2是示出根据第一实施例的信息处理装置的操作的流程图;图3是示出被包括在EPG信息中的节目信息的示例的示图;图4是示出根据本发明第二实施例的信息处理装置的功能框图;图5是示出根据第二实施例的信息处理装置的操作的流程图;以及图6是示出根据第二实施例的信息处理装置的反馈处理操作的流程图。
具体实施例方式以下,将参考附图详细描述本发明的优选实施例。注意,在本说明书和附图中,用相同的标号来表示具有实质上相同功能和结构的结构元件,并且省略对这些结构元件的重复说明。按照以下指示出的顺序来描述本发明的实施例。1.第一实施例2.第二实施例(包括反馈控制的示例)1.第一实施例功能配置首先,将参考图1来描述根据本发明第一实施例的信息处理装置的功能配置。图 1是根据本发明第一实施例的信息处理装置的功能框图。 根据本实施例的信息处理装置100具有如下功能获得EPG信息,并从EPG信息中所包括的与节目相关联的各个字段中指定其中列出了演出成员姓名的演出成员字段。信息处理装置100可以是多种装置,比如PC、电视机、移动电话和PDA。
为了实现上述功能,信息处理装置100主要包括获取单元102、分析单元104、序列生成单元106、离散值(variance value)计算单元108和指定单元110。获取单元102包括这样的功能获取EPG信息,从EPG信息中所包括的多个字段中顺次指定要处理的字段,并且获取所指定字段中所包括的字符串。获取单元102将所获取的字符串输入到分析单元104中。这里,获取单元102判断从字段中获取的字符串的大小是否落入指定的字段长度范围内,并且当所获取的字符串落入所指定的字段长度范围内时,从该字段获取的字符串可被输入到分析单元104中。这里使用的字段长度范围可以根据经验基于可能由演出成员字段(其中列出了演出成员姓名)的大小所占用的值的范围来预先决定。作为示例,所获取的字符串的大小和字段长度范围可以根据字符串长度而被比较或者可以根据数据大小而被比较。通过这种配置,包括长度显然过长以致不便作为被包括在演出成员字段中的字符串的字符串的字段不被处理。通过这样做,由分析、计算离散值等所花费的时间被缩短。分析单元104具有这样的功能分析由获取单元102获取的字符串,并且输出将字符串划分为多个单元的分析结果。作为一个示例,分析单元104对由获取单元102获取的字符串执行形态分析,并且根据指定的分类标准将在所获取字符串中包括的各字符分类为有意义字符和无意义字符。分类结果然后作为分析结果被输入到序列生成单元106中。作为分类标准的一个示例,九个字符(即.,;()“”!)被设定为无意义字符并且除这些无意义字符之外的所有字符被视为有意义字符。作为一个示例,分析单元104用值1替换所获取的字符串中包括的被分类为了有意义字符的字符,并且用值0替换所获取的字符串中包括的被分类为了无意义字符的字符。作为一个示例,考虑其中由获取单元102获取了如下字符串的情况。“(Cast) Snowmobiles, MaryLou, RickyK,Wednesdays, Obsessives,Bite,Sinbads,,在这种情况下,根据以上给出的分类标准进行分类的结果被用如下所示的1和0 表示。分析单元104将该分类结果作为分析结果输入到序列生成单元106中。001111011111111111011111110111111011111111110111111111101111011111110序列生成单元106具有这样的功能基于由分析单元104输入的分析结果,针对每个字段生成与各单位的字符串长度相对应的序列。例如,序列生成单元106使用从分析单元104输入的分析结果来生成示出在由获取单元102获取的字符串中无意义字符的位置信息的序列。序列生成单元106然后计算示出无意义字符的位置信息的序列的差分序列,以生成其各项是与各单位的字符串长度相对应的数值的序列。针对以上给出的示例更详细地说,序列生成单元106将示出从分析单元104输入的以下分析结果中的0的位置的值转换为序列。001111011111111111011111110111111011111111110111111111101111011111110也就是,在将第一位置设定为0位置的情况下,序数被依次指派,并且使得被指派给由0构成的要素的序数值作为序列中的项的序列被生成。当针对上述示例的分析结果被转换为序列时,如下给出的序列被产生。{0,1,6,18,26,33,44,55,60,68}此后,序列生成单元106计算从示出0的位置的值获得的序列的差分序列。针对上述示例的差分序列被如下给出。
{1,5,12,8,7,11,11,5,8}在所获得的差分序列中包括的值实际上与通过划分字段中的字符串而获得的单位字符串长度不相匹配。例如,在以上给出的示例差分序列中的第四个值“8”对应于 “MaryLou”。被表示为“MaryLou”的实际单位字符串长度是7。虽然显然能够从通过计算差分序列而获得的每个值减去1来将结果设定在各字符串长度处,但是以上给出的值被使用,因为这里关键的不是字符串长度本身的值而是由这样的值的量值所呈现出的离散程度。通过计算差分序列而获得的值是随各单位的字符串长度而增大和减小的值。各单位的字符串长度是以上给出的分析结果中连续的1的数目。因此,为了获得与各单位的字符串长度相对应的序列,能够对连续的1的数目进行计数。然而,因为根据本实施例的从示出0的位置的值生成序列并且计算所生成序列的差分序列的方法能够通过简单计算来实现,所以存在处理速度高的效果。离散值计算单元108具有这样的功能针对每个字段,计算示出在由序列生成单元106生成的序列中与各单位的字符串长度相对应的各项的值的量值的离散程度的离散值。也就是,离散值计算单元108计算示出通过根据分析单元104的分析结果划分由获取单元102所指定的字段中包括的字符串而产生的多个单位的各字符串长度的量值的离散程度的离散值。离散值可以是示出那些值的量值的离散程度的任何值,然而在本实施例中, 利用如下的等式(1)计算常用的标准差ο。这里,η是差分序列中的项的总数,Xi是差分序列中的第i个要素,并且Z是从i = 1到η的χ i的平均。一=丄1(不-无)2等式⑴
权利要求
1.一种信息处理装置,包括获取单元,从被包括在电子节目指南信息中的节目信息中的多个字段中顺次指定要处理的字段,并且获取被包括在每个所指定字段中的字符串;分析单元,分析由所述获取单元获取的所述字符串,并且输出将所述字符串划分为多个单位的分析结果;序列生成单元,基于由所述分析单元输出的所述分析结果,针对每个字段生成与所述单位的字符串长度相对应的序列;离散值计算单元,针对每个字段计算示出所述序列中各项的值的量值的离散程度的离散值;以及指定单元,基于由所述离散值计算单元算出的所述离散值,针对每个节目从所述多个字段中指定其中列出了演出成员姓名的演出成员字段。
2.根据权利要求1所述的信息处理装置,其中,所述分析单元分析由所述获取单元获取的所述字符串,根据指定的分类标准将被包括在所述字符串中的各字符分类为有意义字符和无意义字符,并且输出分类结果作为所述分析结果,并且所述序列生成单元利用所述分析结果来计算示出所述字符串中的无意义字符的位置信息的序列的差分序列,以生成与所述单位的字符串长度相对应的所述序列。
3.根据权利要求1所述的信息处理装置,其中,所述获取单元判断从字段获取的字符串的大小是否落入指定的字段长度范围内,并且当长度落入所述字段长度范围内时可操作用于将从所述字段获取的字符串输入到所述分析单元中。
4.根据权利要求1所述的信息处理装置,其中,所述指定单元指定作为在针对每个字段计算出的离散值中的最小值的最小离散值,并且指定具有该最小离散值的字段作为所述演出成员字段。
5.根据权利要求1所述的信息处理装置,其中,所述指定单元指定作为在针对每个字段计算出的离散值中的最小值的最小离散值,并且当该最小离散值小于指定的判断阈值时可操作用于指定具有该最小离散值的字段作为所述演出成员字段。
6.根据权利要求5所述的信息处理装置,其中,所述指定单元输出示出对演出成员字段的指定是否成功的成功/失败信息,并且所述信息处理装置还包括反馈控制单元,该反馈控制单元基于由所述指定单元输出的成功/失败信息来调节所述判断阈值的值。
7.根据权利要求1所述的信息处理装置,其中,在从所述多个字段中指定了其中列出了演出成员姓名的所述演出成员字段之后,所述指定单元计算并存储演出成员姓名平均长度,并且基于所存储的演出成员姓名平均长度来指定所述演出成员字段,所述演出成员姓名平均长度是被包括在被指定为所述演出成员字段的字段的序列中的值的平均值。
8.一种用于信息处理装置的信息处理方法,该信息处理装置从被包括在电子节目指南信息中的节目信息中的多个字段中指定其中列出了演出成员姓名的演出成员字段,该方法包括以下步骤从被包括在电子节目指南信息中的节目信息中的多个字段中顺次指定要处理的字段, 并且获取被包括在每个所指定字段中的字符串;分析所获取的字符串,并且输出将所述字符串划分为多个单位的分析结果; 基于所输出的分析结果,针对每个字段生成与所述单位的字符串长度相对应的序列; 针对每个字段计算示出所述序列中各项的值的量值的离散程度的离散值;以及基于所述离散值,针对每个节目从所述多个字段中指定其中列出了演出成员姓名的演出成员字段。
9. 一种用于致使计算机执行以下处理的程序从被包括在电子节目指南信息中的节目信息中的多个字段中顺次指定要处理的字段并且获取被包括在每个所指定字段中的字符串的处理;分析所获取的字符串并且输出将所述字符串划分为多个单位的分析结果的处理; 基于所输出的分析结果针对每个字段生成与所述单位的字符串长度相对应的序列的处理;针对每个字段计算示出所述序列中各项的值的量值的离散程度的离散值的处理;以及基于所述离散值针对每个节目从所述多个字段中指定其中列出了演出成员姓名的演出成员字段的处理。
全文摘要
本发明提供了信息处理装置、信息处理方法和程序。信息处理装置包括获取单元,从被包括在电子节目指南信息中的节目信息中的多个字段中顺次指定要处理的字段,并且获取被包括在每个所指定字段中的字符串;分析单元,分析所获取的字符串,并且输出将所述字符串划分为多个单位的分析结果;序列生成单元,基于所输出的分析结果,针对每个字段生成与所述单位的字符串长度相对应的序列;离散值计算单元,针对每个字段计算示出所述序列中各项的值的量值的离散程度的离散值;以及指定单元,基于所算出的离散值,针对每个节目从所述多个字段中指定其中列出了演出成员姓名的演出成员字段。
文档编号H04N5/445GK102164256SQ20111003144
公开日2011年8月24日 申请日期2011年1月26日 优先权日2010年2月2日
发明者上前田直树, 南拙至 申请人:索尼公司