一种影视剧本人物名称的提取方法和装置与流程

文档序号:14036899阅读:1774来源:国知局

本发明涉及文学领域,特别涉及一种影视剧本人物名称的提取方法和装置。



背景技术:

影视剧本的分析评估中涉及到对人物分析,人物名称分散在剧本内容中,常见的剧本中可能包括中文姓名、汉语译名,外文名、称呼名、省略名等,目前剧本中的人物提取主要通过人工阅读做记录来提取,这种提取方式存在以下弊端:

a.影视剧本中人物一般较多,人工阅读可能会出现遗漏。

b.对于英译名、外文名可能识别不全,或记录错误。

c.称呼名、省略名可能跟姓名指的是一个人,人工识别困难。



技术实现要素:

本发明提供一种影视剧本人物名称的提取方法和装置,可以解决背景技术中所指出的问题。

一种影视剧本人物名称的提取方法,包括如下步骤:

s1,建立姓名词典,所述姓名词典包括中文姓氏、汉译名姓氏、外语姓氏、称呼用字和省略用字;

s2,建立非姓名词典,所述非姓名词典包括非姓名的词汇;

s3,将剧本文字的内容中包含中英文冒号的文本行放到列表l1中,将不包含中英文冒号的文本行放到列表l2中;

s4,逐行处理列表l1:

s4-1:获取中英文冒号前的内容;

s4-2:将获取到的内容去除前后空格后,判断字符串长度;

s4-3:当长度小于4个字符时,将所述字符串放到列表l3中,逐行读取列表l3中的字符串,并获取词的首字,如果首字不在s1定义的词典中,则将该词从l3中移除;

s4-4:当长度为4个以上字符时,使用自然语言处理中的中文分词技术对获取到的字符串进行分词处理,将词性为人名、职业或职务名称的词放到l4中;

s4-5:将l4中存在且l3中不存在的词添加到l3中;

s5,逐行处理列表l2;

s5-1:获取l2一行内容,去除前后空格并获得字符串;

s5-2:使用自然语言处理中的中文分词技术对s5-1中的字符串进行分词处理,将词性为人名,职业,职务名称的词放到l5中;

s5-3:将l5中存在且l3中不存在的词添加到l3中;

s6,逐行处理列表l3,从l3中移除s2中非姓名的词汇,l3中剩下的词即为从剧本中识别出的人物名称。

更优地,该方法还包括:

s7,将s6中处理后的l3列表中的词汇标注为非姓名词汇并添加至s2中的非姓名词典中。

一种影视剧本人物名称的提取装置,包括:

姓名字典模块,用于储存中文姓氏、汉译名姓氏、外语姓氏、称呼用字和省略用字;

非姓名字典模块,用于储存非姓名的词汇;

分离模块,用于将剧本内容中包含中英文冒号的文本行和不包含中英文冒号的文本行进行分离;

第一存储模块,用于储存所述分离模块分离后的包含中英文冒号的文本行;

第二存储模块,用于储存所述分离模块分离后的不包含中英文冒号的文本行;

处理模块,用于分别处理第一存储模块和第二存储模块中的文本行;当处理第一存储模块中文本行时:首先,获取中英文冒号前的内容,将获取到的内容去除前后空格后,判断字符串长度;当长度小于4个字符时,将字符串放到第三存储模块中并逐行读取以获取字符串的首字,如果首字不在姓名词典中,则将该词从第三存储模块中移除;当长度为4个以上字符时,使用自然语言处理中的中文分词技术对获取到的字符串进行分词处理,将词性为人名、职业或职务名称的词放到第四存储模块中;将第四存储器中存在,且第三存储器中不存在的词添加到第三存储器中;当处理第一存储模块中文本行时:首先,获取第二存储器中的文本行,去除前后空格并获得字符串;使用自然语言处理中的中文分词技术对第二存储器中去除前后空格后的字符串进行分词处理,将词性为人名、职业或职务名称的词放到第五存储器中;将第五存储器中存在且第三存储器中不存在的词添加到第三存储器中;

提取模块,用于逐行处理第三存储器中的字符串,从第三存储器中移除与非姓名词典中相同的词汇。

更优地,该装置还包括纠偏模块,用于将提取模块处理后的第三存储器中的词汇标注为非姓名词汇并添加至非姓名词典模块中。

本发明提供一种影视剧本人物名称的提取方法和装置,通过建立姓名字典,将剧本内容进行分词处理后,通过与姓名字典对照以提取人物名称。使用本发明的方法大大加快了人物识别和记录的速度,节约了人工识别的时间,还可用于影视剧本中主角、重要人物的识别。

具体实施方式

对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。

本发明实施例提供的一种影视剧本人物名称的提取方法,包括如下步骤:

s1,建立姓名词典,所述姓名词典包括中文姓氏、汉译名姓氏、外语姓氏、称呼用字和省略用字;

s2,建立非姓名词典,所述非姓名词典包括非姓名的词汇;

s3,将剧本文字的内容中包含中英文冒号的文本行放到列表l1中,将不包含中英文冒号的文本行放到列表l2中;

s4,逐行处理列表l1:

s4-1:获取中英文冒号前的内容;

s4-2:将获取到的内容去除前后空格后,判断字符串长度;

s4-3:当长度小于4个字符时,将所述字符串放到列表l3中,逐行读取列表l3中的字符串,并获取词的首字,如果首字不在s1定义的词典中,则将该词从l3中移除;

s4-4:当长度为4个以上字符时,使用自然语言处理中的中文分词技术对获取到的字符串进行分词处理,将词性为人名、职业或职务名称的词放到l4中;

s4-5:将l4中存在且l3中不存在的词添加到l3中;

s5,逐行处理列表l2;

s5-1:获取l2一行内容,去除前后空格并获得字符串;

s5-2:使用自然语言处理中的中文分词技术对s5-1中的字符串进行分词处理,将词性为人名,职业,职务名称的词放到l5中;

s5-3:将l5中存在且l3中不存在的词添加到l3中;

s6,逐行处理列表l3,从l3中移除s2中非姓名的词汇,l3中剩下的词即为从剧本中识别出的人物名称。

为了实现机器学习,提高容错率,该方法还包括:

s7,将s6中处理后的l3列表中的词汇标注为非姓名词汇并添加至s2中的非姓名词典中。

一种影视剧本人物名称的提取装置,包括:

姓名字典模块,用于储存中文姓氏、汉译名姓氏、外语姓氏、称呼用字和省略用字;

非姓名字典模块,用于储存非姓名的词汇;

分离模块,用于将剧本内容中包含中英文冒号的文本行和不包含中英文冒号的文本行进行分离;

第一存储模块,用于储存所述分离模块分离后的包含中英文冒号的文本行;

第二存储模块,用于储存所述分离模块分离后的不包含中英文冒号的文本行;

处理模块,用于分别处理第一存储模块和第二存储模块中的文本行;当处理第一存储模块中文本行时:首先,获取中英文冒号前的内容,将获取到的内容去除前后空格后,判断字符串长度;当长度小于4个字符时,将字符串放到第三存储模块中并逐行读取以获取字符串的首字,如果首字不在姓名词典中,则将该词从第三存储模块中移除;当长度为4个以上字符时,使用自然语言处理中的中文分词技术对获取到的字符串进行分词处理,将词性为人名、职业或职务名称的词放到第四存储模块中;将第四存储器中存在,且第三存储器中不存在的词添加到第三存储器中;当处理第一存储模块中文本行时:首先,获取第二存储器中的文本行,去除前后空格并获得字符串;使用自然语言处理中的中文分词技术对第二存储器中去除前后空格后的字符串进行分词处理,将词性为人名、职业或职务名称的词放到第五存储器中;将第五存储器中存在且第三存储器中不存在的词添加到第三存储器中;

提取模块,用于逐行处理第三存储器中的字符串,从第三存储器中移除与非姓名词典中相同的词汇。

为了实现机器学习,提高容错率,该装置还包括纠偏模块,用于将提取模块处理后的第三存储器中的词汇标注为非姓名词汇并添加至非姓名词典模块中。

本发明提供一种影视剧本人物名称的提取方法和装置,通过建立姓名字典,将剧本内容进行分词处理后,通过与姓名字典对照以提取人物名称。使用本发明的方法大大加快了人物识别和记录的速度,节约了人工识别的时间,还可用于影视剧本中主角、重要人物的识别。

以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1