一种外语的音译方法及装置与流程

文档序号：13249556阅读：295来源：国知局

技术领域本公开涉及语言处理技术领域，尤其涉及一种外语的音译方法及装置。

背景技术：
目前，多种外语越来越多的出现在人们的日常生活和工作中。例如许多动听的外语歌曲流入国内，歌曲的语言涉及到英文、日文和韩文等多种语言，或者，随着经济发展，越来越多的人会去各国旅游，从而接触到多种外语。但是，大部分人并不能熟练掌握各种外语，从而出现面对各种外语时，由于不知道外语的读音，从而无法进行语言表达的问题。例如，在国外旅游时，往往出现问路、点菜等需要外语沟通的场景，这种情况下，游客如果不能掌握外语，则会出现即使携带有外语字典，但无法读出读音，从而无法沟通的问题。

技术实现要素：
为克服相关技术中存在的问题，本公开提供一种外语的音译方法及装置。为了解决上述技术问题，本发明实施例公开了如下技术方案：根据本公开实施例的第一方面，提供一种外语的音译方法，包括：在获取需要音译的音译文件后，获取所述音译文件相对应的音标，其中，所述音译文件中每个字的音标构成一个音标字符串；根据音标正则表达式，将所述音标字符串分割成多个子字符串，其中，每个子字符串对应一个音标发音；根据音标发音与目标语言的对应关系，获取与所述各个子字符串的发音相对应的目标语言。结合第一方面，在第一方面第一种可能的实现方式中，所述外语的音译方法还包括：在获取与所述各个子字符串的发音相对应的目标语言后，根据所述音译文件的节拍分隔与所述各个子字符串的发音相对应的目标语言。结合第一方面第一种可能的实现方式，在第一方面第二种可能的实现方式中，在根据音标正则表达式，将所述音标字符串分割成多个子字符串之前，还包括：根据所述音译文件的语言类型，确定所述音译文件的音标规则；根据所述音标规则，绘制相应的确定有限自动机DFA转换图；根据所述确定有限自动机DFA转换图，获取相应的音标正则表达式。结合第一方面，或者结合第一方面第一种可能的实现方式，或者结合第一方面第二种可能的实现方式，在第一方面第三种可能的实现方式中，若所述音译文件为英文文件，所述音标正则表达式为：η＝an|bman；其中，η表示一个音标发音，a表示一个元音音标，b表示一个辅音音标，m和n为大于0的正整数。结合第一方面，在第一方面第四种可能的实现方式中，所述根据音标正则表达式，将所述音标字符串分割成多个子字符串，包括：51)确定当前待处理音标集合，其中，所述当前待处理音标集合为所述音标字符串中的第一个音标；52)判断所述当前待处理音标集合是否符合所述音标正则表达式，若不符合，执行步骤53)的操作，若符合，执行步骤54)的操作；53)设定所述当前待处理音标集合中的最后一个音标为所述音标字符串中的第k个音标，将所述当前待处理音标集合中的前k-1个音标作为子字符串，从所述音标字符串中分割出去，并设定剩余的音标字符串中的第一个音标为当前待处理音标，所述剩余的音标字符串为新的音标字符串，并返回执行步骤52)的操作；54)设定所述当前待处理音标集合为所述音标字符串中的第k个音标，判断k是否等于s，若等于，执行步骤55)的操作，若不等于，执行步骤56)的操作，其中，s表示所述音标字符串中音标的个数；55)确定所述当前待处理音标集合为一个子字符串，结束本次分割；56)将所述音标字符串中的前k+1个音标构建成当前待处理音标集合，并返回执行步骤52)的操作。根据本公开实施例的第二方面，提供一种外语的音译装置，包括：翻译模块，用于在获取需要音译的音译文件后，获取所述音译文件相对应的音标，其中，所述音译文件中每个字的音标构成一个音标字符串；分割模块，用于根据音标正则表达式，将所述音标字符串分割成多个子字符串，其中，每个子字符串对应一个音标发音；目标语言获取模块，用于根据音标发音与目标语言的对应关系，获取与所述各个子字符串的发音相对应的目标语言。结合第二方面，在第二方面第一种可能的实现方式中，所述外语的音译装置还包括：分隔模块，用于在获取与所述各个子字符串的发音相对应的目标语言后，根据所述音译文件的节拍分隔与所述各个子字符串的发音相对应的目标语言。结合第二方面第一种可能的实现方式，在第二方面第二种可能的实现方式中，所述外语的音译装置还包括：音标正则表达式获取模块，用于根据所述音译文件的语言类型，确定所述音译文件的音标规则，根据所述音标规则，绘制相应的确定有限自动机DFA转换图，并根据所述确定有限自动机DFA转换图，获取相应的音标正则表达式。结合第二方面，或者结合第二方面第一种可能的实现方式，或者结合第二方面第二种可能的实现方式，在第二方面第三种可能的实现方式中，若所述音译文件为英文文件，所述音标正则表达式为：η＝an|bman；其中，η表示一个音标发音，a表示一个元音音标，b表示一个辅音音标，m和n为大于0的正整数。结合第二方面，在第二方面第四种可能的实现方式中，所述分割模块包括：确定单元、判断单元、第一处理单元、第二处理单元、子字符串确定单元和构建单元，其中，所述确定单元用于确定当前待处理音标集合，其中，所述当前待处理音标集合为所述音标字符串中的第一个音标；所述判断单元用于判断所述当前待处理音标集合是否符合所述音标正则表达式，若不符合，由所述第一处理单元执行相应的操作，若符合，由所述第二处理单元执行相应的操作；所述第一处理单元用于设定所述当前待处理音标集合中的最后一个音标为所述音标字符串中的第k个音标，将所述当前待处理音标集合中的前k-1个音标作为子字符串，从所述音标字符串中分割出去，并设定剩余的音标字符串中的第一个音标为当前待处理音标，所述剩余的音标字符串为新的音标字符串，并将新的音标字符串传输给所述判断单元，由所述判断单元执行相应的操作；所述第二处理单元用于设定所述当前待处理音标集合为所述音标字符串中的第k个音标，判断k是否等于s，若等于，由所述子字符串确定单元执行相应的操作，若不等于，由所述构建单元执行相应的操作，其中，s表示所述音标字符串中音标的个数；所述子字符串确定单元用于确定所述当前待处理音标集合为一个子字符串，结束本次分割；所述构建单元用于将所述音标字符串中的前k+1个音标构建成当前待处理音标集合，并由判断单元获取所述当前待处理音标集合，执行相应的操作。本公开的实施例提供的技术方案可以包括以下有益效果：通过本申请，能够将各种外语形式的音译文件的发音转换成相对应的目标语言，通过目标语言，能够方便获知音译文件的发音，从而解决了现有技术中存在的，在面对外语时，由于不知道外语的读音，从而无法进行语言表达的问题。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。图1是根据一示例性实施例示出的一种外语的音译方法的工作流程示意图；图2是根据一示例性实施例示出的又一种外语的音译方法的工作流程示意图；图3是根据一示例性实施例示出的又一种外语的音译方法的工作流程示意图；图4是根据一示例性实施例示出的一种外语的音译方法中，DFA转换图的示意图；图5是根据一示例性实施例示出的一种外语的音译方法中，音标发音与目标语言的对应关系示意图；图6是根据一示例性实施例示出的一种外语的音译装置的结构示意图。具体实施方式这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。为了解决现有技术中存在的，在面对外语时，由于不知道外语的读音，从而无法进行语言表达的问题，本申请公开了一种外语的音译方法。图1是根据一示例性实施例示出的外语的音译方法的工作流程示意图，该方法包括：步骤S11、在获取需要音译的音译文件后，获取所述音译文件相对应的音标，其中，所述音译文件中每个字的音标构成一个音标字符串。其中，所述音译文件包括多种形式的语言，如英语、日语和法语等，本申请对此不作限定。另外，若所述音译文件为英语，所述音译文件中的一个字指的是一个英文单词。步骤S12、根据音标正则表达式，将所述音标字符串分割成多个子字符串，其中，每个子字符串对应一个音标发音。正则表达式是使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。本申请中，所述音标正则表达式的含义为构建一个音标发音的字符串。步骤S13、根据音标发音与目标语言的对应关系，获取与所述各个子字符串的发音相对应的目标语言。本申请中，预先获取音标发音与目标语言的对应关系，在获取到各个子字符串后，将所述子字符串的音标发音与所述目标语言相匹配，即可获取各个子字符串的发音相对应的目标语言。其中，所述目标语言为不同于所述音译文件的一种语言。例如，若所述音译文件为英文，而用户只熟悉中文时，所述目标语言可设置为中文，这种情况下，通过步骤S13的操作，可获取英文的音译文件所对应的中文。本申请的步骤S11至步骤S13公开一种外语的音译方法，该方法中，首先在获取需要音译的音译文件后，获取所述音译文件相对应的音标，其中，所述音译文件中每个字的音标构成一个音标字符串，然后根据音标正则表达式，将所述音标字符串分割成多个子字符串，再根据音标发音与目标语言的对应关系，获取与所述各个子字符串的发音相对应的目标语言。通过该方法，能够将外语形式的音译文件的发音转换成相对应的目标语言，以便通过目标语言，获知音译文件的发音，从而解决了现有技术中存在的，在面对外语时，由于不知道外语的读音，从而无法进行语言表达的问题。进一步的，本申请公开的所述外语的音译方法还包括：在获取与所述各个子字符串的发音相对应的目标语言后，根据所述音译文件的节拍分隔与所述各个子字符串的发音相对应的目标语言。有些音译文件具有相应的节奏，如歌曲。用户有时会遇到喜欢的外语歌曲，但由于没有掌握该门外语，往往想唱却不知道如何发音，节奏感也跟不上。这种情况下，本申请公开的外语的音译方法还包括根据歌曲的节拍间隔译音的步骤。该步骤中，在获取与所述各个子字符串对应的目标语言的读音后，还根据歌曲相应的节拍，按照节拍分隔所述目标语言的读音，从而使读音的分布具有节奏感，满足用户唱歌的需求。其中，所述音译文件的节拍可通过多种方式获取，在其中一种方式中，所述节拍可由用户输入，另外，若所述音译文件为歌词，所述音译文件的节拍可以通过歌曲的简谱获取。另外，参见图2所示的工作流程示意图，在根据音标正则表达式，将所述音标字符串分割成多个子字符串之前，本申请公开的外语的音译方法还包括：步骤S21、根据所述音译文件的语言类型，确定所述音译文件的音标规则。例如，若所述音译文件的语言类型为英语，则所述音标规则为：元音+元音＝元音，辅音+辅音＝辅音。步骤S22、根据所述音标规则，绘制相应的确定有限自动机DFA转换图。其中，DFA(deterministicfiniteautomaton，确定有限状态自动机或确定有限自动机)为一个能实现状态转移的自动机。步骤S23、根据所述确定有限自动机DFA转换图，获取相应的音标正则表达式。通过步骤S21至步骤S23的操作，能够获取音标正则表达式，以便在后续过程中，根据所述音标正则表达式，实现对音标字符串的分割。所述音译文件的语言类型为不同形式时，所述音标正则表达式也不同。若所述音译文件为英文文件，所述音标正则表达式为：η＝an|bman；其中，η表示一个音标发音，a表示一个元音音标，b表示一个辅音音标，m和n为大于0的正整数。所述音标正则表达式的含义为构建一个音标发音的字符串。若所述音译文件为英文文件，所述音标正则表达式表示一个音标发音由单个或者多个元音音标构建而成，或者，一个音标发音由m个辅音和n个元音共同构建而成，其中，m和n为大于0的正整数。在步骤S12中，公开了根据音标正则表达式，将所述音标字符串分割成多个子字符串的步骤。参见图3所示的工作流程示意图，所述根据音标正则表达式，将所述音标字符串分割成多个子字符串，包括以下步骤：步骤S31、确定当前待处理音标集合，其中，所述当前待处理音标集合为所述音标字符串中的第一个音标。步骤S32、判断所述当前待处理音标集合是否符合所述音标正则表达式，若不符合，执行步骤S33的操作，若符合，执行步骤S34的操作。步骤S33、设定所述当前待处理音标集合中的最后一个音标为所述音标字符串中的第k个音标，若所述当前待处理音标集合不符合所述音标正则表达式，则将所述当前待处理音标集合中的前k-1个音标作为子字符串，从所述音标字符串中分割出去，并设定剩余的音标字符串中的第一个音标为当前待处理音标集合，所述剩余的音标字符串为新的音标字符串，返回执行步骤S32的步骤。若所述当前待处理音标集合不符合所述音标正则表达式，则说明当前待处理音标不能发出一个音标发音，则将所述当前待处理音标集合中的最后一个音标保留，将前k-1个音标作为子字符串从所述音标字符串中分割出去，而所述前k-1个音标构成的子字符串能够发出一个音标发音。步骤S34、设定所述当前待处理音标集合为所述音标字符串中的第k个音标，若所述当前待处理音标集合符合所述音标正则表达式，判断k是否等于s，若等于，执行步骤S35的操作，若不等于，执行步骤S36的操作，其中，s表示所述音标字符串中音标的个数。步骤S35、若k等于s，则确定所述当前待处理音标集合为一个子字符串，结束本次分割。若k等于s，则说明所述当前待处理音标集合为所述音标字符串，则将所述当前待处理音标集合作为一个子字符串，本次分割结束。步骤S36、若k不等于s，则将所述音标字符串中的前k+1个音标构建成当前待处理音标集合，并返回执行步骤S32的操作。若k不等于s，则说明k小于s，除去所述当前待处理音标集合以外，所述音标字符串中还存在其他音标，这种情况下，则构建新的当前待处理音标集合，返回执行步骤S32的操作，以判断新构建的所述当前待处理集合是否符合所述音标正则表达式。通过上述步骤S31至步骤S36公开的操作，能够将音标字符串分割成多个子字符串，每个子字符串对应一个音标发音，以便后续根据所述子字符串，获取相对应的目标语言。另外，在获取与各个子字符串的发音相对应的目标语言后，还可以进行一些相应的处理。例如，若音译文件为英语，由于在英语中，辅音发音较轻，一般需要结合元音才有重音，所以单个辅音的音可选择不读，在获取与各个子字符串的发音相对应的目标语言后，还可以将单个辅音删除。以下通过一个实际的例子介绍本申请所公开的外语的音译方法。该例中，需要将一首英文歌翻译成中文，也就是说，音译文件为英文形式的歌词，目标语言为中文。本例中，首先需要获取音译文件，所述音译文件指的是英文歌词，并以“TonightIcelebratemylove”这一英文歌词为例。然后获取该英文歌词相对应的音标，其中，所述英文歌词中每个单词的音标构成一个音标字符串，获取到的所述音标如下：根据英文音标表可知，英文音标包括48个英语音标表，其中有20个元音和28个辅音。另外，本例中，根据确定有限自动机DFA原理获取音标正则表达式。所述DFA通常包括：一个非空有限的状态集合Q；一个输入字母表Σ(非空有限的字符集合)；一个转移函数δ：Q*Σ→Q(例如：δ(q，σ)＝p，p，q∈Q，σ∈Σ)；一个开始状态s∈Q；一个接受状态的集合所组成的5-元组。本申请中，Q＝(S1，S2)，其中，S1和S2分别表示可发音的音标字符串，其中，S1表示元音或者元音的集合构成的音标字符串，S2表示辅音或者辅音的集合构成的音标字符串。Σ＝{a，b

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁捷;杨淑敏;
技术所有人：广州市动景计算机科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。