从LaTeX格式到XML格式的转换系统及转换方法与流程

文档序号:12466204阅读:2115来源:国知局
从LaTeX格式到XML格式的转换系统及转换方法与流程

本发明涉及文件格式转换技术,特别涉及一种从LaTeX到XML格式的文件转换系统及其转换方法。



背景技术:

在现有技术中,出版行业许多专业期刊的文献是用LaTeX(音译“拉泰赫”)格式来书写,LaTeX格式虽然利于印刷出版,但是不利于阅读。LaTeX文件是非结构化数据,不能在互联网环境下很好的存储,展示;不能与国外专业文献网站进行对接;不利于在互联网的各个平台间进行数据交互,数据共享。



技术实现要素:

针对上述现有技术中的缺点和不足,本发明的目的在于提供一种能够实现LaTeX文件到符合国际规范的结构化数据(XML)转换的系统以及对应此系统的转换方法。

本发明的目的是通过以下技术方案实现的:

一种从LaTeX格式到XML格式的转换系统,包括LaTeX文件存储区、LaTeX语法定义文件数据库、LaTeX文件拆分模块、LaTeX转换器模块、特殊符号转换器模块、临时文件存储区、文档规范转换器模块和XML存储区;LaTeX文件存储区输出数据至LaTeX文件拆分模块进行文件拆分,LaTeX转换器模块按照LaTeX语法定义文件的规则,将LaTeX格式解释成XML格式的数据,将LaTeX格式的公式转换成MathML格式的数据;特殊符号转换器模块根据特殊符号定义文件将LaTeX文中的转义符识别成特殊符号,输出到临时文件存储区,文档规范转换器模块将临时文件存储区的XML内容进行标准化规范,规范化的XML文件输出至XML存储区内。

优选地,所述LaTeX文件拆分模块内包括正文前内容识别模块、正文内容识别模块、图表内容识别模块和参考文献识别模块。

优选地,所述LaTeX语法定义文件数据库内存储有正文前语法定义数据,正文语法定义数据,图表语法定义数据和参考文献语法定义数据。

优选地,LaTeX转换器模块包括LaTeX语法分析器和MathML公式转换器,所述LaTeX语法分析器模块将LaTeX格式解释成XML数据,所述MathML公式转换器模块将LaTeX中的公式内容转换成MathML标准的数据。

优选地,还包括特殊符号定义文件数据库,所述特殊符号定义文件数据库内存储有特殊符号定义文件。

优选地,所述文档规范转换器包括ATA文档规范模块、DITA文档规范模块、DOCBOOK文档规范模块、JATS文档规范模块、NLM文档规范模块、S1000D文档规范模块和其他待开发文档规范模块。

一种从LaTeX格式到XML格式的转换方法,包括如下步骤:

S1,将LaTeX文件输入到LaTeX文件存储区存储,等待转换;

S2,LaTex文件拆分模块将LaTeX文件分解成正文前,正文,图表,参考文献数据块;

S3,LaTeX转换器中的LaTeX语法分析器读取LaTeX语法定义文件得到语法解释规则,LaTeX语法分析器模块将正文前,正文,图表,参考文献数据块解释成XML格式的数据;将LaTeX格式的公式转换成MathML格式的数据;

S4,特殊符号转换器模块将各数据中的特殊符号转义符替换成特殊符号,放入临时文件存储区;

S5,当待转换文件完全转换为临时的XML格式数据后,LaTeX转换器将临时的XML格式数据传送至文档规范编辑模块,对临时的XML格式数据进行规范化编辑,使临时的XML格式文件形成符合文档规范的XML格式数据;

S6,将符合文档规范的XML格式数据生成XML文件。

与现有技术相比,本发明实施例至少具有以下优点:

本发明从LaTeX格式到XML格式的转换系统及转换方法可以将LaTeX格式文件转换为符合国际规范的结构化数据,从而使得许多专业期刊的文献与国外专业文献网站进行对接,可以实现跨平台进行数据展示,以及对文章能够统一进行内容管理。

附图说明

图1为本发明实施例从LaTeX到XML格式的文件转换系统的功能框图;

图2为本发明从LaTeX格式到XML格式的转换方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

图1为本发明实施例从LaTeX到XML格式的文件转换系统的功能框图。

如图1所示,该从LaTeX到XML格式的文件转换系统,读入LaTeX文件,将LaTeX文中预定义LaTeX命令进行替换,将特殊符号的LaTeX表达式替换成内部编码,将LaTeX文件分解成文前,正文,图表,参考文献四个LaTeX文件,将各LaTeX文件进行格式化,LaTeX文件按照各自类型调用各自的LaTeX转换器,将文件转换成XML格式并生成临时XML文件,各临时XML文件中的内部编码变换成字符实体符号,各XML内容转换成规范化的XML格式,各临时文件合并成一个XML文件。

所述LaTeX文件拆分模块内包括正文前内容识别模块、正文内容识别模块、图表内容识别模块和参考文献识别模块。

所述LaTeX语法定义文件数据库内存储有正文前语法定义数据,正文语法定义数据,图表语法定义数据和参考文献语法定义数据。

LaTeX转换器模块包括LaTeX语法分析器和MathML公式转换器,所述LaTeX语法分析器模块将LaTeX格式解释成XML数据,所述MathML公式转换器模块将LaTeX中的公式内容转换成MathML标准的数据。

还包括特殊符号定义文件数据库,所述特殊符号定义文件数据库内存储有特殊符号定义文件。

所述文档规范转换器包括ATA文档规范模块、DITA文档规范模块、DOCBOOK文档规范模块、JATS文档规范模块、NLM文档规范模块、S1000D文档规范模块和其他待开发文档规范模块。

一种从LaTeX格式到XML格式的转换方法,包括如下步骤:

S1,将LaTeX文件输入到LaTeX文件存储区存储,等待转换;

S2,LaTex文件拆分模块将LaTeX文件分解成正文前,正文,图表,参考文献数据块;

S3,LaTeX转换器中的LaTeX语法分析器读取LaTeX语法定义文件得到语法解释规则,LaTeX语法分析器模块将正文前,正文,图表,参考文献数据块解释成XML格式的数据;将LaTeX格式的公式转换成MathML格式的数据;

S4,特殊符号转换器模块将各数据中的特殊符号转义符替换成特殊符号,放入临时文件存储区;

S5,当待转换文件完全转换为临时的XML格式数据后,LaTeX转换器将临时的XML格式数据传送至文档规范编辑模块,对临时的XML格式数据进行规范化编辑,使临时的XML格式文件形成符合文档规范的XML格式数据;

S6,将符合文档规范的XML格式数据生成XML文件。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1