一种将Word文件转换成HTML文件的方法和装置与流程

文档序号:12665934阅读:163来源:国知局
一种将Word文件转换成HTML文件的方法和装置与流程

本发明涉及计算机技术领域,特别涉及一种将Word文件转换成HTML文件的方法和装置。



背景技术:

在软件开发中经常会遇到多种文件之间转换的需求,这种转换由于符合开放、平等、协作和分享的互联网精神而受到广泛的欢迎。

例如,在实际应用场景中,用户在Word中编写生成Word文件,当需要将该Word文件发布到博客上时,需要将Word文件转换成HTML(HyperText Markup Language,超级文本标记语言)文件。

但是,现有技术无法将Word文件转换成HTML文件。



技术实现要素:

本发明实施例提供了一种将Word文件转换成HTML文件的方法和装置,能够将Word文件转换成HTML文件。

第一方面,本发明实施例提供了一种将Word文件转换成HTML文件的方法,包括:

获取待转换Word文件;

对所述待转换Word文件进行解压,生成资源索引文件、至少一个图片文件和至少一个文本文件;

根据所述资源索引文件、所述至少一个图片文件和所述至少一个文本文件,生成HTML头文件;

根据所述至少一个文本文件和所述资源索引文件,生成HTML文本文件;

根据所述HTML头文件、所述至少一个图片文件、所述资源索引文件、所述HTML文本文件,生成HTML文件。

优选地,

所述资源索引文件中包括:每一个所述文本文件的组织结构信息;

所述根据所述至少一个文本文件和所述资源索引文件,生成HTML文本文件,包括:

根据所述至少一个文本文件和每一个所述文本文件的组织结构信息,生成XML(Extensible Markup Language,可扩展标记语言)文本文件;

对所述XML文本文件进行格式转换,生成HTML文本文件。

优选地,

所述资源索引文件中包括:图片文件和地址的对应关系;

所述根据所述HTML头文件、所述至少一个图片文件、所述资源索引文件、所述HTML文本文件,生成HTML文件,包括:

确定所述HTML文本文件中每一个目标图片文件的地址;

根据所述图片文件和地址的对应关系,从所述至少一个图片文件中确定每一个所述目标图片文件的地址对应的目标图片文件;

将每一个所述目标图片文件按照对应的地址添加到所述HTML文本文件中,生成HTML主体文件;

根据所述HTML头文件和所述HTML主体文件,生成HTML文件。

优选地,

进一步包括:预先设置级联样式表;

在所述根据所述HTML头文件、所述至少一个图片文件、所述资源索引文件、所述HTML文本文件,生成HTML文件之后,进一步包括:

利用所述级联样式表,对所述HTML文件进行格式化。

优选地,

所述文本文件为内容文件、核心结构文件、个性化内容文件、页脚内容文件和页脚内容组织结构文件中任意一种。

第二方面,本发明实施例提供了一种将Word文件转换成HTML文件的装置,包括:

获取单元,用于获取待转换Word文件;

解压单元,用于对所述获取单元获取的所述待转换Word文件进行解压,生成资源索引文件、至少一个图片文件和至少一个文本文件;

HTML头文件生成单元,用于根据所述解压单元生成的所述资源索引文件、所述至少一个图片文件和所述至少一个文本文件,生成HTML头文件;

HTML文本文件生成单元,用于根据所述解压单元生成的所述至少一个文本文件和所述资源索引文件,生成HTML文本文件;

HTML文件生成单元,用于根据所述HTML头文件生成单元生成的所述HTML头文件、所述解压单元生成的所述至少一个图片文件和所述资源索引文件、所述HTML文本文件生成单元生成的所述HTML文本文件,生成HTML文件。

优选地,

所述资源索引文件中包括:每一个所述文本文件的组织结构信息;

所述HTML文本文件生成单元,用于根据所述至少一个文本文件和每一个所述文本文件的组织结构信息,生成XML文本文件;对所述XML文本文件进行格式转换,生成HTML文本文件。

优选地,

所述资源索引文件中包括:图片文件和地址的对应关系;

所述HTML文件生成单元,用于确定所述HTML文本文件中每一个目标图片文件的地址;根据所述图片文件和地址的对应关系,从所述至少一个图片文件中确定每一个所述目标图片文件的地址对应的目标图片文件;将每一个所述目标图片文件按照对应的地址添加到所述HTML文本文件中,生成HTML主体文件;根据所述HTML头文件和所述HTML主体文件,生成HTML文件。

优选地,

进一步包括:

设置单元,用于设置级联样式表;

格式化单元,用于利用所述设置单元设置的所述级联样式表,对所述HTML文件生成单元生成的所述HTML文件进行格式化。

优选地,

所述文本文件为内容文件、核心结构文件、个性化内容文件、页脚内容文件和页脚内容组织结构文件中任意一种。

第三方面,本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一项所述的方法。

第四方面,本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一项所述的方法。

本发明实施例提供了一种将Word文件转换成HTML文件的方法和装置,其中,该方法通过解压待转换Word文件,并对解压得到的资源索引文件、至少一个图片文件和至少一个文本文件进行处理,得到HTML文件。该方法可以将Word文件转换成HTML文件,操作简单。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种将Word文件转换成HTML文件的方法流程图;

图2是本发明一个实施例提供的另一种将Word文件转换成HTML文件的方法流程图;

图3是本发明一个实施例提供的一种将Word文件转换成HTML文件的装置的结构示意图;

图4是本发明一个实施例提供的另一种将Word文件转换成HTML文件的装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供了一种将Word文件转换成HTML文件的方法,该方法可以包括以下步骤:

步骤101:获取待转换Word文件;

步骤102:对待转换Word文件进行解压,生成资源索引文件、至少一个图片文件和至少一个文本文件;

步骤103:根据资源索引文件、至少一个图片文件和至少一个文本文件,生成HTML头文件;

步骤104:根据至少一个文本文件和资源索引文件,生成HTML文本文件;

步骤105:根据HTML头文件、至少一个图片文件、资源索引文件、HTML文本文件,生成HTML文件。

在图1所示的实施例中,该方法通过解压待转换Word文件,得到资源索引文件、至少一个图片文件和至少一个文本文件,并根据资源索引文件分别对至少一个图片文件和至少一个文本文件进行处理,得到HTML文件。该方法可以将Word文件转换成HTML文件,操作简单。

在本发明的一个实施例中,为了将至少一个文本文件组织起来,资源索引文件中包括:每一个文本文件的组织结构信息;步骤104包括:

根据至少一个文本文件和每一个文本文件的组织结构信息,生成XML文本文件;

对XML文本文件进行格式转换,生成HTML文本文件。

该组织结构信息指的是,各个文本文件的相互关系,例如,在Word显示中,文件A位于文件B的前面。Word文件在转换前是以XML格式存在的,因此,在本实施例中,需要对XML文本文件进行格式转换。

在本发明的一个实施例中,为了将图片文件插入到HTML文本文件中,资源索引文件中包括:图片文件和地址的对应关系;步骤105包括:

确定HTML文本文件中每一个目标图片文件的地址;

根据图片文件和地址的对应关系,从至少一个图片文件中确定每一个目标图片文件的地址对应的目标图片文件;

将每一个目标图片文件按照对应的地址添加到HTML文本文件中,生成HTML主体文件;

根据HTML头文件和HTML主体文件,生成HTML文件。

在本实施例中,图片文件与地址是一一对应的。在HTML文本文件中可能存在多个目标图片文件的地址,根据图片文件和地址的对应关系,可以确定每一个地址应该添加的图片文件。

在本发明的一个实施例中,为了使得到的HTML文件按照一定的格式在网页显示,该方法还包括:预先设置级联样式表;在步骤105之后,还包括:利用级联样式表,对HTML文件进行格式化。

可以根据实际需求,设置级联样式表,每一种级联样式表对应一种网页显示样式。例如,设置级联样式表Q,当HTML文件完成格式化后,在网页上以级联样式表Q包含的样式进行显示。在网页中使用级联样式表有三种方法,嵌入样式表、链接外部样式表和内嵌样式,其中,本步骤可以通过链接外部样式表实现。

在本发明的一个实施例中,文本文件包含多种类型,文本文件可以为内容文件、核心结构文件、个性化内容文件、页脚内容文件和页脚内容组织结构文件中任意一种。

如图2所示,本发明实施例以linux操作系统为例,对将Word文件转换成HTML文件的方法进行详细的说明,该方法包括以下步骤:

步骤201:设置级联样式表。

该级联样式表用于网页风格设计,可以将HTML文件格式化为需求的风格样式。

步骤202:获取待转换Word文件。

步骤203:对待转换Word文件进行解压,生成资源索引文件、至少一个图片文件和至少一个文本文件;资源索引文件中包括:图片文件和地址的对应关系、每一个文本文件的组织结构信息。

Word文件与apk包、zip包、ios安装文件等文件组织形式没有本质的区别,文件中包含了大量的自描述信息,通过对文件的分析,可以抽离出我们所需要的文本文件和图片文件信息。通过解压Word文件,我们可以分析出Word的文件内容集中在Word文件夹中,其中图片等资源位于图片文件中,文本内容和文本格式位于文本文件中。

Word文件解压后,各种文件之间的关系都保存资源索引文件中,通过对该文件下XML自描述文件的分析,可以得出各个文件之间的关系。而各个XML文件已经明确的指定了文本内容和图片内容。

以下是实现本步骤的部分代码:

在此过程中,还可以检查系统的扩展和依赖,实现代码如下:

步骤204:根据资源索引文件、至少一个图片文件和至少一个文本文件,生成HTML头文件。

在本实施例中,可以根据解压得到的各个文件的文件名,生成HTML头文件。

需要说明的是,除了HTML头文件,还可以生成XHTML头文件

XHTML是比较严格的HTML,并且与解压后的word文件格式统一。以下这段代码为生成XHTML的头部,并对各个文件做分类整理。

步骤205:根据至少一个文本文件和每一个文本文件的组织结构信息,生成XML文本文件。

该组织结构信息指的是,各个文本文件的相互关系。根据该相互关系组织各个文本文件,生成XML文本文件。

以下是处理文本文件的部分代码,由于本实施例中采用级联样式表来格式化HTML的内容,因此,custom.xml的文件内容将被舍弃。

步骤206:对XML文本文件进行格式转换,生成HTML文本文件。

Word文件在转换前是以XML格式存在的,因此,在本实施例中,需要对XML文本文件进行格式转换,生成HTML文本文件。

以下是实现本步骤的部分代码:

步骤207:确定HTML文本文件中每一个目标图片文件的地址。

在HTML文本文件中可能存在多个目标图片文件的地址,确定每一个目标图片文件的地址。

步骤208:根据图片文件和地址的对应关系,从至少一个图片文件中确定每一个目标图片文件的地址对应的目标图片文件。

图片文件与地址是一一对应的。根据图片文件和地址的对应关系,可以确定每一个目标图片文件的地址对应的目标图片文件。

步骤209:将每一个目标图片文件按照对应的地址添加到HTML文本文件中,生成HTML主体文件。

将图片文件添加进HTML文本文件中。

步骤210:根据HTML头文件和HTML主体文件,生成HTML文件。

将HTML头文件和HTML主体文件按照HTML的基本格式进行组织,形成一个HTML文件。

步骤211:利用级联样式表,对HTML文件进行格式化。

利用级联样式表,对HTML文件进行格式化,使HTML文件在网页呈现出级联样式表所对应的网页样式。

如图3所示,本发明实施例提供了一种将Word文件转换成HTML文件的装置,包括:

获取单元301,用于获取待转换Word文件;

解压单元302,用于对获取单元301获取的待转换Word文件进行解压,生成资源索引文件、至少一个图片文件和至少一个文本文件;

HTML头文件生成单元303,用于根据解压单元302生成的资源索引文件、至少一个图片文件和至少一个文本文件,生成HTML头文件;

HTML文本文件生成单元304,用于根据解压单元302生成的至少一个文本文件和资源索引文件,生成HTML文本文件;

HTML文件生成单元305,用于根据HTML头文件生成单元303生成的HTML头文件、解压单元302生成的至少一个图片文件和资源索引文件、HTML文本文件生成单元304生成的HTML文本文件,生成HTML文件。

在本发明的一个实施例中,资源索引文件中包括:每一个文本文件的组织结构信息;HTML文本文件生成单元304,用于根据至少一个文本文件和每一个文本文件的组织结构信息,生成XML文本文件;对XML文本文件进行格式转换,生成HTML文本文件。

在本发明的一个实施例中,资源索引文件中包括:图片文件和地址的对应关系;HTML文件生成单元305,用于确定HTML文本文件中每一个目标图片文件的地址;根据图片文件和地址的对应关系,从至少一个图片文件中确定每一个目标图片文件的地址对应的目标图片文件;将每一个目标图片文件按照对应的地址添加到HTML文本文件中,生成HTML主体文件;根据HTML头文件和HTML主体文件,生成HTML文件。

在本发明的一个实施例中,如图4所示,该装置还包括:设置单元306,用于设置级联样式表;格式化单元307,用于利用设置单元306设置的级联样式表,对HTML文件生成单元305生成的HTML文件进行格式化。

在本发明的一个实施例中,文本文件为内容文件、核心结构文件、个性化内容文件、页脚内容文件和页脚内容组织结构文件中任意一种。

综上,本发明各个实施例至少具有如下效果:

1、在本发明实施例中,该方法通过解压待转换Word文件,对解压得到的资源索引文件、至少一个图片文件和至少一个文本文件进行处理,得到HTML文件。该方法可以将Word文件转换成HTML文件,操作简单。

2、在本发明实施例中,可以利用资源索引文件中的组织结构信息将至少一个文本文件按照在Word中的排列顺序组织起来,形成XML文本文件,通过该方式可以还原Word文件中的文本内容。

3、在本发明实施例中,可以通过资源索引文件中的图片文件和地址的对应关系,确定HTML文本文件中每一个图片文件的地址对应的图片文件。将图片文件根据对应的地址添加到HTML文本文件中的对应位置。通过该方法可以还原文本文件中的图片文件,保证Word内容的完整性。

4、在本发明实施例中,可以通过设置级联样式表对HTML文件进行格式化,使HTML文件在网页上呈现不同的样式,更加丰富地展示。

上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃·····”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1