清理 Microsoft Word 导出的 HTML 源代码文件

在 Dreamweaver 中,你可以打开或者导入用 Microsoft Word 保存的 HTML 文件,然后再使用 Clean Up Word HTML 对话框将文件中无关的和多余的 HTML 代码清除掉。Dreamweaver 所清除掉的代码主要是一些 Word 用来对在 Word 中显示的文档进行格式化的东西,而这些对于 HTML 文件的显示是不需要的。记着保留一份原始 Word (.doc) 文件的备份文件,因为有的时候可能会在应用完了 Clean Up Word HTML 命令之后就不能再在 Word 中重新打开这个修改过的 HTML 文档了。Clean Up Word HTML 命令只适用于 Word 97 以后版本保存的 HTML 文件。

如何使用 Clean Up Word HTML:

1 在 Microsoft Word 中,将文件保存为 HTML 文件。
2 使用下列方法在 Dreamweaver 中将文件打开:
选择 File > Import > Import Word HTML,选取要打开的文件。
Dreamweaver 在将文件打开后会自动打开 Clean Up Word HTML 对话框。
选择 File > Open,选取要打开的文件。
这时会自动生成一个 HTML Corrections log 文件。这并非 Clean Up Word HTML 功能的一部分。点击 Continue 退出对话框。然后,在 Dreamweaver 中选择 Commands >Clean Up Word HTML。
3 在使用上述任何一种方法的时候,可能会出现一些延迟现象,这是 Dreamweaver 在试图确定保存文件所用的 Word 版本。如果 Dreamweaver 无法确定 Word 的版本,你可以使用弹出菜单选取正确的版本号。
4 选择 Clean Up Word HTML 功能要使用的选项。Basic 标签下会显示这些选项:
Remove all Word Specific Markup: 删除掉所有 Word 特殊的 HTML,包括 XML,Word 在文档头上定义的 meta 数据和链接标签,Word 的 XML 标识符,条件标签及其内容,因样式而产生的空闲段落和边距。你也可以使用 Detailed 标签来对这些选项进行个别选取。
Clean up CSS: 删除所有 Word 特殊的 CSS,包括可能产生的 Inline CSS 样式,以 "mso," 开头的样式属性,非 CSS 样式声明,因表格产生的 CSS 样式属性,文档头中的所有没用的样式定义。这一选项可以通过点击 Detailed 标签来进一步定义。
Clean up <font> Tags: 删除 HTML 标签,将默认的文档文本定义为 size 2 HTML。
Fix Invalidly Nested Tags: 删除 Word 在段落和标题以外地方插入的字体标识标签。
Set Background Color: 允许你输入一个十六进制值来设定文档的背景色。如果你没有设置背景色,那么你的 Word HTML 文档的背景色将是灰色的。Dreamweaver 设置的默认十六进制值是白色的。
Apply Source Formatting: 给文档应用你在 HTML Format 参数选项和 SourceFormat.txt 文件中指定的源代码格式选项。
Show Log on Completion: 指定程序在清理工作完成后立即弹出一个信息框,列明对文档所做的修改。
5 点击 OK。
根据文档的大小和你所选取选项的多少,清理工作需要的时间也有所不同。你所输入的参数选项会自动地被保存起来作为默认的 Clean Up Word HTML 设置。