您可以在无纸化办公中使用两种基本类型的文档。第一种类型的文档是基于文本的。这些格式如.TXT .RTF .DOC等。这些将文本存储为可编辑信息。您可以进入并更改文档,修复拼写,复制句子等。
第二类文档是基于图像的文档。其中包括.TIF,.JPG,.PNG,.GIF等格式。这些文档仅代表一堆像素。电脑可以’除删除像素并放下新像素外,t还可以编辑单词本身。您可以’t如果使用此格式,则复制一个句子并将其粘贴到另一个程序中。
基于文本的格式的优点是可以搜索它们。如果文档包含单词“Smith Contract,”在计算机上搜索这些词应在结果中显示该文档。使用基于图像的文档,您无需’没有那种奢侈。如果希望能够找到它,最好使用可能用于搜索的关键字来命名它,将其放在您要搜索的名称的目录中,或者将元信息与包含您所有关键字的文档相关联可能会用。
基于图像的文档的优点是它们保留布局和非文本元素的方式。如果您必须出庭证明某人已签署合同,那么您将希望获得带有他们签名的基于图像的文档。 (有一些方法可以处理 数字PKI签名 将会在法庭上站出来,但这要复杂得多。)
当然,问题是,除非特别注意保存合同的位置和方式,否则您可能很难找到特定合同。
PDF格式解决了许多此类问题。 PDF允许您将文档存储为图像和文本。可以把它想象成两层:您有一个文本层,其中包含计算机可读格式的单词,而您有一个图像层,其中包含文档的图片–包括所有图片,注释等。因此,如果您要搜索关键字,它会作为基于文本的文档。如果您需要打印出文档的副本,则它可以作为基于图像的文档。
扫描文档时,您要确保同时记录两种类型的信息。要从扫描的文档中获取文本信息,您需要使用某种类型的光学字符识别。通常,您的扫描仪会随附某种类型的OCR软件。许多扫描程序会自动将文本层添加到PDF中。较新版本的Acrobat具有内置的OCR功能,因此您只需单击几下即可获取基于图像的文档并添加文本层。
在我的工作流程中,我的扫描仪将每个文档的图像直接发送到执行一些优化,执行OCR的程序,然后将结果以PDF格式保存在我的文档存储库中。
如果要建立无纸化办公室,则需要考虑如何进行字符识别。您能够使流程自动化的越多,使用该流程就越容易。
注意:如果您是直接从计算机创建PDF,则有一种方法可以跳过图像层,同时仍然保留页面的布局。如果您开始添加签名和标记,它将创建一个图像层来放置这些项目。
最初于2008年1月17日发布。
发表评论