PDF图文识别转Word
众所周知,PDF文件是很难被直接修改,最多也就是局部性的修改,而且限制还颇多。因为我们通常会想到将PDF转成Word,再进行修改,现在有很多工具,确实也有很好的转换效果,如果PDF页面不是很复杂的话,转换效果也是非常不错的,基本上能99%的将PDF还原为Word文件,从而进行修改。但是有时候,我们将PDF转换成Word文件,却发现里面都是图片,无法进行编辑,这是为什么呢?
一般来说,PDF转换成Word文件,里面确都是图片,有两种原因:
1、转换软件的问题,转换软件为了尽量提升付费用户的转化率,在功能上就做了各种限制,免费用户,就将PDF里的内容图片化,显示在Word里,而付费用户则没有这个限制。
2、PDF文件里确实就是图片,因此转换软件,就直接将PDF里的图片嵌入在了Word里面,你打开的Word就是图片了,还是无法编辑。一般这样的PDF,要么是电子书的扫描版,要么就是作者有意保护版权,不希望其他人进行编辑。
那我们怎么知道PDF文件里面到底存放的是文字还是图片呢?其实很简单,两种方法:
1、文件大小,通常纯本文的PDF文件,不会太大,撑死1、2M左右,而图片形式的PDF,动辄几十M,如果是高清的图片PDF,则有时会达到数百M大小
2、放大PDF文件,如果放大到一定的比例后,PDF里面的文字变得模糊,那么一定是图片版的PDF
既然是图片版的PDF,我们有没有办法进行编辑呢?答案是有,但是可能会比较麻烦,我们可以采用图文识别的方式,将PDF里面的图片转换为文字,如果是纯粹的文字,那么一般来说,识别准确率还是不错的,但是如果里面包含了大量的图片或者公式,这部分内容识别率都非常低,一般都需要我们自己手工重新处理的。
“易转换”提供了丰富的PDF处理功能,上述所说的,PDF转Word,PDF转图片PDF,以及PDF文件压缩功能都有提供,非常强大。毫不例外的,易转换也提供了PDF图文识别的功能,而且功能也非常多,我们在这儿就只介绍PDF图文识别转Word的功能。
1、首先网上搜索网站“易转换”,进入网站页面,在顶部菜单,找到“图文识别”菜单,点击里面的“图片PDF转Word”菜单项
2、进入图片PDF转Word页面,选择需要识别的PDF文件,和需要识别的页面范围,默认是所有页面
3、点击PDF文字识别按钮,等待文件上传和文件处理,时间会比较长,根据页面数量,可能数十秒,也可能数分钟,如果时间太长,等文件转换完成后,稍后在“我的文件”中可以下载。
4、任务完成后,下载文件,可以下载到电脑,也可以通过二维码下载到手机
让我们看看图文识别的效果如何吧,下面这个是PDF页面效果:
这张图是OCR识别出来的效果,可以看到,识别效果非常不错,是不是比你想象的要棒!
最后附上功能链接,有兴趣的小伙伴们,赶紧来试试吧!
易转换PDF转Word:https://www.easeconvert.com/pdf-to-word/
易转换PDF图文识别转Word:https://www.easeconvert.com/pdf-ocr-word/