文章目录[隐藏]
这篇是从我的B站账号搬运过来的,所以如果在B站上看到一模一样的文章(头像也一样),不是非授权转载,是我授权我自己。
这篇稍稍有点硬核,需要各位掌握基础的命令行操作(或者至少知道终端/命令提示符怎么打开)。
毕竟……
ABBYY/Acrobat单软件OCR工作流存在的问题
起因是这样的,我们教授要搞读书会,书籍通过扫描件的方式分享给参加的人。
又因为我在所有文档导入之前会喜欢先过一遍OCR,所以之前一般我会使用Acrobat先处理一遍。
但是Acrobat对于日语的识别经常不是很精确,所以我转向了被许多人吹爆(MarginNote本身也集成了)的ABBYY Reader。
只是ABBYY Findreader Pro的OCR效果让我感觉我用了个假软件……
但是我很喜欢ABBYY的“在OCR的过程中自动把整张页面分成两个部分”的功能。我记得Adobe是没有的。(事实上它确实没有)
然后我搜索了一下有没有什么奇怪脚本可以实现这个功能——在Adobe社区里面找到了一个第三方写的脚本,$40.
在?抢个银行?
那么,有没有一个工作流既能够享受到分割单页带来的阅读上的方便,又能够利用Acrobat更加准确的OCR结果?
BRISS的引入
briss是一个Java应用,需要Java环境才能运行。
briss唯一的功能就是分割页面。载入文件之后,briss会分析页面排版,然后提取出重叠最多的部分形成切割矩形。可以通过左上角和右下角的手柄调节矩形大小和位置,也可以直接在页面上拖动新建范围。(briss不会修正倾斜页面)
在macOS上使用briss有两种方式:第一种是从SourceForge上下载jar,然后通过终端的java -jar [briss.jar路径] [pdf文件路径]
运行;另一种方式是通过homebrew安装briss Formula,然后直接使用briss [pdf文件路径]
运行。
在Windows上只能先安装Java SRE/JDK,下载briss,然后运行jar文件。
虽然briss有启动后再选择文件的功能,但是那个选择界面实在是太低效了,我个人更推荐命令行方式。
导出之后,得到了单页的PDF文件,接着可以再使用Acrobat打开进行正常OCR操作。
总结一下
Adobe躺着赚钱,惹得百姓怨声载道
暂无评论