搭建日语书籍OCR工作流:briss+Acrobat

这篇是从我的B站账号搬运过来的,所以如果在B站上看到一模一样的文章(头像也一样),不是非授权转载,是我授权我自己。

这篇稍稍有点硬核,需要各位掌握基础的命令行操作(或者至少知道终端/命令提示符怎么打开)。

毕竟……

我们穷鬼是这样的啦

ABBYY/Acrobat单软件OCR工作流存在的问题

起因是这样的,我们教授要搞读书会,书籍通过扫描件的方式分享给参加的人。

书籍内容仅做演示

又因为我在所有文档导入之前会喜欢先过一遍OCR,所以之前一般我会使用Acrobat先处理一遍。

但是Acrobat对于日语的识别经常不是很精确,所以我转向了被许多人吹爆(MarginNote本身也集成了)的ABBYY Reader。

只是ABBYY Findreader Pro的OCR效果让我感觉我用了个假软件……

ABBYY Finereader Pro for Mac 与Acrobat DC Pro OCR效果横向对比,Finereader有很多处识别不出来

但是我很喜欢ABBYY的“在OCR的过程中自动把整张页面分成两个部分”的功能。我记得Adobe是没有的。(事实上它确实没有)

ABBYY在进行OCR操作时会自动完成页面切割

然后我搜索了一下有没有什么奇怪脚本可以实现这个功能——在Adobe社区里面找到了一个第三方写的脚本,$40.

这个脚本能实现居中切割,40刀

在?抢个银行?

流下了没钱的泪水

那么,有没有一个工作流既能够享受到分割单页带来的阅读上的方便,又能够利用Acrobat更加准确的OCR结果?

BRISS的引入

briss是一个Java应用,需要Java环境才能运行。

briss唯一的功能就是分割页面。载入文件之后,briss会分析页面排版,然后提取出重叠最多的部分形成切割矩形。可以通过左上角和右下角的手柄调节矩形大小和位置,也可以直接在页面上拖动新建范围。(briss不会修正倾斜页面

在macOS上使用briss有两种方式:第一种是从SourceForge上下载jar,然后通过终端的java -jar [briss.jar路径] [pdf文件路径]运行;另一种方式是通过homebrew安装briss Formula,然后直接使用briss [pdf文件路径]运行。

在Windows上只能先安装Java SRE/JDK,下载briss,然后运行jar文件。

虽然briss有启动后再选择文件的功能,但是那个选择界面实在是太低效了,我个人更推荐命令行方式。

第一步 调整左上角和右下角手柄选择切割范围

第二步 选择菜单栏Action→Crop PDF选项

导出之后,得到了单页的PDF文件,接着可以再使用Acrobat打开进行正常OCR操作。

总结一下

Adobe躺着赚钱,惹得百姓怨声载道

人做的事情你们都不沾边

Mark

广岛大学社会心理学(预备)研究生。忙。AE/PR/FCPX/PS/LR/AI(Adobe Illustrator)。会一点Python。

相关推荐

ffmpeg在macOS上调用GPU

太长不看系列 # 使用H.264编码: ffmpeg -vcodec h264_videotoolbox -i <input> <output> # 使用H.265编码 …

暂无评论

有什么想法说出来听听?

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据