搭建日语书籍OCR工作流：briss+Acrobat

文章目录[隐藏]

ABBYY/Acrobat单软件OCR工作流存在的问题
BRISS的引入
总结一下

这篇是从我的B站账号搬运过来的，所以如果在B站上看到一模一样的文章（头像也一样），不是非授权转载，是我授权我自己。

这篇稍稍有点硬核，需要各位掌握基础的命令行操作（或者至少知道终端/命令提示符怎么打开）。

毕竟……

我们穷鬼是这样的啦

ABBYY/Acrobat单软件OCR工作流存在的问题

起因是这样的，我们教授要搞读书会，书籍通过扫描件的方式分享给参加的人。

书籍内容仅做演示

又因为我在所有文档导入之前会喜欢先过一遍OCR，所以之前一般我会使用Acrobat先处理一遍。

但是Acrobat对于日语的识别经常不是很精确，所以我转向了被许多人吹爆（MarginNote本身也集成了）的ABBYY Reader。

只是ABBYY Findreader Pro的OCR效果让我感觉我用了个假软件……

ABBYY Finereader Pro for Mac 与Acrobat DC Pro OCR效果横向对比，Finereader有很多处识别不出来

但是我很喜欢ABBYY的“在OCR的过程中自动把整张页面分成两个部分”的功能。我记得Adobe是没有的。（事实上它确实没有）

ABBYY在进行OCR操作时会自动完成页面切割

然后我搜索了一下有没有什么奇怪脚本可以实现这个功能——在Adobe社区里面找到了一个第三方写的脚本，$40.

这个脚本能实现居中切割，40刀

在？抢个银行？

流下了没钱的泪水

那么，有没有一个工作流既能够享受到分割单页带来的阅读上的方便，又能够利用Acrobat更加准确的OCR结果？

BRISS的引入

briss是一个Java应用，需要Java环境才能运行。

briss唯一的功能就是分割页面。载入文件之后，briss会分析页面排版，然后提取出重叠最多的部分形成切割矩形。可以通过左上角和右下角的手柄调节矩形大小和位置，也可以直接在页面上拖动新建范围。（briss不会修正倾斜页面）

在macOS上使用briss有两种方式：第一种是从SourceForge上下载jar，然后通过终端的java -jar [briss.jar路径] [pdf文件路径]运行；另一种方式是通过homebrew安装briss Formula，然后直接使用briss [pdf文件路径]运行。

在Windows上只能先安装Java SRE/JDK，下载briss，然后运行jar文件。

虽然briss有启动后再选择文件的功能，但是那个选择界面实在是太低效了，我个人更推荐命令行方式。

第一步调整左上角和右下角手柄选择切割范围

第二步选择菜单栏Action→Crop PDF选项

导出之后，得到了单页的PDF文件，接着可以再使用Acrobat打开进行正常OCR操作。

总结一下

Adobe躺着赚钱，惹得百姓怨声载道

人做的事情你们都不沾边

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

搭建日语书籍OCR工作流：briss+Acrobat

ABBYY/Acrobat单软件OCR工作流存在的问题

BRISS的引入

总结一下

macOS上出现相同序列号设备的解决方式

败，就嗯败——最近买的东西短评合集

Mark

暂无评论

有什么想法说出来听听？取消回复

ABBYY/Acrobat单软件OCR工作流存在的问题

BRISS的引入

总结一下

macOS上出现相同序列号设备的解决方式

败，就嗯败——最近买的东西短评合集

Mark

相关推荐

暂无评论

有什么想法说出来听听？取消回复

搜索

搭建日语书籍OCR工作流：briss+Acrobat