开源的跨平台OCR及截图翻译软件 Pot-Desktop
被豆包劝退
截图翻译的需求一直都有,早年是使用有道翻译,ai时代来了,大模型翻译的更好,今年一直在使用豆包客户端,他的截图功能蛮多的,免费实用。

但是其中的翻译功能老是有问题 就是容易翻译完就闪退或者卡死,这个问题存在快一年了,我之前也反馈过,但是一直没修复。

这种功能一般是能用就行,使用频次不是很高,但是今天又被它的闪退给搞烦了,想到之前刷到过一个开源ocr翻译软件pot-desktop,就去找来用了一下,感觉还不错,分享一下使用体验。
使用pot-desktop
服务设置 - 拥抱ai
现在大模型这么好使,自带的第三方翻译服务直接关掉,甚至可以删除了。

添加一个服务,选择OpenAI就好。

模型选择 - 免费够用
API我是用的硅基流动的,毕竟翻译任务不需要太大的模型就能搞定,而且速度很重要,硅基流动有一些免费模型就很时候干这个。
我用的Qwen/Qwen3-8B,因为刚开始试了deepseek v3但是感觉有点杀鸡用牛刀,也有点慢,就换回这个千问8B模型了,而且是免费的。
它的介绍说:
该模型支持 100 多种语言和方言,具备出色的多语言指令遵循和翻译能力
有这句话就够了。
设置优化 - 流式输出
一开始发现翻译出结果有点慢,和之前豆包的相比。观察发现是因为服务会把内容翻译完之后才会返回给我,这样确实有点慢。然后打开服务设置里的流式传输,保存并重新测试,这下反应速度比豆包还快了。

提示词
例如
你是一个专业的翻译助手。请将 OCR 识别到的文本翻译成中文。如果是代码则保留原样。如果文本有明显的段落,请保留段落格式。翻译风格要流畅、自然。

划到最下面点击保存。
文字识别
这里直接删除其他,只保留系统OCR,win10、11的系统OCR是最好的。

快捷键
因为豆包的截图功能还有一些其他用途,暂时没想把它完全换下。设置一个其他的快捷键,说来设置快捷键这个事情真是头疼,各种软件各种快捷键,很容易冲突,想到以前使用有道翻译的时候它的默认ocr翻译快捷键,就直接拿来沿用了,反正现在已经不用有道了。

窗口大小
如果经常对大段文字进行翻译,原本的软件窗口是很小的,看起来别扭,记得开启这个记住窗口大小。

拖拽pot的窗口调整一次,后面再使用就都是合适的大小了,也可以随时调整这个大小尺寸。

安装外部插件 - 优化OCR
发现总是把一部分分段清晰的内容翻译成一坨,看不清原本的段落结构。然后发现其实是在OCR环节就出问题了,了解了一下,系统OCR还是有不足之处,本着不想使用内置的其他云端OCR方案,我决定使用一个离线的OCR外部插件。
选择下图中的paddle插件,这是gemini3推荐的。



回到系统OCR,使用提示词优化排版
原本试图通过这个paddle插件来解决段落显示的问题,结果并不能如愿,并且这个插件在OCR环节出现了数字0和字母o识别混乱的情况。
所以还是换回系统ocr,然后通过修改提示词来让大模型帮我把这个排版给做好。事实证明这样是比较好的,属于是ai大模型对传统软件的降维打击了。
提示词:
|
|

备份 WebDAV
忙活半天了,目前整体体验已经很不错了,还是备份一下设置吧。
推荐使用infinicloud,拿来备份设置很合适,免费就有25g空间,根本用不完。
【DD3SX】Enter this referral code when signing up to get 5GB of FREE InfiniCLOUD storage! https://infini-cloud.net/en/
邀请码:DD3SX 帮我涨2gb,你也能多得5gb

总结
这个软件还有其他的一些功能,我没有提及,比如纯OCR,还有自动复制等等,总之是个不错的翻译工具,结合目前的免费大模型API,可以说体验很好了。