Featured image of post 开源的跨平台OCR及截图翻译软件 Pot-Desktop

开源的跨平台OCR及截图翻译软件 Pot-Desktop

搭配硅基流动的免费Qwen3大模型

开源的跨平台OCR及截图翻译软件 Pot-Desktop

被豆包劝退

截图翻译的需求一直都有,早年是使用有道翻译,ai时代来了,大模型翻译的更好,今年一直在使用豆包客户端,他的截图功能蛮多的,免费实用。

但是其中的翻译功能老是有问题 就是容易翻译完就闪退或者卡死,这个问题存在快一年了,我之前也反馈过,但是一直没修复。

这种功能一般是能用就行,使用频次不是很高,但是今天又被它的闪退给搞烦了,想到之前刷到过一个开源ocr翻译软件pot-desktop,就去找来用了一下,感觉还不错,分享一下使用体验。

使用pot-desktop

项目地址: GitHub - pot-app/pot-desktop: 🌈一个跨平台的划词翻译和OCR软件 | A cross-platform software for text translation and recognition.

服务设置 - 拥抱ai

现在大模型这么好使,自带的第三方翻译服务直接关掉,甚至可以删除了。

添加一个服务,选择OpenAI就好。

模型选择 - 免费够用

API我是用的硅基流动的,毕竟翻译任务不需要太大的模型就能搞定,而且速度很重要,硅基流动有一些免费模型就很时候干这个。

我用的Qwen/Qwen3-8B,因为刚开始试了deepseek v3但是感觉有点杀鸡用牛刀,也有点慢,就换回这个千问8B模型了,而且是免费的。

它的介绍说:

该模型支持 100 多种语言和方言,具备出色的多语言指令遵循和翻译能力

有这句话就够了。

设置优化 - 流式输出

一开始发现翻译出结果有点慢,和之前豆包的相比。观察发现是因为服务会把内容翻译完之后才会返回给我,这样确实有点慢。然后打开服务设置里的流式传输,保存并重新测试,这下反应速度比豆包还快了。

提示词

例如

你是一个专业的翻译助手。请将 OCR 识别到的文本翻译成中文。如果是代码则保留原样。如果文本有明显的段落,请保留段落格式。翻译风格要流畅、自然。

划到最下面点击保存。

文字识别

这里直接删除其他,只保留系统OCR,win10、11的系统OCR是最好的。

快捷键

因为豆包的截图功能还有一些其他用途,暂时没想把它完全换下。设置一个其他的快捷键,说来设置快捷键这个事情真是头疼,各种软件各种快捷键,很容易冲突,想到以前使用有道翻译的时候它的默认ocr翻译快捷键,就直接拿来沿用了,反正现在已经不用有道了。

窗口大小

如果经常对大段文字进行翻译,原本的软件窗口是很小的,看起来别扭,记得开启这个记住窗口大小

拖拽pot的窗口调整一次,后面再使用就都是合适的大小了,也可以随时调整这个大小尺寸。

安装外部插件 - 优化OCR

发现总是把一部分分段清晰的内容翻译成一坨,看不清原本的段落结构。然后发现其实是在OCR环节就出问题了,了解了一下,系统OCR还是有不足之处,本着不想使用内置的其他云端OCR方案,我决定使用一个离线的OCR外部插件。

选择下图中的paddle插件,这是gemini3推荐的。

回到系统OCR,使用提示词优化排版

原本试图通过这个paddle插件来解决段落显示的问题,结果并不能如愿,并且这个插件在OCR环节出现了数字0和字母o识别混乱的情况。

所以还是换回系统ocr,然后通过修改提示词来让大模型帮我把这个排版给做好。事实证明这样是比较好的,属于是ai大模型对传统软件的降维打击了。

提示词:

1
2
3
4
5
6
7
你是一个智能排版与翻译专家。
用户输入的文本来自 OCR 识别,原来的换行符和列表格式不仅丢失了,而且单词可能粘连在一起。

你的任务是:
1. 【先修复】:根据语义逻辑,重新断句、分段。如果原文看起来像列表(List)、要点(Bullet points)或参数项,必须强制还原为 Markdown 列表格式(使用 - 或 1.)。
2. 【后翻译】:将修复后的内容翻译成流畅的中文。
3. 【只输出结果】:直接输出修复并翻译好的中文内容,不要啰嗦。

备份 WebDAV

忙活半天了,目前整体体验已经很不错了,还是备份一下设置吧。

推荐使用infinicloud,拿来备份设置很合适,免费就有25g空间,根本用不完。

【DD3SX】Enter this referral code when signing up to get 5GB of FREE InfiniCLOUD storage! https://infini-cloud.net/en/

邀请码:DD3SX 帮我涨2gb,你也能多得5gb

总结

这个软件还有其他的一些功能,我没有提及,比如纯OCR,还有自动复制等等,总之是个不错的翻译工具,结合目前的免费大模型API,可以说体验很好了。

使用 Hugo 构建
主题 StackJimmy 设计