开源的跨平台OCR及截图翻译软件 Pot-Desktop

被豆包劝退

截图翻译的需求一直都有，早年是使用有道翻译，ai时代来了，大模型翻译的更好，今年一直在使用豆包客户端，他的截图功能蛮多的，免费实用。

但是其中的翻译功能老是有问题就是容易翻译完就闪退或者卡死，这个问题存在快一年了，我之前也反馈过，但是一直没修复。

这种功能一般是能用就行，使用频次不是很高，但是今天又被它的闪退给搞烦了，想到之前刷到过一个开源ocr翻译软件pot-desktop，就去找来用了一下，感觉还不错，分享一下使用体验。

使用pot-desktop

项目地址： GitHub - pot-app/pot-desktop: 🌈一个跨平台的划词翻译和OCR软件 | A cross-platform software for text translation and recognition.

服务设置 - 拥抱ai

现在大模型这么好使，自带的第三方翻译服务直接关掉，甚至可以删除了。

添加一个服务，选择OpenAI就好。

模型选择 - 免费够用

API我是用的硅基流动的，毕竟翻译任务不需要太大的模型就能搞定，而且速度很重要，硅基流动有一些免费模型就很时候干这个。

我用的Qwen/Qwen3-8B，因为刚开始试了deepseek v3但是感觉有点杀鸡用牛刀，也有点慢，就换回这个千问8B模型了，而且是免费的。

它的介绍说：

该模型支持 100 多种语言和方言，具备出色的多语言指令遵循和翻译能力

有这句话就够了。

设置优化 - 流式输出

一开始发现翻译出结果有点慢，和之前豆包的相比。观察发现是因为服务会把内容翻译完之后才会返回给我，这样确实有点慢。然后打开服务设置里的流式传输，保存并重新测试，这下反应速度比豆包还快了。

提示词

例如

你是一个专业的翻译助手。请将 OCR 识别到的文本翻译成中文。如果是代码则保留原样。如果文本有明显的段落，请保留段落格式。翻译风格要流畅、自然。

划到最下面点击保存。

文字识别

这里直接删除其他，只保留系统OCR，win10、11的系统OCR是最好的。

快捷键

因为豆包的截图功能还有一些其他用途，暂时没想把它完全换下。设置一个其他的快捷键，说来设置快捷键这个事情真是头疼，各种软件各种快捷键，很容易冲突，想到以前使用有道翻译的时候它的默认ocr翻译快捷键，就直接拿来沿用了，反正现在已经不用有道了。

窗口大小

如果经常对大段文字进行翻译，原本的软件窗口是很小的，看起来别扭，记得开启这个记住窗口大小。

拖拽pot的窗口调整一次，后面再使用就都是合适的大小了，也可以随时调整这个大小尺寸。

安装外部插件 - 优化OCR

发现总是把一部分分段清晰的内容翻译成一坨，看不清原本的段落结构。然后发现其实是在OCR环节就出问题了，了解了一下，系统OCR还是有不足之处，本着不想使用内置的其他云端OCR方案，我决定使用一个离线的OCR外部插件。

选择下图中的paddle插件，这是gemini3推荐的。

回到系统OCR，使用提示词优化排版

原本试图通过这个paddle插件来解决段落显示的问题，结果并不能如愿，并且这个插件在OCR环节出现了数字0和字母o识别混乱的情况。

所以还是换回系统ocr，然后通过修改提示词来让大模型帮我把这个排版给做好。事实证明这样是比较好的，属于是ai大模型对传统软件的降维打击了。

提示词：

1
2
3
4
5
6
7


你是一个智能排版与翻译专家。
用户输入的文本来自 OCR 识别，原来的换行符和列表格式不仅丢失了，而且单词可能粘连在一起。

你的任务是：
1. 【先修复】：根据语义逻辑，重新断句、分段。如果原文看起来像列表（List）、要点（Bullet points）或参数项，必须强制还原为 Markdown 列表格式（使用 - 或 1.）。
2. 【后翻译】：将修复后的内容翻译成流畅的中文。
3. 【只输出结果】：直接输出修复并翻译好的中文内容，不要啰嗦。

备份 WebDAV

忙活半天了，目前整体体验已经很不错了，还是备份一下设置吧。

推荐使用infinicloud，拿来备份设置很合适，免费就有25g空间，根本用不完。

【DD3SX】Enter this referral code when signing up to get 5GB of FREE InfiniCLOUD storage! https://infini-cloud.net/en/

邀请码：DD3SX 帮我涨2gb，你也能多得5gb

总结

这个软件还有其他的一些功能，我没有提及，比如纯OCR，还有自动复制等等，总之是个不错的翻译工具，结合目前的免费大模型API，可以说体验很好了。