自写的OCR升级到1.1.0版本,大家还想加什么功能?

2026-05-25点滴生活43

本文转载于9090社区,帖子链接:https://qq9090.top/thread-604419-1-1.html

作者: hkgmy    时间: 2026-5-22 13:18
image.jpg (121.16 KB, 下载次数: 0)下载附件2026-5-22 13:16 上传

目前的改进是:

1、加入表格识别功能,包括本地引擎也可以识别表格
2、加入多种识别场景(需要选择),可以识别门头、票据、证件等
3、只能开启1个实例



大家还想加什么功能?
作者: fachman    时间: 2026-5-22 14:12
请问哪里下载?
作者: cdfhv    时间: 2026-5-22 14:31
识别率怎么样?现在AI识别表格错误还是比较多
作者: 大蓝京人    时间: 2026-5-22 15:14
表格这个很好,我来下1.0体验一下

作者: AaronNJ    时间: 2026-5-22 15:14
牛逼
作者: 大蓝京人    时间: 2026-5-22 15:16
弄个悬浮按钮,快捷键记不住
作者: arqi    时间: 2026-5-22 15:17
膜拜
作者: hkgmy    时间: 2026-5-22 15:18
大蓝京人 发表于 2026-5-22 15:16
弄个悬浮按钮,快捷键记不住
悬浮钮,记下了

image.jpg (3.74 KB, 下载次数: 0)下载附件2026-5-22 15:17 上传
任务栏右键,可以截图,是不是能替代?

另外,快捷键可以自定义
作者: bluepolar    时间: 2026-5-22 15:27
回想了下以前用OCR的痛点:
识别的标点半角全角混乱,要批量去改
中英文混杂时识别率下降

表格识别能解决的话,还有一个需求:按版式识别。这个太复杂,不知道能不能做出来,可以先从简单的版面开始
以前有程序可以自己定义要识别的区域
这样用户后续编辑的时候方便些

作者: bluelectron    时间: 2026-5-22 15:31
厉害,能识别表格很好


作者: hkgmy    时间: 2026-5-22 15:32
bluepolar 发表于 2026-5-22 15:27
回想了下以前用OCR的痛点:
识别的标点半角全角混乱,要批量去改
中英文混杂时识别率下降
按版式识别。能具体讲讲吗?效果是什么样的 ?
是非矩形区域?
作者: 大蓝京人    时间: 2026-5-22 15:39
bluepolar 发表于 2026-5-22 15:27
回想了下以前用OCR的痛点:
识别的标点半角全角混乱,要批量去改
中英文混杂时识别率下降
这样的?
image.jpg (66.03 KB, 下载次数: 0)下载附件2026-5-22 15:39 上传
作者: hkgmy    时间: 2026-5-22 15:43
大蓝京人 发表于 2026-5-22 15:39
这样的?
1、标点符号统一成一种,这个可以做到
2、如果是格式换行,这个现在已经有了
3、我还在想,要不要加入格式整理,只能分段落功能,这样书籍扫描的时候,不会出现一大堆的断行
作者: bluepolar    时间: 2026-5-22 15:44
hkgmy 发表于 2026-5-22 15:32
按版式识别。能具体讲讲吗?效果是什么样的 ?
是非矩形区域?
比如说PPT那种有多个区域内容的,很容易被当成按行识别,用户重新排版时的主要麻烦是要从识别结果的不同行把需要的内容复制出来
如果能识别出不同区域(比如:空间距离、字体字号颜色等等有变化),识别结果也用word等按版面排布,那就更省事了
区域可以是规则或不规则,用户可以用鼠标划出区域边界
作者: bluepolar    时间: 2026-5-22 15:46
本帖最后由 bluepolar 于 2026-5-22 15:48 编辑
大蓝京人 发表于 2026-5-22 15:39
这样的?

要实现估计还是有一定难度的,可以由用户来划分区域,一个区域一个区域的识别
现在用在线识别,经常是要把图片自己分成几个部分传上去识别
作者: java    时间: 2026-5-22 15:48
自动识别屏幕上考题 然后送给AI问答
作者: hkgmy    时间: 2026-5-22 15:53
bluepolar 发表于 2026-5-22 15:44
比如说PPT那种有多个区域内容的,很容易被当成按行识别,用户重新排版时的主要麻烦是要从识别结果的不同 ...
大概明白了
按块识别,不同的块不能识别到一行
类似的情况,还有竖排版、左向右排版

容我想想,怎么实现
作者: hkgmy    时间: 2026-5-22 15:57
java 发表于 2026-5-22 15:48
自动识别屏幕上考题 然后送给AI问答
什么情况才会用到这个需求这要实时扫描屏幕
作者: 大母鸡    时间: 2026-5-22 16:01
我以前用的是大漠插件
作者: njxurong    时间: 2026-5-22 16:42
windows用,还是手机app。我下载了,exe点击打不开呀

作者: hkgmy    时间: 2026-5-22 16:50
njxurong 发表于 2026-5-22 16:42
windows用,还是手机app。我下载了,exe点击打不开呀

windows的

无感启动,可能直接隐藏在任务栏里面了,蓝色图标,文字是OC
image.jpg (7.08 KB, 下载次数: 0)下载附件2026-5-22 16:50 上传
作者: lalpha2000    时间: 2026-5-22 16:52
没调用ai模型吧?
作者: laogeda    时间: 2026-5-22 16:52
大母鸡 发表于 2026-5-22 16:01
我以前用的是大漠插件
shareX

作者: pub    时间: 2026-5-22 17:12
设置识别范围,黑白名单,比如数字表格,只允许在数字,半角标点范围,避免 0o  .。 1l   2z

本文转载于9090社区,帖子链接:https://qq9090.top/thread-604419-1-1.html

“自写的OCR升级到1.1.0版本,大家还想加什么功能?” 的相关文章

抖音上有个美女,看起来比迪丽热巴都美

作者: 弱电门禁    时间: 3 天前叫瑞宸,我想说这类女的是不是实际上不大行啊,真人难道看着比较老,抑或是皮肤很差?远看真没得说,超美,接近日本漫画里的美女,眼睛比嘴大。微信图片_20250117...

医保部分降压新药效果欠佳有方法解决了,一粒不行建议吃两粒

作者: 金陵十二槽    时间: 前天 21:26来源:第一财经2025-01-20 14:58近日,关于原研药与仿制药的讨论屡屡冲上热搜。在最新的讨论中,一种叫做“络活喜”的降压药再次被提起。上海市...

看了下史料,在当时上海租界的牌子上写的根本不是这样的文字

作者: 阿里克斯    时间: 前天 16:47说是当时外国人建造了公园,但是外国人不喜欢华人进公园,因为实在是无法忍受,华人进去之后随意践踏,摘花折枝,到处吐痰,随地不择方向大小便,搞得一塌糊涂。于...

工信部:开展万兆光网试点工作

作者: gillospol    时间: 2025-1-7 20:52工业和信息化部1月7日发布《关于开展万兆光网试点工作的通知》,提出到2025年底,在有条件、有基础的城市和地区,聚焦小区、工厂、园...

第一次鸦片战争英军还是用的前膛装燧发枪,并不是武器

作者: 阿里克斯    时间: 前天 21:43前唐庄燧发枪一分钟还只能两三发弹丸,还是使用的线列步兵,所以说并不是武器不如人,主要是清国人不行,一塌糊涂,人家祖鲁人原始部落还打败英国殖民军,缴获大量...