跳到内容

中午好,记得休息片刻,补充能量。

  • 13 回复
  • 274 浏览

树莓派+红外传感器,做了个AI自动翻页乐谱架

参与讨论

用树莓派接两个红外传感器,检测手势实现翻页,再挂个摄像头用OCR识别当前乐谱位置。目前硬件逻辑通了,但摄像头角度一偏OCR就掉,而且翻页时机不好判断。有人试过类似方案吗?

讨论区

按楼层回复,支持引用与表情;使用 @用户名 或 @昵称 可提醒对方;发言计入圈子贡献字数。

13s 条评论

  1. 法务别找我
    法务别找我 成长4,738

    红外加OCR这个坑我踩过,@摸鱼不划水 试试PaddleOCR开量化,角度宽容度高不少。翻页时机我直接加了个脚踩开关,GPIO直连延迟基本没感觉。

  2. 粉笔没落灰
    粉笔没落灰 成长8,027

    @下次一定改 班上孩子试过用脚踩开关,反应比手势快,但得防他们踩high了把谱架踢翻。OCR角度问题,试试把摄像头固定在谱架侧面,别正对,我们弄机器人巡线时偏15度内都能扛住。

  3. 粉笔没落灰
    粉笔没落灰 成长8,027

    @需求又改了 这玩意有意思,班上孩子弹琴老嫌翻谱麻烦。OCR角度偏移的话,试试在谱架边缘贴个高对比度标记当定位点,我们做机器人巡线时用这招稳不少。翻页时机要不加个脚踩开关做后备?

  4. 围观不发言
    围观不发言 萌芽780
    引用 粉笔没落灰

    @粉笔没落灰 高对比标记这个思路我试过,但OCR库(Tesseract 4.1)对倾斜超过15°就崩,你巡线用的啥算法?翻页脚踩开关倒是个办法,但延迟怎么控制,用过蓝牙还是直接GPIO?

  5. 谨言慎行plus
    谨言慎行plus 成长5,624
    引用 围观不发言

    @粉笔没落灰 高对比标记这个思路我试过,但OCR库(Tesseract 4.1)对倾斜超过15°就崩,你巡线用的啥算法?翻页脚踩开关倒…

    翻页时机不如加个简单压力传感器在谱架边缘,手肘碰到就翻,比手势和踩都省事。@围观不发言 OCR倾斜问题可以试试OpenCV透视矫正,硬扛Tesseract不现实。

  6. 路过点个赞
    路过点个赞 成长5,174
    引用 谨言慎行plus

    翻页时机不如加个简单压力传感器在谱架边缘,手肘碰到就翻,比手势和踩都省事。@围观不发言 OCR倾斜问题可以试试OpenC…

    @谨言慎行plus 透视矫正思路对,但动态场景下标记点容易抖。我上次用mediapipe手部关键点+HSV阈值切出手势区域,硬怼了一个轻量分类器,倾斜到30°都能稳住,不过对光线敏感。你树莓派型号是4B还是5?

  7. 摸鱼不划水
    摸鱼不划水 萌芽1,973
    引用 路过点个赞

    @谨言慎行plus 透视矫正思路对,但动态场景下标记点容易抖。我上次用mediapipe手部关键点+HSV阈值切出手势区域,硬怼了一…

    @路过点个赞 树莓派4B,OCR崩的时候直接怀疑人生。mediapipe那个方案有现成demo链接吗,我想嫖一下。

  8. 深夜改BUG
    深夜改BUG 成长4,579
    引用 摸鱼不划水

    @路过点个赞 树莓派4B,OCR崩的时候直接怀疑人生。mediapipe那个方案有现成demo链接吗,我想嫖一下。

    @摸鱼不划水 mediapipe那个demo我上次在GitHub上翻到过,搜「hand-gesture-ocr-pi」就有,但记得把模型量化一下,4B跑起来才不卡。OCR倾斜可以试试PaddleOCR,对角度没那么敏感。

  9. 咖啡续命中
    咖啡续命中 萌芽1,007
    引用 摸鱼不划水

    @路过点个赞 树莓派4B,OCR崩的时候直接怀疑人生。mediapipe那个方案有现成demo链接吗,我想嫖一下。

    @摸鱼不划水 mediapipe那个demo我试过,4B量化后勉强能跑30帧,但光线一变就抓瞎。OCR倾斜建议先上PaddleOCR,Tesseract真扛不住动态场景。

  10. 摸鱼不划水
    摸鱼不划水 萌芽1,973
    引用 咖啡续命中

    @摸鱼不划水 mediapipe那个demo我试过,4B量化后勉强能跑30帧,但光线一变就抓瞎。OCR倾斜建议先上PaddleOCR,Tesseract真扛不住…

    笑死,OCR崩到怀疑人生是树莓派用户的日常了。脚踩开关+角度固定看来是最稳的,但 @咖啡续命中 说的mediapipe量化后30帧够用吗?我4B跑个简单分类器都怕过热降频。

  11. 强迫症晚期
    强迫症晚期 萌芽1,512
    引用 摸鱼不划水

    @路过点个赞 树莓派4B,OCR崩的时候直接怀疑人生。mediapipe那个方案有现成demo链接吗,我想嫖一下。

    @摸鱼不划水 我之前也是4B搞OCR翻车,后来换了PaddleOCR加个固定角度的摄像头支架,偏角小点基本稳了。翻页时机其实可以试试用音频检测弹奏停顿,比手势省事。

  12. 运维祭天
    运维祭天 成长5,225
    引用 摸鱼不划水

    @路过点个赞 树莓派4B,OCR崩的时候直接怀疑人生。mediapipe那个方案有现成demo链接吗,我想嫖一下。

    @摸鱼不划水 我试过PaddleOCR的轻量版,树莓派4B上跑大概200ms一帧,倾斜30度内都稳,就是模型文件大了点(15M)。翻页时机要不加个红外测距传感器?手靠近谱架30cm内自动翻,省得纠结延迟。

  13. 设计稿又改了
    设计稿又改了 萌芽2,525
    引用 摸鱼不划水

    @路过点个赞 树莓派4B,OCR崩的时候直接怀疑人生。mediapipe那个方案有现成demo链接吗,我想嫖一下。

    mediapipe那个demo我试过,4B量化后勉强能跑30帧,但光线一变就抓瞎。OCR倾斜建议先上PaddleOCR,Tesseract真扛不住动态场景。

发表评论

登录后发表评论

登录即可参与楼层讨论,支持引用回复与 @ 提醒。

前往登录页

Welcome! This site is in Chinese. Tap EN in the top bar to read in English.