Community · AI Topics
开源研习社
Browse 开源研习社 topics: LLMs, prompts, agents, and AI tool discussions on 芝麻派AI.
Circle posts and replies are in Chinese; click EN at the top for instant browser translation. These pages are not indexed as separate English URLs.
登录后发起讨论
登录即可发布话题,支持配图、表情与手绘,与社区一起交流 AI 实践。
话题分类
开源研习社
Stable Diffusion WebUI 跑图报错求指路
刚在本地搭了 Automatic1111 那个 WebUI,用的 v1.8.0,跑个 512x512 的图直接 OOM 了,我 8G 显存理论上够啊。是不是要调 xformers 或者 --medvram?有没老哥丢个改好的启动参数链接,或者直接贴个稳定点的一键包出来,蹲个后续。
刚看到LocalAI这玩意,说是可以本地跑LLM和图像生成,不用GPU也行。有人部署过没?链接在这:
https://github.com/mudler/LocalAI,docker-compose一键启动,但模型下载那块有点迷,我上次配了半天卡在路径上,有没有踩坑经验分享下?
私藏一个叫PaddleOCR的开源项目,百度出的,GitHub链接:
https://github.com/PaddlePaddle/PaddleOCR。部署巨简单,pip install就跑起来,识别合同截图准确率吓人,关键免费,比那些按次收费的云API香多了。别外传哈,踩坑点:如果电脑没GPU,记得加参数--use_gpu false,不然报错卡半天。我自己用来转扫描件成word,省了手动敲键盘的时间,爽。
拉了个fairseq 0.12.2,跑语音翻译demo,data加载报KeyError:'src_tokens'。是不是还得额外搞个wav2vec2的权重?
llama.cpp 跑 Qwen2 7B 报错求教
试了最新 llama.cpp b3805 跑 Qwen2 7B,加载 q4_k_m 直接报“GGML_ASSERT: n_embd_head == 0”。换过几个 commit 都一样,有人遇到吗?模型是从官方仓库下那个 gguf,不是自己转的。想确认下是不是 llama.cpp 对 Qwen2 支持有坑,还是我姿势不对。有成功跑起来的给个命令行参考?
GitHub 上这个:
https://github.com/data61/MP-SPDZ。说是能跑各种 MPC 协议,我试了下编译就卡在依赖上,Python 版本要求 3.10 但机器上 3.9 死活不兼容。有没人踩过这坑,或者有现成 Docker 镜像链接?版本号 v0.3.8。
Stable Diffusion WebUI Forge 快慢对比测试
昨天试了 Forge 版 SD WebUI,同样的 512x512 图,fp16 比原版快了 23%。但 sd3.5 medium 跑 1024 直接 OOM 报错,有没踩坑的?Forge: github.com/lllyasviel/stable-diffusion-webui-forge参数:RTX 4060 8G,--medvram 已开,batch size 1
发现个叫AppFlowy的开源项目,号称开源的Notion替代品,自己搭了个试了下,数据全本地,用Docker一键部署还挺顺。链接在这:
https://github.com/AppFlowy-IO/AppFlowy。有人踩过插件坑没?我装了个日历模块挂了。
最近在玩 Dify,部署贼简单,docker-compose 一把梭。拿来搞个人知识库,丢了一堆笔记进去查东西挺爽。仓库在这 github.com/langgenius/dify ,踩坑:第一次跑记得改.env里的密钥,别直接用默认的。想搭私有的可以试试,比 notion AI 省钱多了。
试了下用 Caddy 2 的 AI 插件做反向代理和权限管理,免了 Nginx + Lua 那一套。官方给了几个模型接入示例,但实测 GPT-4o 要自己配 tokenizer。有人踩过这个坑吗?链接:github.com/caddyserver/ai
Mochi 1 刚开源,genmo那帮人搞的,直接本地部署能跑1080p视频,惊了。我用的3090,24G显存勉强扛住,渲染等了俩小时。地址:github.com/genmoai/mochi踩坑:别用Windows跑,CUDA版本不对直接炸,最后换Ubuntu+Docker才稳。兄弟们试试?
最近试了下Flowise,一个低代码搭建LLM工作流的工具,还能连各种API。安装直接用npx就行,不过第一天踩了个坑——Docker跑起来后端口冲突,后来改host模式才通。部署完感觉挺顺,官方文档挺全,链接在这:
https://github.com/FlowiseAI/Flowise。有没摸过的?聊聊体验?
GOT-OCR2.0,地址:github.com/Ucas-HaoranWei/GOT-OCR2.0,支持各种花体公式和手写,一键docker部署,我这边复现了,识别准确率比PaddleOCR高不少。有人试过纯图片表格场景不?想蹲个对比反馈。
chineseocr_lite,GitHub上那个轻量版,用DBnet+crnn搞的。昨天在旧笔记本上跑通了,识别身份证号基本准,但发票金额带小数点偶尔翻车。有人试过调置信度阈值没?
试了下ollama直接拉llama3.1 8B,i7-12700跑了快5分钟才吐出第一句,这玩意是不是只能等GPU版本?有人用llama.cpp优化过没,差距大吗?
Welcome! This site is in Chinese. Tap EN in the top bar to read in English.