Stable Diffusion 3来了!
在公众对Sora带来的震撼稍微冷却一点的时候,Stability AI扔出了一个炸弹:Stable Diffusion 3。Stability AI 称这是他们最强大的文生图模型,更具有极大的多主题提示、图像质量和拼写能力改进的性能。Stable Diffusion 3 模型套件当前的参数范围为 800M 到 8B。详情:https://stability.ai/news/stable-diffusion-3
与之前的版本相比,Stable Diffusion 3 生在图像质量、多个对象、拼写能力方面,都得到了显著提升。支持多主题提示,而且之前被吐槽的文字生成效果也改善很多。Stability AI 表示,Stable Diffusion 3 是一个模型系列,参数量从 800M 到 8B 不等。这个参数量意味着,它可以在很多便携式设备上直接跑,大大降低了 AI 大模型的使用门槛。
此外,Stable Diffusion 3 似乎有了对物理世界的理解, Stability AI 还透露,他们和 Sora 一样,在新模型中采用了 diffusio ...
TTS Generation WebUI 是一个免费的基于 gradio 的 Web 界面,用于文本转语音、音频和音乐生成,它同时支持手动安装及Docker 容器内运行。
此 webui 允许您使用各种模型从文本生成音频,包括 Bark、MusicGen、Tortoise 和 RVC。
开源地址:https://github.com/rsxdalv/tts-generation-webui
下载:https://github.com/rsxdalv/one-click-installers-tts/archive/refs/tags/v6.0.zip
特征
轻松生成文本到语音只需点击几下即可生成高质量的语音音频。
多功能 AI 模型利用强大的 AI 模型(如 Bark、MusicGen、Tortoise 和 Vocos)执行不同的 TTS 任务。
广泛的语音选择从 Bark Speaker Directory 访问各种声音和其他声音。
模型配置
论点
默认值
描述
text_use_gpu
true
确定是否应将 GPU 用于文本处理。
text_use_small ...
5ire是一款免费的开源项目,适用于PC、MAC平台的AI知识库产品,自带bge-m3 集成为本地嵌入模型,支持 DOCX、XLSX、PPTX、PDF、TXT 和 CSV 文档的解析和矢量化,从而能够存储这些矢量,从而在本地支持强大的检索增强生成 (RAG) 功能。
官网:https://5ire.app开源:https://github.com/nanbingxyz/5ire
特征支持应用内AI服务及添加第三方AI API服务
这使得你在选择AI模型上有更多的选择
支持提示库提示库提供了一种创建和组织您自己的提示的有效方法。这些 Prompt 具有高度的通用性,这要归功于它们对变量的支持。
书签您可以为每个对话添加书签,即使删除了原始消息,保存的已添加书签的内容也不会受到影响
快速关键字搜索您可以在所有对话中执行关键字搜索,快速确定所需的信息。
注:使用前你需要进入设置先下载数据库向量模型,然后可通过上传本地文档来进行AI对话
SoraWebui 是一个开源项目,允许用户使用 OpenAI 的 Sora 模型使用文本在线生成视频,从而简化视频创建,并具有轻松的一键网站部署功能
项目地址:https://github.com/SoraWebui/SoraWebui
支持在Vercel 上部署
本地部署:1. 克隆项目
1git clone git@github.com:SoraWebui/SoraWebui.git
2. 安装依赖12345cd SoraWebui && yarn#orcd SoraWebui && npm install#orcd SoraWebui && pnpm install
3. 复制 .env.example 并将其重命名为 .env.local1234567# website URLNEXT_PUBLIC_SITE_URL=http://localhost# openai configOPENAI_API_KEY=sk-XXXXXXOPENAI_API_BASE_URL=http://localhost:8081OPENAI_A ...
扣子(英文名称 Coze) 是新一代一站式 AI Bot 开发平台。无论你是否有编程基础,都可以在扣子平台上快速搭建基于 AI 模型的各类问答 Bot,从解决简单的问答到处理复杂逻辑的对话。而且你可以将搭建的 Bot 发布到各类社交平台和通讯软件上,让更多的用户与你搭建的 Bot 聊天。 国内版的Coze,基于字节云雀大模型的AI Bot一站式平台。目前,字节跳动旗下Cici、Coze、ChitChopt 和 BagelBell 四款AI相关产品已在过去三个月内先后登陆海外,目前已经拥有数百万下载量。其中,只有 Coze/扣子目前同时登陆了国内市场和美国市场,其他三款均未向美国和欧洲市场开放。
009
扣子不等于Coze,“等于”仅仅是UI上语言文字的不同。扣子更不是GPTs或者GPT Store,国内公开发布提供服务的平台不可能采用ChatGPT、Dall-E3等LLM构建,也不需要接入Telegram、Whatsup、Discord等国外社交媒体平台,归纳一下就是:扣子是个基于云雀LLM、可以接入微信、飞书等国内社交媒体的零代码、一站式AI Bot平台。
Coze链接:https ...
介绍这是由视频生成产品 Finalframe新推出的适用于AI生成视频的剪辑界面,页面很简约,便于用户操作剪辑。
它是为AI视频而生的
官网:https://finalframe.ai/dashboard/login.html
TWITTER:https://twitter.com/FinalFrameAI
基本功能:
文字转视频
图片转视频
2.1版本还上新了一个出彩且实用的功能:运动控制,通过控制摄像机运动来扩展AI视频剪辑。
它根据GPU算力来计算费用,如需付费使用$10可兑换100算力
此外,在界面最上方的搜索栏支持几十的AI视频及图片搜索处理,如我想搜索cat猫时,几秒钟即可为你找到合适的画面
总体来说,在算法演化上它使AI视频得到进一步释放,也为AI视频生成类提供了剪辑方向的参考,不足的话可能就是算力还是弱一些和没有多语言界面的模式吧,期待它之后有更好的表现。
介绍Tunetank 是最好的免版税音乐和背景音乐的来源。您可以将此音乐用于每个社交媒体,包括 YouTube,甚至只需将 YouTube 链接提交到上面的表格中即可立即删除版权声明。随意使用无版权音乐。
官网:https://tunetank.com
它提供了一种新的寻找配乐的方式,通过改平台下载到的音乐你可以完全无版权且可商业化使用,当然,你也可以通过其它方式获取音频
介绍ChatGemini 是一个基于 Google Gemini 的网页客户端,对标 ChatGPT 3.5,操作逻辑同 ChatGPT 3.5 一致,同时支持在聊天中上传图片,应用会自动调用 Gemini-Pro-Vision 模型进行识图
github开源:https://github.com/bclswl0827/ChatGemini
预览页:https://ibcl.us/ChatGemini
功能特性
适配移动端
支持多 API 密钥分流
操作逻辑同 ChatGPT
仿 ChatGPT 3.5 界面
支持多轮聊天对话
支持上传图片进行识别
逐字输出(SSE)回应
集成 PHP 版反向代理
自定义 Gemini API 地址
可启用站点通行码防止滥用
聊天内容导出(HTML 和 PDF)
对话内容保存在 IndexedDB 中
在 AI 回应中运行 Python 代码
有关 Gemini API 的申请,请前往 Google AI Studio:(https://makersuite.google.com/app/apikey)
手动部署确保已安装 Node.js 和 ...