Google被逼再返开源战场；AI infra行业全景图；12个RAG痛点及解决建议；魔搭课程·七天入门LLM大模型

Google被逼再返开源战场；AI infra行业全景图；12个RAG痛点及解决建议；魔搭课程·七天入门LLM大模型 | ShowMeAI日报-程序员宅基地

技术标签：人工智能开源

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦！

Google 推出轻量级开源模型 Gemma：这是想开源闭源双线作战？

blog.google/technology/…

2月21日，Google 宣布推出轻量级开源系列模型 Gemma，包含 Gemma 2B 和 Gemma 7B 的预训练和指令微调版本。在发布模型权重的同时，Google 还同步推出了一系列的支持工具 ⋙ 官方中文公众号

Gemma 再次证明，只要数据量足够多 (Gemma 7B用到了6万亿Token)，数据质量足够好 (增加数学、代码、科学论文等增强模型推理能力的数据)，小模型的能力仍然能够得到持续提升。

weibo.com/1064649941/…

关于 Gemma 的实际表现，AI社区正在测试中并陆续有一些分享。不过，业内对于 Google 此时推出 Gemma 开源模型，有一些解读观点非常有洞察力：

Gemma 是针对开源届的，也就是针对 Meta 和 Mistral 的。这侧面说明 Meta 的 LLama 3 很快就要发布了，或者 Mistral 最近会有新品发布。

谷歌被迫再次切入开源领域，重返开源赛场是大好事，虽然很明显是被迫的。Gemma 代表谷歌大模型策略的转变——兼顾开源和闭源：，开源主打性能最强大的小规模模型，希望脚踢 Meta 和 Mistral；闭源主打规模大的效果最好的大模型，希望尽快追上 OpenAI。

目前大模型巨头的打压链：OpenAI → Google & Anthropic & Mistral → Meta → 其它大模型公司。

Gemini 1.5 其实是很强的，但在宣发策略上被 OpenAI 临时拿Sora出来打哑火，没有获取应该获取到的足够公众关注。OpenAI应该储备了一个用于打压对手的技术储备库，即使做得差不多了也隐而不发，专等竞争对手发布新产品的时候扔出来，以形成宣传优势，而这种打压策略很明显还会继续下去。

世界上速度最快的大模型 Groq 登场：天下武功，真的唯快不破吗？

wow.groq.com

一觉醒来，每秒能输出 500 个 token 的 Groq 模型刷屏全网，堪称「世界上速度最快的LLM」！相比之下，ChatGPT-3.5 每秒生成速度仅为40个 token。

在 Groq 的第一个公开基准测试中，Meta AI 的 Llama 2 70B 在 Groq LPU 推理引擎上运行，其输出令牌吞吐量快了 18 倍，优于所有其他基于云的推理提供商。

artificialanalysis.ai/models/llam…

根据 Artificial Analysis 上周公布的第三方测试结果，Groq 每秒能够生成 247 个 token，远远高于微软的 18 个 token。也就是说如果将 ChatGPT 运行在 Groq 芯片之上，其速度将可提高 13 倍有余。

www.semianalysis.com/p/groq-infe…

那么，Groq 真的可以脚踢英伟达，成为AI芯片行业的变革者么？事实显然并不是这么简单。

这篇文章详细分析了 Groq 架构以及由此带来的场景优劣势：Groq 架构建立在小内存、大算力上，因此有限的被处理的内容对应着极高的算力，导致其速度非常快。或者说，Groq 极高的速度是建立在很有限的单卡吞吐能力上的，要保证和 H100同样吞吐量，就需要更多的卡，这极大拉高了 Groq 的使用成本 ⋙ 这篇文章解释得更清晰

贾扬清也发朋友圈进行了粗略且保守的计算，表达了同样的观点。

人工智能基础设施 (AI infra) 行业全景图：是时候将目光放到AI整个产业链了！

ai-infra.fun

这个网站整理了人工智能行业的基础设计生态，将公司或产品分成了6大类17小类，并且点击每个 Logo 可以看到对应公司的详细信息。以下是这份全景图的分类介绍：

网站支持下载高清原图和PDF文件，当前你可以按照管理在咱们的社区和星球获取~

Application Development 应用开发

Observability & Evaluation / 可观察性与评估

IDE & Workspace / 集成开发环境与工作空间

Agent & Prompt Framework / 代理与提示框架

Testing & Debugging / 测试与调试

Orchestration 编排

Workflow & Pipeline / 工作流与流水线

Gateway & Router / 网关与路由器

Data Management 数据管理

Vector Database / 向量数据库

AI in DB / 数据库中的人工智能

ETL & Data Pipeline / 数据提取、转换与加载与数据管道

Runtime 运行时间

Inference & Deployment / 推理与部署

Finetuning & RLHF / 微调与强化学习与人类反馈

Foundation Model 基础模型

LLM / 大型语言模型

Code / 代码

Audio / 音频

Image / 图像

Hardware & Cloud 硬件与云

Cloud Provider / 云服务提供商

GPU / 图形处理单元

medium.com/@shriftman/…

上方网站没有详细介绍各部分的具体功能。如果你有意继续探索，欢迎阅读这篇文章。写得非常好~

文章作者 Jonathan Shriftman 先后成功孵化并出售两家AI创业公司，对AI行业发展有着独到的洞察能力。他采访了多名业内顶级公司CEO和CTO，并结合自己的官场绘制了这份「生成式AI的基础设施架构」，并在文章内详细介绍了各部分的功能、技术发展路径、有潜力的公司…… ⋙ 生成式AI基础设施堆栈的初学者指南

半导体 / 芯片 / 云托管 / 推理 / 部署 (Semiconductors, Chips, Cloud Hosting, Inference, Deployment)：这一层提供了生成式AI所需的计算能力

编排层 / 应用程序框架 (Orchestration Layer / Application Frameworks)：这一层中的应用框架可以加速开发流程，帮助开发者将AI模型与不同的数据源进行集成

矢量数据库 (Vector Databases)：向量数据库以数字向量的形式存储数据，这种表示方法更有利于机器理解语义信息

微调 (Fine-Tuning)：微调过程中，开发者在预训练好的语言模型的基础上，使用特定的任务数据集进行进一步训练，以提升模型在该任务上的表现

数据标记 (Labeling)：准确的标注对模型的成功很关键

综合数据 (Synthetic Data)：合成数据可以在真实数据不可用时对模型进行训练和测试，同时保护隐私

模型监督 / AI可观测性 (Model Supervision / AI Observability)：模型监控可以检测数据偏差、解释模型行为、发现错误模式等，确保模型的行为符合预期

模型安全 (Model Safety)：模型安全措施，如偏差检测、对抗测试等，可以降低模型风险，减少无意的后果

12个 RAG 痛点及解决建议：解决检索增强生成的核心挑战

towardsdatascience.com/12-rag-pain…

这篇文章结合论文与实践经验，整理了12个 RAG 痛点，并给出了每个痛点的一种或多种解决方案，帮助开发者更好地理解和应对 RAG 系统设计和实施中的挑战，从而开发出高质量&可靠的 RAG 系统。

内容缺失 (Missing Content)

清理数据：确保输入数据的质量，避免冲突信息

更好的提示：设计提示以鼓励模型在不确定时承认其局限性

错排应该靠前的文档 (Missed the Top Ranked Documents)

调整参数：通过调整 chunk_size 和 similarity_top_k 参数来优化检索效率和信息质量

重新排名：在将检索结果发送到 LLM 之前，使用如 CohereRerank 等工具进行重新排序

脱离上下文 (Not in Context — Consolidation Strategy Limitations)

调整检索策略：使用 LlamaIndex 提供的高级检索策略，如基础检索、高级检索和搜索、自动检索、知识图检索器、组合/分层检索器

微调嵌入：微调开源嵌入模型以提高检索准确性

未提取准确答案 (Not Extracted)

清理数据：再次强调数据质量的重要性

即时压缩：使用 LongLLMLingua 等技术在检索步骤后压缩上下文

长上下文重排序：使用 LongContextReorder 等工具重新排序检索到的节点

格式错误 (Wrong Format)

更好的提示：通过澄清说明、简化请求、举例说明和迭代提示来改进

输出解析：使用如 Guardrails 和 LangChain 等框架提供的输出解析模块

Pydantic 程序：将输入字符串转换为结构化 Pydantic 对象

OpenAI JSON 模式：设置响应格式为 JSON 对象，强制输出格式

具体要求不正确 (Incorrect Specificity)

高级检索策略：使用从小到大检索、句子窗口检索、递归检索等策略

答案不完整 (Incomplete)

查询转换：添加查询理解层，如 HyDE 查询转换技术

数据摄取可扩展性 (Data Ingestion Scalability)

并行化获取管道：使用 LlamaIndex 的并行处理功能提高文档处理速度

结构化数据QA (Structured Data QA)

ChainOfTablePack：使用「链表」概念逐步转换表格

混合自洽包：结合文本和符号推理，通过自我一致性机制聚合结果

从复杂 PDF 中提取数据 (Data Extraction from Complex PDFs)

嵌入表检索：使用 EmbeddedTablesUnstructuredRetrieverPack，即 LlamaPack 从 HTML 文档中解析嵌入表

替代模型 (Fallback Models)

Neutrino 路由器：智能路由查询到最适合的 LLM

OpenRouter：提供统一 API，支持多种 LLM，提供后备方案

LLM 安全性 (LLM Security)

Llama Guard：通过提示分类和响应分类来确保内容安全 ⋙ 这篇中文翻译版本很不错

Runway GEN:48 | 第二届48小时AI短片创作比赛结束！来看看世界最前沿的AI视频创作水平

gen48.runwayml.com/finalists

gen48.runwayml.com/winners

补充一份背景：Runway 是一款强大的、基于AI的图片&视频编辑工具；GEN:48 是 Runway 举办的一个AI短片创作挑战比赛，今年已经是第二次举办

Runway GEN:48 全称是 Runway GEN 48 Hour Short Film Competition，是一场面向全球的线上创作比赛。比赛主题和创作要求在开赛时宣布，届时参赛者需要在48小时内构思并创作一部 1~4 分钟的电影短片。

今年比赛在2月3日-2月5日举办，官网发布了进入决赛的40部小短片，并通过投票等方式决出了最终获胜的8部作品。

鉴于 Runway 的江湖地位以及 Runway GEN:48 比赛的号召力，决赛入围作品和最终获奖作品在相当程度上代表了当前 AI 视频创作的水平。

国内也有小伙伴报名参赛哦！并且积极分享了参赛攻略和创作心得。普雷尔的茶会 这篇主要介绍赛程设置、题目要求和参与体验，数字生命卡兹克 非常详细地记录了创作过程以及遇到的各种挑战。

Runway GEN:48 第一届比赛结束后，@逗砂对获奖作品进行了逐帧的解析，包括作品使用的视频生成工具、配音工具、创作技巧等，感兴趣可以看 ⋙ 这篇

两届比赛的获奖作品对照着看，可以看到最近一年的技术、产品和创作水平都发展神速哇

魔搭社区「七天入门LLM大模型」课程：带你从0基础到亲自完成一个AI应用

www.bilibili.com/video/BV1Fi…

过年期间，ModelScope魔搭社区推出的了一门为期7天的大模型带学课程，旨在帮助初学者理解和学习 LLM 的基础概念和实践。

看了一下课程视频，是前段时间在西安交通大学举办的主题训练营录屏，全部视频7个多小时，内容体系覆盖得比较完整。ModelScope 魔搭公众号还整理了视频重点内容的文字版，可以搭配着一起看。

第一天：魔搭社区和LLM大模型基础知识

魔搭LLM大模型开源生态图：基础模型研究、模型定制新范式

LLM类型介绍：Base 模型和 Chat 模型、多模态模型、Agent 模型、Code 模型

使用LLM及优化LLM输出效果：模型推理、Prompt (提示词)、few-shot prompt、LLM+RAG、模型微调、模型量化、模型评估、模型推理加速和部署、模型应用-Agent ⋙ 第一天·文字说明

第二天：提示词工程-Prompt Engineering

LLM的超参配置

Prompt Engineering：System message 系统指令、用户提示词 (user prompt)

Agent 最佳实践案例：使用 prompt 实现 agent create、使用 system message+prompt 实现 function call

写好 Prompt 的一些原则

优质的提示词典型框架 ⋙ 第二天·文字说明

第三天：LLM和多模态模型高效推理实践

多模态大模型推理：LLM 的推理流程、多模态的 LLM 的原理

vLLM+FastChat 高效推理实战

多端部署实战

LLM的应用场景：RAGt ⋙ 第三天·文字说明

第四天：大模型微调技术解析和实战

总览介绍：模型/训练/推理、预训练范式、如何确定自己的模型需要做什么训练、模型推理的一般过程、PyTorch框架、设备、PyTorch基本训练代码范例

Transformer结构：Transformer 对比 CNN 和 LSTM、Encoder 和 Decoder、RMSNorm、RoPE、SwiGLU、GQA、ChatGLM2的模型结构

数据的预处理：分词器 (Tokenizer)、模板 (Template)

选择适合自己的方法和模型：方法选型、方法选型

指令微调：微调 (Supervised Finetuning)、重要概念、分布式训练 (Distributed Training) ⋙ 第四天·文字说明

第五天：大模型自动评估理论和实战

LLM评估的方法论：如何评估一个 LLM、自动评估方法、LLM 评估面临的问题和挑战

LLM评估实战：LLMuses 自动评测框架介绍、基于客观题 benchmark 自动评估、基于专家模型的自动评估、LLM 推理性能评估 ⋙ 第五天·文字说明

第六天：大模型量化及低成本部署最佳实践

模型的量化：量化是什么、AutoGPTQ、GGML、AWQ

推理部署：推理及部署、一些推理方法、重要推理超参数、KVCache、VLLM、SWIFT、llama.cpp、FastChat ⋙ 第六天·文字说明

第七天：来，亲手做一个A应用！

目前最好用的AI应用有哪些？

基于AI模型可以做什么应用？

如何走出AI应用创建的第一步？

如何提升AI应用的使用体验？

你也可以做出好用的AI应用！ ⋙ 第七天·文字说明

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们！

◉ 点击 日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI领域发展前沿，抓住最新发展机会！

◉ 点击 生产力工具与行业应用大全，一起在信息浪潮里扑腾起来吧！

本文链接：https://blog.csdn.net/weixin_42907150/article/details/136859108

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

JavaScript学习笔记_curry函数未定义-程序员宅基地

文章浏览阅读343次。五种原始的变量类型1.Undefined--未定义类型例：var v;2.String -- ' '或" "3.Boolean4.Number5.Null--空类型例： var v=null;Number中：NaN -- not a number非数本身是一个数字，但是它和任何数字都不相等，代表非数，它和自己都不相等判断是不是NaN不能用=_curry函数未定义

兑换码编码方案实践_优惠券编码规则-程序员宅基地

文章浏览阅读1.2w次，点赞2次，收藏17次。兑换码编码设计当前各个业务系统，只要涉及到产品销售，就离不开大大小小的运营活动需求，其中最普遍的就是兑换码需求，无论是线下活动或者是线上活动，都能起到良好的宣传效果。兑换码：由一系列字符组成，每一个兑换码对应系统中的一组信息，可以是优惠信息（优惠券），也可以是相关奖品信息。在实际的运营活动中，要求兑换码是唯一的，每一个兑换码对应一个优惠信息，而且需求量往往比较大（实际上的需求只有预期_优惠券编码规则

c语言周林答案,C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt...-程序员宅基地

文章浏览阅读45次。C语言程序设计实训教程教学课件作者周林ch04结构化程序设计课件.ppt* * 4.1 选择结构程序设计 4.2 循环结构程序设计 4.3 辅助控制语句第四章结构化程序设计 4.1 选择结构程序设计在现实生活中，需要进行判断和选择的情况是很多的: 如果你在家，我去拜访你如果考试不及格，要补考如果遇到红灯，要停车等待第四章结构化程序设计在现实生活中，需要进行判断和选择的情况..._在现实生活中遇到过条件判断的问

幻数使用说明_ioctl-number.txt幻数说明-程序员宅基地

文章浏览阅读999次。幻数使用说明在驱动程序中实现的ioctl函数体内，实际上是有一个switch{case}结构，每一个case对应一个命令码，做出一些相应的操作。怎么实现这些操作，这是每一个程序员自己的事情。因为设备都是特定的，这里也没法说。关键在于怎样组织命令码，因为在ioctl中命令码是唯一联系用户程序命令和驱动程序支持的途径。命令码的组织是有一些讲究的，因为我们一定要做到命令和设备是一一对应的，利_ioctl-number.txt幻数说明

ORB-SLAM3 + VScode:检测到 #include 错误。请更新 includePath。已为此翻译单元禁用波浪曲线_orb-slam3 include <system.h> 报错-程序员宅基地

文章浏览阅读399次。键盘按下“Shift+Ctrl+p” 输入: C++Configurations，选择JSON界面做如下改动：1.首先把 “/usr/include”,放在最前2.查看C++路径，终端输入gcc -v -E -x c++ - /usr/include/c++/5 /usr/include/x86_64-linux-gnu/c++/5 /usr/include/c++/5/backward /usr/lib/gcc/x86_64-linux-gnu/5/include /usr/local/_orb-slam3 include 报错

「Sqlserver」数据分析师有理由爱Sqlserver之十-Sqlserver自动化篇-程序员宅基地

文章浏览阅读129次。本系列的最后一篇，因未有精力写更多的入门教程，上篇已经抛出书单，有兴趣的朋友可阅读好书来成长，此系列主讲有理由爱Sqlserver的论证性文章，希望读者们看完后，可自行做出判断，Sqlserver是否真的合适自己，目的已达成。渴望自动化及使用场景笔者所最能接触到的群体为Excel、PowerBI用户群体，在Excel中，我们知道可以使用VBA、VSTO来给Excel带来自动化操作..._sqlsever 数据分析

随便推点

智慧校园智慧教育大数据平台（教育大脑）项目建设方案PPT_高校智慧大脑-程序员宅基地

文章浏览阅读294次，点赞6次，收藏4次。教育智脑）建立学校的全连接中台，对学校运营过程中的数据进行处理和标准化管理，挖掘数据的价值。能：一、原先孤立的系统聚合到一个统一的平台，实现单点登录，统一身份认证，方便管理；三、数据共享，盘活了教育大数据资源，通过对外提供数。的方式构建教育的通用服务能力平台，支撑教育核心服务能力的沉淀和共享。物联网将学校的各要素（人、机、料、法、环、测）全面互联，数据实时。智慧校园解决方案，赋能教学、管理和服务升级，智慧教育体系，该数据平台具有以下几大功。教育大数据平台底座：教育智脑。教育大数据平台，以中国联通。_高校智慧大脑

编程5大算法总结--概念加实例_算法概念实例-程序员宅基地

文章浏览阅读9.5k次，点赞2次，收藏27次。分治法，动态规划法，贪心算法这三者之间有类似之处，比如都需要将问题划分为一个个子问题，然后通过解决这些子问题来解决最终问题。但其实这三者之间的区别还是蛮大的。贪心是则可看成是链式结构回溯和分支界限为穷举式的搜索，其思想的差异是深度优先和广度优先一：分治算法一、基本概念在计算机科学中，分治法是一种很重要的算法。字面上的解释是“分而治之”，就是把一个复杂的问题分成两_算法概念实例

随笔—醒悟篇之考研调剂_考研调剂抑郁-程序员宅基地

文章浏览阅读5.6k次。考研篇emmmmm，这是我随笔篇章的第二更，原本计划是在中秋放假期间写好的，但是放假的时候被安排写一下单例模式，做了俩机试题目，还刷了下PAT的东西，emmmmm，最主要的还是因为我浪的很开心，没空出时间来写写东西。　　距离我考研结束已经快两年了，距离今年的考研还有90天左右。　　趁着这个机会回忆一下青春，这一篇会写的比较有趣，好玩，纯粹是为了记录一下当年考研中发生的有趣的事。　　首先介绍..._考研调剂抑郁

SpringMVC_class org.springframework.web.filter.characterenco-程序员宅基地

文章浏览阅读438次。SpringMVC文章目录SpringMVC1、SpringMVC简介1.1 什么是MVC1.2 什么是SpringMVC1.3 SpringMVC的特点2、HelloWorld2.1 开发环境2.2 创建maven工程a>添加web模块b>打包方式：warc>引入依赖2.3 配置web.xml2.4 创建请求控制器2.5 创建SpringMVC的配置文件2.6 测试Helloworld2.7 总结3、@RequestMapping注解3.1 @RequestMapping注解的功能3._class org.springframework.web.filter.characterencodingfilter is not a jakart

gdb: Don‘t know how to run. Try “help target“._don't know how to run. try "help target".-程序员宅基地

文章浏览阅读4.9k次。gdb 远程调试的一个问题:Don't know how to run. Try "help target".它在抱怨不知道怎么跑，目标是什么. 你需要为它指定target remote 或target extended-remote例如:target extended-remote 192.168.1.136:1234指明target 是某IP的某端口完整示例如下:targ..._don't know how to run. try "help target".

c语言程序设计教程郭浩志,C语言程序设计教程答案杨路明郭浩志-程序员宅基地

文章浏览阅读85次。习题 11、算法描述主要是用两种基本方法：第一是自然语言描述，第二是使用专用工具进行算法描述2、c 语言程序的结构如下：1、c 语言程序由函数组成，每个程序必须具有一个 main 函数作为程序的主控函数。2、“/*“与“*/“之间的内容构成 c 语言程序的注释部分。3、用预处理命令#include 可以包含有关文件的信息。4、大小写字母在 c 语言中是有区别的。5、除 main 函数和标准库函数以..._c语言语法0x1e