AI 日报 | 2026-03-23
19 个来源 | 78 条新内容 | 10 条 AI 精选
Smart Recommendations
1. OpenAI Agents SDK v0.13.0 发布
AI Agent 框架 - OpenAI Agents SDK | GitHub 开源项目 Releases(Atom Feed)
OpenAI Agents SDK 发布 v0.13.0 版本,默认实时WebSocket模型升级为 gpt-realtime-1.5,新增 MCP(Model Context Protocol)能力支持,并修复了多项运行时稳定性问题。这是 OpenAI Agent 生态的重要更新,MCP 集成让 Agent 可以更灵活地连接外部工具和数据源。开发者可以立即升级 pip 包体验新功能。
2. 使用 Claude skills 探索 Starlette 1.0
Simon Willison | 知名 AI 个人开发者/研究者
Simon Willison 深度体验 Starlette 1.0 正式版发布,通过 Claude skills 进行框架探索和学习。Starlette 作为 FastAPI 的底层基础框架,1.0 的发布标志着其API稳定性承诺,是 Python Web 生态的重要里程碑。文章详细展示了如何利用 Claude AI 辅助探索和学习新的框架特性,对 Python 后端开发者尤其有价值。
3. 上周AI要闻 #339 - DLSS 5、OpenAI 超级应用、MiniMax M2.7
AI 专业媒体/Newsletter - Last Week in AI | 新闻媒体
Last Week in AI 第339期汇总了本周AI领域重大进展:NVIDIA DLSS 5 看起来像实时生成式AI游戏画面滤镜,OpenAI 据报将专注于商业和生产力应用方向,MiniMax 发布 M2.7 模型。内容覆盖面广,是跟踪AI行业动态的优质周报。
4. Starlette 1.0 技能
Simon Willison | 知名 AI 个人开发者/研究者
Simon Willison 分享了他创建的 Starlette 1.0 Claude skill(研究项目),用于探索 Starlette 框架的新特性。展示了 Claude skills 在技术学习中的实际应用。
5. 当提示词优化变成越狱攻击:大语言模型的自适应红队测试
arXiv cs.CL | AI 研究 / arXiv 每日精选
研究者提出将提示词优化技术应用于LLM安全性红队测试的自适应方法,揭示了现有安全评估过度依赖固定有害提示词集合的局限性。该方法能自动发现新的攻击向量,对LLM应用部署前的安全审计具有实用价值。对构建安全AI系统的开发者有重要参考意义。
6. 字节版龙虾架构火爆GitHub!开源获35k+ Star,内置Skill全家桶,原生适配飞书
中文 AI 媒体 - 量子位 | 新闻媒体
字节跳动开源的 Agent 框架(龙虾架构)在 GitHub 爆火获超35k Star,内置完整的 Skill 组件全家桶,原生适配飞书平台。框架支持各类 Skill 按需扩展,为企业级 AI Agent 开发提供了开箱即用的解决方案。对正在构建 Agent 系统的开发者有直接参考和使用价值。
7. 千问上线AI打车,一句话搞定选车、选地点、选时间
中文 AI 媒体 - 量子位 | 新闻媒体
阿里千问上线AI打车功能,用户可以通过一句自然语言指令完成选车型、选上车地点、选出发时间的全流程操作。千问已有1.3亿用户首次体验AI购物功能。这是LLM在日常生活服务场景的重要落地案例,展示了AI Agent在服务编排方面的实际应用潜力。
8. llama.cpp b8478 版本发布
推理引擎 & 本地 AI - llama.cpp | GitHub 开源项目 Releases(Atom Feed)
llama.cpp 发布 b8478 版本,新增 OpenCL 后端的扁平化 Q4_K 矩阵向量乘法和通用 Q4_K 矩阵乘法支持。这一改进显著提升了 OpenCL 设备(如部分AMD GPU和集成显卡)上的本地推理性能。对使用非NVIDIA GPU进行本地推理的开发者有直接价值。
9. llama.cpp b8477 版本发布
推理引擎 & 本地 AI - llama.cpp | GitHub 开源项目 Releases(Atom Feed)
llama.cpp 发布 b8477 版本,为 InternVL 模型添加动态高分辨率图像预处理支持,增强了多模态推理能力。InternVL 是目前性能领先的开源视觉语言模型之一,这一改进使本地多模态推理更加灵活。
10. 智象未来推出多模态原生龙虾应用产品“HiDreamClaw”
中文 AI 媒体 - 36氪 | 新闻媒体
智象未来推出多模态应用产品HiDreamClaw,集成了Veo、Sora等SOTA模型,支持图片与视频生成及创意辅助全流程。
Blog 精选 Top 5
1. undefined
undefined | undefined
[阅读原文](function link() { [native code] })
2. undefined
undefined | undefined
[阅读原文](function link() { [native code] })
3. undefined
undefined | undefined
[阅读原文](function link() { [native code] })
4. undefined
undefined | undefined
[阅读原文](function link() { [native code] })
5. undefined
undefined | undefined
[阅读原文](function link() { [native code] })
YC 主题
暂无
a16z 主题
暂无
1. 新闻媒体
44 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| 辛选公司已为辛选APP软件登记著作权 | 中文 AI 媒体 - 36氪 | 03-23 17:42 | 辛选集团宣布推出线上辛选超市,已为辛选APP等软件登记著作权。属于传统电商业务,与AI无关。 |
| 提供高质量空间智能数据服务,「际数科技」完成数千万元Pre-A+轮融资 | 36氪首发 | 中文 AI 媒体 - 36氪 | 03-23 17:42 | 空间智能数据服务商际数科技完成数千万元Pre-A+轮融资,主要为自动驾驶和具身智能领域提供数据标注服务,已服务超20家头部客户。 |
| 智象未来推出多模态原生龙虾应用产品“HiDreamClaw” | 中文 AI 媒体 - 36氪 | 03-23 17:40 | 智象未来推出多模态应用产品HiDreamClaw,集成了Veo、Sora等SOTA模型,支持图片与视频生成及创意辅助全流程。 |
| 打造青少年“AI私教”,走进全国200多所学校,「满分运动」获数千万元A轮融资|36氪首发 | 中文 AI 媒体 - 36氪 | 03-23 17:39 | 体育教育服务商「满分运动」完成数千万元A轮融资,基于自研青少年运动健康垂类大模型和视觉捕捉模型,已进入200多所学校。 |
| 9天5板正泰电源:内外部经营环境未发生重大变化 | 中文 AI 媒体 - 36氪 | 03-23 17:38 | 正泰电源连续涨停后发布异动公告,称内外部经营环境未发生重大变化。纯股市资讯。 |
| ST景谷:因合同诈骗,公安机关对相关责任人立案 | 中文 AI 媒体 - 36氪 | 03-23 17:34 | ST景谷原控股子公司实际控制人因合同诈骗被公安机关立案。纯金融/法律新闻。 |
| 通化金马:董事长张玉富已增持1000万元股份 | 中文 AI 媒体 - 36氪 | 03-23 17:26 | 通化金马董事长完成1000万元增持计划。纯股市资讯。 |
| *ST立方:收到股票终止上市决定 | 中文 AI 媒体 - 36氪 | 03-23 17:21 | *ST立方收到深交所终止上市决定,将进入退市整理期。纯金融资讯。 |
| 空客达成协议收购网络安全公司Ultra Cyber | 中文 AI 媒体 - 36氪 | 03-23 17:19 | 空客宣布与安宏资本达成协议收购网络安全公司Ultra Cyber,财务细节未披露。 |
| 国投白银LOF:将于3月24日开市起至当日10:30停牌 | 中文 AI 媒体 - 36氪 | 03-23 17:10 | 国投瑞银白银期货LOF将于3月24日短暂停牌。纯金融资讯。 |
| 业绩表现超预期,但李宁还“不想冒险” | 中文 AI 媒体 - 36氪 | 03-23 17:06 | 李宁2025年营收同比增长3.2%至295.98亿元,净利29.36亿元。纯消费品/零售业绩报告。 |
| 长源东谷:筹划购买襄阳康豪机电工程有限公司100%股权,股票停牌 | 中文 AI 媒体 - 36氪 | 03-23 17:06 | 长源东谷筹划发行股份购买襄阳康豪机电100%股权,股票停牌。纯金融资讯。 |
| 市场加大对美联储加息押注,预计今年将加息20个基点 | 中文 AI 媒体 - 36氪 | 03-23 17:03 | 交易员加大对美联储加息押注,预计今年将加息20个基点。纯金融/宏观经济资讯。 |
| AI竞赛正迫使欧洲电力公司从电网中榨取更多产能 | 英文科技媒体(AI 频道) - Wired AI | 03-23 17:00 | 随着数据中心开发商排队接入欧洲电网,运营商正在实验新方法为其腾出容量。反映了AI基础设施对能源的巨大需求。 |
| 湾区动物福利运动希望引入AI | 英文科技媒体(AI 频道) - MIT Technology Review AI | 03-23 17:00 | 旧金山的动物福利倡导者和AI研究者聚会讨论如何将AI技术应用于动物保护领域。属于AI应用边缘场景。 |
| 宇树毛利率60%的秘密 | 中文 AI 媒体 - 36氪 | 03-23 16:53 | 宇树公布IPO招股书,2025年前三季度整体毛利率达59.5%,人形机器人业务毛利率62.9%,远超行业均值。深度分析了宇树高毛利背后的管理和技术原因。 |
| 药明康德:公司2025年实现营业收入454.6亿元,同比增长15.8% | 中文 AI 媒体 - 36氪 | 03-23 16:50 | 药明康德2025年营收454.6亿元同比增长15.8%,归母净利润191.95亿元同比增105.2%。纯医药行业财报。 |
| Momenta不选VLA选世界模型,大众首发!曹旭东:传感器重要性最后 | 中文 AI 媒体 - 量子位 | 03-23 16:47 | Momenta选择世界模型而非VLA路线进行自动驾驶开发,将在大众汽车上首发。创始人曹旭东认为传感器重要性排在最后,世界模型+强化学习才是关键。 |
| 纳睿雷达:终止发行股份及支付现金购买资产事项并撤回申请文件 | 中文 AI 媒体 - 36氪 | 03-23 16:46 | 纳睿雷达终止发行股份购买天津希格玛微电子100%股权。纯资本市场操作。 |
| 蚂蚁集团旗下公司入股深圳跃然创新科技公司 | 中文 AI 媒体 - 36氪 | 03-23 16:46 | 蚂蚁集团旗下公司入股深圳跃然创新科技,经营范围含玩具销售、软件开发等。投资规模较小。 |
| 康师傅控股:2025年公司股东应占溢利45.01亿元,同比增长20.50% | 中文 AI 媒体 - 36氪 | 03-23 16:45 | 康师傅2025年营收790.68亿元同比降2%,股东应占溢利45.01亿元同比增20.5%。纯消费品财报。 |
| 海天精工:2025年归母净利润4.29亿元,同比下降17.97% | 中文 AI 媒体 - 36氪 | 03-23 16:36 | 海天精工2025年归母净利润4.29亿元同比下降17.97%。纯制造业财报。 |
| 老铺黄金:2025年营业收入为约273.03亿元,同比增长约221.0% | 中文 AI 媒体 - 36氪 | 03-23 16:34 | 老铺黄金2025年营收约273亿元同比增长221%。纯零售/消费财报。 |
| 中邮金融资产投资公司成立 | 中文 AI 媒体 - 36氪 | 03-23 16:31 | 中邮金融资产投资公司成立,注册资本100亿元,由邮储银行全资持股。纯金融资讯。 |
| 金财互联:2025年归母净利润6485.68万元,同比扭亏为盈 | 中文 AI 媒体 - 36氪 | 03-23 16:26 | 金财互联2025年归母净利润6485.68万元,同比扭亏为盈。纯财报资讯。 |
| 中国银行:加强贵金属市场风险防范 | 中文 AI 媒体 - 36氪 | 03-23 16:23 | 中国银行发布公告加强贵金属市场风险防范。纯金融监管资讯。 |
| 华新环保:林耀武辞任公司常务副总经理职务 | 中文 AI 媒体 - 36氪 | 03-23 16:20 | 华新环保常务副总经理林耀武辞任。纯人事变动。 |
| 上周AI要闻 #339 - DLSS 5、OpenAI 超级应用、MiniMax M2.7 | AI 专业媒体/Newsletter - Last Week in AI | 03-23 16:11 | Last Week in AI 第339期汇总了本周AI领域重大进展:NVIDIA DLSS 5 看起来像实时生成式AI游戏画面滤镜,OpenAI 据报将… |
| 字节版龙虾架构火爆GitHub!开源获35k+ Star,内置Skill全家桶,原生适配飞书 | 中文 AI 媒体 - 量子位 | 03-23 16:04 | 字节跳动开源的 Agent 框架(龙虾架构)在 GitHub 爆火获超35k Star,内置完整的 Skill 组件全家桶,原生适配飞书平台。框架支持各类… |
| 寻找最强具身大脑!全球机器人顶会ICRA开启报名,智元全程陪跑带你拿奖 | 中文 AI 媒体 - 量子位 | 03-23 16:02 | 全球机器人顶会ICRA开启具身智能竞赛报名,智元提供硬件、平台和数据支持。属于学术竞赛推广。 |
| 重磅加盟趋境科技,院士+教授领衔,领跑高效能AI Token生产新生态 | 中文 AI 媒体 - 量子位 | 03-23 13:53 | 趋境科技迎来院士+教授重磅加盟,定位高效能AI Token生产新生态,清华系科创标杆。 |
| 别人都在卷视觉,这家具身公司偏要卷“手感” | 中文 AI 媒体 - 量子位 | 03-23 13:51 | 一家具身智能公司专注触觉传感技术,已被全球top10科技公司中的6家采用。差异化路线值得关注。 |
| 千问上线AI打车,一句话搞定选车、选地点、选时间 | 中文 AI 媒体 - 量子位 | 03-23 12:01 | 阿里千问上线AI打车功能,用户可以通过一句自然语言指令完成选车型、选上车地点、选出发时间的全流程操作。千问已有1.3亿用户首次体验AI购物功能。这是LLM… |
| OpenClaw创始人回信确认360独家发现漏洞 | 中文 AI 媒体 - 量子位 | 03-23 11:57 | OpenClaw创始人回信确认360安全团队独家发现的安全漏洞,推进智能体应用的实战化防御。涉及AI Agent安全性议题。 |
| 黄仁勋发Token当工资!硅谷兴起刷量大赛,一人烧掉33个维基百科 | 中文 AI 媒体 - 量子位 | 03-23 11:21 | 硅谷兴起「Tokenmaxxing」风潮,即大量消耗AI Token的刷量竞赛,有人单次消耗相当于33个维基百科的Token量。反映了AI算力消耗的新趋势… |
| 前五源投资人联手港大教授,想做一款AGI投资机器,获Monolith投资|硬氪首发 | 中文 AI 媒体 - 36氪 | 03-23 10:37 | AI投资技术公司GIM完成数千万元天使轮融资,通过多智能体架构打造AGI时代的投资平台。创始人来自五源资本和港大。 |
| 月薪3000的职校生,正在「干掉」北影导演 | 中文 AI 媒体 - 36氪 | 03-23 10:30 | 讲述酱油动漫创始人黄浩南从中专毕业到漫剧赛道头部的创业故事,月收入超5000万。与AI关系较弱。 |
| 一夜之间,AI终获「永久记忆」!最难考试99%刷爆SOTA,全网直呼疯狂 | 中文 AI 媒体 - 新智元 | 03-23 10:13 | 报道AI系统在最难测试中取得99%的突破性成绩,声称实现了「永久记忆」能力。标题党风格明显,需关注具体技术细节。 |
| 谷歌最新发表的Science论文,颠覆了人类对ASI的想象 | 中文 AI 媒体 - 新智元 | 03-23 10:13 | 报道Google在Science期刊发表的最新论文,探讨人工超级智能(ASI)的可能性,被认为颠覆了现有对ASI的认知框架。 |
| 马斯克要自己做「英伟达+台积电」!宇宙芯片宏图开工,算力产能扩5000% | 中文 AI 媒体 - 量子位 | 03-23 09:50 | 马斯克宣布推进自研AI芯片计划,目标整合芯片设计和制造能力(类似英伟达+台积电),计划将算力产能扩大5000%。Terafab项目被视为xAI算力布局的关… |
| 36氪首发丨峰瑞资本投了家智能硬件公司,做空间三维重建,创始人为前群核科技副总裁 | 中文 AI 媒体 - 36氪 | 03-23 09:32 | 三维重建与空间智能公司竹马创新完成数千万天使轮融资,由峰瑞资本领投。创始人为前群核科技副总裁,专注消费级三维重建产品。 |
| 某北方车企联合投资,轻舟再融1亿美元,发力世界模型|36氪首发 | 中文 AI 媒体 - 36氪 | 03-23 09:00 | 轻舟智航完成D轮1亿美元融资,将重点投入世界模型+强化学习等前沿物理AI技术研发。核心团队来自Waymo、特斯拉等。 |
| AI网红评奖季来临 | 英文科技媒体(AI 频道) - The Verge AI | 03-23 08:01 | AI网红行业从新奇事物发展为严肃且有利可图的产业,现在已有「年度AI人格」评选。反映了AI虚拟人/影响者的商业化趋势。 |
| 「食气生化」获超亿元融资,中试装置运行过万小时,五万吨级项目获备案 | 36氪首发 | 中文 AI 媒体 - 36氪 | 03-23 08:00 | 生物化工公司食气生化获超亿元融资,中试装置运行过万小时。与AI无关的生物科技融资新闻。 |
2. YouTube AI 频道
7 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| Rishi Sunak 与 Akshata Murty:婚姻、权力与公众面前的失去 | 泛访谈频道(混合内容,需按 AI 相关性评分过滤) - Nikhil Kamath | 03-23 17:31 | Nikhil Kamath 对话英国前首相Rishi Sunak及其妻子,探讨婚姻、权力与公众生活。与AI无关的泛访谈内容。 |
| David Sinclair:衰老可以逆转吗?8周内细胞在测试中年轻了75% | 泛访谈频道(混合内容,需按 AI 相关性评分过滤) - The Diary of a CEO (Steven Bartlett) | 03-23 16:00 | Diary of a CEO 采访抗衰老研究者David Sinclair,讨论细胞逆龄实验。与AI无关的泛访谈内容。 |
| Nikhil Kamath 谈为何纹了这些纹身 | 泛访谈频道(混合内容,需按 AI 相关性评分过滤) - Nikhil Kamath | 03-23 01:03 | Nikhil Kamath 分享自己纹身背后的故事。与AI完全无关的个人内容。 |
| 为什么班加罗尔遭受不公平的批评 | 泛访谈频道(混合内容,需按 AI 相关性评分过滤) - Nikhil Kamath | 03-23 01:01 | Nikhil Kamath 讨论班加罗尔为何被不公平对待。与AI无关。 |
| 真正友谊的价值 | 泛访谈频道(混合内容,需按 AI 相关性评分过滤) - The Diary of a CEO (Steven Bartlett) | 03-23 00:53 | Diary of a CEO 短片讨论真正友谊的价值。与AI无关的泛访谈内容。 |
| 没有选择购买IPL球队(Kumar Birla) | 泛访谈频道(混合内容,需按 AI 相关性评分过滤) - Nikhil Kamath | 03-23 00:53 | Nikhil Kamath 与Kumar Birla对话,讨论为何没买IPL球队。与AI无关。 |
| 「永远别忘了我是一个国际军火商」 | 泛访谈频道(混合内容,需按 AI 相关性评分过滤) - 20VC (Harry Stebbings) | 03-22 23:00 | 20VC Harry Stebbings 的短视频片段。与AI无关的泛访谈内容。 |
3. GitHub 开源项目 Releases(Atom Feed)
6 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| llama.cpp b8479 版本发布 | 推理引擎 & 本地 AI - llama.cpp | 03-23 17:17 | llama.cpp 发布 b8479 版本,修复了 OpenVINO 后端的内存分配问题。属于日常小版本修复。 |
| llama.cpp b8478 版本发布 | 推理引擎 & 本地 AI - llama.cpp | 03-23 17:16 | llama.cpp 发布 b8478 版本,新增 OpenCL 后端的扁平化 Q4_K 矩阵向量乘法和通用 Q4_K 矩阵乘法支持。这一改进显著提升了 O… |
| OpenAI Agents SDK v0.13.0 发布 | AI Agent 框架 - OpenAI Agents SDK | 03-23 14:19 | OpenAI Agents SDK 发布 v0.13.0 版本,默认实时WebSocket模型升级为 gpt-realtime-1.5,新增 MCP(Mo… |
| llama.cpp b8477 版本发布 | 推理引擎 & 本地 AI - llama.cpp | 03-23 10:27 | llama.cpp 发布 b8477 版本,为 InternVL 模型添加动态高分辨率图像预处理支持,增强了多模态推理能力。InternVL 是目前性能领… |
| llama.cpp b8476 版本发布 | 推理引擎 & 本地 AI - llama.cpp | 03-23 10:20 | llama.cpp 发布 b8476 版本,修复 LightOnOCR 图像预处理问题。日常修复版本。 |
| Langflow v1.9.0.dev12 开发版发布 | AI 框架 & 编排 - Langflow | 03-23 08:39 | Langflow 发布 v1.9.0.dev12 nightly 开发版本。属于日常开发迭代,无重大功能更新。 |
4. 技术博客 / 开发者博客(Android Capacity 精选)
4 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| 人手不足作为平台劣化的一种形式 | 技术写作 & 通识 - Cory Doctorow (Pluralistic) | 03-23 13:54 | Cory Doctorow 讨论企业通过削减人手将价值从工人和消费者转移给投资者的现象,属于平台经济批评。文中也提到AI无法替代你的工作等观点。 |
| 日立公司(第一部分) | 技术写作 & 通识 - Abort Retry Fail | 03-23 08:14 | Abort Retry Fail 博客撰写的日立公司历史回顾系列文章第一部分。科技史类内容,与AI无关。 |
| 关于我的笔记网站近期更新的详细介绍 | 独立开发者 & 个人博客 - Jim Nielsen | 03-23 03:00 | Jim Nielsen 分享了个人笔记网站的一系列小更新。独立开发者的前端实践分享,与AI关系不大。 |
| 改变世界 | AI & 技术评论 - geohot (George Hotz) | 03-23 00:00 | George Hotz(tinygrad创始人)发表博文反思「改变世界」这一说法的真正含义,引用了自己2017年的歌词。属于个人随笔/哲学思考。 |
5. 知名 AI 个人开发者/研究者
7 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| Beats 功能现已支持笔记 | Simon Willison | 03-23 10:13 | Simon Willison 为博客的 Beats 功能新增笔记支持,可以在聚合外部内容时添加个人评论和上下文说明。展示了个人知识管理的实践。 |
| Starlette 1.0 技能 | Simon Willison | 03-23 08:05 | Simon Willison 分享了他创建的 Starlette 1.0 Claude skill(研究项目),用于探索 Starlette 框架的新特性… |
| 使用 Claude skills 探索 Starlette 1.0 | Simon Willison | 03-23 07:57 | Simon Willison 深度体验 Starlette 1.0 正式版发布,通过 Claude skills 进行框架探索和学习。Starlette … |
| PCGamer 文章性能审计 | Simon Willison | 03-23 06:49 | Simon Willison 使用 Claude 对 PCGamer 网站文章页面进行性能审计研究。PCGamer 一篇推荐RSS阅读器的文章竟有37MB… |
| JavaScript 沙箱研究 | Simon Willison | 03-23 03:53 | Simon Willison 受 Node.js worker threads 文章启发,利用 Claude 研究 JavaScript 沙箱方案。对需要… |
| DNS 查询工具 | Simon Willison | 03-23 03:16 | Simon Willison 发现 Cloudflare 的 1.1.1.1 DNS 服务支持 CORS JSON API,据此构建了一个浏览器端 DNS… |
| 合并状态可视化工具 | Simon Willison | 03-23 02:57 | Simon Willison 基于 Bram Cohen 关于使用 CRDT 构建版本控制未来的文章,制作了合并状态可视化工具。展示了AI辅助理解复杂算法… |
6. AI 研究 / arXiv 每日精选
10 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| 当提示词优化变成越狱攻击:大语言模型的自适应红队测试 | arXiv cs.CL | 03-23 12:00 | 研究者提出将提示词优化技术应用于LLM安全性红队测试的自适应方法,揭示了现有安全评估过度依赖固定有害提示词集合的局限性。该方法能自动发现新的攻击向量,对L… |
| 医疗问答系统中的拼写纠错:方法、检索影响与实证评估 | arXiv cs.CL | 03-23 12:00 | 首次系统研究医疗QA系统中用户拼写错误对检索质量的影响,提出了针对性纠错方法。属于垂直领域NLP应用。 |
| 结构线索能拯救LLM吗?评估大规模文档流中的语言模型 | arXiv cs.CL | 03-23 12:00 | 评估LLM在流式文档环境中的表现,探索结构化线索能否帮助模型处理大规模文档中的信息冲突。 |
| 通过元数据增强的RAG管道和DPO提升法律LLM | arXiv cs.CL | 03-23 12:00 | 提出结合元数据增强RAG和DPO来改善法律领域LLM的表现,解决长文档场景下的幻觉问题。对RAG和DPO实践者有参考价值。 |
| GeoChallenge:几何推理多答案多选基准测试 | arXiv cs.CL | 03-23 12:00 | 提出新的几何推理基准测试,要求模型基于文本和图表进行多步证明。评估LLM符号推理能力。 |
| LLM论证分类综合研究:从 Llama 到 DeepSeek 再到 GPT-5.2 | arXiv cs.CL | 03-23 12:00 | 系统比较了从Llama到DeepSeek到GPT-5.2等多个LLM在论证挖掘任务上的表现。覆盖了当前主流模型的能力对比。 |
| 从理解到推理:自动化金融研究报告的层次化基准 | arXiv cs.CL | 03-23 12:00 | 构建金融研究报告自动生成的层次化评测基准,揭示LLM在金融报告中的事实错误和数值不一致等问题。 |
| LARFT:弥合LLM长度指令遵循的认知-行为差距 | arXiv cs.CL | 03-23 12:00 | 提出LARFT方法解决LLM精确控制输出长度的难题,弥合模型「知道」长度要求和「做到」之间的差距。对提示工程和模型微调有实用价值。 |
| 基于自然语言指令和LLM的约束感知路径规划 | arXiv cs.CL | 03-23 12:00 | 利用LLM从自然语言指令中提取约束条件进行路径规划,适用于多约束的真实场景。LLM在机器人/物流领域的应用探索。 |
| MAPLE:元数据增强的隐私语言演化 | arXiv cs.CL | 03-23 12:00 | 提出在差分隐私约束下通过元数据增强来微调LLM的方法,适用于只能通过API访问模型的场景。对隐私保护AI应用有价值。 |
Generated at 2026-03-23T09:51:17.456Z by RSS Daily AI Digest