jixiaxue 知识库
2026-02-23

AI 日报 | 2026-02-23

AI 日报 | 2026-02-23

14 个来源 | 456 条新内容 | 10 条 AI 精选

Smart Recommendations

1. The Claude C Compiler: What It Reveals About the Future of Software

Simon Willison | 知名 AI 个人开发者/研究者

Simon Willison 分享了 Modular CEO Chris Lattner 对 Anthropic「用并行 Claude 构建 C 编译器」项目的深度分析。该项目基于最新的 Opus 4.6 模型,展示了 AI 在系统级编程中的潜力。Lattner 从编译器专家的视角解读了这一实验对软件开发未来的启示,认为 AI 编译器可能改变传统软件构建方式。这是理解 Claude Code 等 AI 编程工具发展方向的重要参考。

阅读原文

2. Which web frameworks are most token-efficient for AI agents?

独立开发者 & 个人博客 - Martin Alderson | 技术博客 / 开发者博客(Android Capacity 精选)

Martin Alderson 基准测试了 19 个 Web 框架在 AI 编程 Agent 场景下的 token 效率。测试发现精简框架比全功能框架最多可节省 2.9 倍 token 消耗。这对使用 Claude Code、Cursor 等 AI 编程工具的开发者有直接指导意义——选择 token 高效的框架可以显著降低 AI 辅助开发成本。文章提供了详细的框架对比数据,是技术选型的实用参考。

阅读原文

3. Batch Prompting Suppresses Overthinking Reasoning Under Constraint: How Batch Prompting Suppresses Overthinking in Reasoning Models

arXiv cs.CL | AI 研究 / arXiv 每日精选

研究发现批量提示(Batch Prompting)可以有效抑制推理模型的「过度思考」问题。在资源受限场景下,将多个问题打包成批量请求不仅降低了 token 消耗,还减少了 API 超时风险。该方法对使用 LLM API 的开发者有直接实用价值——简单调整提示策略即可显著优化推理效率和成本。论文提供了详细的实验对比数据。

阅读原文

4. 0.11.12

AI Agent 框架 - browser-use | GitHub 开源项目 Releases(Atom Feed)

browser-use AI Agent 浏览器自动化框架发布 0.11.12 版本,修复了 CDP(Chrome DevTools Protocol)连接问题。browser-use 是目前最流行的 AI Agent 浏览器交互框架之一,此次更新解决了关键的连接稳定性问题。对于正在构建基于浏览器的 AI Agent 的开发者来说,建议立即更新。

阅读原文

5. b8132

推理引擎 & 本地 AI - llama.cpp | GitHub 开源项目 Releases(Atom Feed)

llama.cpp 发布 b8132 构建版本,改进了 CLI 对文本文件输入的支持。llama.cpp 是最广泛使用的本地 LLM 推理引擎,每次更新都对本地模型部署开发者至关重要。此版本适合需要在本地运行开源模型进行开发测试的场景。

阅读原文

6. v1.8.0.dev59

AI 框架 & 编排 - Langflow | GitHub 开源项目 Releases(Atom Feed)

Langflow 发布 v1.8.0.dev59 开发版本。Langflow 是流行的可视化 AI 工作流编排工具,支持拖拽构建 LLM 应用管道。此次为常规开发版本更新,变更内容有限,适合关注 Langflow 生态的开发者跟踪。

阅读原文

7. 智谱GLM-5技术全公开!完全适配华为等国产芯片,美国网友酸了

中文 AI 媒体 - 量子位 | 新闻媒体

智谱发布 GLM-5 模型并全面公开技术细节,引入与 DeepSeek 同款的技术机制。GLM-5 完全适配华为等国产芯片,是国产大模型在基础设施自主化方面的重要进展。对于关注国产 LLM API 和多芯片适配的开发者,GLM-5 提供了新的选择。

阅读原文

8. 32倍压缩率下性能反超25个点!破解长文本压缩「翻车」难题 | ICLR 2026

中文 AI 媒体 - 量子位 | 新闻媒体

量子位报道 ICLR 2026 研究成果:在 32 倍压缩率下实现性能反超 25 个百分点,破解了长文本压缩场景下的性能「翻车」难题。这对 LLM 长上下文窗口优化有实际参考价值。

阅读原文

9. 支付宝“AI付”、蚂蚁阿福APP用户数双破亿

中文 AI 媒体 - 36氪 | 新闻媒体

蚂蚁集团披露春节实战数据:支付宝「AI 付」用户数突破 1 亿,蚂蚁阿福 APP 总用户数也突破 1 亿大关。春节新增用户中 52% 来自三线及以下城市,显示 AI 支付产品正在快速下沉。

阅读原文

10. 三个和尚没水喝!OpenAI星际之门搁浅,一年过去压根没动工

中文 AI 媒体 - 量子位 | 新闻媒体

量子位报道 OpenAI 的星际之门(Stargate)数据中心项目一年过去仍未动工,团队配置尚未完成。这一重大基础设施项目的搁浅可能影响 OpenAI 的算力扩张计划。

阅读原文

Blog 精选 Top 5

1. The Claude C Compiler: What It Reveals About the Future of Software

Simon Willison | 知名 AI 个人开发者/研究者

Simon Willison 分享了 Modular CEO Chris Lattner 对 Anthropic「用并行 Claude 构建 C 编译器」项目的深度分析。该项目基于最新的 Opus 4.6 模型,展示了 AI 在系统级编程中的潜力。Lattner 从编译器专家的视角解读了这一实验对软件开发未来的启示,认为 AI 编译器可能改变传统软件构建方式。这是理解 Claude Code 等 AI 编程工具发展方向的重要参考。

阅读原文

2. Which web frameworks are most token-efficient for AI agents?

独立开发者 & 个人博客 - Martin Alderson | 技术博客 / 开发者博客(Android Capacity 精选)

Martin Alderson 基准测试了 19 个 Web 框架在 AI 编程 Agent 场景下的 token 效率。测试发现精简框架比全功能框架最多可节省 2.9 倍 token 消耗。这对使用 Claude Code、Cursor 等 AI 编程工具的开发者有直接指导意义——选择 token 高效的框架可以显著降低 AI 辅助开发成本。文章提供了详细的框架对比数据,是技术选型的实用参考。

阅读原文

3. How AI Labs Proliferate

独立开发者 & 个人博客 - Jim Nielsen | 技术博客 / 开发者博客(Android Capacity 精选)

Jim Nielsen 的博客以 xkcd 标准漫画的风格讽刺 AI 实验室的增殖现象:每当有人认为现有 AI 实验室不可信而决定自己创建一个「负责任」的实验室,竞争者就多了一个。揭示了 AI 行业中「我们是负责任的那个」的创业神话的讽刺性。

阅读原文

4. Insider amnesia

独立开发者 & 个人博客 - Sean Goedecke | 技术博客 / 开发者博客(Android Capacity 精选)

Sean Goedecke 讨论了「内部人遗忘症」现象:外界对科技公司内部决策的猜测几乎总是错误的。例如,人们可能错误地将某个决策归咎于产品经理,而实际上是工程驱动的。这种信息不对称广泛存在。

阅读原文

5. London Stock Exchange: Raspberry Pi Holdings plc

Simon Willison | 知名 AI 个人开发者/研究者

Simon Willison 分享了 Raspberry Pi 在伦敦证券交易所的股价图表,显示其股票在周二出现大幅飙升。与 Raspberry Pi 发布的 OpenClaw 开源机器人手爪项目相关。

阅读原文

1. 新闻媒体

24 条

标题来源日期摘要
问界通报广东惠州车辆起火事件:非车辆自身原因导致中文 AI 媒体 - 36氪02-23 14:24问界汽车发布广东惠州车辆起火事件说明,经初步调查判断三电系统状态正常,事件非车辆自身原因导致。该事件与AI/科技领域无关。
花旗韩国宣布在芝加哥推出其全新的花旗韩国交易台中文 AI 媒体 - 36氪02-23 13:52花旗韩国宣布在芝加哥推出全新交易台,拓展其全球交易业务布局。该消息属于金融行业动态,与AI技术无关。
2026年春节档票房破54亿中文 AI 媒体 - 36氪02-23 13:40据猫眼专业版数据,2026年春节档总票房突破54亿元,《飞驰人生3》《惊蛰无声》《镖人:风起大漠》位列前三。该消息为影视娱乐行业动态。
微信马年春节数据报告:旅行、生活娱乐双双涨两成中文 AI 媒体 - 36氪02-23 13:35微信发布2026春节数据报告,春节期间旅行和生活娱乐线下交易笔数同比涨幅均超20%,带’马’字的出行目的地热度高涨。该消息为互联网平台数据报告。
五粮液:公司近五年累计分红已超768亿元中文 AI 媒体 - 36氪02-23 13:30五粮液表示近五年累计分红超768亿元,2024年度分红率提升至70%。该消息为白酒行业财经新闻,与AI无关。
智谱GLM-5技术全公开!完全适配华为等国产芯片,美国网友酸了中文 AI 媒体 - 量子位02-23 13:19智谱发布 GLM-5 模型并全面公开技术细节,引入与 DeepSeek 同款的技术机制。GLM-5 完全适配华为等国产芯片,是国产大模型在基础设施自主化方…
和铂医药宣布就一款临床阶段抗体产品达成授权协议及股权合作中文 AI 媒体 - 36氪02-23 13:11和铂医药与Solstice Oncology达成授权协议和股权合作,授予后者一款临床阶段候选产品在大中华区以外的独家开发及商业化权益,总对价超1.05亿美…
32倍压缩率下性能反超25个点!破解长文本压缩「翻车」难题 | ICLR 2026中文 AI 媒体 - 量子位02-23 12:48量子位报道 ICLR 2026 研究成果:在 32 倍压缩率下实现性能反超 25 个百分点,破解了长文本压缩场景下的性能「翻车」难题。这对 LLM 长上下…
今天全国铁路预计发送旅客1850万人次中文 AI 媒体 - 36氪02-23 12:4436氪报道,大年初七春节假期进入尾声,全国铁路将迎返程最高峰。今日预计发送旅客 1850 万人次,计划加开旅客列车 2297 列。
三个和尚没水喝!OpenAI星际之门搁浅,一年过去压根没动工中文 AI 媒体 - 量子位02-23 12:41量子位报道 OpenAI 的星际之门(Stargate)数据中心项目一年过去仍未动工,团队配置尚未完成。这一重大基础设施项目的搁浅可能影响 OpenAI …
虎鲸文娱发布春节文娱消费报告:线下演出同比增长27%,线上经典剧集纪录片成假期合家欢首选中文 AI 媒体 - 36氪02-23 12:18虎鲸文娱集团发布春节文娱消费报告。旗下大麦娱乐和优酷数据显示,春节期间线下演出项目数同比增长 27%,线上经典剧集和纪录片成为合家欢首选。
机构:SK海力士有望在2026年实现创纪录的盈利中文 AI 媒体 - 36氪02-23 12:17大信证券分析师预测 SK 海力士 2026 年营业利润将增至约 174 万亿韩圆。通用 DRAM 和 NAND 平均售价预计分别大涨 159% 和 91%…
飞猪:春节假期国内游单量创新高,酒店间夜量大增75%中文 AI 媒体 - 36氪02-23 11:55飞猪数据显示春节假期国内游订单量创新高,门票订单量同比增长超 80%,酒店间夜量同比增长 75%。更长假期带动了节中出游需求的进一步释放。
德视佳:2月23日起短暂停牌 待刊发内幕消息中文 AI 媒体 - 36氪02-23 11:52德视佳 (01846.HK) 公告其股份自 2026 年 2 月 23 日起在港交所短暂停牌,以待刊发涉及非常重大收购事项的内幕消息。
三星SDI在锂金属电池领域取得突破 未来或推出商业化解决方案中文 AI 媒体 - 36氪02-23 11:25三星 SDI 与哥伦比亚大学合作开发了氟基凝胶聚合物电解质,有效抑制锂金属电池中的枝晶形成。锂金属电池能量密度比传统 NCA 锂离子电池高 1.6 倍以上…
港股新能源汽车股走强中文 AI 媒体 - 36氪02-23 11:012 月 23 日港股新能源汽车股走强。零跑汽车、理想汽车、蔚来和赛力斯均涨超 4%,小鹏汽车涨近 4%。
韩汽车数据研究所:韩国二三十岁人群新车购买率去年跌至十年最低中文 AI 媒体 - 36氪02-23 10:55韩国 Carisyou 数据显示,2025 年韩国 20 和 30 多岁人群新车购买率跌至十年最低。分析认为经济负担加重和手机租车应用普及是主要原因。
支付宝“AI付”、蚂蚁阿福APP用户数双破亿中文 AI 媒体 - 36氪02-23 10:55蚂蚁集团披露春节实战数据:支付宝「AI 付」用户数突破 1 亿,蚂蚁阿福 APP 总用户数也突破 1 亿大关。春节新增用户中 52% 来自三线及以下城市,…
商务部新闻发言人就美国最高法院公布关税诉讼案裁决结果答记者问中文 AI 媒体 - 36氪02-23 10:34美国最高法院判定美国政府依据《国际紧急经济权力法》对贸易伙伴加征的对等关税和芬太尼关税等违法。商务部表示正在全面评估影响,敦促美方取消相关单边关税措施。
天合跟踪签约西班牙360MW项目中文 AI 媒体 - 36氪02-23 10:13天合跟踪与西班牙 EPC 合作,将为两大光伏项目提供合计 360MW 智能跟踪系统解决方案。计划交付约 11000 套开拓者 1P 单排跟踪系统。
港股大模型概念股走弱,智谱跌超20%中文 AI 媒体 - 36氪02-23 10:12港股大模型概念股走弱,智谱跌超 20%,MINIMAX 跌 13%。反映了市场对 AI 大模型概念股的短期情绪波动。
中指研究院:2025下半年百街商铺平均租金为24.05元/平方米/天 环比下跌0.47%中文 AI 媒体 - 36氪02-23 09:51中指研究院报告显示 2025 下半年百街商铺平均租金为 24.05 元/平方米/天,环比下跌 0.47%。优质购物中心冲击和餐饮增速放缓导致多数商业街经营承压。
现货白银日内涨近3%中文 AI 媒体 - 36氪02-23 09:28现货白银日内涨近 3%,报 87 美元/盎司。
OpenAI神秘「波兰军团」曝光!奥特曼:没他们就没有OpenAI中文 AI 媒体 - 新智元02-23 09:14新智元报道 OpenAI 内部神秘的「波兰军团」团队被曝光。Sam Altman 高度评价该团队,称没有他们就没有 OpenAI。揭示了波兰工程师群体在 …

2. AI 研究 / arXiv 每日精选

424 条

标题来源日期摘要
Epistemic Traps: Rational Misalignment Driven b…arXiv cs.AI02-23 13:00该论文提出了一个统一理论框架,解释LLM中谄媚(sycophancy)、幻觉(hallucination)和策略性欺骗等行为病理的产生和稳定性机制。研究认…
Ontology-Guided Neuro-Symbolic Inference: Groun…arXiv cs.AI02-23 13:00该论文研究是否可以通过形式化领域本体增强语言模型的可靠性,使用数学领域的OpenMath本体结合RAG方法实现神经符号推理。属于LLM可靠性研究的学术探索。
The Token Games: Evaluating Language Model Reas…arXiv cs.AI02-23 13:00该论文提出通过受16世纪策略游戏启发的Puzzle Duels方法来评估LLM的推理能力,旨在解决现有benchmark可能已被训练数据覆盖的问题。属于L…
El Agente Gr’afico: Structured Execution Graph…arXiv cs.AI02-23 13:00该论文提出El Agente Grafico,一种基于结构化执行图的单Agent系统,用于协调LLM驱动的科学工作流中的异构计算工具。解决了当前Agent…
Alignment in Time: Peak-Aware Orchestration for…arXiv cs.AI02-23 13:00该论文提出APEMO,一种针对长期Agent工作流的运行时调度层,通过时序-情感信号优化固定预算下的计算资源分配,而无需修改模型权重。属于AI Agent…
WorkflowPerturb: Calibrated Stress Tests for Ev…arXiv cs.AI02-23 13:00该论文提出WorkflowPerturb基准,通过对标准工作流施加可控扰动来评估多Agent工作流的评估指标质量。解决了自动评估指标分数未经校准的问题。
Cross-Embodiment Offline Reinforcement Learning…arXiv cs.AI02-23 13:00该论文将离线强化学习与跨形态学习相结合,聚合不同机器人平台的异构轨迹数据来学习通用控制策略,降低高质量示范数据的采集成本。属于机器人学习领域研究。
Neurosymbolic Language Reasoning as Satisfiabil…arXiv cs.AI02-23 13:00该论文提出Logitext,一种神经符号语言,将文档表示为自然语言与逻辑约束的混合体,利用SMT求解器进行可验证推理。解决了现有方法仅限于完全可形式化任务…
SOMtime the World Ain$‘$t Fair: Violating Fairn…arXiv cs.AI02-23 13:00该论文证明无监督表示中即使排除了敏感属性,年龄和收入等信息仍会作为主要潜在轴浮现。使用自组织映射(SOM)方法揭示了无监督学习中的公平性问题。
Diffusing to Coordinate: Efficient Online Multi…arXiv cs.AI02-23 13:00该论文探索将扩散生成模型应用于在线多Agent强化学习(MARL)中,提升策略表达能力和多模态表示。属于多Agent协调的理论研究。
Trojans in Artificial Intelligence (TrojAI) Fin…arXiv cs.AI02-23 13:00IARPA发布TrojAI项目最终报告,总结了多年来对AI模型中木马后门威胁的研究成果,包括检测和防御恶意嵌入AI模型的后门攻击方法。属于AI安全领域的综…
AI Hallucination from Students’ Perspective: A …arXiv cs.AI02-23 13:00该论文从大学生视角研究LLM幻觉问题,调查学生如何体验、检测和理解LLM幻觉。属于AI素养与教育领域的定性研究。
Assessing LLM Response Quality in the Context o…arXiv cs.AI02-23 13:00该论文评估LLM在技术助长的亲密伴侣暴力(TFA)场景中的响应质量,探讨LLM能否为受害者提供可靠的在线支持。属于LLM社会影响的应用研究。
Mind the Boundary: Stabilizing Gemini Enterpris…arXiv cs.AI02-23 13:00该论文实现了一个基于Cloud Run的A2A Hub编排器,用于跨项目和账户稳定运行Gemini Enterprise Agent-to-Agent调用…
CodeScaler: Scaling Code LLM Training and Test-…arXiv cs.AI02-23 13:00该论文提出CodeScaler,一种无需执行代码的奖励模型,用于扩展代码LLM的强化学习训练和测试时推理。解决了基于单元测试的RLVR方法受限于测试用例可…
Curriculum Learning for Efficient Chain-of-Thou…arXiv cs.AI02-23 13:00该论文提出三阶段课程学习框架,通过结构感知掩码和GRPO将大模型的Chain-of-Thought推理能力蒸馏到小模型中。解决了教师推理过于冗长的问题。属…
IRPAPERS: A Visual Document Benchmark for Scien…arXiv cs.AI02-23 13:00该论文提出IRPAPERS基准,评估基于图像的系统与传统文本检索系统在科学文献处理中的对比表现。探索多模态基础模型直接从文档图像进行检索和生成的能力。
Robust Pre-Training of Medical Vision-and-Langu…arXiv cs.AI02-23 13:00该论文提出Robust-MMR方法,通过域不变的多模态掩码重建增强医学视觉-语言模型在不同成像设备和协议下的鲁棒性。属于医学AI领域的预训练研究。
DesignAsCode: Bridging Structural Editability a…arXiv cs.AI02-23 13:00该论文提出DesignAsCode方法,将图形设计生成转化为代码形式,在高视觉保真度与精细结构可编辑性之间取得平衡。对AI辅助设计工具有潜在应用价值。
Agentic Unlearning: When LLM Agent Meets Machin…arXiv cs.AI02-23 13:00该论文提出Agent式遗忘概念,解决在闭环交互Agent中同时从模型参数和持久记忆中移除指定信息的问题。弥补了现有遗忘方法仅针对参数的不足。
A Case Study of Selected PTQ Baselines for Reas…arXiv cs.AI02-23 13:00该论文在华为昇腾NPU上评估了AWQ、GPTQ、SmoothQuant和FlatQuant四种训练后量化(PTQ)方法在DeepSeek-R1-Disti…
AsynDBT: Asynchronous Distributed Bilevel Tunin…arXiv cs.AI02-23 13:00该论文提出AsynDBT方法,针对云端LLM API的使用场景,通过异步分布式双层调优提升In-Context Learning的效率,避免了手动调整pr…
EXACT: Explicit Attribute-Guided Decoding-Time …arXiv cs.AI02-23 13:00该论文提出EXACT,一种基于显式属性引导的解码时个性化方法,使LLM能根据用户上下文动态调整输出,而非依赖静态的隐式偏好表示。
Can LLM Safety Be Ensured by Constraining Param…arXiv cs.AI02-23 13:00该论文系统评估了四种安全区域识别方法在不同LLM家族上的效果,发现当前方法识别的安全区域可能并不如预期可靠。对LLM安全研究方法论有反思价值。
ScaleBITS: Scalable Bitwidth Search for Hardwar…arXiv cs.AI02-23 13:00该论文提出ScaleBITS方法,通过硬件对齐的混合精度搜索将LLM平均精度降至4位以下,同时保持推理性能。解决了现有混合精度方案运行时开销高的问题。
MIDAS: Mosaic Input-Specific Differentiable Arc…arXiv cs.AI02-23 13:00该论文提出MIDAS,通过自注意力机制实现动态、输入相关的架构参数计算,改进了传统DARTS的静态架构参数设计。属于神经架构搜索(NAS)的方法论研究。
UBio-MolFM: A Universal Molecular Foundation Mo…arXiv cs.AI02-23 13:00该论文提出UBio-MolFM,一种面向生物系统的通用分子基础模型,旨在弥合量子力学精度与生物尺度之间的鸿沟。属于AI for Science(生命科学)…
”Everyone’s using it, but no one is allowed to …arXiv cs.AI02-23 13:00该研究通过23名大学生的半结构化访谈,探索高校环境中影响学生使用生成式AI的制度和社会因素。发现截止日期、考试和评分压力促使学生在不确定规则的情况下仍使用AI。
Stop Saying “AI”arXiv cs.AI02-23 13:00该论文呼吁学术界和产业界停止笼统使用AI一词,认为这个模糊的术语阻碍了对具体系统的有效批评和监管。属于AI术语学和政策讨论方面的观点论文。
Five Fatal Assumptions: Why T-Shirt Sizing Syst…arXiv cs.AI02-23 13:00该论文分析了传统敏捷估算方法(尤其是T-Shirt尺码法)在AI/LLM项目中系统性失效的五个假设。对AI项目管理实践有一定参考意义。
GeneZip: Region-Aware Compression for Long Cont…arXiv cs.AI02-23 13:00该论文提出GeneZip,一种区域感知的DNA压缩模型,利用基因组信息高度不均衡的生物学先验,实现对十亿级碱基对序列的高效建模。属于AI for Scie…
Detection and Classification of Cetacean Echolo…arXiv cs.AI02-23 13:00该论文使用基于图像的目标检测方法和小波变换来检测和分类鲸类回声定位信号,解决了海洋生物声学分析中手动标注耗时的问题。属于AI在海洋生物学中的应用。
Inelastic Constitutive Kolmogorov-Arnold Networ…arXiv cs.AI02-23 13:00该论文提出iCKANs(非弹性本构Kolmogorov-Arnold网络),一种新型神经网络架构,可自动发现描述材料弹性和非弹性行为的符号化本构定律。属于…
Investigating Target Class Influence on Neural …arXiv cs.AI02-23 13:00该论文研究目标类别对神经网络可压缩性的影响,旨在为能量自主的鸟类监测系统优化模型。属于边缘AI在生物多样性监测中的应用研究。
The 2025 AI Agent Index: Documenting Technical …arXiv cs.AI02-23 13:00该论文发布2025年AI Agent指数,系统记录已部署的Agent式AI系统的来源、设计决策和安全特性。对了解AI Agent生态系统全貌有参考价值,涉…
QueryPlot: Generating Geological Evidence Layer…arXiv cs.AI02-23 13:00该论文提出QueryPlot,通过自然语言查询结合大规模地质文本语料和地质地图数据生成矿产勘探证据层。属于AI在地球科学中的应用研究。
Deep Learning for Dermatology: An Innovative Fr…arXiv cs.AI02-23 13:00该论文研究VGG16和DenseNet201在皮肤癌良恶性分类中的应用效果,属于医学AI在皮肤科诊断中的应用研究。
Mind the Style: Impact of Communication Style o…arXiv cs.AI02-23 13:00该论文通过用户研究探索聊天机器人沟通风格对用户体验和任务成功率的影响,在2D导航任务中比较了两种不同沟通风格的聊天机器人。
Enhancing Scientific Literature Chatbots with R…arXiv cs.AI02-23 13:00该论文评估了基于向量和知识图谱的RAG系统在科学文献聊天机器人中的表现,比较了结构化(图)和非结构化(向量)数据库在文献检索中的效果。
Financial time series augmentation using transf…arXiv cs.AI02-23 13:00该论文使用基于Transformer的GAN架构进行金融时间序列数据增强,解决金融数据稀缺导致深度学习模型训练不足的问题。属于AI在金融领域的应用研究。
MantisV2: Closing the Zero-Shot Gap in Time Ser…arXiv cs.AI02-23 13:00该论文提出MantisV2,通过合成数据和测试时策略缩小时间序列分类中零样本与微调模型之间的性能差距。属于时间序列基础模型研究。
Understanding the Fine-Grained Knowledge Capabi…arXiv cs.AI02-23 13:00该论文研究视觉-语言模型(VLM)在细粒度图像分类基准上的表现,发现尽管VLM在VQA等任务上表现出色,但在传统图像分类测试中仍落后。属于多模态模型能力评…
MultiVer: Zero-Shot Multi-Agent Vulnerability D…arXiv cs.AI02-23 13:00该论文提出MultiVer,一个零样本多Agent漏洞检测系统,使用四个Agent(安全、正确性、性能、风格)的联合投票机制,在PyVul上达到82.7%…
Understanding Unreliability of Steering Vectors…arXiv cs.AI02-23 13:00该论文研究语言模型中Steering Vectors的不可靠性问题,发现余弦相似度等几何指标可预测引导效果,但揭示了线性近似方法的根本局限性。属于LLM可…
Machine Learning Based Prediction of Surgical O…arXiv cs.AI02-23 13:00该论文使用机器学习预测慢性鼻窦炎手术预后,基于前瞻性收集的标准化临床数据。属于医学AI的临床应用研究。
Games That Teach, Chats That Convince: Comparin…arXiv cs.AI02-23 13:00该论文比较了静态文章、对话式聊天机器人和叙事游戏三种信息传递方式在可持续发展教育和说服中的效果差异。属于人机交互和教育技术研究。
Improving Neural Topic Modeling with Semantical…arXiv cs.AI02-23 13:00该论文提出使用语言模型的下一个token概率构建语义化软标签,改进神经主题模型的训练,克服传统词袋表示忽略上下文信息的局限。属于NLP方法论研究。
Condition-Gated Reasoning for Context-Dependent…arXiv cs.AI02-23 13:00该论文提出条件门控推理方法用于生物医学问答,考虑患者特定因素如合并症和禁忌症,使检索的知识能根据具体情境适当应用。属于医学NLP研究。
From Lossy to Verified: A Provenance-Aware Tier…arXiv cs.AI02-23 13:00该论文提出一种来源感知的分层记忆架构,解决长期Agent中交互历史压缩导致关键信息丢失的问题。通过保留原始日志实现可验证的证据追溯。对Agent记忆系统设…
MIRA: Memory-Integrated Reinforcement Learning …arXiv cs.AI02-23 13:00该论文提出MIRA,将LLM指导与记忆增强强化学习结合,在减少对LLM频繁调用依赖的同时保持探索效率。解决了LLM引导RL的可扩展性和可靠性问题。
Memory-Based Advantage Shaping for LLM-Guided R…arXiv cs.AI02-23 13:00该论文通过构建记忆机制来缓解LLM引导强化学习中频繁调用LLM带来的可扩展性问题,使用记忆型优势函数塑形提升学习效率。与MIRA属于同系列研究。
Causal Neighbourhood Learning for Invariant Gra…arXiv cs.AI02-23 13:00该论文提出因果邻域学习方法,使图神经网络能够基于数据的因果结构而非虚假关联进行预测,提升跨图泛化能力。属于图神经网络的理论研究。
Optimizing Graph Causal Classification Models: …arXiv cs.AI02-23 13:00该论文研究如何在图数据上优化因果分类模型,估计因果效应并处理混杂因子。属于因果推断与图学习交叉领域的理论研究。
CUICurate: A GraphRAG-based Framework for Autom…arXiv cs.AI02-23 13:00该论文提出CUICurate框架,使用GraphRAG自动构建临床概念集,解决了UMLS概念集人工构建费力且不一致的问题。属于医学NLP工具研究。
ROCKET: Residual-Oriented Multi-Layer Alignment…arXiv cs.AI02-23 13:00该论文提出ROCKET方法,通过残差导向的多层对齐增强视觉-语言-动作(VLA)模型的3D空间理解能力,解决了VLA模型仅在2D数据上预训练的局限性。属于…
PenTiDef: Enhancing Privacy and Robustness in D…arXiv cs.AI02-23 13:00该论文研究去中心化联邦学习入侵检测系统(DFL-IDS)中的隐私保护和抗投毒攻击能力,填补了去中心化FL-IDS安全研究的空白。属于网络安全AI研究。
In-Context Learning for Pure Exploration in Con…arXiv cs.AI02-23 13:00该论文研究在连续空间中使用上下文学习进行纯探索问题,扩展了经典的主动序列测试理论。属于统计学习理论研究。
Learning Optimal and Sample-Efficient Decision …arXiv cs.AI02-23 13:00该论文研究在高风险应用中如何学习带保障的最优决策策略,解决传统RL需要大量在线交互的实际挑战。属于安全强化学习的综合研究。
Turbo Connection: Reasoning as Information Flow…arXiv cs.AI02-23 13:00该论文提出Turbo Connection(TurboConn)架构,通过从高层到低层的信息回流突破Transformer固定深度的推理限制。属于Tran…
PHAST: Port-Hamiltonian Architecture for Struct…arXiv cs.AI02-23 13:00该论文提出PHAST架构,基于Port-Hamiltonian框架进行结构化时间动力学预测,适用于耗散系统的长期预测。属于科学机器学习中的物理约束模型研究。
Aurora: Neuro-Symbolic AI Driven Advising AgentarXiv cs.AI02-23 13:00该论文提出Aurora,一个模块化的神经符号学术咨询Agent,结合RAG、符号推理和课程数据库为学生提供个性化学术建议。解决了顾问与学生比例过高的问题。
NIMMGen: Learning Neural-Integrated Mechanistic…arXiv cs.AI02-23 13:00该论文探索使用LLM Agent框架自动构建机械数字孪生模型,发现在真实条件下LLM生成的模型可靠性仍有待提高,并提出了改进方案。属于LLM在科学建模中的…
Flow Actor-Critic for Offline Reinforcement Lea…arXiv cs.AI02-23 13:00该论文提出Flow Actor-Critic方法,将流模型(Flow Model)应用于离线强化学习的Actor-Critic框架,处理复杂多模态数据分布…
DeepSVU: Towards In-depth Security-oriented Vid…arXiv cs.AI02-23 13:00该论文提出DeepSVU,一种深度安全导向视频理解任务,不仅检测和定位威胁,还能生成和评估威胁原因。使用混合专家(MoE)架构处理安全视频分析。
Dual-Channel Attention Guidance for Training-Fr…arXiv cs.AI02-23 13:00该论文揭示了Diffusion Transformer(DiT)中Key和Value空间对注意力路由和特征聚合的双重影响,提出无需训练的双通道注意力引导方…
Mean-Field Reinforcement Learning without Synch…arXiv cs.AI02-23 13:00该论文解决了平均场强化学习中要求所有Agent同步行动的限制,提出了在异步Agent条件下仍然有效的统计量方法。属于多Agent RL的理论扩展。
Towards More Standardized AI Evaluation: From M…arXiv cs.AI02-23 13:00该论文讨论AI评估范式从静态模型到复合Agent系统的转变,认为评估不再是简单的基准测试,而应成为核心控制功能。属于AI评估方法论的综述性工作。
Gradient Regularization Prevents Reward Hacking…arXiv cs.AI02-23 13:00该论文提出通过梯度正则化而非KL惩罚来防止RLHF和RLVR中的奖励作弊(reward hacking)问题。提供了一种新的LLM训练后对齐框架。属于LL…
Conformal Tradeoffs: Guarantees Beyond CoveragearXiv cs.AI02-23 13:00该论文探讨已部署的保形预测器在有限运行窗口中的实际权衡问题,关注系统提交与延迟的频率和错误暴露率,而非仅关注边际覆盖率。属于统计ML理论研究。
HiAER-Spike Software-Hardware Reconfigurable Pl…arXiv cs.AI02-23 13:00该论文介绍HiAER-Spike平台,一个模块化可重配置的事件驱动神经形态计算平台,可运行1.6亿神经元和400亿突触的脉冲神经网络。属于神经形态硬件研究。
DohaScript: A Large-Scale Multi-Writer Dataset …arXiv cs.AI02-23 13:00该论文发布DohaScript数据集,填补了天城文(Devanagari)连续手写文本公开基准数据集的空白。属于手写文字识别领域的数据集贡献。
Perceived Political Bias in LLMs Reduces Persua…arXiv cs.AI02-23 13:00该论文通过美国调查实验(N=2144)发现,当LLM被认为具有政治偏见时,其说服力会显著下降。对LLM公信力和部署策略有参考意义。
OODBench: Out-of-Distribution Benchmark for Lar…arXiv cs.AI02-23 13:00该论文提出OODBench基准,评估大型视觉-语言模型在分布外(OOD)场景中的表现,关注实际部署中的安全风险。属于VLM鲁棒性评估研究。
MeanVoiceFlow: One-step Nonparallel Voice Conve…arXiv cs.AI02-23 13:00该论文提出MeanVoiceFlow,基于均值流的一步非平行语音转换模型,无需预训练或蒸馏即可从零训练,大幅提升推理速度。属于语音合成领域研究。
Cut Less, Fold More: Model Compression through …arXiv cs.AI02-23 13:00该论文从投影几何角度比较结构化剪枝和模型折叠两种无需重训练的压缩方法,证明模型折叠在参数重建误差上更优。属于模型压缩理论研究。
Flow Matching with Injected Noise for Offline-t…arXiv cs.AI02-23 13:00该论文将流匹配(Flow Matching)生成模型扩展到离线-在线强化学习的在线微调阶段,解决了从离线到在线转换中的关键挑战。属于RL方法论研究。
RamanSeg: Interpretability-driven Deep Learning…arXiv cs.AI02-23 13:00该论文使用nnU-Net对拉曼光谱进行分割建模用于癌症诊断,提供无染色的替代组织检查方案。属于医学AI应用研究。
Agentic Adversarial QA for Improving Domain-Spe…arXiv cs.AI02-23 13:00该论文提出Agent式对抗QA方法来改进特定领域LLM的微调,通过生成高质量对抗性问答数据克服领域数据稀缺问题。对LLM领域适配有参考价值。
FENCE: A Financial and Multimodal Jailbreak Det…arXiv cs.AI02-23 13:00该论文发布FENCE,一个面向金融领域的韩英双语多模态越狱检测数据集,填补了金融场景LLM/VLM越狱检测资源的空白。属于LLM安全研究。
Click it or Leave it: Detecting and Spoiling Cl…arXiv cs.AI02-23 13:00该论文提出结合Transformer嵌入和语言学信息性特征的混合方法来检测标题党,并使用LLM嵌入配合树模型分类器实现最佳性能。属于NLP应用研究。
Can AI Lower the Barrier to Cybersecurity? A Hu…arXiv cs.AI02-23 13:00该论文研究AI Agent框架能否降低新手参与网络安全CTF竞赛的门槛,通过混合方法研究探索AI在渗透测试学习中的辅助作用。属于AI辅助网络安全教育研究。
Capabilities Ain’t All You Need: Measuring Prop…arXiv cs.AI02-23 13:00该论文指出AI评估不应仅关注能力(capabilities),还应衡量倾向性(propensities),即模型展示特定行为的趋势。提出扩展项目反应理论(…
LERD: Latent Event-Relational Dynamics for Neur…arXiv cs.AI02-23 13:00该论文提出LERD方法,通过贝叶斯电生理动力学模型对EEG信号进行阿尔茨海默病诊断分类。属于医学AI研究。
[Re] Benchmarking LLM Capabilities in Negotiati…arXiv cs.AI02-23 13:00该论文复现并验证了基于可计分游戏的LLM谈判能力基准测试,探索了复杂多Agent谈判场景下不同LLM的表现差异。属于LLM评估方法的复现研究。
Thinking by Subtraction: Confidence-Driven Cont…arXiv cs.AI02-23 13:00该论文提出减法思考方法,通过识别低置信度token进行对比解码来改进LLM推理。发现推理不确定性高度集中在少量token上,针对性优化可显著提升效果。对L…
On the Adversarial Robustness of Discrete Image…arXiv cs.AI02-23 13:00该论文首次研究离散图像分词器的对抗鲁棒性,这些分词器在多模态系统中日益流行但其安全性尚未被探索。属于多模态AI安全研究。
Simplifying Outcomes of Language Model Componen…arXiv cs.AI02-23 13:00该论文开发了ELIA交互式Web应用,将LLM组件分析的复杂结果简化呈现,降低机制可解释性工具的使用门槛。属于LLM可解释性工具研究。
PRISM: Parallel Reward Integration with Symmetr…arXiv cs.AI02-23 13:00该论文提出PRISM算法解决异构多目标强化学习(MORL)中不同时间频率目标的平衡问题,使用反射对称性作为归纳偏置。属于多目标RL理论研究。
HyTRec: A Hybrid Temporal-Aware Attention Archi…arXiv cs.AI02-23 13:00该论文提出HyTRec混合注意力推荐架构,结合线性注意力和Softmax注意力的优势处理长序列用户行为建模。属于推荐系统方法论研究。
Decoding as Optimisation on the Probability Sim…arXiv cs.AI02-23 13:00该论文将LLM解码统一为概率单纯形上的正则化优化问题,从理论上统一了Greedy、Top-K、Top-P等解码策略。为理解和改进LLM采样方法提供了理论框架。
Analyzing and Improving Chain-of-Thought Monito…arXiv cs.AI02-23 13:00该论文用信息论分析Chain-of-Thought(CoT)监控器的可靠性,证明CoT与输出的互信息是可监控性的必要非充分条件。对AI安全中的推理监控有理…
JPmHC Dynamical Isometry via Orthogonal Hyper-C…arXiv cs.AI02-23 13:00该论文提出正交超连接方法,解决Hyper-Connections扩展残差连接时引入的训练不稳定性和内存开销问题。通过保持动态等距性改进深度网络训练。属于深…
Robo-Saber: Generating and Simulating Virtual R…arXiv cs.AI02-23 13:00该论文提出首个VR游戏自动测试的运动生成系统Robo-Saber,可从游戏内物体布局生成VR头显和手柄运动,应用于Beat Saber游戏。属于游戏AI和…
Vichara: Appellate Judgment Prediction and Expl…arXiv cs.AI02-23 13:00该论文提出Vichara框架,针对印度司法系统预测和解释上诉判决结果。属于法律AI的领域应用研究。
Validating Political Position Predictions of Ar…arXiv cs.AI02-23 13:00该论文提出双尺度验证框架用于政治立场预测的评估,结合逐点和成对人工标注。使用22个语言模型构建论证级别的政治立场估计。属于NLP社会计算研究。
“How Do I …?”: Procedural Questions Predomina…arXiv cs.AI02-23 13:00该论文分析学生与LLM聊天机器人交互中的提问模式,发现程序性问题(如何做…)占主导地位。属于教育技术和人机交互研究。
Zero-shot Interactive PerceptionarXiv cs.AI02-23 13:00该论文提出ZS-IP框架,将多策略操作(推、抓)与记忆驱动的视觉语言模型结合,实现机器人在部分可观测场景中的零样本交互感知。属于机器人感知研究。
FedZMG: Efficient Client-Side Optimization in F…arXiv cs.AI02-23 13:00该论文提出FedZMG方法缓解联邦学习中非IID数据导致的客户端漂移问题,在不增加通信开销的前提下提升收敛速度和模型性能。属于联邦学习优化研究。
Learning to Tune Pure Pursuit in Autonomous Rac…arXiv cs.AI02-23 13:00该论文使用PPO强化学习联合调整自动驾驶赛车中Pure Pursuit算法的前瞻距离和转向增益参数。属于自动驾驶控制优化研究。
Leakage and Second-Order Dynamics Improve Hippo…arXiv cs.AI02-23 13:00该论文从采样角度重新审视噪声循环神经网络中的海马体重放现象,通过泄漏和二阶动力学改进重放质量。属于计算神经科学研究。
Unifying approach to uniform expressivity of gr…arXiv cs.AI02-23 13:00该论文通过Weisfeiler-Leman算法和一阶逻辑片段统一了图神经网络的表达能力分析框架,形式化了子结构信息对GNN表达能力的增强。属于GNN理论研究。
Governance of Generative Artificial Intelligenc…arXiv cs.AI02-23 13:00该论文讨论生成式AI(尤其是ChatGPT等LLM)在企业中的治理问题,从技术和商业双重视角提出组织级AI治理框架。属于AI治理的综述研究。
Causal Explanations for Image ClassifiersarXiv cs.AI02-23 13:00该论文提出基于实际因果理论的黑盒图像分类器解释算法,采用形式化的因果和解释定义。属于可解释AI的理论研究。
Through the Judge’s Eyes: Inferred Thinking Tra…arXiv cs.AI02-23 13:00该论文提出人-LLM协作框架,从仅有标签的标注中推断思考轨迹,提升LLM作为评估器在主观任务中的可靠性。对LLM-as-a-Judge方法有改进价值。
The Oversight Game: Learning to Cooperatively B…arXiv cs.AI02-23 13:00该论文将AI Agent安全控制建模为人-Agent双人马尔可夫博弈,研究如何在Agent自主性和人类监督之间找到合作均衡。属于AI安全的博弈论研究。
Adaptive GR(1) Specification Repair for Livenes…arXiv cs.AI02-23 13:00该论文提出自适应GR(1)规格修复方法,解决静态安全屏障在环境假设被违反时失效的问题,保证强化学习Agent的活性属性。属于安全RL的形式化方法研究。
Two Constraint Compilation Methods for Lifted P…arXiv cs.AI02-23 13:00该论文研究PDDL规划中状态轨迹约束的编译方法,解决现有编译器在大规模对象问题上的可扩展性问题。属于自动规划领域的理论研究。
A Neuromorphic Architecture for Scalable Event-…arXiv cs.AI02-23 13:00该论文提出基于反弹赢家通吃(RWTA)模块的可扩展神经形态控制架构,结合离散计算和连续调节能力。属于神经形态计算硬件研究。
AI Epidemiology: achieving explainable AI throu…arXiv cs.AI02-23 13:00该论文提出AI流行病学框架,借鉴公共卫生的群体级监测方法来治理和解释高级AI系统,绕过模型复杂性对传统可解释性方法的限制。属于AI治理方法论研究。
SPARK: Search Personalization via Agent-Driven …arXiv cs.AI02-23 13:00该论文提出SPARK框架,通过协调基于角色的LLM Agent实现个性化搜索,各Agent负责特定任务的检索并共享知识。属于搜索个性化的AI Agent应…
The AI Pyramid A Conceptual Framework for Workf…arXiv cs.AI02-23 13:00该论文提出AI金字塔概念框架,分析AI时代劳动力能力需求的变化,指出生成式AI对高学历白领工作的影响超出传统预期。属于AI社会影响的概念性研究。
Cluster Workload Allocation: Semantic Soft Affi…arXiv cs.AI02-23 13:00该论文提出使用LLM解释自然语言注解来实现Kubernetes集群的语义化工作负载调度,降低复杂配置的门槛。对AI辅助DevOps有一定参考价值。
Benchmarking at the Edge of ComprehensionarXiv cs.AI02-23 13:00该论文讨论随着前沿LLM快速饱和新基准,人类越来越难以生成具有区分度的评测任务。探讨AI评估可能面临的理解力边缘困境。属于AI评估方法论反思。
EnterpriseBench Corecraft: Training Generalizab…arXiv cs.AI02-23 13:00该论文提出CoreCraft,一个高保真企业级客服组织模拟环境,用于训练可泛化的AI Agent。包含2500+实体、14种实体类型和23种工具。对AI …
Agent Skill Framework: Perspectives on the Pote…arXiv cs.AI02-23 13:00该论文研究Agent Skill框架(已被GitHub Copilot、LangChain、OpenAI官方支持)是否能为小语言模型(SLM)带来类似大模…
LLM-WikiRace Benchmark: How Far Can LLMs Plan o…arXiv cs.AI02-23 13:00该论文提出LLM-Wikirace基准,评估LLM在Wikipedia超链接导航中的规划、推理和世界知识能力。测试了包括Gemini-3、GPT-5在内的…
RFEval: Benchmarking Reasoning Faithfulness und…arXiv cs.AI02-23 13:00该论文提出RFEval框架评估大型推理模型(LRM)的推理忠实性,通过反事实干预测试推理过程是否真实反映了决策过程。属于LLM可信度评估研究。
Pareto Optimal Benchmarking of AI Models on ARM…arXiv cs.AI02-23 13:00该论文在ARM Cortex处理器(M0+/M4/M7)上进行AI模型基准测试,关注能效、精度和资源利用率的帕累托最优组合。属于嵌入式AI部署研究。
ChoiceMates: Supporting Unfamiliar Online Decis…arXiv cs.AI02-23 13:00该论文提出ChoiceMates,使用多Agent对话系统帮助用户在不熟悉的领域进行在线决策。属于人机交互和对话系统研究。
Beyond Mimicry to Contextual Guidance: Knowledg…arXiv cs.AI02-23 13:00该论文提出超越简单模仿的知识蒸馏方法,适用于交互式多轮对话场景。解决了现有蒸馏方法在开放循环场景中的局限性。属于LLM蒸馏方法论研究。
Expressiveness of Multi-Neuron Convex Relaxatio…arXiv cs.AI02-23 13:00该论文研究多神经元凸松弛在神经网络认证中的表达能力,探讨是否能克服单神经元凸松弛的根本限制。属于神经网络验证的理论研究。
TrapFlow: Controllable Website Fingerprinting D…arXiv cs.AI02-23 13:00该论文提出TrapFlow,通过动态后门学习实现可控的网站指纹识别防御,解决现有防御方法在攻击者重训练后失效的问题。属于网络隐私和安全研究。
An AI-powered Bayesian generative modeling appr…arXiv cs.AI02-23 13:00该论文提出CausalBGM方法,使用AI驱动的贝叶斯生成模型进行观察性研究中的因果推断,估计个体治疗效果。属于因果推断方法论研究。
Imitating AI agents increase diversity in homog…arXiv cs.AI02-23 13:00该论文通过大规模模拟研究AI模仿Agent对信息多样性的系统级影响,使用2022年丹麦全部数字新闻文章作为数据。发现AI在同质环境中增加多样性但在异质环境…
CAE: Repurposing the Critic as an Explorer in D…arXiv cs.AI02-23 13:00该论文提出CAE方法,复用标准深度RL算法中的价值网络驱动探索,无需引入额外参数。利用多臂赌博机技术组合探索策略。属于深度RL探索方法研究。
Overcoming Sparsity Artifacts in Crosscoders to…arXiv cs.AI02-23 13:00该论文改进了Crosscoders方法中的稀疏性问题,用于解释LLM的对话微调(chat-tuning)过程中表示的变化。属于LLM可解释性研究。
FLUKE: A Linguistically-Driven and Task-Agnosti…arXiv cs.AI02-23 13:00该论文提出FLUKE框架,通过系统的语言学最小变体(从正字法到方言和风格)评估模型鲁棒性。使用LLM生成修改并经人工验证。属于NLP鲁棒性评估方法研究。
ConformalNL2LTL: Translating Natural Language I…arXiv cs.AI02-23 13:00该论文提出带保形正确性保证的自然语言到线性时序逻辑(LTL)翻译方法,使面向自主系统的任务规范更加可靠。属于形式化方法与NLP交叉研究。
Visual Planning: Let’s Think Only with ImagesarXiv cs.AI02-23 13:00该论文提出纯视觉推理方法,让多模态LLM仅使用图像而非文本进行推理和规划。挑战了语言作为推理媒介的传统假设。属于多模态推理的创新方向。
Multi-View Wireless Sensing via Conditional Gen…arXiv cs.AI02-23 13:00该论文将物理知识融入基于学习的多视角无线感知中,利用多基站CSI信息进行高精度目标感知。属于通信与AI交叉研究。
Synthetic History: Evaluating Visual Representa…arXiv cs.AI02-23 13:00该论文提出基准评估文本到图像扩散模型描绘历史场景的准确性,关注这些模型的文化和社会影响。属于生成式AI的社会影响评估研究。
PonderLM: Pretraining Language Models to Ponder…arXiv cs.AI02-23 13:00该论文提出PonderLM,在单个token生成步骤中反复执行前向过程,让模型在连续空间中沉思,实现更深层的认知处理。属于LLM架构创新的前沿研究。
J3DAI: A tiny DNN-Based Edge AI Accelerator for…arXiv cs.AI02-23 13:00该论文介绍J3DAI,一个面向3D堆叠CMOS图像传感器的微型DNN加速器,用于在传感器端直接进行图像分类和分割。属于边缘AI硬件研究。
Beyond Simple Graphs: Neural Multi-Objective Ro…arXiv cs.AI02-23 13:00该论文提出基于GNN的方法解决多图(multigraph)上的多目标路由问题,填补了现有学习方法仅适用于简单图的空白。属于组合优化的AI方法研究。
Anthropomimetic Uncertainty: What Verbalized Un…arXiv cs.AI02-23 13:00该论文探讨LLM表达不确定性的方式与人类表达不确定性之间的差距,指出当前LLM经常过度自信。对提升LLM可信度和人机协作有参考意义。
Landmark Detection for Medical Images using a G…arXiv cs.AI02-23 13:00该论文探索使用SAM(Segment Anything Model)通用分割模型进行医学图像中的解剖标志点检测。解决了SAM不直接支持标志点分割的问题。属…
ViGText: Deepfake Image Detection with Vision-L…arXiv cs.AI02-23 13:00该论文提出ViGText方法,结合视觉大语言模型(VLLM)的文本解释和图神经网络进行深度伪造图像检测,提升泛化能力和鲁棒性。属于多模态AI在媒体安全中的应用。
Decomposing Representation Space into Interpret…arXiv cs.AI02-23 13:00该论文使用无监督方法将神经模型的表示空间分解为可解释的子空间,发现不同方面的信息确实被编码在独立的子空间中。属于LLM可解释性研究。
Share Your Attention: Transformer Weight Sharin…arXiv cs.AI02-23 13:00该论文利用基于矩阵的字典学习实现Transformer层间权重共享,挖掘重复层结构中的冗余来压缩LLM。属于LLM压缩方法研究,超越了现有的KV缓存优化。
A Novel Method to Determine Total Oxidant Conce…arXiv cs.AI02-23 13:00该论文使用图像处理和机器学习量化非热等离子体处理液体系统中的总氧化剂浓度。属于ML在化学分析中的应用研究,与AI技术领域关系较远。
Individualized and Interpretable Sleep Forecast…arXiv cs.AI02-23 13:00该论文提出可解释的个性化睡眠质量预测模型,使用分层架构提取多分辨率时空特征。属于健康AI的时间序列预测研究。
Physics-Informed Neural Networks vs. Physics Mo…arXiv cs.AI02-23 13:00该论文比较物理信息神经网络与传统物理模型在非侵入式血糖监测中的表现,在模拟噪声条件下进行评估。属于AI在健康监测中的应用研究。
GRPO is Secretly a Process Reward ModelarXiv cs.AI02-23 13:00该论文从理论上证明GRPO(Group Relative Policy Optimization)算法配合结果奖励模型等价于一种基于蒙特卡洛估计的过程奖励…
Physics-informed GNN for medium-high voltage AC…arXiv cs.AI02-23 13:00该论文提出PIGNN-Attn-LS方法,结合边感知注意力和线搜索校正算子改进物理信息图神经网络在交流电力潮流计算中的精度。属于AI在电力系统中的应用研究。
Toward a Holistic Approach to Continual Model M…arXiv cs.AI02-23 13:00该论文提出持续模型合并(CMM)的整体框架,在合并前、合并中和合并后三个阶段进行干预,解决持续学习中的可扩展性和灾难性遗忘问题。属于模型合并方法论研究。
Smartphone-based iris recognition through high-…arXiv cs.AI02-23 13:00本文提出了一种基于智能手机的可见光虹膜识别端到端流水线,通过符合ISO/IEC 29794-6质量标准的采集方式,证明了在普通设备上进行准确虹膜识别的可行…
Gradient-Sign Masking for Task Vector Transport…arXiv cs.AI02-23 13:00本文研究了如何在不同预训练模型之间迁移任务向量(task vectors),避免在基础模型更新后重新微调。作者提出了梯度符号掩码方法来解决不同模型参数空间…
Incomplete Multi-view Clustering via Hierarchic…arXiv cs.AI02-23 13:00本文针对不完整多视图数据的聚类问题,提出了一种基于层次语义对齐和协同补全的新型聚类方法。该方法克服了现有方法依赖静态融合策略或两阶段管道导致的次优融合和误…
Study of Training Dynamics for Memory-Constrain…arXiv cs.AI02-23 13:00本文提出TraDy,一种内存高效的迁移学习方案,利用层重要性的架构依赖性和动态随机通道选择来实现高效微调。该方法为在资源受限环境下训练大模型提供了新思路。
FATE: A Formal Benchmark Series for Frontier Al…arXiv cs.AI02-23 13:00本文推出FATE基准测试系列,用于评估LLM在形式代数定理证明方面的能力。该基准旨在弥补现有竞赛题目与现代数学研究深度和抽象性之间的差距。
Towards Realistic Guarantees: A Probabilistic C…arXiv cs.AI02-23 13:00本文针对SmoothLLM防御方法在抗越狱攻击认证中的局限性,引入了更现实的概率框架”(k, ε)-unstable”来认证LLM防御的安全性。该工作放松…
Cross-Lingual Interleaving for Speech Language …arXiv cs.AI02-23 13:00本文提出了一种跨语言交错方法,通过混合不同语言的语音token来训练口语语言模型(SLM),扩展NLP技术对书面资源有限语言的覆盖。该方法解决了口语评估基…
Group Representational Position EncodingarXiv cs.AI02-23 13:00本文提出GRAPE(Group Representational Position Encoding),一种基于群作用的统一位置编码框架,统一了乘法旋转和…
Beyond Homophily: Community Search on Heterophi…arXiv cs.AI02-23 13:00本文研究异配图上的社区搜索问题,其中边主要连接不相似的节点。作者提出了新方法来处理传统算法在高频信号对比而非低频相似性场景中的失效问题。
The Invisible Hand of AI Libraries Shaping Open…arXiv cs.AI02-23 13:00本文研究AI库在Python开源项目中的采用情况及其对开源社区的影响。研究评估了AI库在OSS项目中日益增长的存在感和相关性,为理解AI对开源生态的影响提…
Alignment Pretraining: AI Discourse Causes Self…arXiv cs.AI02-23 13:00本文首次通过控制实验研究了预训练语料中的AI话语对LLM对齐行为的因果影响。研究发现,如果训练数据中对AI行为的描述以负面为主,LLM可能会内化相应的行为…
AWED-FiNER: Agents, Web applications, and Exper…arXiv cs.AI02-23 13:00本文推出AWED-FiNER,一个开源的细粒度命名实体识别(NER)工具集,包含Agent工具、Web应用和53个专家模型,覆盖36种语言和超过66亿使用…
One Token Is Enough: Improving Diffusion Langua…arXiv cs.AI02-23 13:00本文分析了Diffusion Language Models(DLMs)中的”移动sink”现象,发现sink token在Transformer的val…
TimeBlind: A Spatio-Temporal Compositionality B…arXiv cs.AI02-23 13:00本文提出TimeBlind,一个用于评估多模态大语言模型(MLLM)时空组合理解能力的诊断基准。该基准受认知科学启发,将细粒度时间理解分为三个层次进行评估。
CloDS: Visual-Only Unsupervised Cloth Dynamics …arXiv cs.AI02-23 13:00本文提出Cloth Dynamics Grounding(CDG),一种在未知条件下从多视角视觉观察中无监督学习布料动力学的新场景。研究引入了Cloth …
UniReason 1.0: A Unified Reasoning Framework fo…arXiv cs.AI02-23 13:00本文提出UniReason,一个统一的多模态框架,将文本到图像生成和图像编辑作为相互关联的推理步骤处理。该框架通过世界知识增强的文本推理和视觉空间推理两种…
Reversible Deep Learning for 13C NMR in Chemoin…arXiv cs.AI02-23 13:00本文引入一种可逆深度学习模型用于13C NMR化学信息学,使用单一条件可逆神经网络实现分子结构与光谱之间的双向映射。该模型基于i-RevNet风格的双射块构建。
VILLAIN at AVerImaTeC: Verifying Image-Text Cla…arXiv cs.AI02-23 13:00本文提出VILLAIN,一个多模态事实核查系统,通过基于提示的多Agent协作来验证图文声明。系统在多个阶段使用视觉语言模型Agent,结合文本和视觉证据…
Temporal Pair Consistency for Variance-Reduced …arXiv cs.AI02-23 13:00本文引入Temporal Pair Consistency方法来减少连续时间生成模型(如Diffusion Models、Flow Matching)训练…
Investigating Writing Professionals’ Relationsh…arXiv cs.AI02-23 13:00本文通过对403名写作专业人员的调查,研究了专业写作者与生成式AI之间的复杂关系。研究发现协作和竞争取向分别与不同的工作实践和结果相关。
Sim2Radar: Toward Bridging the Radar Sim-to-Rea…arXiv cs.AI02-23 13:00本文提出Sim2Radar框架,通过VLM引导的场景重建从单视图RGB图像合成训练用雷达数据,无需手动扫描即可实现大规模数据生成。该方法解决了毫米波雷达数…
LeafNet: A Large-Scale Dataset and Comprehensiv…arXiv cs.AI02-23 13:00本文推出LeafNet,一个大规模的多模态图文数据集和基准,用于评估视觉语言模型在植物病理学等农业领域特定任务中的表现。该数据集填补了该领域数据集缺乏的空白。
GeoEyes: On-Demand Visual Focusing for Evidence…arXiv cs.AI02-23 13:00本文提出GeoEyes,用于超高分辨率遥感图像的按需视觉聚焦方法。研究发现现有支持缩放的MLLM存在”工具使用同质化”问题,即工具调用退化为与任务无关的模式。
LongAudio-RAG: Event-Grounded Question Answerin…arXiv cs.AI02-23 13:00本文提出LA-RAG,一种混合框架,用于在多小时长音频上进行事件定位的问答。该方法结合RAG技术解决了现有音频语言模型在长音频问答中的上下文长度限制问题。
CLOT: Closed-Loop Global Motion Tracking for Wh…arXiv cs.AI02-23 13:00本文提出CLOT,一种实时的全身人形机器人遥操作方法,通过闭环全局运动跟踪解决长时间操作中全局姿态漂移的问题。该方法针对全尺寸人形机器人的稳定性进行了优化。
FedPSA: Modeling Behavioral Staleness in Asynch…arXiv cs.AI02-23 13:00本文提出FedPSA方法来建模异步联邦学习中的行为陈旧性。研究从行为角度而非简单的轮次差异来衡量异步过程中的陈旧问题,提高了异步联邦学习的性能。
Decoupling Strategy and Execution in Task-Focus…arXiv cs.AI02-23 13:00本文提出GOPO(Goal-Oriented Preference Optimization),一种层次化强化学习框架,将任务导向对话中的策略规划与响应生…
Anatomy of Capability Emergence: Scale-Invarian…arXiv cs.AI02-23 13:00本文通过追踪五种几何度量和多种模型规模(405K至85M参数),系统研究了神经网络训练中的能力涌现机制。研究发现表示坍缩到任务特定底层是与规模无关的普遍现象。
MALLVI: A Multi-Agent Framework for Integrated …arXiv cs.AI02-23 13:00本文提出MALLVi,一种基于多Agent大语言和视觉模型的闭环反馈驱动机器人操作框架。该框架通过自然语言指令实现机器人操作的任务规划,克服了现有方法在动…
Wink: Recovering from Misbehaviors in Coding Ag…arXiv cs.AI02-23 13:00本文提出Wink,用于检测和恢复自主编码Agent的各种异常行为,包括偏离用户指令、陷入重复循环或工具使用错误。该研究直接解决了LLM驱动的编码Agent…
Neural Synchrony Between Socially Interacting L…arXiv cs.CL02-23 13:00本文从神经科学角度研究多个LLM在社交交互中的神经同步现象。研究发现大语言模型在交互中也会出现类似人脑的活动同步,为理解多Agent LLM系统提供了新视角。
On the scaling relationship between cloze proba…arXiv cs.CL02-23 13:00本文研究了语言模型的下一个token预测概率与人类完形填空概率之间的缩放关系。研究发现更大的模型能更好地与人类语义对齐,减少对词汇共现统计的依赖。
Analyzing LLM Instruction Optimization for Tabu…arXiv cs.CL02-23 13:00本文基于DSPy优化框架,首次系统比较了LLM指令优化在表格事实验证中的效果。研究评估了四种开箱即用的提示技术,涵盖纯文本提示和代码使用方式,包括Chai…
Decomposing Retrieval Failures in RAG for Long-…arXiv cs.CL02-23 13:00本文深入研究了RAG系统在长文档金融问答中的检索失败模式:正确文档被检索但包含答案的具体页面/块被遗漏。这一发现对构建可靠的RAG应用具有实际意义,揭示了…
Detecting Contextual Hallucinations in LLMs wit…arXiv cs.CL02-23 13:00本文引入一种基于频率感知的注意力分析方法来检测LLM的上下文幻觉。借鉴信号处理思想,通过分析注意力模式中的细粒度不稳定性来识别模型生成内容是否偏离了提供的…
The Statistical Signature of LLMsarXiv cs.CL02-23 13:00本文通过无损压缩方法研究LLM生成文本的统计特征,提出了一种简单的、模型无关的统计规律性度量。研究分析了不同生成策略下文本的压缩行为差异。
Improving Sampling for Masked Diffusion Models …arXiv cs.CL02-23 13:00本文提出基于信息增益的采样策略来改善Masked Diffusion Models(MDMs)的生成质量。研究发现现有贪心解码策略忽视了当前解码选择对后续…
Information-Theoretic Storage Cost in Sentence …arXiv cs.CL02-23 13:00本文提出了一种基于信息论的句子理解存储成本度量方法,用于量化工作记忆在实时句子理解中的负载。该研究将心理语言学中的存储成本概念从符号文法扩展到基于语言模型…
PsihoRo: Depression and Anxiety Romanian Text C…arXiv cs.CL02-23 13:00本文介绍PsihoRo,一个用于抑郁和焦虑分析的罗马尼亚语文本语料库。该数据集通过开放式问题收集,而非从社交媒体抓取,提供了更可靠的心理健康NLP研究数据。
Predicting Contextual Informativeness for Vocab…arXiv cs.CL02-23 13:00本文描述了一个基于深度学习的系统,用于自动识别高中词汇教学中的有效上下文示例。研究比较了三种建模方法,包括基于MPNet的无监督方法和基于Qwen3的有监…
SPQ: An Ensemble Technique for Large Language M…arXiv cs.CL02-23 13:00本文提出SPQ(SVD-Pruning-Quantization),一种结合奇异值分解、剪枝和8位量化的LLM压缩集成技术。三种方法分别针对注意力投影、M…
RVR: Retrieve-Verify-Retrieve for Comprehensive…arXiv cs.CL02-23 13:00本文提出RVR(Retrieve-Verify-Retrieve),一种多轮检索框架,旨在最大化答案覆盖率。通过在每轮中使用验证器筛选高质量文档子集,并用…
VIRAASAT: Traversing Novel Paths for Indian Cul…arXiv cs.CL02-23 13:00本文推出VIRAASAT基准测试,用于评估LLM在印度文化知识推理方面的能力。研究发现现有LLM在需要丰富社会文化知识的任务中表现不佳。
Lost Before Translation: Social Information Tra…arXiv cs.CL02-23 13:00本文通过”电话游戏”实验范式研究AI系统间的信息传播行为。研究发现AI传输链中出现三种一致模式:收敛(不确定性、情感强度趋于中等默认值)以及信息转化效应。
Reducing Text Bias in Synthetically Generated M…arXiv cs.CL02-23 13:00本文揭示了合成生成的多选题在视觉语言模型驾驶任务基准中存在严重的文本偏差问题。研究发现模型可以仅通过利用语言模式而非视觉上下文就达到接近人类的准确率。
LATMiX: Learnable Affine Transformations for Mi…arXiv cs.CL02-23 13:00本文提出LATMiX,一种使用可学习仿射变换来改善LLM微尺度量化鲁棒性的方法。相比现有仅使用旋转或Hadamard变换的方法,LATMiX在量化精度上实…
Tethered Reasoning: Decoupling Entropy from Hal…arXiv cs.CL02-23 13:00本文提出HELIX框架,通过将隐藏状态轨迹锚定到预计算的”真实性流形”上,在量化LLM中解耦输出熵与幻觉问题。该方法解决了量化模型在低温度下模式坍缩、高温…
Bayesian Optimality of In-Context Learning with…arXiv cs.CL02-23 13:00本文提出贝叶斯最优序列预测作为理解In-Context Learning(ICL)的新原理。研究证明了元训练的选择性SSM在渐近意义上实现了贝叶斯最优预测…
TFL: Targeted Bit-Flip Attack on Large Language…arXiv cs.CL02-23 13:00本文提出针对LLM的定向比特翻转攻击方法,利用DRAM内存漏洞通过翻转少量模型权重位来严重干扰LLM行为。研究揭示了LLM在硬件层面的安全风险。
ADAPT: Hybrid Prompt Optimization for LLM Featu…arXiv cs.CL02-23 13:00本文提出ADAPT方法,通过混合提示优化来可视化LLM激活空间中学习到的特征方向。该方法为理解LLM内部表示提供了新的可解释性工具。
On the Semantic and Syntactic Information Encod…arXiv cs.CL02-23 13:00本文研究冻结LLM如何从仅两个学习的proto-token在单次前向传播中重建数百个token。研究分析了proto-token中编码的语义和句法信息,探…
VeriSoftBench: Repository-Scale Formal Verifica…arXiv cs.CL02-23 13:00本文推出VeriSoftBench,一个包含500个Lean 4证明义务的基准测试,从开源形式验证软件项目中提取。该基准弥补了现有主要基于数学库Mathl…
On the “Induction Bias” in Sequence ModelsarXiv cs.CL02-23 13:00本文研究Transformer在状态跟踪方面的局限性及其在分布内性能的影响。通过大规模实验,研究从分布内视角分析了序列模型中归纳偏差的表现。
Subgroups of $U(d)$ Induce Natural RNN and Tran…arXiv cs.CL02-23 13:00本文提出了一种基于U(d)闭子群的序列模型统一框架,从最小公理化设置出发推导出循环和Transformer模板。研究在正交状态RNN和Transforme…
Topic Modeling with Fine-tuning LLMs and Bag of…arXiv cs.CL02-23 13:00本文研究使用微调LLM进行主题建模的方法,基于”句子袋”作为计算基本单元。研究表明微调后的LLM编码器在主题建模中显著优于直接使用预训练BERT等模型。
HoT: Highlighted Chain of Thought for Referenci…arXiv cs.CL02-23 13:00本文提出HoT(Highlighted Chain-of-Thought Prompting),一种通过XML标签将LLM生成的事实定位到输入中提供的事实…
Entailed Opinion Matters: Improving the Fact-Ch…arXiv cs.CL02-23 13:00本文提出一种新的事实核查学习范式,利用LLM的蕴含推理能力来改善自动事实核查性能。通过证据分类和蕴含推理的结合,该方法在准确率上超越了现有方法。
Structure-Augmented Reasoning GenerationarXiv cs.CL02-23 13:00本文提出结构增强推理生成方法,将RAG中检索到的文档不再作为独立的无结构文本处理,而是通过构建文档间的结构关系来增强LLM的复杂推理能力。该方法对改进RA…
Unveiling Decision-Making in LLMs for Text Clas…arXiv cs.CL02-23 13:00本文利用Sparse Autoencoders(SAE)探测LLM内部表示中的可解释概念,并将其应用于句子分类场景。研究为理解LLM决策过程提供了基于SA…
CoAct-1: Computer-using Multi-Agent System with…arXiv cs.CL02-23 13:00本文提出CoAct-1,一种通过编码动作增强GUI操作的多Agent计算机使用系统。该系统突破了传统仅通过GUI操作的局限,使Agent能够结合编写代码和…
Probability Distributions Computed by Autoregre…arXiv cs.CL02-23 13:00本文从理论角度刻画了Transformer语言模型能表达的概率分布。研究证明使Transformer语言识别器变为自回归有时可以增加其表达能力,为理解Tr…
When Distributions Shifts: Causal Generalizatio…arXiv cs.CL02-23 13:00本文研究了两种因果领域泛化方法在低资源语言NLP中的应用,通过因果数据增强来解决分布偏移下机器学习模型失效的问题。
Batch Prompting Suppresses Overthinking Reasoni…arXiv cs.CL02-23 13:00研究发现批量提示(Batch Prompting)可以有效抑制推理模型的「过度思考」问题。在资源受限场景下,将多个问题打包成批量请求不仅降低了 token…
MUCH: A Multilingual Claim Hallucination BenchmarkarXiv cs.CL02-23 13:00本文推出MUCH,首个声明级别的多语言不确定性量化基准,覆盖四种欧洲语言和四个指令调优开源LLM。该基准为评估LLM在声明级别的幻觉检测提供了标准化工具。
WISE: Web Information Satire and Fakeness Evalu…arXiv cs.CL02-23 13:00本文提出WISE框架,使用8个轻量级Transformer模型在2万样本数据集上对假新闻和讽刺内容进行区分。研究通过5折交叉验证评估了模型在区分意图不同但…
Argument Rarity-based Originality Assessment fo…arXiv cs.CL02-23 13:00本文提出AROA框架,用于自动评估学生论文中的论证原创性。该框架将原创性定义为在参考语料中的稀有度,通过结构稀有性、主张稀有性、证据稀有性和认知深度四个维…
When Audio-LLMs Don’t Listen: A Cross-Linguisti…arXiv cs.CL02-23 13:00本文研究语音LLM在音频与文本冲突时的模态仲裁行为。研究发现Gemini 2.0 Flash在音频-文本冲突下的文本主导率远高于文本-文本冲突,揭示了多模…
Lean Formalization of Generalization Error Boun…arXiv cs.CL02-23 13:00本文在Lean形式化证明系统中实现了基于Rademacher复杂度的泛化误差界和Dudley熵积分的形式化。这是统计学习理论关键定理的严格机器验证实现。
A False Sense of Privacy: Evaluating Textual Da…arXiv cs.CL02-23 13:00本文挑战了文本数据脱敏仅需移除个人身份信息(PII)的传统假设,提出了新框架来评估细微文本标记可能导致的重新识别风险。研究揭示了现有隐私保护方法的虚假安全感。
Revela: Dense Retriever Learning via Language M…arXiv cs.CL02-23 13:00本文提出Revela,一种通过语言模型训练目标学习密集检索器的自监督方法。该方法无需标注查询-文档对,特别适用于代码等专业领域和需要推理能力的复杂检索场景。
Classification errors distort findings in autom…arXiv cs.CL02-23 13:00本文分析了自动语音处理中分类错误对下游研究结论的扭曲效应,以儿童发展研究中的长时音频录音为例。研究指出了流行的自动分类器在准确性之外可能对科研结论产生的系…
Designing and Evaluating Chain-of-Hints for Sci…arXiv cs.CL02-23 13:00本文评估了18个开源LLM在链式提示(Chain-of-Hints)生成方面的能力,该方法通过渐进式提示引导用户逐步接近答案而非直接给出。研究关注AI在教…
CDLM: Consistency Diffusion Language Models For…arXiv cs.CL02-23 13:00本文提出CDLM(Consistency Diffusion Language Models),一种基于一致性建模的训练加速方法,同时解决Diffusio…
Jailbreaking Leaves a Trace: Understanding and …arXiv cs.CL02-23 13:00本文研究了LLM越狱攻击在模型内部表示中留下的痕迹,并基于此开发了检测方法。研究为理解和防御LLM越狱攻击提供了从内部表示角度的新思路。
KPM-Bench: A Kinematic Parsing Motion Benchmark…arXiv cs.CV02-23 13:00本文推出KPM-Bench基准,用于评估视频描述模型在精细运动细节描述方面的能力。研究引入了自动标注流水线,重点关注肢体动力学等精细运动的准确描述。
CLUTCH: Contextualized Language model for Unloc…arXiv cs.CV02-23 13:00本文提出CLUTCH,用于在自然场景中进行文本条件化手部运动建模的上下文语言模型。该方法解决了现有方法依赖工作室采集数据、难以扩展到真实场景的问题。
Multi-Modal Monocular Endoscopic Depth and Pose…arXiv cs.CV02-23 13:00本文提出用于结肠镜检查辅助导航的多模态单目深度和姿态估计方法。该研究通过边缘引导的自监督学习解决了内窥镜图像中无纹理表面和复杂光照等挑战。
LGD-Net: Latent-Guided Dual-Stream Network for …arXiv cs.CV02-23 13:00本文提出LGD-Net,用于直接从H&E切片预测乳腺癌HER2表达水平的双流网络。该方法避免了传统IHC染色的资源密集型流程。
Enabling Training-Free Text-Based Remote Sensin…arXiv cs.CV02-23 13:00本文研究无需额外训练即可实现文本引导遥感图像分割的方法,利用视觉语言模型和视觉基础模型的零样本能力。研究评估了纯推理方式在遥感场景中的实际可行性。
VidEoMT: Your ViT is Secretly Also a Video Segm…arXiv cs.CV02-23 13:00本文发现标准Vision Transformer(ViT)编码器在足够容量和大规模预训练下,无需专门的跟踪模块也能准确进行视频分割。该方法大幅简化了在线视…
VQPP: Video Query Performance Prediction BenchmarkarXiv cs.CV02-23 13:00本文提出首个视频查询性能预测基准,针对内容驱动视频检索(CBVR)中查询性能预测这一未被充分探索的研究方向。
On the Evaluation Protocol of Gesture Recogniti…arXiv cs.CV02-23 13:00本文对UAV救援操作中手势识别方法的评估协议进行了方法论分析,揭示了帧级随机划分导致的数据泄露问题。研究指出报告的近完美准确率实际上源于训练和测试集中混入…
Learning Compact Video Representations for Effi…arXiv cs.CV02-23 13:00本文研究如何高效地在大型多模态模型中处理长视频,提出了紧凑视频表示学习方法来解决视频序列的冗余性问题。
A Single Image and Multimodality Is All You Nee…arXiv cs.CV02-23 13:00本文提出了一种利用多模态信息增强单图像新视角合成的Diffusion方法。该方法解决了仅依赖单目深度估计时在低纹理、恶劣天气和严重遮挡条件下的质量下降问题。
ZACH-ViT: Regime-Dependent Inductive Bias in Co…arXiv cs.CV02-23 13:00本文提出ZACH-ViT,一种去除位置嵌入和类别token的紧凑Vision Transformer,专为医学影像设计。该架构解决了固定空间先验在空间布局…
Image Quality Assessment: Exploring Quality Awa…arXiv cs.CV02-23 13:00本文提出了一种基于记忆驱动的图像质量评估方法,模拟人类视觉系统积累视觉记忆来评估图像质量的能力,减少了对理想参考图像的依赖。
MUOT_3M: A 3 Million Frame Multimodal Underwate…arXiv cs.CV02-23 13:00本文推出MUOT_3M,首个包含300万帧的伪多模态水下目标跟踪基准数据集,并提出MUTrack跟踪方法。该数据集解决了水下目标跟踪领域大规模多模态数据集…
Towards LLM-centric Affective Visual Customizat…arXiv cs.CV02-23 13:00本文提出L-AVC任务,以LLM为中心进行情感视觉定制,关注基于主观情感内容的图像生成和编辑。研究为通用目的的情感视觉定制基础模型提供了新方向。
UAOR: Uncertainty-aware Observation Reinjection…arXiv cs.CV02-23 13:00本文提出UAOR,用于Vision-Language-Action(VLA)模型的不确定性感知观测重注入方法。该方法通过感知不确定性来指导何时和如何重新注…
Spatio-temporal Decoupled Knowledge Compensator…arXiv cs.CV02-23 13:00本文提出时空解耦知识补偿器用于少样本动作识别。该方法通过引入超越简单类别名称的辅助背景知识来捕获新颖的空间和时间概念。
CityGuard: Graph-Aware Private Descriptors for …arXiv cs.CV02-23 13:00本文提出CityGuard,一种拓扑感知的Transformer框架,用于分布式监控系统中的隐私保护身份检索。该框架在保护数据隐私的前提下实现了跨城市摄像…
Temporal Consistency-Aware Text-to-Motion Gener…arXiv cs.CV02-23 13:00本文提出时间一致性感知的文本到动作生成方法,解决了现有方法忽略跨序列时间一致性导致的语义错位和物理不合理动作问题。
3DMedAgent: Unified Perception-to-Understanding…arXiv cs.CV02-23 13:00本文提出3DMedAgent,一种统一的3D CT分析Agent,从低层感知到高层临床理解进行端到端建模。该方法结合多模态大语言模型的视觉感知能力和工具使…
Faster Training, Fewer Labels: Self-Supervised …arXiv cs.CV02-23 13:00本文提出了一种两阶段训练策略用于精细道路标线分割,在预训练阶段完全去除监督,微调阶段数据量减半仍优于全监督基线。研究为自动驾驶中的BEV语义地图构建提供了…
Comparative Assessment of Multimodal Earth Obse…arXiv cs.CV02-23 13:00本文提出了一种10米分辨率的土壤湿度估计框架,融合Sentinel-1 SAR、Sentinel-2光学图像和ERA-5再分析数据。该方法为精准农业和水资…
Predict to Skip: Linear Multistep Feature Forec…arXiv cs.CV02-23 13:00本文提出利用线性多步特征预测来加速Diffusion Transformers(DiT)的推理过程。该方法通过预测特征演变趋势来跳过部分计算步骤,在不显著…
Evaluating Graphical Perception Capabilities of…arXiv cs.CV02-23 13:00本文评估了Vision Transformers在图形感知任务中的表现,这些任务对于解释可视化至关重要。研究在CNN已被评估的基础上,首次探索了ViT的视…
BLM-Guard: Explainable Multimodal Ad Moderation…arXiv cs.CV02-23 13:00本文提出BLM-Guard,一种用于商业广告内容审核的框架,融合Chain-of-Thought推理、规则驱动的策略原则和评论器引导奖励。该系统针对短视频…
A Self-Supervised Approach on Motion Calibratio…arXiv cs.CV02-23 13:00本文提出DMC(Distortion-aware Motion Calibrator),一种后处理模块,用于修复文本到动作生成中的物理不合理现象(如脚部悬…
DEIG: Detail-Enhanced Instance Generation with …arXiv cs.CV02-23 13:00本文提出DEIG框架,用于精细可控的多实例图像生成。通过Instance Detail Extractor将文本编码转化为详细的实例级控制信号,解决了处理…
Multi-Level Conditioning by Pairing Localized T…arXiv cs.CV02-23 13:00本文提出结合局部化文本和草图的多层次条件化方法用于时尚图像生成。该方法在遵循草图视觉结构的同时,利用文本中的局部属性指导来传达材质、颜色和风格细节。
Diff2DGS: Reliable Reconstruction of Occluded S…arXiv cs.CV02-23 13:00本文提出Diff2DGS,基于2D Gaussian Splatting的手术场景可靠重建方法,重点解决遮挡区域的重建质量问题。该方法为机器人手术中的实时…
Unifying Color and Lightness Correction with Vi…arXiv cs.CV02-23 13:00本文提出统一的颜色和亮度校正方法,通过视角自适应曲线调整来解决多视图采集中光照差异和相机成像管道不一致导致的光度和色度问题,提升3D新视角合成质量。
G-LoG Bi-filtration for Medical Image Classific…arXiv cs.CV02-23 13:00本文利用高斯-拉普拉斯算子定义G-LoG双过滤,用于拓扑数据分析中医学图像的分类。通过增强医学图像边界来生成适合多参数持久性模块的特征。
Self-Aware Object Detection via Degradation Man…arXiv cs.CV02-23 13:00本文提出退化感知的自我评估目标检测方法,使检测器能在模糊、噪声、压缩或恶劣天气等条件下评估输入是否在其正常工作范围内。该能力对安全关键场景至关重要。
Latent Equivariant Operators for Robust Object …arXiv cs.CV02-23 13:00本文研究潜在等变算子在鲁棒目标识别中的应用,解决深度学习在训练中少见的群对称变换(如不常见的姿态、比例、位置)下的泛化问题。
Generated Reality: Human-centric World Simulati…arXiv cs.CV02-23 13:00本文提出以人为中心的视频世界模型,通过追踪的头部姿态和手部关节姿态来条件化视频生成。该方法面向XR应用场景,使生成模型能响应用户的真实世界动作。
CapNav: Benchmarking Vision Language Models on …arXiv cs.CV02-23 13:00本文提出CapNav基准,评估VLM在考虑Agent移动能力约束的室内导航决策中的表现。例如扫地机器人不能上楼梯而四足机器人可以,该研究关注真实世界导航中…
SARAH: Spatially Aware Real-time Agentic HumansarXiv cs.CV02-23 13:00本文提出SARAH,首个实时、完全因果的空间感知对话运动方法,可部署在流式VR头显上。该系统使虚拟Agent能够根据用户位置和动作做出自然反应。
Going Down Memory Lane: Scaling Tokens for Vide…arXiv cs.CV02-23 13:00本文提出通过动态KV缓存内存来扩展视频流理解中每帧的token预算。该方法解决了现有方法因每帧token数量有限而丢失细粒度视觉细节的问题。
When & How to Write for Personalized Demand-awa…arXiv cs.CV02-23 13:00本文提出WeWrite,一种个性化需求感知的查询重写框架用于视频搜索系统。该框架解决了何时触发重写和如何利用用户历史行为的关键挑战。
Probabilistic NDVI Forecasting from Sparse Sate…arXiv cs.CV02-23 13:00本文提出基于稀疏卫星时间序列和天气协变量的概率性NDVI预测框架,用于精准农业中的植被动态短期预测。
Promptable segmentation with region exploration…arXiv cs.CV02-23 13:00本文提出可提示的前列腺癌分割方法,通过区域探索实现以最小专家标注即可达到专家水平的肿瘤分割精度。
Neural Prior Estimation: Learning Class Priors …arXiv cs.CV02-23 13:00本文提出NPE(Neural Prior Estimator)框架,从潜在表示中学习特征条件化的对数先验估计,解决类别不平衡在深度神经网络中引起的系统性偏差。
TopoGate: Quality-Aware Topology-Stabilized Gat…arXiv cs.CV02-23 13:00本文提出TopoGate,一种轻量级模型,通过质量感知的门控融合来解决纵向低剂量CT随访中噪声、重建核差异和配准质量变化导致的假阳性新病灶报警问题。
MeDUET: Disentangled Unified Pretraining for 3D…arXiv cs.CV02-23 13:00本文提出MeDUET,统一3D医学图像合成和分析的解耦预训练方法。该方法解决了多中心数据集中主导性风格偏移与下游任务依赖解剖信息之间的矛盾。
From Global Radiomics to Parametric Maps: A Uni…arXiv cs.CV02-23 13:00本文提出了融合影像组学和深度学习的统一框架用于胰腺导管腺癌检测,创新性地在全局和体素级别同时注入影像组学特征。
RoEL: Robust Event-based 3D Line ReconstructionarXiv cs.CV02-23 13:00本文提出RoEL,一种基于事件相机的鲁棒3D线段重建方法。研究利用事件相机检测运动中物体边界或纹理边缘产生的亮度变化线段进行三维重建。
Quantum-enhanced satellite image classificationarXiv cs.CV02-23 13:00本文展示了量子特征提取方法在卫星图像多类分类中的应用。通过利用多体自旋哈密顿量的动力学生成表达性量子特征,与经典处理结合实现了量子增强的分类精度。
Exploiting Completeness Perception with Diffusi…arXiv cs.CV02-23 13:00本文利用Diffusion Transformer进行统一的3D MRI合成,解决临床实践中多模态脑MRI缺失模态和心脏MRI缺失切片的问题。
Spatio-Spectroscopic Representation Learning us…arXiv cs.CV02-23 13:00本文展示了使用卷积LSTM自编码器在积分场光谱学数据中进行无监督空间-光谱表示学习的框架,用于星系演化研究。
The Geometry of Noise: Why Diffusion Models Don…arXiv cs.CV02-23 13:00本文从几何角度解释了为什么自主(噪声无关)生成模型无需显式的噪声水平条件化即可工作。研究揭示了高维集中现象如何使这些模型隐式估计噪声水平。
Visual Fixation-Based Retinal Prosthetic Simula…arXiv cs.CV02-23 13:00本文提出基于视觉注视点的视网膜假体模拟框架,利用Vision Transformer的自注意力图来模拟眼跳机制预测显著区域,并通过端到端优化评估分类任务性…
GIFT: A Framework Towards Global Interpretable …arXiv cs.CV02-23 13:00本文提出GIFT框架,为视觉分类器生成全局、可解释、忠实的文本解释。该方法弥补了现有可解释性方法在忠实度、适用范围和语义清晰度上的不足。
SAMa: Material-aware 3D Selection and SegmentationarXiv cs.CV02-23 13:00本文提出SAMa(Select Any Material),基于SAM2视频先验的3D材质选择方法。该方法构建了材质中心的视频数据集,可以高效地将2D预测…
Scaling Laws in Patchification: An Image Is Wor…arXiv cs.CV02-23 13:00本文系统研究了Vision Transformer中patchification图像编码方式导致的信息损失。研究发现减少patch大小(增加token数量…
A Pragmatic Note on Evaluating Generative Model…arXiv cs.CV02-23 13:00本文指出FID评估指标在视网膜图像合成等医学领域的局限性,发现基于ImageNet预训练的Inception-v3模型在领域特定数据上的高斯分布假设可能不成立。
Analyzing the Training Dynamics of Image Restor…arXiv cs.CV02-23 13:00本文分析了图像恢复Transformer的训练动态,发现传统LayerNorm会导致特征幅度发散到百万级别并导致通道熵坍缩。研究从LN与IR任务不匹配的角…
eStonefish-Scenes: A Sim-to-Real Validated and …arXiv cs.CV02-23 13:00本文推出首个面向水下机器人的事件相机光流数据集eStonefish-Scenes,通过仿真到真实验证为水下视觉里程计和避障等任务提供了标注数据支持。
Mod-Adapter: Tuning-Free and Versatile Multi-co…arXiv cs.CV02-23 13:00本文提出Mod-Adapter,一种免调优的多概念个性化文本到图像生成方法。该方法支持包括姿态、光照等抽象概念的个性化定制,无需对每个新概念进行微调。
Data-Free Class-Incremental Gesture Recognition…arXiv cs.CV02-23 13:00本文提出PGPFR框架,用于无数据的类增量手势识别。通过原型引导的伪特征回放来适应新手势类别,无需存储旧数据。
View Invariant Learning for Vision-Language Nav…arXiv cs.CV02-23 13:00本文提出视角不变学习方法用于连续环境中的视觉语言导航(VLNCE),解决了现有方法对相机高度和视角变化敏感的问题。
Learning Adaptive Pseudo-Label Selection for Se…arXiv cs.CV02-23 13:00本文提出自适应伪标签选择方法用于半监督3D目标检测,解决了现有方法依赖手动设置置信度阈值来筛选伪标签的问题。
Dragging with Geometry: From Pixels to Geometry…arXiv cs.CV02-23 13:00本文提出几何引导的交互式点拖拽图像编辑方法,引入3D线索来解决传统仅在2D像素平面操作导致的旋转和透视变换不精确问题。
Investigating Demographic Bias in Brain MRI Seg…arXiv cs.CV02-23 13:00本文比较研究了脑MRI分割中深度学习与非深度学习方法在人口统计学偏差方面的表现,关注基于种族和性别等敏感属性的性能差异问题。
Simple 3D Pose Features Support Human and Machi…arXiv cs.CV02-23 13:00本文研究3D视觉空间姿态信息在社交场景理解中的作用,假设人类依赖此信息做出社交判断,而多数视觉DNN缺乏这一能力。研究使用新的姿态和深度估计方法来验证该假设。
UrbanGS: A Scalable and Efficient Architecture …arXiv cs.CV02-23 13:00本文提出UrbanGS,一种可扩展的城市级3D Gaussian Splatting重建框架,解决了大规模城市环境中的几何一致性、内存效率和计算可扩展性挑战。
Uncertainty-Aware Vision-Language Segmentation …arXiv cs.CV02-23 13:00本文提出不确定性感知的多模态分割框架,结合放射影像和临床文本进行精确医学诊断。通过Modality Decoding Attention Block和Sp…
Efficient Text-Guided Convolutional Adapter for…arXiv cs.CV02-23 13:00本文提出Nexus Adapters,用于Diffusion模型的高效文本引导适配器,支持条件图像生成中的结构保持(如草图、深度图引导)。该方法大幅降低了…
LGQ: Learning Discretization Geometry for Scala…arXiv cs.CV02-23 13:00本文提出LGQ,用于解决离散图像标记化中量化器的可扩展性和稳定性问题。该方法在保持紧凑性和语义结构的同时有效利用离散容量,为视觉生成提供了更好的图像tok…
Uncertainty-Guided Inference-Time Depth Adaptat…arXiv cs.CV02-23 13:00本文提出UncL-STARK,通过不确定性引导的动态深度自适应来减少Transformer目标跟踪器在长视频中的不必要计算。该方法在不修改架构的前提下实现…
Data-Efficient Inference of Neural Fluid Fields…arXiv cs.CV02-23 13:00本文利用科学机器学习基础模型的预训练知识来实现数据高效的神经流体场推理,减少了对密集真实世界流体数据采集的依赖。
Soft-CAM: Making black box models self-explaina…arXiv cs.CV02-23 13:00本文提出Soft-CAM,使CNN黑盒模型在医学图像分析中具备自解释能力。该方法将可解释性集成到模型训练中,而非依赖事后归因,提高了解释的可信度。
Learning to Weight Parameters for Training Data…arXiv cs.CV02-23 13:00本文提出了一种显式学习参数重要性权重的梯度数据归因方法,解决了现有方法均匀对待网络参数或依赖隐式Hessian近似的问题。
Perception-to-Pursuit: Track-Centric Temporal R…arXiv cs.CV02-23 13:00本文提出P2P(Perception-to-Pursuit),一种以轨迹为中心的时序推理框架,将无人机检测与自主追踪的感知和运动规划统一起来,解决了现有方…
Context-Aware Asymmetric Ensembling for Interpr…arXiv cs.CV02-23 13:00本文提出上下文感知的不对称集成方法用于早产儿视网膜病变的可解释筛查,解决了小规模不平衡数据集和被动多模态融合在公共队列中泛化性差的问题。
Joint Parameter and State-Space Bayesian Optimi…arXiv cs.LG02-23 13:00本文提出联合参数和状态空间贝叶斯优化方法,利用制造过程中的中间观测和过程结构来加速高维多阶段制造流程的优化。
BioBridge: Bridging Proteins and Language for E…arXiv cs.LG02-23 13:00本文提出BioBridge,一种领域自适应框架,将蛋白质语言模型与通用大语言模型连接起来,使LLM能够解读蛋白质序列并进行生物语义推理。
Duality Models: An Embarrassingly Simple One-st…arXiv cs.LG02-23 13:00本文提出Duality Models,一种极其简洁的单步生成范式。通过同时输出微分(局部多步导数)和积分(全局少步积分),打破了传统”一输入一输出”的训练…
Optimal Multi-Debris Mission Planning in LEO: A…arXiv cs.LG02-23 13:00本文使用深度强化学习解决低地球轨道多目标主动碎片清除任务规划问题。研究对比了贪心启发式、蒙特卡洛树搜索和基于Masked PPO的RL方法。
AnCoder: Anchored Code Generation via Discrete …arXiv cs.LG02-23 13:00本文提出AnchorTree框架,通过结构化的层次锚点约束Diffusion过程来生成代码。该方法解决了现有Diffusion语言模型在代码生成时忽视编程…
Pimp My LLM: Leveraging Variability Modeling to…arXiv cs.LG02-23 13:00本文利用变异性建模来调优LLM推理超参数,优化能源效率和可持续性。研究系统分析了推理配置选择如何影响能源消耗,为LLM推理部署的配置优化提供了实用框架。
Certified Learning under Distribution Shift: So…arXiv cs.LG02-23 13:00本文提出了一个统一框架,用于在分布漂移(distribution shift)下对预测模型进行风险认证。通过可计算的漂移度量和显式上界不等式,实现了对学习…
Parallel Complex Diffusion for Scalable Time Se…arXiv cs.LG02-23 13:00本文提出 PaCoDi(Parallel Complex Diffusion)架构,在频域中解耦生成建模,解决传统时间序列扩散模型的局部纠缠和 O(L^2…
Provable Adversarial Robustness in In-Context L…arXiv cs.LG02-23 13:00本文研究 LLM 的 In-Context Learning (ICL) 在对抗性分布偏移下的鲁棒性问题。提出了一种分布鲁棒的元学习框架,为 ICL 在最…
Asking Forever: Universal Activations Behind Tu…arXiv cs.LG02-23 13:00本文揭示了对话式 LLM 的一种新失效模式——轮次放大(turn amplification),即模型持续延长多轮对话而不完成任务。研究表明攻击者可利用澄…
Multi-material Multi-physics Topology Optimizat…arXiv cs.LG02-23 13:00本文提出基于物理信息高斯过程先验的拓扑优化框架,解决多材料、多物理场优化中 ML 方法的高计算成本和光谱偏差问题。该方法适用于目标函数非自伴随的复杂工程问题。
Grassmannian Mixture-of-Experts: Concentration-…arXiv cs.LG02-23 13:00本文提出 GrMoE(Grassmannian MoE),在 Grassmann 流形上进行路由,利用 Matrix Bingham 分布的集中参数控制稀…
Calibrated Adaptation: Bayesian Stiefel Manifol…arXiv cs.LG02-23 13:00本文提出 Stiefel-Bayes Adapters (SBA),一种贝叶斯参数高效微调框架。通过在 Stiefel 流形上的 Matrix Lange…
Avoid What You Know: Divergent Trajectory Balan…arXiv cs.LG02-23 13:00本文针对 GFlowNets 的探索效率问题,提出发散轨迹平衡方法。通过激励模型探索未访问的高概率区域,提高了生成流网络在离散和组合对象生成中的学习效率。
Causality by Abstraction: Symbolic Rule Learnin…arXiv cs.LG02-23 13:00本文提出 ruleXplain 框架,利用 LLM 从多变量时间序列中学习符号化因果规则。解决了传统方法在延迟效应和复杂动态系统中难以产生可解释因果解释的问题。
MePoly: Max Entropy Polynomial Policy OptimizationarXiv cs.LG02-23 13:00本文提出 MePoly,一种最大熵多项式策略优化方法,统一了最大熵强化学习和模仿学习。该方法解决了传统参数化策略难以表示多模态解和扩散策略缺乏显式概率密度…
Influence-Preserving Proxies for Gradient-Based…arXiv cs.LG02-23 13:00本文研究 LLM 微调中的数据选择问题,提出影响力保持代理方法。解决了 TracIn 和 Influence Functions 等梯度数据选择方法在多十…
Two Calm Ends and the Wild Middle: A Geometric …arXiv cs.LG02-23 13:00本文提出几何框架来分析扩散模型中记忆化与泛化的机制。研究了噪声调度中不同阶段的作用,揭示了数据几何如何影响模型的记忆行为,对隐私问题具有重要意义。
Dual Length Codes for Lossless Compression of B…arXiv cs.LG02-23 13:00本文针对 LLM 训练和推理中的网络带宽瓶颈,提出双长度编码用于 BFloat16 数据的无损压缩。相比 Huffman 编码,该方法解码更快且硬件复杂度更低。
JAX-Privacy: A library for differentially priva…arXiv cs.LG02-23 13:00JAX-Privacy 是一个基于 JAX 的差分隐私机器学习库,提供经过验证的模块化原语,兼顾易用性、灵活性和效率。适用于需要深度定制的研究者和开箱即用…
COMBA: Cross Batch Aggregation for Learning Lar…arXiv cs.LG02-23 13:00本文提出 COMBA,一种跨批次聚合方法,将状态空间模型 (SSM) 扩展到大规模图结构数据。解决了 SSM 作为序列模型处理图数据时的高成本转换问题。
Breaking the Correlation Plateau: On the Optimi…arXiv cs.LG02-23 13:00本文首次对基于 Attention 的回归模型中的 Pearson 相关系数平台期现象进行严格理论分析。揭示了联合优化 MSE 和 PCC 损失时 PCC…
Distribution-Free Sequential Prediction with Ab…arXiv cs.LG02-23 13:00本文研究半对抗设置下的序列预测问题,学习者可以在检测到对抗样本时选择弃权。该设置介于经典 i.i.d. 随机场景和完全对抗场景之间。
Tighter Regret Lower Bound for Gaussian Process…arXiv cs.LG02-23 13:00本文研究频率主义设置下高斯过程 bandit 问题中平方指数核的遗憾下界。针对维度依赖性的开放问题给出了更紧的下界结果。
Understanding the Generalization of Bilevel Pro…arXiv cs.LG02-23 13:00本文从偏差-方差分解角度分析双层规划超参数优化的泛化性能。指出现有理论工作忽视了数据分布引起的方差误差,提出了改进方法。
A Geometric Probe of the Accuracy-Robustness Tr…arXiv cs.LG02-23 13:00本文利用对称性破缺维度扩展 (SBDE) 作为探针,研究深度学习中清洁准确率与对抗鲁棒性之间权衡的几何机制。揭示了输入维度扩展如何影响这一权衡。
Hardware-Friendly Input Expansion for Accelerat…arXiv cs.LG02-23 13:00本文提出硬件友好的输入扩展方法来加速神经网络的一维函数逼近。基于对称性破缺原理,缓解了参数空间对称性导致的平坦损失景观和慢收敛问题。
Bayesian Online Model SelectionarXiv cs.LG02-23 13:00本文提出一种新的贝叶斯算法用于随机 bandits 中的在线模型选择。实现了 oracle 级别的保证,能在多个 bandit 学习器中自适应探索并与最佳…
Improving Generalizability of Hip Fracture Risk…arXiv cs.LG02-23 13:00本文使用域适应技术提高髋骨骨折风险预测模型的跨队列泛化能力。解决了临床预测模型因数据分布差异而在不同站点间性能下降的问题。
Student Flow Modeling for School Decongestion v…arXiv cs.LG02-23 13:00本文使用随机引力模型和约束空间分配方法建模学生流动,解决低收入和中等收入国家的学校拥挤问题。通过补贴计划将学生从公立学校分流到私立学校。
Generating adversarial inputs for a graph neura…arXiv cs.LG02-23 13:00本文构建优化问题生成对抗性输入,测试图神经网络交流潮流模型的脆弱性。在 14 总线测试电网上展示了生成的对抗样本可导致高达 3.4 标幺值的误差。
Learning Without TrainingarXiv cs.LG02-23 13:00本博士论文聚焦于机器学习数学理论的三个项目,涵盖监督学习与流形学习、无训练学习方法等。探讨了大规模数据问题中神经网络的理论基础。
Whole-Brain Connectomic Graph Model Enables Who…arXiv cs.LG02-23 13:00本文开发了 FlyGM(果蝇连接组图模型),使用成年果蝇完整大脑的神经架构作为强化学习控制器。首次将全脑连接组用于具身运动控制。
Asynchronous Heavy-Tailed OptimizationarXiv cs.LG02-23 13:00本文研究异步优化中的重尾随机梯度噪声问题,该问题在 Transformer 模型中常见。探讨了两种处理落后者的通信方案在重尾噪声下的行为。
Continual-NExT: A Unified Comprehension And Gen…arXiv cs.LG02-23 13:00本文提出 Continual-NExT,针对双模态多模态大语言模型的持续学习框架。解决了学习新任务时不可避免地破坏已学知识的灾难性遗忘问题。
DeepmechanicsarXiv cs.LG02-23 13:00本文对物理信息深度学习模型在保守和耗散动力系统中的系统性基准测试。特别关注全轨迹积分以检查稳定性,填补了现有基准测试的空白。
Balancing Symmetry and Efficiency in Graph Flow…arXiv cs.LG02-23 13:00本文研究图生成模型中等变性与计算效率的权衡。从等变离散流匹配模型出发,探索放松严格等变性约束以降低计算成本和加速收敛的方案。
TempoNet: Slack-Quantized Transformer-Guided Re…arXiv cs.LG02-23 13:00本文提出 TempoNet,一种基于 Transformer 和深度 Q 学习的强化学习实时调度器。通过 Urgency Tokenizer 将时间松弛度…
Non-Stationary Online Resource Allocation: Lear…arXiv cs.LG02-23 13:00本文研究非平稳需求下的在线资源分配问题,仅需最少的离线数据。决策者需在有限时间范围内将多种资源分配给具有未知分布的顺序到达查询。
Learning Long-Range Dependencies with Temporal …arXiv cs.LG02-23 13:00本文将预测编码 (Predictive Coding) 扩展到循环神经网络的长程时间依赖学习。提出的时间预测编码方法具有局部并行操作特性,适合在神经形态硬…
Advection-Diffusion on Graphs: A Bakry-Emery La…arXiv cs.LG02-23 13:00本文提出 Bakry-Emery 图拉普拉斯算子,通过可学习的节点势函数整合扩散和对流,解决 GNN 的过平滑和过压缩问题。无需修改图结构即可实现任务依赖…
Stable Long-Horizon Spatiotemporal Prediction o…arXiv cs.LG02-23 13:00本文提出潜在多尺度循环图神经网络,用于复杂几何体上的稳定长时空预测。应用于增材制造中的温度场预测,解决了 ML 方法在长时间跨度预测中的精度退化问题。
Unifying Formal Explanations: A Complexity-Theo…arXiv cs.LG02-23 13:00本文从计算复杂度理论角度统一分析 ML 模型预测的两种基本解释类型:充分理由和对比理由。涵盖了概率与非概率、本地与全局等多种解释场景。
A Deep Surrogate Model for Robust and Generaliz…arXiv cs.LG02-23 13:00本文提出用于爆炸波传播时空动力学的深度代理模型,解决高度非线性、尖锐梯度和高计算成本的挑战。改进了在复杂城市布局和分布外场景中的预测精度。
SeedFlood: A Step Toward Scalable Decentralized…arXiv cs.LG02-23 13:00本文提出 SeedFlood,一种面向大模型去中心化训练的新方法。利用种子重建策略替代传统的 gossip 方法,以最小通信开销在复杂网络拓扑中实现全局共识。
RAT+: Train Dense, Infer Sparse — Recurrence A…arXiv cs.LG02-23 13:00本文提出 RAT+ 架构,在训练时使用密集注意力,推理时切换为稀疏的膨胀注意力模式。通过循环增强注意力机制,解决了膨胀稀疏化导致的严重精度退化问题,实现推…
Generative Model via Quantile AssignmentarXiv cs.LG02-23 13:00本文提出基于分位数分配的深度生成模型,无需 VAE 的编码器或 GAN 的判别器等辅助网络。消除了训练不稳定性、计算开销和模式崩塌等问题。
Parameter-Efficient Domain Adaptation of Physic…arXiv cs.LG02-23 13:00本文研究物理信息图神经网络在交流潮流预测中的参数高效域适应方法。解决了从中压电网迁移到高压电网时全量微调成本高的问题。
Neural-HSS: Hierarchical Semi-Separable Neural …arXiv cs.LG02-23 13:00本文提出 Neural-HSS,一种基于层次半可分结构的神经 PDE 求解器。受算子矩阵结构研究启发,降低了生成大规模高质量数据集和训练模型的计算成本。
Variational Distributional NeuronarXiv cs.LG02-23 13:00本文提出变分分布神经元概念,将计算单元构造为 VAE 基元。每个神经元不再是确定性标量,而是一个分布,计算过程从传播值变为在约束下收缩可能性的连续空间。
MEG-to-MEG Transfer Learning and Cross-Task Spe…arXiv cs.LG02-23 13:00本文首次展示了基于 MEG 的语音模型在感知和产出任务间的迁移学习和跨任务解码。在 50 小时数据上预训练 Conformer 模型,仅需每个受试者 5 …
A Probabilistic Framework for LLM-Based Model D…arXiv cs.LG02-23 13:00本文提出基于 LLM 的概率性科学模型发现框架。相比现有的启发式工作流,该方法引入了显式概率建模,使 LLM 驱动的迭代模型提议和修订过程更加原则化。
Explaining AutoClustering: Uncovering Meta-Feat…arXiv cs.LG02-23 13:00本文研究 AutoML 聚类系统中元特征贡献的可解释性问题。揭示数据集元特征如何影响算法和超参数的选择,提升 AutoClustering 推荐的透明度和…
PRISM-FCP: Byzantine-Resilient Federated Confor…arXiv cs.LG02-23 13:00本文提出 PRISM-FCP,一种拜占庭容错的联邦保形预测框架。通过部分模型共享在训练和校准阶段同时抵御拜占庭攻击,解决了现有方法仅在校准阶段处理对抗行为…
Scientific Knowledge-Guided Machine Learning fo…arXiv cs.LG02-23 13:00本文比较研究了科学知识引导的机器学习方法在船舶主机功率预测中的应用。解决了传统 ML 方法难以遵守基本螺旋桨定律关系的问题。
Assigning Confidence: K-partition EnsemblesarXiv cs.LG02-23 13:00本文提出 K-partition Ensembles 方法为聚类分配置信度。解决了 k-means 等初始化敏感算法在单个实例级别分配不稳定性的问题。
Deep Neural Network Architectures for Electroca…arXiv cs.LG02-23 13:00本文对用于心电图自动心律失常分类的深度神经网络架构进行了全面评估。整合了时间建模、注意力机制和集成策略,并使用数据增强解决少数类样本稀缺问题。
Spectral Homogenization of the Radiative Transf…arXiv cs.LG02-23 13:00本文使用低秩 tensor-train 分解对辐射传输方程进行光谱均匀化。解决了逐线计算(LBL)在 10^5-10^6 分子吸收线上的高昂计算成本问题。
Clever Materials: When Models Identify Good Mat…arXiv cs.LG02-23 13:00本文揭示了机器学习材料发现中的文献混淆问题。在五项跨 MOFs、钙钛矿太阳能电池等任务中测试了模型是否真正学习了化学知识而非文献偏差。
Nested Training for Mutual Adaptation in Human-…arXiv cs.LG02-23 13:00本文提出嵌套训练方法解决人机协作中的双向适应挑战。现有方法使用静态训练伙伴无法捕捉人类的自适应行为,该方法让机器人在多智能体环境中适应动态行为。
AgriVariant: Variant Effect Prediction using De…arXiv cs.LG02-23 13:00本文提出 AgriVariant,一个端到端的水稻变异效应预测流水线。利用深度学习解决作物精准育种中基因变异功能预测的瓶颈问题。
Sparse Bayesian Modeling of EEG Channel Interac…arXiv cs.LG02-23 13:00本文提出稀疏贝叶斯方法建模 EEG 通道交互,提升 P300 脑机接口的解码性能。相比独立处理通道或黑盒模型,该方法兼顾了可解释性和个性化。
Learning Flow Distributions via Projection-Cons…arXiv cs.LG02-23 13:00本文提出投影约束扩散生成模型框架,用于合成满足物理约束的二维不可压缩流场。整合了边界条件扩散模型、物理投影和几何处理三个互补组件。
Solving and learning advective multiscale Darci…arXiv cs.LG02-23 13:00本文提出 Neural Basis Method 用于求解和学习对流多尺度 Darcy 动力学。改进了物理信息公式中将控制方程作为惩罚损失的启发式平衡问题。
Topological Exploration of High-Dimensional Emp…arXiv cs.LG02-23 13:00本文利用拓扑方法探索高维高斯单指标模型中经验风险最小化的损失景观。研究了信号恢复问题中临界点的分布和优化困难。
Market Games for Generative Models: Equilibria,…arXiv cs.LG02-23 13:00本文将生成模型生态系统建模为竞争性多平台市场博弈。研究了平台如何从共享模型池中策略性选择模型,以及异构用户偏好如何影响市场均衡和社会福利。
Drift Estimation for Stochastic Differential Eq…arXiv cs.LG02-23 13:00本文利用去噪扩散模型估计多变量随机微分方程的漂移函数。将漂移估计表述为条件去噪问题,训练条件扩散模型来模拟新轨迹。
Interactive Learning of Single-Index Models via…arXiv cs.LG02-23 13:00本文研究单指标模型的序贯学习问题(广义线性 bandits),分析 SGD 在高维非线性模型中的特征学习能力。将 i.i.d. 数据的理论结果扩展到交互式…
Learning from Biased and Costly Data Sources: M…arXiv cs.LG02-23 13:00本文研究在预算约束下从多个异构且有偏的数据源进行极小化最优数据收集的问题。涉及不同来源的采样成本和人群统计特征的差异。
Interactions that reshape the interfaces of the…arXiv cs.LG02-23 13:00本文使用多项式函子理论扩展动态组织的交互模式,允许系统接口在交互过程中动态变化。解决了现有框架中系统接口在交互期间保持固定的局限。
Latent Diffeomorphic Co-Design of End-Effectors…arXiv cs.LG02-23 13:00本文提出首个联合优化末端执行器形态和操控策略的协同设计框架,用于柔性和易碎物体操作。解决了现有方法分别优化设计和控制的性能局限。
On the Generalization and Robustness in Conditi…arXiv cs.LG02-23 13:00本文研究条件风险价值 (CVaR) 在重尾数据下的统计行为。分析了内生数据依赖分位数如何耦合尾部平均和阈值估计,改变泛化和鲁棒性属性。
Interacting safely with cyclists using Hamilton…arXiv cs.LG02-23 13:00本文提出 Hamilton-Jacobi 可达性分析与深度 Q-learning 结合的框架,使自动驾驶车辆能够安全且高效地与骑行者交互。平衡了安全保证和…
BONNI: Gradient-Informed Bayesian and Interior …arXiv cs.LG02-23 13:00本文提出 BONNI 方法,结合梯度信息的贝叶斯优化和内点法用于纳米光子学的高效逆向设计。解决了全局方法收敛慢和局部方法陷入局部最优的问题。
Rethinking Beam Management: Generalization Limi…arXiv cs.LG02-23 13:00本文强调在 5G 及更高版本的 ML 辅助波束管理中,硬件异构性应作为首要设计考虑。分析了异构设备对机器学习算法泛化能力的关键失效模式。
Box Thirding: Anytime Best Arm Identification u…arXiv cs.LG02-23 13:00本文提出 Box Thirding (B3) 算法,用于固定预算约束下的最佳臂识别。适用于臂数量过大无法在有限预算内全面评估的场景。
Machine-learning force-field models for dynamic…arXiv cs.LG02-23 13:00本文综述了用于 Landau-Lifshitz-Gilbert 模拟的机器学习力场方法。通过对称感知描述符和深度神经网络预测自旋动力学中的电子介导力。
SimVLA: A Simple VLA Baseline for Robotic Manip…arXiv cs.LG02-23 13:00本文提出 SimVLA,一个简洁的 Vision-Language-Action (VLA) 基线模型用于通用机器人操作。在不同训练配方和实现细节中建立标…
Clapeyron Neural Networks for Single-Species Va…arXiv cs.LG02-23 13:00本文提出 Clapeyron 神经网络,将热力学关系作为正则化项融入损失函数用于汽液平衡预测。解决了 ML 方法在分子性质预测中数据稀缺和热力学一致性不足…
Quantum Maximum Likelihood Prediction via Hilbe…arXiv cs.LG02-23 13:00本文从信息几何和统计角度提出 LLM in-context learning 的量子视角。将训练建模为概率分布到量子密度算子空间的嵌入,in-contex…
Theory and interpretability of Quantum Extreme …arXiv cs.LG02-23 13:00本文使用 Pauli 转移矩阵方法分析量子极端学习机 (QELM) 的理论和可解释性。研究了连续时间储层动力学的 n 量子比特 QELM 在图像分类和时间…
Benchmarking Graph Neural Networks in Solving H…arXiv cs.LG02-23 13:00本文从统计物理角度提出新的困难基准测试,系统评估 GNN 在硬约束满足问题上的表现。公平对比了 GNN 与经典启发式方法,质疑了此前 GNN 优越性的声明。
SUNLayer: Stable denoising with generative netw…arXiv cs.LG02-23 13:00本文提出基于球面谐波的 SUNLayer 理论框架,为生成模型在图像去噪等经典逆问题中的应用提供严格但简化的分析。
Convergence of gradient descent for deep neural…arXiv cs.LG02-23 13:00本文给出一个简单的局部 Polyak-Lojasiewicz (PL) 准则,保证梯度流和梯度下降线性收敛到零损失解。在互补于通常过参数化分析的新范围内验…
A Unified Framework for Analyzing Meta-algorith…arXiv cs.LG02-23 13:00本文提出统一框架分析在线凸优化中的元算法,涵盖不同反馈类型(全信息/半 bandit/bandit 等)和不同遗憾概念(静态对抗/动态/自适应遗憾)。
SpecTUS: Spectral Translator for Unknown Struct…arXiv cs.LG02-23 13:00本文提出 SpecTUS,一种深度神经模型用于从低分辨率 GC-EI-MS 质谱进行小分子结构注释。应用于药物检测、刑事鉴证和小分子生物标志物发现。
Co-Evolution-Based Metal-Binding Residue Predic…arXiv cs.LG02-23 13:00本文提出基于共进化的图神经网络方法预测蛋白质金属结合残基和金属类型。捕捉了残基协同进化以维持金属配位的约束关系。
How Well Can Differential Privacy Be Audited in…arXiv cs.LG02-23 13:00本文研究单次运行审计差分隐私参数的精确度问题。分析了同时干预多个训练样本的审计方法能在多大程度上揭示算法的真实隐私参数。
Better Neural Network Expressivity: Subdividing…arXiv cs.LG02-23 13:00本文研究 ReLU 神经网络的表达能力与深度关系。围绕计算连续分段线性函数所需最少隐藏层数的猜想,通过单纯形细分方法推进了理论进展。
Assimilative Causal InferencearXiv cs.LG02-23 13:00本文提出同化因果推断 (ACI),利用贝叶斯数据同化从观测效果向后追踪原因。解决了现有方法难以捕获高维复杂系统中瞬时因果关系的挑战。
Generative Distribution Embeddings: Lifting aut…arXiv cs.LG02-23 13:00本文提出生成分布嵌入 (GDE),将自编码器提升到分布空间。编码器作用于样本集合,解码器替换为试图匹配输入分布的生成器,实现多尺度表示学习。
Sign-SGD via Parameter-Free OptimizationarXiv cs.LG02-23 13:00本文重新审视 Sign-SGD 作为 LLM 训练中的内存高效优化器和分布式梯度压缩方案。解决了有效步长依赖未知问题特定量的核心限制,提出了无参数优化方法。
GAGA: Gaussianity-Aware Gaussian Approximation …arXiv cs.LG02-23 13:00本文提出 GAGA,一种原则性方法改进基于高斯概率路径的生成模型在 3D 分子生成中的效率。显著缩短了生成轨迹所需的步数。
Cultivating Pluralism In Algorithmic Monocultur…arXiv cs.LG02-23 13:00本文通过来自五个国家 15,000 人的大规模多语言研究,展示了人类偏好差异远大于 21 个主流 LLM 的回答差异。提出了社区对齐数据集以促进 LLM …
M3OOD: Automatic Selection of Multimodal OOD De…arXiv cs.LG02-23 13:00本文提出 M3OOD 框架,自动选择最适合特定场景的多模态分布外 (OOD) 检测器。解决了单一 OOD 检测器无法在所有场景中占优的问题。
Morephy-Net: An Evolutionary Multi-objective Op…arXiv cs.LG02-23 13:00本文提出 Morephy-Net,结合进化多目标优化和副本交换的物理信息算子学习网络。解决了噪声数据下参数 PDE 的正向预测和反向识别问题。
Thermodynamically consistent machine learning m…arXiv cs.LG02-23 13:00本文提出 HANNA,一种用于过剩吉布斯能的热力学一致机器学习模型。将物理定律作为硬约束整合,仅从分子结构预测多组分混合物的热力学性质。
Comparative Analysis of Wave Scattering Numeric…arXiv cs.LG02-23 13:00本文对比了边界元法 (BEM) 和物理信息神经网络 (PINNs) 在二维 Helmholtz 方程波散射问题上的性能。在相同条件下评估两种方法的精度和效率。
xLSTM Scaling Laws: Competitive Performance wit…arXiv cs.LG02-23 13:00本文研究 xLSTM 架构的缩放定律,展示其在十亿参数级别与 Transformer 具有竞争力的同时保持线性上下文长度复杂度。为 LLM 架构替代方案的…
Mitigating Subject Dependency in EEG Decoding w…arXiv cs.LG02-23 13:00本文提出 SuLoRA(主体特定低秩适配器),通过将权重分解为共享和个体低秩校正来处理 EEG 解码中的受试者间分布偏移。可作为标准线性或卷积层的即插即用替换。
Who Said Neural Networks Aren’t Linear?arXiv cs.LG02-23 13:00本文通过代数中的结构传输概念,提出一种方法显式识别神经网络作为线性算子的非标准向量空间。当神经网络被两个可逆网络夹在中间时,可以找到对应的线性空间。
Uncertainty Estimation by Flexible Evidential D…arXiv cs.LG02-23 13:00本文提出灵活证据深度学习用于不确定性估计,改进了现有 EDL 方法在多样场景下泛化能力不足的问题。通过 Dirichlet 分布预测类概率上的不确定性。
ExPairT-LLM: Exact Learning for LLM Code Select…arXiv cs.LG02-23 13:00本文提出 ExPairT-LLM,通过成对查询精确学习从 LLM 生成的多个程序中选择最佳代码。解决了现有代码选择算法可能错误识别非等价程序或过度依赖 L…
MIST: Mutual Information Estimation Via Supervi…arXiv cs.LG02-23 13:00本文提出 MIST,一种完全数据驱动的互信息估计方法。使用神经网络参数化 MI 估计函数,在包含 625,000 个合成联合分布的元数据集上端到端训练。
Learning to Orchestrate Agents in Natural Langu…arXiv cs.LG02-23 13:00本文提出 Conductor 模型,使用强化学习自动发现多个 LLM 之间的高效协调策略。不仅学习设计通信拓扑,还学习针对性地 prompt 各专家 LL…
Amortized Inference of Multi-Modal Posteriors u…arXiv cs.LG02-23 13:00本文提出使用似然加权重要性采样训练 Normalizing Flows 的新技术,用于摊销后验估计。无需后验训练样本即可高效推断高维逆问题中的参数。
Correction of Decoupled Weight DecayarXiv cs.LG02-23 13:00本文重新审视 AdamW 中解耦权重衰减的设置。质疑了近期关于衰减应设为学习率平方正比的论点,从理论角度分析了正确的权重衰减比例关系。
Guided Transfer Learning for Discrete Diffusion…arXiv cs.LG02-23 13:00本文提出离散扩散模型的引导迁移学习方法,解决小数据场景下离散扩散模型性能不佳的问题。将连续扩散模型中的分类器比率引导方法迁移到离散领域。
How Does Fourier Analysis Network Work? A Mecha…arXiv cs.LG02-23 13:00本文分析了 Fourier Analysis Network (FAN) 用正弦余弦函数替代 ReLU 激活的工作机制。发现仅正弦激活有正面贡献,并提出了…
Phase-space entropy at acquisition reflects dow…arXiv cs.LG02-23 13:00本文提出基于采集阶段相空间熵的标量指标,量化数据采集过程如何保留或破坏下游学习器可用的信息。提供了一种与模态无关的可学习性评估方法。
Communication-Corruption Coupling and Verificat…arXiv cs.LG02-23 13:00本文研究在对抗性腐败和有限验证下的协作随机多臂 bandit 问题。分析了通信、腐败和验证之间的耦合关系对团队遗憾的影响。
DeRaDiff: Denoising Time Realignment of Diffusi…arXiv cs.LG02-23 13:00本文提出 DeRaDiff,通过去噪时间重对齐解决扩散模型中 KL 正则化强度选择的核心问题。使对齐人类偏好的扩散模型在奖励最大化和先验保持之间取得更好平衡。
Probe-then-Commit Multi-Objective Bandits: Theo…arXiv cs.LG02-23 13:00本文研究多目标 bandit 中的探测后承诺(PtC)交互模式,可在提交前探测多个候选选项。应用于多无线接入选择和移动边缘计算卸载。
Harpoon: Generalised Manifold Guidance for Cond…arXiv cs.LG02-23 13:00本文提出 Harpoon,一种广义流形引导方法用于条件表格数据扩散生成。解决了现有方法无法泛化到训练时未见约束和超越表格填补任务的局限。
Amortized Molecular Optimization via Group Rela…arXiv cs.LG02-23 13:00本文提出通过组相对策略优化实现分子优化的摊销化方法。解决了现有模型方法在跨不同输入结构泛化时的困难,提升了分子设计的效率。
Adam Improves Muon: Adaptive Moment Estimation …arXiv cs.LG02-23 13:00本文提出 NAMO 优化器,结合 Adam 的自适应矩估计和 Muon 的正交化动量。Muon 在 LLM 训练中表现优异,NAMO 进一步整合两者优势,…
Fair Community Detection and Structure Learning…arXiv cs.LG02-23 13:00本文提出基于 L1 正则化伪似然的公平图模型选择方法,在概率图模型的社区检测中引入公平约束。解决了不同人群在检测到的社区中过度或不足代表的问题。
Learning Performance Maximizing Ensembles with …arXiv cs.LG02-23 13:00本文提出在可解释透明模型和黑盒模型之间最优分配观测的方法。在给定可解释性级别下最大化集成的整体性能。
Physics-informed graph neural networks for flow…arXiv cs.LG02-23 13:00本文使用物理信息图神经网络创建颈动脉血流场估计的代理模型。提供了非侵入性的血流动力学量估计方法,作为 4D 流 MRI 的替代方案。
CAIMAN: Causal Action Influence Detection for S…arXiv cs.LG02-23 13:00本文提出 CAIMAN 强化学习框架,通过因果行动影响检测使足式机器人实现高效的运动操作。鼓励智能体获得对环境中其他实体的控制能力。
Deep Generative model that uses physical quanti…arXiv cs.LG02-23 13:00本文将深度生成模型与科学相关物理量集成,用于太阳磁活动区域的生成和检索。解决了生成潜在向量与科学量之间脱节的问题。
The influence of missing data mechanisms and si…arXiv cs.LG02-23 13:00本文研究缺失数据机制及简单缺失数据处理技术对机器学习公平性的影响。指出缺失数据的倾向性通常与个体的人口统计特征相关。
Learning hidden cascades via classificationarXiv cs.LG02-23 13:00本文研究社交网络中不可观测传播状态下的级联学习问题。在最终状态隐藏但症状等中间指标可观测的条件下,利用分类方法推断传播动态。
AstroMLab 4: Benchmark-Topping Performance in A…arXiv cs.LG02-23 13:00本文发布 AstroSage-Llama-3.1-70B,一个 700 亿参数的天文学领域专用 AI 助手。在天文学问答基准测试中取得领先表现,展示了领域…
Asymptotic behavior of eigenvalues of large ran…arXiv cs.LG02-23 13:00本文研究变形 Wigner 随机矩阵的渐近特征值行为。与深度神经网络的权重矩阵剪枝技术直接相关,分析了高秩扰动矩阵的谱特性。
Nearly Minimax Discrete Distribution Estimation…arXiv cs.LG02-23 13:00本文研究在 KL 散度下高概率离散分布估计的极小极大最优速率。给出了上下界,将最优速率精确到对数对数因子。
Ensemble-based graph representation of fMRI dat…arXiv cs.LG02-23 13:00本文提出基于集成的 fMRI 图表示方法用于认知脑状态分类。通过边权重编码状态证据的后验概率差异来表示功能交互。
On the Adversarial Robustness of Learning-based…arXiv cs.LG02-23 13:00本文研究基于学习的保形新颖性检测的对抗鲁棒性。分析了 AdaDetect 和单类分类器方法在对抗攻击下的统计保证和脆弱性。
Bayesian Neural Networks for Functional ANOVA m…arXiv cs.LG02-23 13:00本文将贝叶斯神经网络应用于功能 ANOVA 模型,解决 ANOVA-TPNN 中精确后验推断和不确定性量化的需求。提升了高维函数分解的可解释性。
The Minimax Lower Bound of Kernel Stein Discrep…arXiv cs.LG02-23 13:00本文建立了核 Stein 差异 (KSD) 估计的极小极大下界为 n^{-1/2}。确认了现有所有已知速率的 KSD 估计器已达到最优。
Online Smoothed Demand ManagementarXiv cs.LG02-23 13:00本文提出在线平滑需求管理 (OSDM) 问题,受数据中心等大型能源消费者的电网集成和储能需求驱动。研究每个时间步中能源购买和交付决策的优化。
A joint optimization approach to identifying sp…arXiv cs.LG02-23 13:00本文提出联合优化框架,从稀缺、部分和噪声观测中学习常微分方程系统。结合稀疏恢复策略和 RKHS 理论进行状态估计和 ODE 离散化。
Simplex Deep Linear Discriminant AnalysisarXiv cs.LG02-23 13:00本文从似然角度重新审视 Deep LDA。展示了无约束 Deep LDA 的端到端 MLE 训练忽视判别性,提出了带单纯形约束的改进方案。

3. GitHub 开源项目 Releases(Atom Feed)

3 条

标题来源日期摘要
0.11.12AI Agent 框架 - browser-use02-23 12:37browser-use AI Agent 浏览器自动化框架发布 0.11.12 版本,修复了 CDP(Chrome DevTools Protocol)连…
v1.8.0.dev59AI 框架 & 编排 - Langflow02-23 08:38Langflow 发布 v1.8.0.dev59 开发版本。Langflow 是流行的可视化 AI 工作流编排工具,支持拖拽构建 LLM 应用管道。此次为…
b8132推理引擎 & 本地 AI - llama.cpp02-23 08:03llama.cpp 发布 b8132 构建版本,改进了 CLI 对文本文件输入的支持。llama.cpp 是最广泛使用的本地 LLM 推理引擎,每次更新都…

4. 技术博客 / 开发者博客(Android Capacity 精选)

3 条

标题来源日期摘要
Insider amnesia独立开发者 & 个人博客 - Sean Goedecke02-23 08:00Sean Goedecke 讨论了「内部人遗忘症」现象:外界对科技公司内部决策的猜测几乎总是错误的。例如,人们可能错误地将某个决策归咎于产品经理,而实际上…
Which web frameworks are most token-efficient f…独立开发者 & 个人博客 - Martin Alderson02-23 08:00Martin Alderson 基准测试了 19 个 Web 框架在 AI 编程 Agent 场景下的 token 效率。测试发现精简框架比全功能框架最多…
How AI Labs Proliferate独立开发者 & 个人博客 - Jim Nielsen02-23 03:00Jim Nielsen 的博客以 xkcd 标准漫画的风格讽刺 AI 实验室的增殖现象:每当有人认为现有 AI 实验室不可信而决定自己创建一个「负责任」的…

5. 知名 AI 个人开发者/研究者

2 条

标题来源日期摘要
The Claude C Compiler: What It Reveals About th…Simon Willison02-23 07:58Simon Willison 分享了 Modular CEO Chris Lattner 对 Anthropic「用并行 Claude 构建 C 编译器」…
London Stock Exchange: Raspberry Pi Holdings plcSimon Willison02-23 07:54Simon Willison 分享了 Raspberry Pi 在伦敦证券交易所的股价图表,显示其股票在周二出现大幅飙升。与 Raspberry Pi 发…

Generated at 2026-02-23T06:53:18.663Z by RSS Daily AI Digest