AI 日报 | 2026-02-19
83 个来源 | 828 条新内容 | 10 条 AI 精选
Smart Recommendations
1. OpenAI正敲定1000亿美元巨额融资轮的首批投资承诺
中文 AI 媒体 - 36氪 | 新闻媒体
OpenAI即将完成超1000亿美元的新一轮融资首阶段,公司整体估值可能超过8500亿美元,高于此前8300亿美元的预期。融资前估值将维持在7300亿美元。这是AI行业有史以来规模最大的融资轮之一,凸显了市场对OpenAI未来发展的极高期望。如此天文数字的估值也引发了关于AI公司泡沫风险和商业化回报能力的广泛讨论。
2. 千问3.5引爆全球AI产业链,英伟达、华为昇腾、AMD、苹果等第一时间适配
中文 AI 媒体 - 量子位 | 新闻媒体
阿里通义千问3.5模型发布后引爆全球AI产业链,英伟达、华为昇腾、AMD、苹果等主要硬件厂商第一时间完成适配。千问3.5在性能上取得重大突破,其广泛的生态适配彰显了中国开源大模型在全球AI生态中的重要地位。多家芯片巨头的快速响应表明,千问已成为不可忽视的AI基础模型力量。
3. [Launched] Generally Available: Anthropic Claude Sonnet 4.6 is now available on Azure Databricks
Microsoft - Azure 服务更新(含 AI) | AI 公司产品更新 / Changelog
Anthropic Claude Sonnet 4.6现已在Azure Databricks上正式可用,通过Azure Databricks AI Model Serving提供服务。该模型在复杂编程、agentic工作流和专业知识工作方面表现出前沿级性能。
4. A new way to express yourself: Gemini can now create music
Google DeepMind | AI 公司官方博客
Google DeepMind在Gemini应用中集成最先进的音乐生成模型Lyria 3,用户可以通过文本或图片生成30秒音乐片段。这是Google在AI创意领域的重要产品发布,Lyria 3作为Google最先进的音乐生成模型,使任何人都能轻松创作音乐。该功能直接集成到Gemini应用中,降低了AI音乐创作的门槛,对Suno等专注AI音乐的初创公司构成直接竞争压力。
5. World Labs lands $1B, with $200M from Autodesk, to bring world models into 3D workflows
英文科技媒体(AI 频道) - TechCrunch AI | 新闻媒体
李飞飞创立的World Labs获得10亿美元融资,其中Autodesk投资2亿美元,合作将世界模型引入3D工作流。双方将从娱乐领域开始探索World Labs模型与Autodesk工具的整合。这是AI领域近期最重大的融资和产业合作之一,标志着3D空间智能从研究走向商业化应用的关键一步。Autodesk作为3D设计软件巨头的参与,为World Labs的世界模型技术找到了明确的商业落地路径。
6. OpenAI’s acquisition of OpenClaw signals the beginning of the end of the ChatGPT era (7 minute read)
AI 专业媒体/Newsletter - TLDR AI | 新闻媒体
OpenAI收购OpenClaw标志着从对话式AI向自主执行任务的Agent转型的战略转变。OpenClaw因其不受限制的强大功能(结合工具访问、沙箱代码执行和消息平台集成)而广受欢迎。这一收购信号着企业AI进入新阶段,各公司竞相开发安全、可部署的动态AI Agent。这是AI行业从ChatGPT对话时代向Agent自主执行时代过渡的标志性事件。
7. Mathematical Superintelligence: Harmonic’s Vlad Tenev & Tudor Achim on IMO Gold & Theories of Everything
英文播客 - The Cognitive Revolution | AI 从业者访谈 / 播客
Harmonic的Vlad Tenev和Tudor Achim在播客中详细讲解了他们如何构建Aristotle——一个通过形式化验证的Lean证明达到国际数学奥林匹克金牌水平的AI系统。他们解析了数学超级智能背后的架构,包括蒙特卡洛树搜索、引理猜测和专用几何模块。讨论还探索了可验证推理如何加固关键任务软件、重塑数学实践,并引领走向可信赖的超级智能。这是AI在形式化数学推理领域取得的里程碑式突破。
8. Retrieval Collapses When AI Pollutes the Web
arXiv cs.AI | AI 研究 / arXiv 每日精选
本文研究了AI生成内容大规模污染互联网后,对信息检索系统造成的结构性风险。随着搜索引擎和RAG(检索增强生成)系统越来越多地索引和消费由大语言模型生成的内容,信息检索的质量和可靠性面临严峻挑战。研究发现这种「AI污染」会导致检索系统的性能崩溃,这对整个AI生态系统和互联网信息质量具有深远影响。该工作揭示了一个关键的行业趋势:AI自我循环消费可能造成信息质量的系统性退化。
9. From Tool Orchestration to Code Execution: A Study of MCP Design Choices
arXiv cs.AI | AI 研究 / arXiv 每日精选
本文系统研究了Model Context Protocol (MCP)从工具编排到代码执行的设计选择。MCP作为Agent系统发现、选择和编排跨异构执行环境工具的统一平台,正成为AI Agent基础设施的重要标准。随着基于MCP的系统扩展到更大的工具目录和多并发执行环境,其设计选择对系统性能和可靠性产生关键影响。这项研究对于理解和优化当前快速发展的AI Agent工具生态系统具有重要参考价值。
10. Boundary Point Jailbreaking of Black-Box LLMs
arXiv cs.LG | AI 研究 / arXiv 每日精选
本文提出Boundary Point Jailbreaking (BPJ),一类新的自动化越狱攻击,能够绕过最强的行业级LLM安全防护。不同于依赖白盒/灰盒访问的已有方法,BPJ仅需黑盒访问即可运作,成功突破了已经经受数千小时人类红队测试的分类器防御系统。这一发现揭示了当前前沿LLM安全防护体系中的根本性漏洞:即使是最先进的基于分类器的防御也存在系统性可利用的边界点。对于LLM安全研究社区和工业部署而言,这是一个重要的警示。
1. AI 研究 / arXiv 每日精选
571 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| The Perplexity Paradox: Why Code Compresses Bet… | arXiv cs.CL | 02-19 13:00 | 本文研究了LLM中代码生成相比数学推理更能容忍prompt压缩的”困惑度悖论”现象。通过在六个代码基准和四个推理基准上的验证,作者提出了自适应压缩算法,为… |
| Language Model Representations for Efficient Fe… | arXiv cs.CL | 02-19 13:00 | 本文利用语言模型的表征能力来实现高效的少样本表格分类任务。针对Web上结构化数据的异质性挑战,该方法通过LLM嵌入统一处理不同语义和结构的表格数据。 |
| KD4MT: A Survey of Knowledge Distillation for M… | arXiv cs.CL | 02-19 13:00 | 本文综述了知识蒸馏(Knowledge Distillation)在机器翻译(MT)领域的应用。与NLP中主要用于模型压缩不同,KD在MT中还作为通用知识… |
| Gated Tree Cross-attention for Checkpoint-Compa… | arXiv cs.CL | 02-19 13:00 | 本文提出门控树交叉注意力(GTCA)机制,可在不干扰预训练权重的情况下向decoder-only LLM注入显式句法结构。该方法通过预计算的成分块记忆读取… |
| Do Personality Traits Interfere? Geometric Limi… | arXiv cs.CL | 02-19 13:00 | 本文研究了LLM中人格特质引导向量之间的几何关系,发现Big Five人格维度之间存在显著的非正交性。在LLaMA-3-8B和Mistral-8B上的实验… |
| Can LLMs Assess Personality? Validating Convers… | arXiv cs.CL | 02-19 13:00 | 本研究验证了LLM作为人格评估工具的可行性,通过对比LLM对话与IPIP-50标准问卷的结果。实验显示中等程度的收敛效度(r=0.38-0.58),其中尽… |
| Preference Optimization for Review Question Gen… | arXiv cs.CL | 02-19 13:00 | 本文提出IntelliReward,一种基于冻结自回归LLM构建的奖励模型,用于改进学术同行评审问题的生成质量。该方法解决了现有LLM生成的评审问题过于表… |
| Large Language Models for Assisting American Co… | arXiv cs.CL | 02-19 13:00 | 本文提出EZCollegeApp,一个基于LLM的美国大学申请辅助系统。该系统帮助高中生结构化申请表单、基于权威招生文件生成建议答案,同时保持用户对最终内… |
| Narrative Theory-Driven LLM Methods for Automat… | arXiv cs.CL | 02-19 13:00 | 本文综述了叙事理论驱动的LLM方法在自动故事生成和理解任务中的应用。研究提出了基于叙事学理论的分类体系,系统梳理了叙事数据集、任务和理论在NLP研究中的应… |
| Building Safe and Deployable Clinical Natural L… | arXiv cs.CL | 02-19 13:00 | 本文研究了临床NLP模型在医院出院规划中面临的时间泄漏和词汇泄漏问题。这些泄漏会导致模型性能虚高,对真实部署构成严重风险,论文提出了安全可部署的解决方案。 |
| A Lightweight Explainable Guardrail for Prompt … | arXiv cs.CL | 02-19 13:00 | 本文提出轻量级可解释安全护栏(LEG),用于不安全prompt的分类。该方法通过多任务学习架构同时训练prompt分类器和解释分类器,能标注出触发安全/不… |
| Decoupling Strategy and Execution in Task-Focus… | arXiv cs.CL | 02-19 13:00 | 本文提出目标导向偏好优化(GOPO),一种分层强化学习框架,将任务导向对话中的策略规划与回复生成解耦。通过Expert Agent和Customer Se… |
| Rethinking Soft Compression in Retrieval-Augmen… | arXiv cs.CL | 02-19 13:00 | 本文重新审视了RAG中的软压缩方法,提出从查询条件选择器的角度优化上下文压缩。该方法解决了现有软压缩依赖自编码器导致性能不足的问题,提升了RAG的可扩展性。 |
| Multi-source Heterogeneous Public Opinion Analy… | arXiv cs.CL | 02-19 13:00 | 本文提出协同推理与自适应融合(CRAF)框架,用于多源异构舆情分析。该框架通过多阶段推理机制系统整合传统特征方法与LLM,解决了跨平台语义差异和偏差问题。 |
| State Design Matters: How Representations Shape… | arXiv cs.CL | 02-19 13:00 | 本文研究了状态表征设计对LLM动态推理能力的影响。实验系统探究了状态粒度、结构和历史记忆三个关键维度,发现状态设计是影响LLM在动态环境中表现的关键因素。 |
| From Transcripts to AI Agents: Knowledge Extrac… | arXiv cs.CL | 02-19 13:00 | 本文提出从历史通话记录构建和评估对话式AI助手的端到端框架。该系统整合知识提取、RAG集成和鲁棒评估,解决了客户服务领域中噪声数据和碎片化知识的挑战。 |
| Reranker Optimization via Geodesic Distances on… | arXiv cs.CL | 02-19 13:00 | 本文提出Maniscope,一种基于k-NN流形上测地距离的几何重排序方法。相比传统cross-encoder方法,该方法将RAG重排序延迟从3-5秒降至… |
| CAST: Achieving Stable LLM-based Text Analysis … | arXiv cs.CL | 02-19 13:00 | 本文提出CAST框架,通过算法化提示和统计验证来确保LLM在文本分析任务中的输出稳定性。该方法解决了LLM在数据分析场景中摘要和标注结果不一致的关键问题。 |
| Enhancing Action and Ingredient Modeling for Se… | arXiv cs.CL | 02-19 13:00 | 本文提出语义驱动的食谱生成框架,通过预测和验证烹饪动作与食材来增强食品图像到食谱的转换。该方法解决了多模态LLM在食谱生成中语义错误的问题。 |
| Not the Example, but the Process: How Self-Gene… | arXiv cs.CL | 02-19 13:00 | 本文揭示了LLM通过自生成少样本示例提升推理能力的机制——关键不在于生成的示例本身,而在于生成过程激活的推理能力。这一发现为理解和应用self-gener… |
| NLP Privacy Risk Identification in Social Media… | arXiv cs.CL | 02-19 13:00 | 本文综述了社交媒体NLP中的隐私风险,提出NLP-PRISM框架。通过review 203篇论文,系统评估了个人可识别信息(PII)、行为线索和元数据在N… |
| Playing With AI: How Do State-Of-The-Art Large … | arXiv cs.CL | 02-19 13:00 | 本文通过1977年经典文字冒险游戏Zork评估当代LLM的问题解决和推理能力。该游戏的对话式结构为评估LLM理解自然语言描述并生成合理行动序列提供了可控环境。 |
| Understanding LLM Failures: A Multi-Tape Turing… | arXiv cs.CL | 02-19 13:00 | 本文提出用确定性多带图灵机形式化LLM交互过程,精确定位失败模式到特定流水线阶段。该理论框架揭示了tokenization、词汇映射等环节如何导致LLM在… |
| Towards Fair and Efficient De-identification: Q… | arXiv cs.CL | 02-19 13:00 | 本文系统评估了多种模型(BERT、ClinicalBERT、Llama、Qwen等)在临床去标识化任务中的泛化能力。研究发现现有方法在跨格式、跨文化和跨性… |
| VDLM: Variable Diffusion LMs via Robust Latent-… | arXiv cs.CL | 02-19 13:00 | 本文提出VDLM(Variable Diffusion Language Model),将语义规划与文本渲染解耦的模块化扩散语言模型。VDLM在隐空间中使… |
| CheckIfExist: Detecting Citation Hallucinations… | arXiv cs.CL | 02-19 13:00 | 本文提出CheckIfExist系统,用于检测AI生成内容中的引用幻觉。研究发现即使在NeurIPS和ICLR等顶级会议的已发表论文中也存在AI幻觉引用,… |
| P-RAG: Prompt-Enhanced Parametric RAG with LoRA… | arXiv cs.CL | 02-19 13:00 | 本文提出P-RAG,一种结合LoRA和选择性CoT的prompt增强参数化RAG方法。该方法在生物医学和多跳问答任务上优于标准RAG和DA-RAG基线。 |
| Quality-constrained Entropy Maximization Policy… | arXiv cs.CL | 02-19 13:00 | 本文提出质量约束熵最大化策略优化方法,解决LLM对齐后输出多样性降低的问题。通过将对齐任务分解为质量和多样性两个分布,实现了在保持质量的同时提升输出多样性。 |
| Understand Then Memory: A Cognitive Gist-Driven… | arXiv cs.CL | 02-19 13:00 | 本文提出CogitoRAG,一种模拟人类认知记忆过程的RAG框架。通过全局语义扩散机制,解决了现有RAG框架中离散文本表征导致语义完整性损失和检索偏差的问题。 |
| Every Little Helps: Building Knowledge Graph Fo… | arXiv cs.CL | 02-19 13:00 | 本文提出使用细粒度可迁移多模态token构建知识图谱基础模型的方法。该方法突破了现有多模态知识图谱推理在归纳设置和跨KG迁移中的局限性。 |
| Mitigating Gradient Inversion Risks in Language… | arXiv cs.CL | 02-19 13:00 | 本文提出通过token混淆来缓解语言模型协同训练中梯度反转攻击的方法。该方法在输入空间而非梯度空间进行防御,有效保护了联合学习中的隐私训练数据。 |
| MultiCube-RAG for Multi-hop Question Answering | arXiv cs.CL | 02-19 13:00 | 本文提出MultiCube-RAG,用于多跳问答的结构化检索增强方法。通过多维数据立方体捕获主题、属性和关系间的结构语义,解决了现有RAG在多步推理中的不足。 |
| Doc-to-LoRA: Learning to Instantly Internalize … | arXiv cs.CL | 02-19 13:00 | 本文提出Doc-to-LoRA(D2L),将长文档上下文即时内化为LoRA参数的方法。该方法解决了Transformer二次注意力成本导致的长文本推理效率… |
| DocSplit: A Comprehensive Benchmark Dataset and… | arXiv cs.CL | 02-19 13:00 | 本文提出DocSplit,首个全面的文档包识别与分割基准数据集。该工作解决了多文档拼接处理中长期被忽视的文档边界检测问题,为文档理解提供了新的评估标准。 |
| A Curious Class of Adpositional Multiword Expre… | arXiv cs.CL | 02-19 13:00 | 本文研究了韩语中一类特殊的多词介词表达——后置动词基构造(PVCs)。该工作填补了韩语多词表达在跨语言标注框架(如PARSEME)中的空白。 |
| CLAA: Cross-Layer Attention Aggregation for Acc… | arXiv cs.CL | 02-19 13:00 | 本文提出CLAA(跨层注意力聚合),用于加速LLM prefill阶段的推理。该方法解决了现有token排序启发式方法中token重要性估计不稳定的问题,… |
| Surgical Activation Steering via Generative Cau… | arXiv cs.CL | 02-19 13:00 | 本文提出生成式因果中介(GCM)方法,用于精确定位语言模型中控制长文本生成行为的组件。该方法通过量化注意力头等组件的因果效应,实现了更精准的activat… |
| Language Statistics and False Belief Reasoning:… | arXiv cs.CL | 02-19 13:00 | 本文使用41个开源语言模型研究心理状态推理能力与语言统计特性的关系。研究结果对”心理状态推理部分源于语言暴露”这一人类社会认知理论具有参考意义。 |
| Updating Parametric Knowledge with Context Dist… | arXiv cs.CL | 02-19 13:00 | 本文提出DistillAdapt方法,通过上下文蒸馏更新LLM的参数化知识,同时保留后训练获得的指令遵循和推理等能力。该方法解决了现有持续学习方案无法同时… |
| Missing-by-Design: Certifiable Modality Deletio… | arXiv cs.CL | 02-19 13:00 | 本文提出Missing-by-Design(MBD)框架,用于多模态情感分析中的可撤销模态删除。该框架满足隐私合规要求,允许用户选择性地撤销特定数据模态。 |
| Balancing Faithfulness and Performance in Reaso… | arXiv cs.CL | 02-19 13:00 | 本文提出REMUL,一种通过多听众强化学习来平衡Chain-of-Thought推理忠实性与任务性能的方法。该方法解决了CoT推理有时无法真实反映LLM内… |
| LLMs Exhibit Significantly Lower Uncertainty in… | arXiv cs.CL | 02-19 13:00 | 本文研究了LLM在创意写作中不确定性显著低于专业作家的现象。文学理论认为不确定性是创意表达的必要条件,而当前对齐策略恰恰引导模型远离不确定输出,这解释了A… |
| Beyond Learning: A Training-Free Alternative to… | arXiv cs.CL | 02-19 13:00 | 本文提出一种无需训练的模型适应替代方案,通过识别模型内部适合特定功能的局部模块来替换性能下降的组件。该方法为语言模型版本退化问题提供了即时解决方案。 |
| The Validity of Coreference-based Evaluations o… | arXiv cs.CL | 02-19 13:00 | 本文分析了基于共指消解的NLU评估方法的有效性。研究发现标准评估设计常因测量有效性问题导致不可泛化的结论,并提出了改进评估实践的建议。 |
| Long-Tail Knowledge in Large Language Models: T… | arXiv cs.CL | 02-19 13:00 | 本文构建了LLM长尾知识的系统分类体系和分析框架。研究指出训练数据的幂律分布导致LLM在低频、领域特定和文化知识上持续失败,并探讨了干预方法和影响。 |
| Are LLMs Ready to Replace Bangla Annotators? | arXiv cs.CL | 02-19 13:00 | 本文研究了LLM作为零样本标注器在孟加拉语仇恨言论检测中的可靠性。研究发现LLM在低资源和身份敏感场景下的标注偏差可能带来严重的下游影响。 |
| Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP… | arXiv cs.CL | 02-19 13:00 | 本文提出Aladdin-FTI系统,关注阿拉伯语NLP中的忠实度、双语体和多方言生成三个核心挑战。该工作利用LLM将阿拉伯语建模为多中心语言而非单一系统。 |
| MultiCW: A Large-Scale Balanced Benchmark Datas… | arXiv cs.CL | 02-19 13:00 | 本文提出MultiCW,一个大规模平衡的多语言检查价值检测基准数据集。该数据集覆盖16种语言、7个主题领域和2种写作风格,包含123,722个样本。 |
| MemoryArena: Benchmarking Agent Memory in Inter… | arXiv cs.CL | 02-19 13:00 | 本文提出MemoryArena,一个评估Agent在相互依赖的多会话任务中记忆能力的基准。该基准弥补了现有评估中记忆与行动分离测试的不足,更贴近真实场景。 |
| Helpful to a Fault: Measuring Illicit Assistanc… | arXiv cs.CL | 02-19 13:00 | 本文提出STING基准,用于衡量LLM Agent在多轮多语言交互中的非法协助行为。研究揭示了现有Agent在被逐步引导下完成有害任务的安全漏洞。 |
| Label-Consistent Data Generation for Aspect-Bas… | arXiv cs.CL | 02-19 13:00 | 本文提出一种基于LLM Agent的迭代数据增强方法,用于方面级情感分析(ABSA)。通过迭代生成和验证产生高质量合成训练样本,提升ABSA各子任务性能。 |
| TabAgent: A Framework for Replacing Agentic Gen… | arXiv cs.CL | 02-19 13:00 | 本文提出TabAgent框架,将Agent系统中的生成式决策组件替换为表格-文本分类器。该方法显著降低了Agent系统中重复LLM调用带来的延迟和toke… |
| IndicEval: A Bilingual Indian Educational Evalu… | arXiv cs.CL | 02-19 13:00 | 本文提出IndicEval,面向印度双语教育的LLM评估框架。该平台使用UPSC、JEE和NEET真实高考题,在英语和印地语中评估LLM的STEM和人文学… |
| Training Models on Dialects of Translationese S… | arXiv cs.CL | 02-19 13:00 | 本文研究了机器翻译文本(translationese)对小型英语语言模型训练的影响。研究揭示了不同翻译源的词汇多样性和源-目标句法相似性如何塑造模型学习行为。 |
| Team of Thoughts: Efficient Test-time Scaling o… | arXiv cs.CL | 02-19 13:00 | 本文提出Team-of-Thoughts,一种利用异构Agent互补能力的多Agent系统架构。通过orchestrator-tool范式和两个关键机制优… |
| Learning to Learn from Language Feedback with S… | arXiv cs.CL | 02-19 13:00 | 本文借鉴人类社会元学习理论,提出让LLM从对话反馈中学习的方法。该方法解决了LLM在对话中难以主动寻求纠正反馈、交互缺乏适应性的问题。 |
| From Growing to Looping: A Unified View of Iter… | arXiv cs.CL | 02-19 13:00 | 本文统一了LLM中层循环(looping)和深度增长(depth growing)两种迭代计算范式。研究发现两者呈现趋同的深度特征,为理解迭代计算增强推理… |
| Optimizing Soft Prompt Tuning via Structural Ev… | arXiv cs.CL | 02-19 13:00 | 本文提出基于结构进化的soft prompt调优优化方法。通过引入拓扑结构演化,解决了soft prompt在高维隐式表征中缺乏可解释性和可追溯训练行为的问题。 |
| Supercharging Agenda Setting Research: The Parl… | arXiv cs.CL | 02-19 13:00 | 本文提出ParlaCAP,一个覆盖28个欧洲议会超过800万演讲的大规模议程设置分析数据集。采用teacher-student框架构建低成本的多语言政策主… |
| Utility-Preserving De-Identification for Math T… | arXiv cs.CL | 02-19 13:00 | 本文研究了数学辅导对话数据去标识化中的数字歧义问题。提出MathEd-PII基准,解决通用PII检测系统过度遮盖数学教学内容导致数据集效用降低的问题。 |
| CitiLink-Summ: Summarization of Discussion Subj… | arXiv cs.CL | 02-19 13:00 | 本文提出CitiLink-Summ,用于欧洲葡萄牙语市政会议纪要的讨论主题自动摘要。该工作填补了低资源语言市政文档自动摘要研究的空白。 |
| Explainable AI: Context-Aware Layer-Wise Integr… | arXiv cs.CL | 02-19 13:00 | 本文提出上下文感知逐层积分梯度方法(Context-Aware Layer-Wise Integrated Gradients),用于解释Transfor… |
| ColBERT-Zero: To Pre-train Or Not To Pre-train … | arXiv cs.CL | 02-19 13:00 | 本文研究了ColBERT多向量模型的预训练策略,提出ColBERT-Zero。实验表明大规模多向量预训练可产生更强的检索模型,仅用公开数据训练即可达到SO… |
| Who can we trust? LLM-as-a-jury for Comparative… | arXiv cs.CL | 02-19 13:00 | 本文研究了LLM-as-a-jury范式在比较评估中的可靠性问题。提出考虑LLM评委间能力差异和偏差不一致性的聚合方法,提升了自动评估的准确性。 |
| AREG: Adversarial Resource Extraction Game for … | arXiv cs.CL | 02-19 13:00 | 本文提出AREG基准,通过对抗性资源提取博弈评估LLM的说服力和抗干扰能力。该基准通过多轮零和谈判实现了对攻击(说服)和防御(抵抗)能力的联合评估。 |
| Quecto-V1: Empirical Analysis of 8-bit Quantize… | arXiv cs.CL | 02-19 13:00 | 本文提出Quecto-V1,一种8-bit量化的小型法律检索语言模型。该模型解决了大模型法律智能系统对云端推理的依赖,降低了资源受限环境中的部署门槛。 |
| Align Once, Benefit Multilingually: Enforcing M… | arXiv cs.CL | 02-19 13:00 | 本文提出一种资源高效的多语言安全对齐方法,通过一次对齐即可惠及多种语言。该方法解决了现有多语言安全对齐需要大量目标语言数据的可扩展性问题。 |
| Calibrate-Then-Act: Cost-Aware Exploration in L… | arXiv cs.CL | 02-19 13:00 | 本文提出Calibrate-Then-Act框架,让LLM Agent在探索时考虑成本-不确定性权衡。该方法解决了Agent何时停止探索并提交答案的关键决… |
| Reinforced Fast Weights with Next-Sequence Pred… | arXiv cs.CL | 02-19 13:00 | 本文提出结合下一序列预测(NSP)的强化快速权重架构。该方法克服了传统next-token prediction训练范式对快速权重模型多token语义连贯… |
| A Methodology for Identifying Evaluation Items … | arXiv cs.CL | 02-19 13:00 | 本文提出一种基于业务-对话系统对齐模型的实用对话系统评估项目识别方法。该方法超越了传统以用户满意度为主的评估标准,识别开发和运维中的多维评估指标。 |
| Memes-as-Replies: Can Models Select Humorous Ma… | arXiv cs.CL | 02-19 13:00 | 本文提出Meme Reply Selection任务和MaMe-Re基准,研究模型选择幽默漫画面板作为对话回复的能力。该工作填补了meme在会话中动态幽默… |
| AI as Teammate or Tool? A Review of Human-AI In… | arXiv cs.CL | 02-19 13:00 | 本文综述了AI在决策支持中作为工具还是队友的角色区分。研究从交互设计、信任校准、协作框架和医疗应用四个维度分析了人机交互文献。 |
| Evidence for Daily and Weekly Periodic Variabil… | arXiv cs.CL | 02-19 13:00 | 本文发现GPT-4o的性能存在日和周级别的周期性变化。这一发现对依赖LLM输出一致性的研究的可靠性和可重复性提出了重要警示。 |
| Anatomy of Capability Emergence: Scale-Invarian… | arXiv cs.CL | 02-19 13:00 | 本研究追踪了神经网络训练过程中能力涌现的机制,通过五个几何度量在多个模型规模(405K-85M参数)和Pythia语言模型上进行了系统分析。研究发现了一个… |
| MAEB: Massive Audio Embedding Benchmark | arXiv cs.CL | 02-19 13:00 | 本文提出MAEB(大规模音频嵌入基准),覆盖30个任务、100多种语言、50多个模型。研究发现没有单一模型能在所有音频任务中占据主导地位,揭示了音频AI的… |
| Evidence-Grounded Subspecialty Reasoning: Evalu… | arXiv cs.CL | 02-19 13:00 | 本文评估了January Mirror临床推理系统在内分泌学委员会考试上的表现,与GPT-5、GPT-5.2、Gemini-3-Pro等前沿模型进行对比。… |
| Why Any-Order Autoregressive Models Need Two-St… | arXiv cs.CL | 02-19 13:00 | 本文揭示了任意顺序自回归模型(AO-ARMs)中two-stream attention的深层作用——不仅解耦token内容与位置,还平衡了结构-语义权衡… |
| Emotion Collider: Dual Hyperbolic Mirror Manifo… | arXiv cs.CL | 02-19 13:00 | 本文提出Emotion Collider(EC-Net),一种基于双曲超图的多模态情感建模框架。该方法使用Poincare球嵌入表征模态层次结构,通过反情… |
| Discrete Stochastic Localization for Non-autore… | arXiv cs.CL | 02-19 13:00 | 本文提出离散随机局域化方法用于非自回归文本生成,解决了迭代修正中的误差累积和分布偏移问题。该方法从理论上统一了masked diffusion langu… |
| Learning Personalized Agents from Human Feedback | arXiv cs.CL | 02-19 13:00 | 本文提出PAHF(Personalized Agents from Human Feedback)框架,通过人类反馈学习个性化Agent。该方法解决了现有… |
| ModalImmune: Immunity Driven Unlearning via Sel… | arXiv cs.CL | 02-19 13:00 | 本文提出ModalImmune,通过自毁训练实现模态免疫的训练框架。该方法在训练中故意坍缩选定模态信息,使模型学习对模态损失具有鲁棒性的联合表征。 |
| Lyapunov Spectral Analysis of Speech Embedding … | arXiv cs.CL | 02-19 13:00 | 本文使用Lyapunov指数谱分析精神病患者的语音嵌入轨迹,将语言生产视为高维动力学过程。研究发现词级和答案级嵌入在精神病患者和健康对照组间存在显著差异。 |
| Variable-Length Semantic IDs for Recommender Sy… | arXiv cs.CL | 02-19 13:00 | 本文提出用于推荐系统的可变长度语义ID(Semantic IDs)方法。该方法解决了生成式推荐模型中物品空间基数极大和自然语言与物品标识符间词汇鸿沟的问题。 |
| Creating a digital poet | arXiv cs.CL | 02-19 13:00 | 本文报告了一项七个月的诗歌工作坊实验,通过迭代上下文专家反馈(无需重新训练)将LLM塑造为数字诗人。该模型发展出独特风格和连贯作品集,引发了关于机器艺术本… |
| Scaling Open Discrete Audio Foundation Models w… | arXiv cs.CL | 02-19 13:00 | 本文系统研究了原生音频基础模型的训练方法,通过交错使用semantic、acoustic和text三种token进行next-token predicti… |
| Evaluating Language Model Agency through Negoti… | arXiv cs.CL | 02-19 13:00 | 本文提出通过谈判博弈评估语言模型Agent能力的方法。该方法支持多轮跨模型交互评估,避免了评估数据泄漏问题,更好地反映真实应用场景。 |
| Standardizing the Measurement of Text Diversity… | arXiv cs.CL | 02-19 13:00 | 本文致力于标准化LLM文本多样性的测量方法。通过实证研究多种多样性评分指标,解决了当前缺乏统一方法来衡量LLM输出词汇多样性的问题。 |
| When Stereotypes GTG: The Impact of Predictive … | arXiv cs.CL | 02-19 13:00 | 本文研究了AI预测文本建议对人机协同写作中性别偏见的影响。实验发现语言模型的预测建议会复制甚至放大训练数据中的社会偏见。 |
| Integrating Chain-of-Thought and Retrieval Augm… | arXiv cs.CL | 02-19 13:00 | 本文结合Chain-of-Thought和RAG技术增强罕见病的临床诊断能力。相比直接使用HPO术语提示基础模型,该方法从非结构化临床笔记出发更贴近实际诊… |
| m1: Unleash the Potential of Test-Time Scaling … | arXiv cs.CL | 02-19 13:00 | 本文提出m1,首个系统研究test-time scaling在医学推理中应用的工作。研究发现医学领域与数学任务在知识表征和决策过程上的根本差异影响了推理增… |
| Pretraining Language Models for Diachronic Ling… | arXiv cs.CL | 02-19 13:00 | 本文研究了针对历时语言变化发现的语言模型预训练方法。该方法通过限定推理到特定时间域来捕获语言的历史演变模式,服务于历史语言学和文学研究。 |
| VerifyBench: Benchmarking Reference-based Rewar… | arXiv cs.CL | 02-19 13:00 | 本文提出VerifyBench,用于评估LLM基于参考答案的奖励系统的基准。该工作关注OpenAI o1和DeepSeek-R1等推理模型训练中关键的验证环节。 |
| Toward Beginner-Friendly LLMs for Language Lear… | arXiv cs.CL | 02-19 13:00 | 本文研究了如何让LLM适应语言学习初学者的水平。通过可控生成技术调整LLM输出复杂度,使其适合CEFR A1-A2级别的学习者进行对话练习。 |
| PoeTone: A Framework for Constrained Generation… | arXiv cs.CL | 02-19 13:00 | 本文提出PoeTone框架,系统研究LLM生成中国古典宋词的约束生成能力。该框架包含形式合规评分、自动质量评估和人类评价等多维度评测体系。 |
| When Algorithms Meet Artists: Semantic Compress… | arXiv cs.CL | 02-19 13:00 | 本文分析了公共AI艺术辩论中艺术家关切被语义压缩的现象。研究发现95%的艺术家关切被压缩到极小的语义空间中,在AI治理讨论中缺乏充分代表。 |
| FeatBench: Towards More Realistic Evaluation of… | arXiv cs.CL | 02-19 13:00 | 本文提出FeatBench,一个更贴近真实开发场景的仓库级功能实现评估基准。该基准解决了现有基准中任务输入含代码提示和数据泄漏风险的两大局限。 |
| SPELL: Self-Play Reinforcement Learning for Evo… | arXiv cs.CL | 02-19 13:00 | 本文提出SPELL,一种多角色自博弈强化学习框架,用于优化LLM的长上下文推理能力。该方法解决了长文本推理中人类标注稀缺和可验证奖励信号不足的问题。 |
| Multilingual Routing in Mixture-of-Experts | arXiv cs.CL | 02-19 13:00 | 本文分析了Mixture-of-Experts架构中的多语言路由模式。研究发现MoE模型在早期和晚期层以语言特定方式路由token,但中间层存在显著的跨语… |
| Lossless Vocabulary Reduction for Auto-Regressi… | arXiv cs.CL | 02-19 13:00 | 本文提出无损词汇缩减方法用于自回归语言模型。该方法优化tokenization过程,在不损失模型能力的前提下减少词汇表大小以提升文本生成效率。 |
| PRoH: Dynamic Planning and Reasoning over Knowl… | arXiv cs.CL | 02-19 13:00 | 本文提出PRoH,一种基于知识超图的动态规划和推理RAG方法。该方法解决了现有超图RAG方法在静态检索规划和浅层结构利用方面的三大局限。 |
| CreativityPrism: A Holistic Evaluation Framewor… | arXiv cs.CL | 02-19 13:00 | 本文提出CreativityPrism,一个全面评估LLM创造力的框架。该框架解决了现有创造力评估过度依赖人工、碎片化跨领域、缺乏统一定义的问题。 |
| Reasoning Up the Instruction Ladder for Control… | arXiv cs.CL | 02-19 13:00 | 本文将指令层级(Instruction Hierarchy)执行重新定义为推理问题,提出让LLM在冲突指令间进行优先级推理的方法。这对LLM在高风险决策场… |
| Mastering Olympiad-Level Physics with Artificia… | arXiv cs.CL | 02-19 13:00 | 本文提出LOCA(LOgical Chain Augmentation)AI Agent框架,用于奥林匹克级别物理问题求解。该框架将长推理过程分解为序列化… |
| Randomized Masked Finetuning: An Efficient Way … | arXiv cs.CL | 02-19 13:00 | 本文提出随机掩码微调(RMFT),一种隐私保护微调技术,用于减少LLM对个人可识别信息(PII)的记忆。在Enron邮件数据集上验证了其在保持性能的同时降… |
| DIAL: Direct Iterative Adversarial Learning for… | arXiv cs.CL | 02-19 13:00 | 本文提出DIAL,一种基于DPO的对抗训练框架,用于提升多轮对话模拟器的真实性。该方法通过迭代增强用户模拟器来暴露对话系统的失败模式。 |
| Large Language Models as Automatic Annotators a… | arXiv cs.CL | 02-19 13:00 | 本文探索了LLM作为细粒度观点分析自动标注器和标注仲裁者的可行性。该工作旨在降低跨领域细粒度情感标注的人力成本。 |
| Flatter Tokens are More Valuable for Speculativ… | arXiv cs.CL | 02-19 13:00 | 本文从数据中心视角研究Speculative Decoding的draft模型训练。研究发现预测分布更平坦的token对提升推测解码接受率贡献更大,为数据… |
| Mechanistic Indicators of Steering Effectivenes… | arXiv cs.CL | 02-19 13:00 | 本文研究了activation steering在LLM中成功或失败的机制性因素。通过内部激活诊断替代黑盒评估,提出了steering有效性的可观测指标。 |
| CAST: Character-and-Scene Episodic Memory for A… | arXiv cs.CL | 02-19 13:00 | 本文提出CAST,一种基于角色和场景的Agent情景记忆架构。该方法受人类情景记忆启发,解决了现有Agent记忆系统难以表征和检索连贯事件的问题。 |
| Embedding Inversion via Conditional Masked Diff… | arXiv cs.CL | 02-19 13:00 | 本文将嵌入反转问题框架化为条件掩码扩散任务,通过迭代去噪并行恢复所有token。该方法仅需8次前向传播,在32-token序列上实现了高token恢复精度。 |
| When Models Examine Themselves: Vocabulary-Acti… | arXiv cs.CL | 02-19 13:00 | 本文研究了LLM自我审视时词汇与内部激活动态的对应关系。研究发现自我指称词汇确实追踪了并发的激活动态,且这种对应关系特定于自我指称处理过程。 |
| Semantic Chunking and the Entropy of Natural La… | arXiv cs.CL | 02-19 13:00 | 本文引入统计模型来捕获自然语言的多尺度结构,用于语义分块。研究从信息论角度分析了英语约80%冗余度的内在结构,为文本分割提供理论基础。 |
| Does Socialization Emerge in AI Agent Society? … | arXiv cs.CL | 02-19 13:00 | 本文对AI Agent社会(Moltbook平台)进行了首个大规模系统性诊断。研究探索了AI Agent社会是否会经历类似人类社会系统的趋同动态。 |
| A Geometric Analysis of Small-sized Language Mo… | arXiv cs.CL | 02-19 13:00 | 本文从几何视角研究小型语言模型的幻觉问题。研究证明了对同一prompt的真实回复在嵌入空间中呈现更紧密聚类的假设,为幻觉检测提供了新方法。 |
| Indic-TunedLens: Interpreting Multilingual Mode… | arXiv cs.CL | 02-19 13:00 | 本文提出Indic-TunedLens,专为印度语言设计的多语言LLM可解释性框架。该工作解决了现有可解释性工具以英语为中心的局限。 |
| Far Out: Evaluating Language Models on Slang in… | arXiv cs.CL | 02-19 13:00 | 本文评估了语言模型对澳大利亚和印度英语俚语的理解能力。研究揭示了LLM在处理非标准语言变体时的系统性性能差距。 |
| STAPO: Stabilizing Reinforcement Learning for L… | arXiv cs.CL | 02-19 13:00 | 本文提出STAPO,通过抑制稀有伪token来稳定LLM强化学习训练。该方法解决了现有RL微调在后期出现性能崩溃的问题,提升了推理质量的训练稳定性。 |
| A Content-Based Framework for Cybersecurity Ref… | arXiv cs.CL | 02-19 13:00 | 本文提出基于内容的网络安全拒绝决策框架。该框架解决了现有LLM安全方法过度依赖话题禁令导致的不一致决策和对合法安全研究者的过度限制问题。 |
| RoboSpatial: Teaching Spatial Understanding to … | arXiv cs.CL | 02-19 13:00 | 本文提出RoboSpatial数据集,用于教授2D和3D视觉语言模型机器人所需的空间理解能力。该工作解决了通用图像数据集缺乏复杂空间理解信息的问题。 |
| EconEvals: Benchmarks and Litmus Tests for Econ… | arXiv cs.CL | 02-19 13:00 | 本文提出EconEvals,用于评估LLM Agent经济决策能力的基准和litmus测试。涵盖采购、调度和定价等关键经济问题,测试LLM在上下文环境中的… |
| Voice Impression Control in Zero-Shot TTS | arXiv cs.CL | 02-19 13:00 | 本文提出零样本TTS中的声音印象控制方法。通过低维向量表征语音的准语言和非语言信息,在保持高说话人保真度的同时控制听者感知的声音特征。 |
| GDGB: A Benchmark for Generative Dynamic Text-A… | arXiv cs.CL | 02-19 13:00 | 本文提出GDGB,用于生成式动态文本属性图学习的基准。该基准解决了现有动态文本属性图数据集文本质量差、生成任务标准化不足的问题。 |
| SNAP-UQ: Self-supervised Next-Activation Predic… | arXiv cs.CL | 02-19 13:00 | 本文提出SNAP-UQ,一种面向TinyML的自监督单次通过不确定性估计方法。该方法在严格的flash/延迟预算下实现了微控制器上的可靠不确定性检测。 |
| Language and Experience: A Computational Model … | arXiv cs.CL | 02-19 13:00 | 本文提出将语言指导与直接经验相结合的社会学习计算模型。该框架将社会学习建模为基于结构化可执行世界模型的联合概率推理。 |
| Evolving Language Models without Labels: Majori… | arXiv cs.CL | 02-19 13:00 | 本文提出无标签进化语言模型的方法,利用多数驱动选择和新颖性促进变异。该方法解决了LLM自我改进中仅依赖自确认信号导致过度自信的问题。 |
| TimeOmni-1: Incentivizing Complex Reasoning wit… | arXiv cs.CL | 02-19 13:00 | 本文提出TimeOmni-1,旨在激发LLM对时间序列的复杂推理能力。该工作填补了现有多模态时间序列数据集停留在浅层对齐而缺乏真正推理深度的空白。 |
| Predicting Training Re-evaluation Curves Enable… | arXiv cs.CL | 02-19 13:00 | 本文提出训练重评估曲线(TREC)诊断方法,用于预测和优化LLM训练中的数据课程安排。该方法揭示了数据出现时机对模型最终保留能力的影响规律。 |
| Precise Attribute Intensity Control in Large La… | arXiv cs.CL | 02-19 13:00 | 本文提出通过目标化表征编辑实现LLM属性强度精确控制的方法。该方法解决了现有对齐方法只能提供方向性指导而无法实现精确属性强度控制的局限。 |
| Graph Representation-based Model Poisoning on t… | arXiv cs.CL | 02-19 13:00 | 本文研究了异构Agent互联网(IoA)中基于图表征的模型投毒攻击。揭示了联邦微调环境下LLM Agent协同训练面临的安全威胁。 |
| Mixture-of-Experts as Soft Clustering: A Dual J… | arXiv cs.CL | 02-19 13:00 | 本文从Dual Jacobian-PCA光谱几何视角分析Mixture-of-Experts架构。将MoE路由解释为软聚类,揭示了专家分区对学习函数和表征… |
| Protean Compiler: An Agile Framework to Drive F… | arXiv cs.CL | 02-19 13:00 | 本文提出Protean Compiler,一种驱动细粒度编译优化阶段排序的敏捷框架。该工作利用AI方法解决自1970年代以来长期存在的编译器phase o… |
| From Pixels to Policies: Reinforcing Spatial Re… | arXiv cs.CL | 02-19 13:00 | 本文提出LaySPA,一种用强化学习增强LLM空间推理能力的内容感知图形布局设计框架。该方法将布局设计重新定义为结构化文本空间上的策略学习问题。 |
| Investigation for Relative Voice Impression Est… | arXiv cs.CL | 02-19 13:00 | 本文研究相对语音印象估计(RIE),预测同一说话者两段语音间的感知差异。该框架量化了说话风格变化带来的听者印象偏移。 |
| Weight space Detection of Backdoors in LoRA Ada… | arXiv cs.CL | 02-19 13:00 | 本文提出在权重空间中检测LoRA适配器后门的方法。该方法无需运行模型和测试输入,可实现对Hugging Face Hub等开放仓库中大量适配器的高效安全筛查。 |
| Egocentric Bias in Vision-Language Models | arXiv cs.CV | 02-19 13:00 | 本文揭示了视觉语言模型中的自我中心偏差问题,提出FlipSet基准评估VLM的Level-2视觉视角转换能力。对103个VLM的评估显示了系统性的自我中心… |
| Detecting Deepfakes with Multivariate Soft Blen… | arXiv cs.CV | 02-19 13:00 | 本文提出MSBA-CLIP框架,结合多变量软混合增强和CLIP引导的伪造强度估计用于Deepfake检测。该方法解决了不同伪造技术间分布差异导致的泛化能力… |
| A Comprehensive Survey on Deep Learning-Based L… | arXiv cs.CV | 02-19 13:00 | 本文综述了基于深度学习的LiDAR超分辨率在自动驾驶中的应用。该技术通过增强低分辨率稀疏点云来弥合不同传感器类型间的性能差距。 |
| MaS-VQA: A Mask-and-Select Framework for Knowle… | arXiv cs.CV | 02-19 13:00 | 本文提出MaS-VQA,一种用于知识驱动视觉问答的掩码-选择框架。该方法解决了检索知识中噪声、不相关或与视觉内容不对齐的问题。 |
| EarthSpatialBench: Benchmarking Spatial Reasoni… | arXiv cs.CV | 02-19 13:00 | 本文提出EarthSpatialBench,用于评估多模态LLM在地球影像上的空间推理能力。该基准涉及地理参考图像中的距离、方向和拓扑关系推理。 |
| A Study on Real-time Object Detection using Dee… | arXiv cs.CV | 02-19 13:00 | 本文综述了使用深度学习的实时目标检测方法。涵盖自动驾驶、视频监控、工业自动化、AR/VR等多个应用领域的视觉场景动态分析。 |
| Visual Memory Injection Attacks for Multi-Turn … | arXiv cs.CV | 02-19 13:00 | 本文提出针对多轮对话的视觉记忆注入攻击。攻击者通过上传操纵图像到网络,当用户将图像输入大型视觉语言模型时触发安全漏洞。 |
| Can Vision-Language Models See Squares? Text-Re… | arXiv cs.CV | 02-19 13:00 | 本文通过简单实验揭示了VLM的根本局限:无法在缺乏文本标识的二进制网格中准确定位填充单元。对Claude Opus、ChatGPT 5.2和Gemini的… |
| Position-Aware Scene-Appearance Disentanglement… | arXiv cs.CV | 02-19 13:00 | 本文提出位置感知场景-外观解耦方法,用于双向光声显微镜配准。该方法解决了双向扫描中域偏移和几何对齐耦合的难题。 |
| Automated Re-Identification of Holstein-Friesia… | arXiv cs.CV | 02-19 13:00 | 本文提出面向密集牛群的Holstein-Friesian牛自动重识别方法。新的检测-分割-识别流程解决了现有YOLO方法在动物密集聚集时的性能退化问题。 |
| Non-Contact Physiological Monitoring in Pediatr… | arXiv cs.CV | 02-19 13:00 | 本文提出基于自适应掩码和自监督学习的儿科ICU非接触式生理监测方法。该方法通过面部视频远程检测心率,替代可能引起皮肤刺激的接触式传感器。 |
| LAND: A Longitudinal Analysis of Neuromorphic D… | arXiv cs.CV | 02-19 13:00 | 本文对类脑工程领域的数据集进行了纵向分析。尽管十年来类脑数据集数量激增,但数据质量和标准化问题仍然制约着领域发展。 |
| SAM 3D Body: Robust Full-Body Human Mesh Recovery | arXiv cs.CV | 02-19 13:00 | 本文提出SAM 3D Body(3DB),一种可提示的单图像全身3D人体网格恢复模型。该模型首次使用Momentum Human Rig(MHR)参数化表… |
| BTReport: A Framework for Brain Tumor Radiology… | arXiv cs.CV | 02-19 13:00 | 本文提出BTReport,一个开源的脑肿瘤放射学报告生成框架。该框架使用确定性提取的影像特征构建自然语言报告,填补了神经肿瘤学开放数据集的空白。 |
| MedProbCLIP: Probabilistic Adaptation of Vision… | arXiv cs.CV | 02-19 13:00 | 本文提出MedProbCLIP,一种概率化视觉语言学习框架。该方法为胸部X光和放射学报告的表征学习和双向检索提供不确定性量化,增强了高风险医学应用的可靠性。 |
| LGQ: Learning Discretization Geometry for Scala… | arXiv cs.CV | 02-19 13:00 | 本文提出LGQ(Learning Discretization Geometry),解决离散图像tokenization中的可扩展性和稳定性问题。该方法克… |
| OmniCT: Towards a Unified Slice-Volume LVLM for… | arXiv cs.CV | 02-19 13:00 | 本文提出OmniCT,一个统一的切片-体积大型视觉语言模型,用于全面CT分析。该模型同时处理切片级局部特征和体积级空间表征,覆盖心、肺、肝、结肠等关键器官。 |
| CHAI: CacHe Attention Inference for text2video | arXiv cs.CV | 02-19 13:00 | 本文提出CHAI,一种用于text-to-video扩散模型的跨推理缓存方法。该方法在不需要模型重训练的情况下减少视频生成延迟,同时保持视频质量。 |
| IRIS: Intent Resolution via Inference-time Sacc… | arXiv cs.CV | 02-19 13:00 | 本文提出IRIS,一种利用实时眼动追踪数据解决开放式VQA歧义的无训练方法。用户研究表明,在提问时刻附近的注视点对消歧最为有效,可使准确率翻倍以上。 |
| Evaluating Demographic Misrepresentation in Ima… | arXiv cs.CV | 02-19 13:00 | 本文研究了指令引导图像编辑中的人口统计学偏差。发现相同编辑指令在不同人口统计特征的主体上产生系统性不同结果,包括”软擦除”和”刻板印象替换”两类失败模式。 |
| Uncertainty-Guided Inference-Time Depth Adaptat… | arXiv cs.CV | 02-19 13:00 | 本文提出UncL-STARK,一种不确定性引导的推理时深度自适应方法,用于Transformer视觉跟踪。该方法根据视觉复杂度动态调整编解码器深度,减少不… |
| DataCube: A Video Retrieval Platform via Natura… | arXiv cs.CV | 02-19 13:00 | 本文提出DataCube,一个通过自然语言语义画像进行视频检索的智能平台。该平台支持大规模视频的自动处理、多维画像和查询驱动检索。 |
| EasyControlEdge: A Foundation-Model Fine-Tuning… | arXiv cs.CV | 02-19 13:00 | 本文提出EasyControlEdge,将图像生成基础模型适配到边缘检测任务。该方法在有限训练样本下实现了清晰的边缘检测,适用于建筑平面图、卫星图和医学影像。 |
| HyPCA-Net: Advancing Multimodal Fusion in Medic… | arXiv cs.CV | 02-19 13:00 | 本文提出HyPCA-Net,用于医学影像多模态融合的高效框架。该方法解决了现有融合方法计算开销大和注意力特征交互不足的问题。 |
| AFFMAE: Scalable and Efficient Vision Pretraini… | arXiv cs.CV | 02-19 13:00 | 本文提出AFFMAE,使MAE预训练可在桌面级显卡上进行高分辨率视觉预训练。该方法降低了领域特定基础模型开发对服务器级硬件的依赖。 |
| Breaking the Sub-Millimeter Barrier: Eyeframe A… | arXiv cs.CV | 02-19 13:00 | 本文提出基于彩色图像的眼镜框亚毫米级精度获取方法。该方法用计算机视觉替代传统机械工具,简化了光学行业的镜片追踪流程。 |
| A Self-Supervised Approach for Enhanced Feature… | arXiv cs.CV | 02-19 13:00 | 本文提出自监督方法增强目标检测中的特征表征。该方法缓解了目标检测任务中标注数据不足的挑战,降低了数据标注的时间和资源成本。 |
| Subtractive Modulative Network with Learnable P… | arXiv cs.CV | 02-19 13:00 | 本文提出减法调制网络(SMN),一种受经典减法合成启发的参数高效隐式神经表征架构。该网络通过可学习周期激活层和调制掩码模块生成高次谐波。 |
| SCAR: Satellite Imagery-Based Calibration for A… | arXiv cs.CV | 02-19 13:00 | 本文提出SCAR,利用地理参考卫星图像作为持久全局参考进行航空视觉惯性系统的长期自动标定。该方法估计内外参数,无需专门的标定操作。 |
| Parameter-Free Adaptive Multi-Scale Channel-Spa… | arXiv cs.CV | 02-19 13:00 | 本文提出无参数自适应多尺度通道-空间注意力聚合框架,用于辅助视障用户的3D室内语义场景补全。该方法在单目视觉约束下提供结构连贯的语义场景理解。 |
| ReMoRa: Multimodal Large Language Model based o… | arXiv cs.CV | 02-19 13:00 | 本文提出ReMoRa,基于精细运动表征的多模态LLM长视频理解方法。该方法解决了处理完整RGB帧流计算量过大且高度冗余的问题。 |
| Designing Production-Scale OCR for India: Multi… | arXiv cs.CV | 02-19 13:00 | 本文研究了面向印度的生产级OCR系统设计,通过Vision-Language Model平衡语言多样性、文档异质性和部署约束。提出的Chitrapatha… |
| Visual Self-Refine: A Pixel-Guided Paradigm for… | arXiv cs.CV | 02-19 13:00 | 本文提出Visual Self-Refine,一种像素引导的图表解析精确化方法。受人类用手指辅助阅读的启发,解决了大型视觉语言模型在密集图表中的数据遗漏和… |
| MMA: Multimodal Memory Agent | arXiv cs.CV | 02-19 13:00 | 本文提出MMA(Multimodal Memory Agent),为长时多模态Agent引入带可信度评估的外部记忆机制。该方法解决了基于相似度检索的记忆系… |
| Benchmarking Adversarial Robustness and Adversa… | arXiv cs.CV | 02-19 13:00 | 本文对目标检测模型的对抗鲁棒性和对抗训练策略进行了基准评估。该工作关注自动驾驶和感知机器人等安全关键系统面临的对抗攻击威胁。 |
| DressWild: Feed-Forward Pose-Agnostic Garment S… | arXiv cs.CV | 02-19 13:00 | 本文提出DressWild,一种从野外图像前馈生成姿态无关缝纫版型的方法。该方法克服了现有方法在多样姿态和视角下的不足,可扩展应用于实际服装生产。 |
| Let’s Split Up: Zero-Shot Classifier Edits for … | arXiv cs.CV | 02-19 13:00 | 本文提出零样本分类器编辑方法,用于细粒度视频理解。该方法解决了固定分类体系过于粗糙、无法适应任务定义演变的问题。 |
| Arc2Morph: Identity-Preserving Facial Morphing … | arXiv cs.CV | 02-19 13:00 | 本文提出Arc2Morph,使用Arc2Face实现保持身份的面部变形攻击。该工作研究了面部变形攻击对电子身份证件中人脸识别系统的威胁。 |
| A Contrastive Learning Framework Empowered by A… | arXiv cs.CV | 02-19 13:00 | 本文提出基于注意力特征适配的对比学习框架,用于街景图像分类。该方法支持自动驾驶、城市分析和高清地图构建等下游应用。 |
| Unpaired Image-to-Image Translation via a Self-… | arXiv cs.CV | 02-19 13:00 | 本文提出通过自监督语义桥接实现无配对图像翻译的方法。该方法克服了对抗扩散方法和扩散反转方法各自的局限性。 |
| PredMapNet: Future and Historical Reasoning for… | arXiv cs.CV | 02-19 13:00 | 本文提出PredMapNet,结合未来和历史推理的一致性在线高清矢量化地图构建方法。该方法解决了现有方法随机查询初始化导致的不稳定问题。 |
| VETime: Vision Enhanced Zero-Shot Time Series A… | arXiv cs.CV | 02-19 13:00 | 本文提出VETime,一种视觉增强的零样本时间序列异常检测方法。该方法同时处理即时点异常和长程上下文异常,克服了1D时序模型和2D视觉模型各自的局限。 |
| Learning Situated Awareness in the Real World | arXiv cs.CV | 02-19 13:00 | 本文研究了在真实世界中学习情境感知的能力。该工作关注将自身与周围物理环境关联并在上下文中推理可能行动的能力,为多模态基础模型提供新的评估视角。 |
| Are Object-Centric Representations Better At Co… | arXiv cs.CV | 02-19 13:00 | 本文研究了以物体为中心(Object-Centric)的表征是否更擅长组合泛化。实验检验了将场景编码为独立物体集合的方式对推理新概念组合的影响。 |
| Saliency-Aware Multi-Route Thinking: Revisiting… | arXiv cs.CV | 02-19 13:00 | 本文提出显著性感知多路线思维方法,重新审视视觉语言推理中的推理时间计算扩展。该方法解决了VLM中实现类似LLM推理扩展效果的挑战。 |
| TeCoNeRV: Leveraging Temporal Coherence for Com… | arXiv cs.CV | 02-19 13:00 | 本文提出TeCoNeRV,利用时间一致性实现可压缩的神经视频表征。该方法解决了隐式神经表征在高分辨率视频上编码效率和扩展性的问题。 |
| ReasonNavi: Human-Inspired Global Map Reasoning… | arXiv cs.CV | 02-19 13:00 | 本文提出ReasonNavi,一种受人类启发的全局地图推理零样本具身导航方法。该方法解决了Agent仅依赖局部自我中心观察导致导航效率低下的问题。 |
| MARVL: Multi-Stage Guidance for Robotic Manipul… | arXiv cs.CV | 02-19 13:00 | 本文提出MARVL,通过视觉语言模型实现机器人操作的多阶段引导。该方法利用VLM生成密集奖励函数,解决了手工设计奖励限制强化学习可扩展性的问题。 |
| Adaptive Illumination Control for Robot Perception | arXiv cs.CV | 02-19 13:00 | 本文提出自适应照明控制方法改善机器人感知。与传统在下游改善低光或高动态范围图像不同,该方法直接控制照明条件来提升源图像质量。 |
| Foundation Models for Medical Imaging: Status, … | arXiv cs.CV | 02-19 13:00 | 本文综述了基础模型在医学影像中的应用现状、挑战和方向。综述指出该领域正从窄任务特定网络向可跨模态、解剖结构和临床任务适应的大型通用模型转变。 |
| ROIX-Comp: Optimizing X-ray Computed Tomography… | arXiv cs.CV | 02-19 13:00 | 本文提出ROIX-Comp,用于X射线CT成像数据缩减和重建的优化策略。该方法解决了同步辐射设施等HPC环境中大规模CT数据集的计算和存储挑战。 |
| World Action Models are Zero-shot Policies | arXiv cs.CV | 02-19 13:00 | 本文提出DreamZero,一种基于预训练视频扩散模型构建的World Action Model(WAM),可作为零样本机器人策略直接使用。与现有VLA模… |
| B-DENSE: Branching For Dense Ensemble Network L… | arXiv cs.CV | 02-19 13:00 | 本文提出B-DENSE(分支密集集成网络学习),用于加速扩散模型的推理。该方法通过蒸馏技术解决了扩散模型迭代采样导致的高推理延迟问题。 |
| Automated Assessment of Kidney Ureteroscopy Exp… | arXiv cs.CV | 02-19 13:00 | 本文提出肾脏输尿管镜检查探索的自动化评估方法,用于外科培训。该系统解决了传统培训需要专家一对一反馈且仅能在手术室进行的限制。 |
| Extracting and Analyzing Rail Crossing Behavior… | arXiv cs.CV | 02-19 13:00 | 本文提出使用张量方法从视频中提取和分析铁路道口行为特征。该方法克服了传统逐个路口分析无法识别跨位置共享行为模式的局限。 |
| Graph neural network for colliding particles wi… | arXiv cs.CV | 02-19 13:00 | 本文提出使用图神经网络(GNN)模拟碰撞粒子的方法,应用于海冰浮冰建模。该方法利用冰块间的自然图结构,将节点表示为冰块、边表示为物理交互。 |
| RefineFormer3D: Efficient 3D Medical Image Segm… | arXiv cs.CV | 02-19 13:00 | 本文提出RefineFormer3D,一种基于自适应多尺度Transformer和交叉注意力融合的高效3D医学图像分割方法。该方法在全局上下文建模能力和计… |
| Guide-Guard: Off-Target Predicting in CRISPR Ap… | arXiv cs.CV | 02-19 13:00 | 本文提出Guide-Guard框架,用于预测CRISPR基因编辑技术中的脱靶效应。研究探索了底层生物和化学模型,旨在提高基因编辑在农业和医学等领域应用的安… |
| Articulated 3D Scene Graphs for Open-World Mobi… | arXiv cs.CV | 02-19 13:00 | 本文提出一种用于开放世界移动操控的Articulated 3D Scene Graphs方法。该方法解决了机器人在真实环境中无法预测物体运动方式的关键局限… |
| Markerless 6D Pose Estimation and Position-Base… | arXiv cs.CV | 02-19 13:00 | 本文提出一种无标记6D姿态估计和基于位置的视觉伺服方法,用于内窥镜连续体机械臂。该方法解决了柔性内窥镜手术系统中由迟滞和柔顺性带来的精确姿态估计和闭环控制挑战。 |
| Automated Histopathology Report Generation via … | arXiv cs.CV | 02-19 13:00 | 本文提出一种层级视觉语言框架,结合金字塔特征提取和UNI Foundation Model,用于自动生成组织病理学报告。该方法处理千兆像素级全切片图像,生… |
| Style-Aware Gloss Control for Generative Non-Ph… | arXiv cs.CV | 02-19 13:00 | 本文提出Style-Aware Gloss Control方法,用于生成式非真实感渲染中的风格感知光泽控制。研究探索了人类如何从艺术描绘中推断材质特征,并… |
| Learning Humanoid End-Effector Control for Open… | arXiv cs.CV | 02-19 13:00 | 本文提出一种学习类人末端执行器控制的方法,用于开放词汇视觉移动操控。该方法结合RGB-D图像输入实现对任意物体的精确末端执行器控制,推动人形机器人在野外环… |
| Prompt When the Animal is: Temporal Animal Beha… | arXiv cs.CV | 02-19 13:00 | 本文提出Positional Recovery Training方法,解决动物行为时间定位中的稀疏性和均匀分布难题。该方法通过位置恢复训练策略改进多模态学… |
| Ctrl-GenAug: Controllable Generative Augmentati… | arXiv cs.CV | 02-19 13:00 | 本文提出Ctrl-GenAug,一种可控的基于扩散模型的生成增强方法,用于医学序列分类。该方法解决了医学领域大规模数据集稀缺和标注成本高的问题,有效提升深… |
| Fused-Planes: Why Train a Thousand Tri-Planes W… | arXiv cs.CV | 02-19 13:00 | 本文提出Fused-Planes方法,通过共享平面结构来替代为每个3D对象训练独立的Tri-Plane NeRF。该方法显著降低了建模大规模3D对象集合的… |
| MC-LLaVA: Multi-Concept Personalized Vision-Lan… | arXiv cs.CV | 02-19 13:00 | 本文提出MC-LLaVA,一种多概念个性化视觉语言模型。该模型在视觉问答等任务中展现出卓越能力,通过理解用户提供的概念实现更个性化的VLM体验。 |
| Autoassociative Learning of Structural Represen… | arXiv cs.CV | 02-19 13:00 | 本文提出一种自联想学习方法,用于医学影像中的结构表示建模和分类。该方法解决了传统CNN依赖连续平滑特征而难以捕获医学影像中离散结构信息的问题。 |
| LMSeg: Unleashing the Power of Large-Scale Mode… | arXiv cs.CV | 02-19 13:00 | 本文提出LMSeg,利用大规模模型的能力实现开放词汇语义分割。该方法超越了现有基于CLIP等视觉语言模型的方案,在识别图像中未见过的物体类别方面表现优异。 |
| PromptGuard: Soft Prompt-Guided Unsafe Content … | arXiv cs.CV | 02-19 13:00 | 本文提出PromptGuard,一种基于软提示引导的文本到图像模型不安全内容审核方法。该方法有效防止T2I模型被滥用生成NSFW内容,同时保持正常图像生成质量。 |
| Frequency-Aware Vision Transformers for High-Fi… | arXiv cs.CV | 02-19 13:00 | 本文提出频率感知Vision Transformer,用于地球系统模型输出的高保真超分辨率重建。该方法从粗分辨率模拟中恢复精细尺度结构,对气候科学研究具有… |
| FOCUS on Contamination: Hydrology-Informed Nois… | arXiv cs.CV | 02-19 13:00 | 本文提出FOCUS方法,一种水文学信息驱动的噪声感知学习框架,用于地理空间PFAS污染物映射。该方法解决了大规模环境监测中采样成本高和数据有限的挑战。 |
| A Survey: Spatiotemporal Consistency in Video G… | arXiv cs.CV | 02-19 13:00 | 本文综述了视频生成中的时空一致性问题。与静态图像生成相比,视频生成需要在时间维度保持帧间连贯性,这是AI生成内容(AIGC)领域的核心挑战之一。 |
| CARL: Camera-Agnostic Representation Learning f… | arXiv cs.CV | 02-19 13:00 | 本文提出CARL,一种相机无关的表示学习方法,用于光谱图像分析。该方法解决了不同光谱成像设备在通道维度和捕获特性上的差异性问题,适用于医学和遥感等多个领域。 |
| Attention, Please! Revisiting Attentive Probing… | arXiv cs.CV | 02-19 13:00 | 本文重新审视了Attentive Probing方法在效率方面的表现。随着微调在大规模场景中变得不切实际,探测评估成为首选协议,但标准线性探测可能低估了某… |
| Query-Based Adaptive Aggregation for Multi-Data… | arXiv cs.CV | 02-19 13:00 | 本文提出一种基于查询的自适应聚合方法,用于多数据集联合训练以实现通用视觉位置识别。该方法解决了单一数据集训练导致的数据集特定归纳偏差问题。 |
| View Invariant Learning for Vision-Language Nav… | arXiv cs.CV | 02-19 13:00 | 本文提出视图不变学习方法,用于连续环境中的视觉语言导航(VLNCE)。该方法解决了大多数导航策略对视角变化敏感的问题,提升agent在自由移动中的鲁棒性。 |
| Label-Consistent Dataset Distillation with Dete… | arXiv cs.CV | 02-19 13:00 | 本文提出标签一致的数据集蒸馏方法,结合检测器引导的精细化策略。该方法旨在生成紧凑而信息丰富的数据集,在降低存储和计算需求的同时保持与原始数据集相当的性能。 |
| MedVLThinker: Simple Baselines for Multimodal M… | arXiv cs.CV | 02-19 13:00 | 本文提出MedVLThinker,为多模态医学推理提供简单基线方法。该研究解决了构建以推理为中心的医学大语言模型缺乏开放可复现方案的问题,推动医学AI的c… |
| Robust Image Stitching with Optimal Plane | arXiv cs.CV | 02-19 13:00 | 本文提出RopStitch,一种具有鲁棒性和自然感的无监督深度图像拼接框架。该方法通过将内容感知的通用先验融入图像拼接过程,提升了拼接结果的质量。 |
| MedReasoner: Reinforcement Learning Drives Reas… | arXiv cs.CV | 02-19 13:00 | 本文提出MedReasoner,利用强化学习驱动从临床思维到像素级精确度的推理定位。该方法结合多模态大语言模型实现医学影像中感兴趣区域的精确定位,对诊断和… |
| COGITAO: A Visual Reasoning Framework To Study … | arXiv cs.CV | 02-19 13:00 | 本文提出COGITAO视觉推理框架,用于研究组合性和泛化能力。该模块化可扩展框架旨在解决当前机器学习模型在组合学习概念并应用于新场景方面的持续局限。 |
| Uncertainty Matters in Dynamic Gaussian Splatti… | arXiv cs.CV | 02-19 13:00 | 本文研究动态Gaussian Splatting中的不确定性问题,用于单目4D重建。研究表明在遮挡和极端新视角下存在的模糊性,并提出利用不确定性信息改善重… |
| Language-Guided Invariance Probing of Vision-La… | arXiv cs.CV | 02-19 13:00 | 本文提出Language-Guided Invariance Probing方法,评估CLIP、OpenCLIP、SigLIP等视觉语言模型对受控语言扰动… |
| Trustworthy and Fair SkinGPT-R1 for Democratizi… | arXiv cs.CV | 02-19 13:00 | 本文提出SkinGPT-R1,一种可信赖且公平的皮肤病学推理多模态大语言模型。该模型整合chain-of-thought诊断推理,解决了皮肤科AI在不同肤… |
| INQUIRE-Search: Interactive Discovery in Large-… | arXiv cs.CV | 02-19 13:00 | 本文提出INQUIRE-Search,用于大规模生物多样性数据库的交互式发现。该方法利用iNaturalist等社区科学平台的数据,支持对物种互动、行为和… |
| PartUV: Part-Based UV Unwrapping of 3D Meshes | arXiv cs.CV | 02-19 13:00 | 本文提出PartUV,一种基于部件的3D网格UV展开方法。该方法解决了现有UV展开方法在处理AI生成网格时频繁失败的问题,通过部件分解实现低畸变的表面展平。 |
| Scalable Residual Feature Aggregation Framework… | arXiv cs.CV | 02-19 13:00 | 本文提出一种可扩展的残差特征聚合框架,结合混合元启发式优化算法,用于多模态CT影像中的早期胰腺肿瘤检测。该方法解决了胰腺肿瘤对比度低和患者解剖变异大的临床难题。 |
| Zero-Shot UAV Navigation in Forests via Relight… | arXiv cs.CV | 02-19 13:00 | 本文提出通过可重光照3D Gaussian Splatting实现森林中无人机的零样本导航。该方法解决了仿真与现实之间的视觉域差距问题,使无人机能在非结构… |
| Visualizing the Invisible: Enhancing Radiologis… | arXiv cs.CV | 02-19 13:00 | 本文提出MammoColor框架,通过任务驱动的色彩编码增强放射科医生在乳腺X线摄影中的表现。该方法针对致密乳腺中筛查灵敏度降低的问题,有效减少组织重叠和… |
| Vision and Language: Novel Representations and … | arXiv cs.CV | 02-19 13:00 | 本文综述了视觉语言模型在自动驾驶安全评估和自主车辆规划中的应用。VLM通过将视觉观察与自然语言概念对齐,为安全关键的自动驾驶提供了语义推理的新机会。 |
| Equilibrium contrastive learning for imbalanced… | arXiv cs.CV | 02-19 13:00 | 本文提出Equilibrium Contrastive Learning方法,解决不平衡图像分类问题。研究指出对比学习在不平衡数据集上表现受限,并提出促进… |
| COOPERTRIM: Adaptive Data Selection for Uncerta… | arXiv cs.CV | 02-19 13:00 | 本文提出COOPERTRIM,一种用于不确定性感知协同感知的自适应数据选择方法。该方法解决了自动驾驶agent之间有限通信带宽与丰富传感器信息之间的矛盾。 |
| A Novel Public Dataset for Strawberry (Fragaria… | arXiv cs.CV | 02-19 13:00 | 本文发布了一个用于草莓成熟度检测的新公开数据集,并对YOLO系列模型进行了对比评估。准确判断采摘期的成熟度对减少农业损失和提升产品质量至关重要。 |
| ToaSt: Token Channel Selection and Structured P… | arXiv cs.CV | 02-19 13:00 | 本文提出ToaSt方法,结合Token通道选择和结构化剪枝来提高Vision Transformer的效率。该方法解决了ViT在部署时面临的高计算成本问题。 |
| Less is More: Skim Transformer for Light Field … | arXiv cs.CV | 02-19 13:00 | 本文提出Skim Transformer,一种轻量级光场图像超分辨率方法。该方法充分利用光场图像的空间和角度信息冗余,以更少的计算实现高质量的超分辨率重建。 |
| Demand Estimation with Text and Image Data | arXiv cs.CV | 02-19 13:00 | 本文提出一种利用非结构化数据推断替代模式的需求估计方法。通过预训练深度学习模型从产品图片和文本描述中提取嵌入向量,将其融入需求估计模型。 |
| FindAnything: Open-Vocabulary and Object-Centri… | arXiv cs.CV | 02-19 13:00 | 本文提出FindAnything,一种开放词汇的以物体为中心的地图构建方法,用于机器人在任意环境中的探索。该方法实现了对大规模未知环境的实时、开放词汇语义理解。 |
| Filter2Noise: A Framework for Interpretable and… | arXiv cs.CV | 02-19 13:00 | 本文提出Filter2Noise,一种可解释的零样本低剂量CT图像去噪框架。该方法无需配对数据,解决了监督方法不切实际而自监督方法不够透明的问题。 |
| 3DGEER: 3D Gaussian Rendering Made Exact and Ef… | arXiv cs.CV | 02-19 13:00 | 本文提出3DGEER,实现通用相机下3D Gaussian渲染的精确和高效化。该方法解决了3DGS将3D高斯近似为2D投影时在大视场等场景下精度下降的问题。 |
| Rotterdam artery-vein segmentation (RAV) dataset | arXiv cs.CV | 02-19 13:00 | 本文发布Rotterdam动静脉分割(RAV)数据集,提供多样化高质量的彩色眼底图像及详细的动静脉分割标注。该数据集支持眼科领域血管分析机器学习算法的开发… |
| GEPC: Group-Equivariant Posterior Consistency f… | arXiv cs.CV | 02-19 13:00 | 本文提出GEPC方法,利用群等变后验一致性在扩散模型中进行分布外检测。该方法利用扩散模型从分布内数据和卷积骨干网络继承的近似等变性来识别异常样本。 |
| Learning to Select Like Humans: Explainable Act… | arXiv cs.CV | 02-19 13:00 | 本文提出一种类人的可解释主动学习方法用于医学影像分析。该方法通过战略性选择最具信息量的样本进行标注,有效降低专家标注成本。 |
| Towards Efficient Constraint Handling in Neural… | arXiv cs.AI | 02-19 13:00 | 本文研究神经求解器中高效约束处理的方法,用于解决路由问题。虽然神经求解器在简单路由问题上取得了显著进展,但在复杂约束条件下的优势仍处于萌芽阶段。 |
| Optimization Instability in Autonomous Agentic … | arXiv cs.AI | 02-19 13:00 | 本文研究自主Agent工作流中的优化不稳定性问题,专注于临床症状检测场景。研究发现持续的自主改进可能导致参数过拟合,揭示了自我改进Agent系统的重要失败模式。 |
| How Uncertain Is the Grade? A Benchmark of Unce… | arXiv cs.AI | 02-19 13:00 | 本文提出一个用于LLM自动评估的不确定性度量基准。随着大语言模型在教育自动评估中的广泛应用,准确量化评分的不确定性对于确保评估可靠性至关重要。 |
| Improving Interactive In-Context Learning from … | arXiv cs.AI | 02-19 13:00 | 本文研究如何通过自然语言反馈改进交互式上下文学习。与人类根据纠正性反馈调整思维过程的能力不同,当前LLM训练范式过度依赖大规模静态语料建模。 |
| GPSBench: Do Large Language Models Understand G… | arXiv cs.AI | 02-19 13:00 | 本文提出GPSBench基准,评估大语言模型对GPS坐标的理解能力。随着LLM在导航、机器人和地图等物理世界交互应用中的部署,可靠的地理空间推理成为关键能力。 |
| EnterpriseGym Corecraft: Training Generalizable… | arXiv cs.AI | 02-19 13:00 | 本文介绍EnterpriseGym Corecraft,Surge AI推出的高保真强化学习环境套件中的首个环境。研究表明在高保真RL环境上训练AI ag… |
| Revolutionizing Long-Term Memory in AI: New Hor… | arXiv cs.AI | 02-19 13:00 | 本文探讨了实现人工超级智能(ASI)所需的「记忆」设计概念。研究聚焦于利用高容量高速存储技术为AI系统提供长期记忆支持的替代方案。 |
| Toward Scalable Verifiable Reward: Proxy State-… | arXiv cs.AI | 02-19 13:00 | 本文提出一种基于代理状态的评估方法,用于多轮工具调用LLM agent的可扩展可验证奖励机制。该方法同时支持模型比较和生成策略内训练数据。 |
| Multi-agent cooperation through in-context co-p… | arXiv cs.AI | 02-19 13:00 | 本文研究通过上下文中协作者推理实现多Agent合作。研究展示了如何在自利Agent之间通过「学习感知」机制诱导互利合作。 |
| Verifiable Semantics for Agent-to-Agent Communi… | arXiv cs.AI | 02-19 13:00 | 本文提出Agent间通信的可验证语义方法。多Agent AI系统需要一致的通信,但目前缺乏验证Agent对所用术语共享相同理解的方法。 |
| Causally-Guided Automated Feature Engineering w… | arXiv cs.AI | 02-19 13:00 | 本文提出一种因果引导的自动特征工程方法,结合多Agent强化学习。该方法超越了依赖统计启发式的现有方法,生成在分布变化下更加稳健的特征。 |
| Leveraging Large Language Models for Causal Dis… | arXiv cs.AI | 02-19 13:00 | 本文提出一种利用大语言模型进行因果发现的基于约束和论证驱动的方法。该方法结合LLM的知识与统计技术,从数据中发现因果关系并构建因果图。 |
| Framework of Thoughts: A Foundation Framework f… | arXiv cs.AI | 02-19 13:00 | 本文提出Framework of Thoughts,一个基于链、树和图的动态优化推理基础框架。该方法解决了现有提示方案需要用户定义静态、问题特定推理结构的局限。 |
| Agent Skill Framework: Perspectives on the Pote… | arXiv cs.AI | 02-19 13:00 | 本文探讨Agent Skill框架在工业环境中小语言模型的应用前景。该框架已获得GitHub Copilot、LangChain和OpenAI等主要平台的… |
| Towards a Science of AI Agent Reliability | arXiv cs.AI | 02-19 13:00 | 本文探索构建AI Agent可靠性科学的新方向。虽然AI Agent在标准基准测试上的准确率不断攀升,显示出快速进步,但在实际部署中仍频繁失败。这种差异揭… |
| What Persona Are We Missing? Identifying Unknow… | arXiv cs.AI | 02-19 13:00 | 本文研究用户模拟中缺失的Persona识别问题。现有用户模拟缺乏对是否提供了充分用户画像的验证,影响了模拟对话的有效性和真实性。 |
| EdgeNav-QE: QLoRA Quantization and Dynamic Earl… | arXiv cs.AI | 02-19 13:00 | 本文提出EdgeNav-QE,结合QLoRA量化和动态早退策略,在边缘设备上实现基于Large Action Model的导航。该方法解决了多十亿参数模型… |
| Kalman-Inspired Runtime Stability and Recovery … | arXiv cs.AI | 02-19 13:00 | 本文提出一种受Kalman滤波启发的运行时稳定性和恢复方法,用于混合推理系统。该方法解决了结合学习组件和基于模型推理的系统在部分可观察性下的运行时行为问题。 |
| Test-Time Adaptation for Tactile-Vision-Languag… | arXiv cs.AI | 02-19 13:00 | 本文提出触觉-视觉-语言模型的测试时自适应方法。该方法解决了TVL模型在实际机器人和多模态感知任务中不可避免的测试时分布偏移问题。 |
| Fly0: Decoupling Semantic Grounding from Geomet… | arXiv cs.AI | 02-19 13:00 | 本文提出Fly0,将语义理解与几何规划解耦的零样本空中导航方法。该方法解决了多模态大语言模型作为低层控制器时延迟过高的问题。 |
| Genetic Generalized Additive Models | arXiv cs.AI | 02-19 13:00 | 本文提出Genetic Generalized Additive Models,利用多目标遗传算法NSGA-II自动优化GAM结构。该方法平衡了预测精度和… |
| IT-OSE: Exploring Optimal Sample Size for Indus… | arXiv cs.AI | 02-19 13:00 | 本文提出IT-OSE方法,探索工业数据增强中的最优样本量。研究指出数据增强的收益并非单向有益,需要确定最佳增强样本量以避免过度增强。 |
| FUTURE-VLA: Forecasting Unified Trajectories Un… | arXiv cs.AI | 02-19 13:00 | 本文提出FUTURE-VLA,一种用于实时机器人执行的统一时空轨迹预测方法。该方法解决了在机器人上部署长视频流视觉语言模型时处理延迟过高的问题。 |
| NeuroSleep: Neuromorphic Event-Driven Single-Ch… | arXiv cs.AI | 02-19 13:00 | 本文提出NeuroSleep,一种基于神经形态事件驱动的单通道EEG睡眠分期方法。该方法实现了在可穿戴边缘平台上的高效连续神经感知,适用于长期健康监测。 |
| Surrogate Modeling for Neutron Transport: A Neu… | arXiv cs.AI | 02-19 13:00 | 本文提出一种基于神经算子的代理建模框架,用于中子输运计算。研究训练了DeepONet和Fourier Neural Operator两种架构来学习固定源问… |
| Resp-Agent: An Agent-Based System for Multimoda… | arXiv cs.AI | 02-19 13:00 | 本文提出Resp-Agent,一种基于Agent的多模态呼吸音生成和疾病诊断系统。该方法解决了将信号转换为频谱图时的信息损失以及训练数据有限两大根本挑战。 |
| Generalized Leverage Score for Scalable Assessm… | arXiv cs.AI | 02-19 13:00 | 本文提出广义杠杆分数方法,用于可扩展的隐私脆弱性评估。研究证明无需重新训练模型或模拟攻击即可评估单个数据点的隐私脆弱性。 |
| A fully differentiable framework for training p… | arXiv cs.AI | 02-19 13:00 | 本文提出一个全可微框架,用于训练周期性系统的代理交换相关泛函。该方法解决了密度泛函理论(DFT)在大系统中计算成本高的问题。 |
| From Tool Orchestration to Code Execution: A St… | arXiv cs.AI | 02-19 13:00 | 本文系统研究了Model Context Protocol (MCP)从工具编排到代码执行的设计选择。MCP作为Agent系统发现、选择和编排跨异构执行环… |
| Hybrid Model Predictive Control with Physics-In… | arXiv cs.AI | 02-19 13:00 | 本文提出一种结合Physics-Informed Neural Network的混合模型预测控制方法,用于卫星姿态控制。该方法提升了在模型不确定性下的姿态… |
| From Reflection to Repair: A Scoping Review of … | arXiv cs.AI | 02-19 13:00 | 本文综述了数据集文档工具的发展,从反思到修复。数据集文档被广泛认为是负责任开发自动化系统的基础,但不同文档工具背后的动机和效果尚不明确。 |
| ReLoop: Structured Modeling and Behavioral Veri… | arXiv cs.AI | 02-19 13:00 | 本文提出ReLoop,一种用于可靠LLM优化的结构化建模和行为验证方法。该方法解决了LLM将自然语言转化为优化代码时可能产生的静默失败风险。 |
| ODYN: An All-Shifted Non-Interior-Point Method … | arXiv cs.AI | 02-19 13:00 | 本文介绍ODYN,一种用于机器人和AI中二次规划的全位移非内点方法。该求解器高效处理挑战性的稠密和稀疏二次规划问题。 |
| Transforming GenAI Policy to Prompting Instruct… | arXiv cs.AI | 02-19 13:00 | 本文通过随机对照试验研究如何将GenAI政策转化为提示指导,在CS1课程中实施可扩展的提示干预。研究发现学生无法区分任务表现和实际学习,不加反思地使用AI… |
| AI-CARE: Carbon-Aware Reporting Evaluation Metr… | arXiv cs.AI | 02-19 13:00 | 本文提出AI-CARE,一种碳感知的AI模型报告评估指标。随着机器学习的快速扩展,模型训练和推理的环境成本已成为关键的社会问题。 |
| Can Generative Artificial Intelligence Survive … | arXiv cs.AI | 02-19 13:00 | 本文研究生成式AI能否在数据污染下存活的理论保证。随着AI生成内容在网络上的增加,递归训练中的数据污染问题日益严峻。 |
| Omni-iEEG: A Large-Scale, Comprehensive iEEG Da… | arXiv cs.AI | 02-19 13:00 | 本文发布Omni-iEEG,一个用于癫痫研究的大规模综合颅内EEG数据集和基准。该数据集支持癫痫发作区域的精确定位,对全球5000万癫痫患者的手术治疗具有… |
| ScenicRules: An Autonomous Driving Benchmark wi… | arXiv cs.AI | 02-19 13:00 | 本文提出ScenicRules,一个具有多目标规格和抽象场景的自动驾驶基准。该基准解决了在复杂交通环境中平衡避碰、交通规则遵守和高效行驶等多个目标的挑战。 |
| Federated Graph AGI for Cross-Border Insider Th… | arXiv cs.AI | 02-19 13:00 | 本文提出联邦图AGI方法,用于政府金融计划中的跨境内部威胁情报。该方法解决了跨多个司法管辖区处理分布式、隐私敏感数据的根本限制。 |
| Surrogate-Based Prevalence Measurement for Larg… | arXiv cs.AI | 02-19 13:00 | 本文提出一种基于代理模型的流行度测量方法,用于大规模A/B测试。在线媒体平台需要测量用户接触特定内容属性的频率,以评估A/B实验中的权衡。 |
| Rethinking ANN-based Retrieval: Multifaceted Le… | arXiv cs.AI | 02-19 13:00 | 本文重新思考基于ANN的检索方法,提出多面可学习索引用于大规模推荐系统。该方法改进了候选物品的索引和近似最近邻搜索效率。 |
| Retrieval Collapses When AI Pollutes the Web | arXiv cs.AI | 02-19 13:00 | 本文研究了AI生成内容大规模污染互联网后,对信息检索系统造成的结构性风险。随着搜索引擎和RAG(检索增强生成)系统越来越多地索引和消费由大语言模型生成的内… |
| Human-AI Collaboration in Large Language Model-… | arXiv cs.AI | 02-19 13:00 | 本文研究LLM集成建筑能源管理系统中人机协作的效果。研究聚焦于用户领域知识和AI素养如何影响人机交互式建筑能源管理系统的有效使用。 |
| ASPEN: Spectral-Temporal Fusion for Cross-Subje… | arXiv cs.AI | 02-19 13:00 | 本文提出ASPEN,一种用于跨受试者脑解码的频谱-时间融合方法。该方法解决了基于EEG的脑机接口中由个体神经信号差异带来的跨受试者泛化挑战。 |
| HiPER: Hierarchical Reinforcement Learning with… | arXiv cs.AI | 02-19 13:00 | 本文提出HiPER,一种具有显式信用分配的层级强化学习方法,用于大语言模型Agent。该方法解决了长时间范围任务中稀疏延迟奖励下的多轮决策训练难题。 |
| Edge Learning via Federated Split Decision Tran… | arXiv cs.AI | 02-19 13:00 | 本文提出基于联邦分裂Decision Transformer的边缘学习方法,用于元宇宙资源分配。该方法在严格的延迟约束和视觉质量要求下实现优质的用户体验。 |
| Conjugate Learning Theory: Uncovering the Mecha… | arXiv cs.AI | 02-19 13:00 | 本文提出共轭学习理论,揭示深度神经网络可训练性和泛化的机制。该理论框架基于凸共轭对偶性,在有限样本设定下刻画实际可学习性。 |
| SIT-LMPC: Safe Information-Theoretic Learning M… | arXiv cs.AI | 02-19 13:00 | 本文提出SIT-LMPC,一种用于迭代任务的安全信息论学习模型预测控制算法。该方法在复杂不确定环境中平衡鲁棒性、安全性和高性能。 |
| Rethinking Input Domains in Physics-Informed Ne… | arXiv cs.AI | 02-19 13:00 | 本文通过几何紧化映射重新思考Physics-Informed Neural Networks中的输入域问题。该方法改进了PINN在处理多尺度PDE中平滑低… |
| Temporal Panel Selection in Ongoing Citizens’ A… | arXiv cs.AI | 02-19 13:00 | 本文研究持续运行的公民大会中的时间面板选择问题。与一次性面板不同,永久性大会通过随机选择的公民组成轮换面板,实现持续的社会代表性。 |
| Graphon Mean-Field Subsampling for Cooperative … | arXiv cs.AI | 02-19 13:00 | 本文提出Graphon Mean-Field子采样方法,用于合作异质多Agent强化学习。该方法缓解了大规模Agent交互中联合状态-动作空间指数级增长的挑战。 |
| Geometric Neural Operators via Lie Group-Constr… | arXiv cs.AI | 02-19 13:00 | 本文提出基于Lie群约束潜在动力学的几何神经算子。该方法解决了现有神经算子在多步预测中的不稳定性问题,通过保持物理对称性提升求解精度。 |
| UCTECG-Net: Uncertainty-aware Convolution Trans… | arXiv cs.AI | 02-19 13:00 | 本文提出UCTECG-Net,一种不确定性感知的卷积Transformer混合架构,用于心律失常检测。该方法提升了ECG自动分类在安全关键场景中的预测可靠性。 |
| Color-based Emotion Representation for Speech E… | arXiv cs.AI | 02-19 13:00 | 本文提出基于颜色的情感表示方法,用于语音情感识别。该方法通过颜色属性克服了传统分类或维度标签在表示情感多样性和可解释性方面的局限。 |
| Generative AI Usage of University Students: Nav… | arXiv cs.AI | 02-19 13:00 | 本文调查大学生对生成式AI的使用情况,聚焦在教育和商业之间的平衡。研究关注在职学习的非全日制学生如何在不同场景中交叉使用GenAI。 |
| The Weight of a Bit: EMFI Sensitivity Analysis … | arXiv cs.AI | 02-19 13:00 | 本文研究嵌入式深度学习模型的EMFI(电磁故障注入)敏感性分析。研究全面评估了数值精度、量化和模型架构等因素对模型抗故障注入攻击能力的影响。 |
| The Diversity Paradox revisited: Systemic Effec… | arXiv cs.AI | 02-19 13:00 | 本文重新审视推荐系统中的多样性悖论,研究反馈循环的系统性效应。用户行为和算法推荐在反馈循环中共同演化,但其系统性效应仍未被充分理解。 |
| A Graph Meta-Network for Learning on Kolmogorov… | arXiv cs.AI | 02-19 13:00 | 本文提出一种图Meta-Network方法,用于在Kolmogorov-Arnold Networks上进行学习。该方法直接从神经网络参数中学习,实现预测… |
| Spatial Audio Question Answering and Reasoning … | arXiv cs.AI | 02-19 13:00 | 本文研究空间音频问答和动态声源运动推理。该工作聚焦于空间音频理解中的运动推理任务,使机器能够解释声源随时间移动的复杂听觉场景。 |
| HAWX: A Hardware-Aware FrameWork for Fast and S… | arXiv cs.AI | 02-19 13:00 | 本文提出HAWX,一种硬件感知的DNN近似探索框架。该框架采用多层次敏感性评分来引导异构近似计算模块的选择性集成,实现快速且可扩展的DNN近似。 |
| AI-Driven Structure Refinement of X-ray Diffrac… | arXiv cs.AI | 02-19 13:00 | 本文提出AI驱动的X射线衍射结构精修方法。AI虽能快速提出候选相和结构,但这些假设在下游精修中常因峰值强度无法稳定分配而失败。 |
| Intra-Fairness Dynamics: The Bias Spillover Eff… | arXiv cs.AI | 02-19 13:00 | 本文研究LLM对齐中的Intra-Fairness动态和偏见溢出效应。传统LLM公平性对齐主要关注单一敏感属性的偏见缓解,忽视了公平性的多维度和上下文特异性。 |
| Hardware-accelerated graph neural networks: an … | arXiv cs.AI | 02-19 13:00 | 本文提出硬件加速的图神经网络方法,用于SoC FPGA上的神经形态事件驱动音频分类和关键词检测。该方法解决了边缘嵌入式传感器数据量增长带来的高效低延迟处理需求。 |
| RoboGene: Boosting VLA Pre-training via Diversi… | arXiv cs.AI | 02-19 13:00 | 本文提出RoboGene,一种通过多样性驱动的Agent框架生成真实世界任务来增强VLA预训练的方法。该方法解决了通用机器人操控所面临的多样化真实世界交互… |
| GICDM: Mitigating Hubness for Reliable Distance… | arXiv cs.AI | 02-19 13:00 | 本文提出GICDM方法,通过缓解hubness现象实现更可靠的基于距离的生成模型评估。研究表明高维嵌入空间中的hubness现象会扭曲最近邻关系,影响评估… |
| Fast and Scalable Analytical Diffusion | arXiv cs.AI | 02-19 13:00 | 本文提出Fast and Scalable Analytical Diffusion方法。解析扩散模型提供了数学上透明的生成建模路径,但标准公式的计算成本… |
| Interpretability-by-Design with Accurate Locall… | arXiv cs.AI | 02-19 13:00 | 本文提出一种通过可解释设计实现准确的局部加性模型和条件特征效应。该方法在GAM的可解释性和GA2M的准确性之间取得更好的平衡。 |
| Recursive language models for jailbreak detecti… | arXiv cs.AI | 02-19 13:00 | 本文提出用于越狱检测的递归语言模型方法,作为工具增强Agent的程序性防御。该方法应对LLM面临的长上下文隐藏、语义伪装等越狱攻击威胁。 |
| MerLean: An Agentic Framework for Autoformaliza… | arXiv cs.AI | 02-19 13:00 | 本文介绍MerLean,一个用于量子计算自动形式化的全自动Agent框架。该框架从LaTeX源文件中提取数学陈述,将其形式化为经过Mathlib验证的Le… |
| AIFL: A Global Daily Streamflow Forecasting Mod… | arXiv cs.AI | 02-19 13:00 | 本文提出AIFL,一个基于LSTM的全球每日河流流量预测模型。该模型在ERA5-Land上预训练并在IFS上微调,解决了从历史再分析到业务预报产品转换中的… |
| DataJoint 2.0: A Computational Substrate for Ag… | arXiv cs.AI | 02-19 13:00 | 本文介绍DataJoint 2.0,一个用于Agent式科学工作流的计算基底。该系统提供类似DevOps的SciOps能力,解决了科学数据管道中来源记录分… |
| FlowPrefill: Decoupling Preemption from Prefill… | arXiv cs.AI | 02-19 13:00 | 本文提出FlowPrefill,通过将抢占与预填充调度粒度解耦来缓解LLM服务中的头部阻塞问题。该方法优化了LLM服务系统在处理多并发请求时的性能。 |
| Causal and Compositional Abstraction | arXiv cs.AI | 02-19 13:00 | 本文研究因果和组合抽象的理论问题。从低层到更具解释性的高层描述的抽象,同时保持因果结构,是科学实践和可解释AI的基础。 |
| A Systematic Evaluation of Sample-Level Tokeniz… | arXiv cs.AI | 02-19 13:00 | 本文系统评估了MEG基础模型的样本级分词策略。随着大规模神经影像基础模型的发展,连续神经时间序列数据的离散化方法选择变得至关重要。 |
| Almost Sure Convergence of Differential Tempora… | arXiv cs.AI | 02-19 13:00 | 本文证明了差分时间差分学习在平均奖励马尔可夫决策过程中的几乎必然收敛性。该理论结果为平均奖励强化学习中的TD算法提供了重要的收敛保证。 |
| Enhanced Diffusion Sampling: Efficient Rare Eve… | arXiv cs.AI | 02-19 13:00 | 本文提出Enhanced Diffusion Sampling方法,利用扩散模型实现高效的罕见事件采样和自由能计算。该方法在分子动力学模拟的关键瓶颈问题上… |
| Retrieval Augmented Generation of Literature-de… | arXiv cs.AI | 02-19 13:00 | 本文提出基于RAG的文献驱动聚合物知识系统,以可生物降解聚合物专家系统为例。该方法解决了聚合物文献中实验知识分散在非结构化文本中的问题。 |
| SPARC: Scenario Planning and Reasoning for Auto… | arXiv cs.AI | 02-19 13:00 | 本文提出SPARC,一种用于自动生成C语言单元测试的场景规划和推理方法。该方法解决了C语言指针算术和手动内存管理带来的高层程序意图与低层语法约束之间的语义鸿沟。 |
| Measuring Mid-2025 LLM-Assistance on Novice Per… | arXiv cs.AI | 02-19 13:00 | 本文评估2025年中期LLM对新手在生物学实验中表现的辅助效果。研究关注LLM在生物学基准上的强表现是否能转化为人类在实际实验室中的能力提升。 |
| Policy Compiler for Secure Agentic Systems | arXiv cs.AI | 02-19 13:00 | 本文提出Policy Compiler,用于安全Agent系统的策略编译器。随着基于LLM的Agent在需要复杂授权策略的场景中部署,将策略嵌入提示的方法… |
| A Review of Fairness and A Practical Guide to S… | arXiv cs.AI | 02-19 13:00 | 本文综述了机器学习中的公平性概念,并提供了选择适当公平性度量的实用指南。随着AI监管提案对公平性要求的强调,精确定义适当的公平性度量变得尤为重要。 |
| Scalable Precise Computation of Shannon Entropy | arXiv cs.AI | 02-19 13:00 | 本文提出可扩展的Shannon熵精确计算方法。Shannon熵是量化信息流分析中衡量信息泄露的重要方法,本文解决了其在大规模场景下的计算可扩展性问题。 |
| SurgRAW: Multi-Agent Workflow with Chain of Tho… | arXiv cs.AI | 02-19 13:00 | 本文提出SurgRAW,一种用于机器人手术视频分析的多Agent工作流,结合Chain of Thought推理。该方法统一了手术AI中分散的任务特定模型管道。 |
| Large Language Models for Water Distribution Sy… | arXiv cs.AI | 02-19 13:00 | 本文探讨大语言模型在水分配系统建模和决策中的应用。LLM的集成为降低计算工具的技术和专业知识门槛提供了新机会。 |
| Earth AI: Unlocking Geospatial Insights with Fo… | arXiv cs.AI | 02-19 13:00 | 本文介绍Earth AI,通过基础模型和跨模态推理解锁地理空间洞察。该研究解决了地理空间数据在分辨率、时间尺度和稀疏性方面的多样化挑战。 |
| CaveAgent: Transforming LLMs into Stateful Runt… | arXiv cs.AI | 02-19 13:00 | 本文提出CaveAgent,将LLM转化为有状态的运行时算子。该方法解决了当前Agent系统以文本为中心的范式在长时间范围任务中面临的多轮依赖脆弱性和上下… |
| DIAGPaper: Diagnosing Valid and Specific Weakne… | arXiv cs.AI | 02-19 13:00 | 本文提出DIAGPaper,通过多Agent推理诊断科学论文中的有效和具体弱点。该方法超越了现有多Agent系统中表面级别的角色模拟,深入到底层评审标准。 |
| SEISMO: Increasing Sample Efficiency in Molecul… | arXiv cs.AI | 02-19 13:00 | 本文提出SEISMO,一种轨迹感知的LLM Agent,用于提高分子优化的样本效率。该方法解决了药物发现中分子结构优化的核心瓶颈问题。 |
| Rethinking the Role of Entropy in Optimizing To… | arXiv cs.AI | 02-19 13:00 | 本文重新思考熵在优化LLM Agent工具使用行为中的作用。研究发现Agent在长轨迹中常触发过多且低质量的工具调用,增加延迟和计算成本。 |
| VERA-MH: Reliability and Validity of an Open-So… | arXiv cs.AI | 02-19 13:00 | 本文提出VERA-MH,一个开源的AI心理健康安全评估框架的信度和效度研究。数百万人已在使用生成式AI聊天机器人获取心理支持,评估这些工具的安全性是首要问题。 |
| AgentNoiseBench: Benchmarking Robustness of Too… | arXiv cs.AI | 02-19 13:00 | 本文提出AgentNoiseBench,评估工具使用LLM Agent在噪声条件下的鲁棒性。研究发现Agent在真实世界部署中的表现往往不及基准测试,尤其… |
| ForesightSafety Bench: A Frontier Risk Evaluati… | arXiv cs.AI | 02-19 13:00 | 本文提出ForesightSafety Bench,一个面向安全AI的前沿风险评估和治理框架。该框架应对快速发展的AI所带来的更不可预测、难以控制且可能不… |
| Cocoa: Co-Planning and Co-Execution with AI Agents | arXiv cs.AI | 02-19 13:00 | 本文提出Cocoa,一种人机协同规划和协同执行框架。随着AI Agent承担越来越长的复杂任务,需要新的交互设计来实现更深层次的人机协作。 |
| Adaptive Rank Allocation for Federated Paramete… | arXiv cs.AI | 02-19 13:00 | 本文提出自适应秩分配方法,用于语言模型的联邦参数高效微调。该方法在保护数据隐私的前提下,提升预训练语言模型适应下游任务的效率。 |
| Targeting Alignment: Extracting Safety Classifi… | arXiv cs.AI | 02-19 13:00 | 本文研究针对对齐LLM安全分类器的提取攻击。对齐机制在面对越狱攻击时仍然脆弱,本文引入并评估了一种新的安全分类器提取技术。 |
| Understanding Transformer Optimization via Grad… | arXiv cs.AI | 02-19 13:00 | 本文通过梯度异质性视角理解Transformer优化。研究揭示了Adam优化器在Transformer训练中优于SGD的深层原因,为优化方法选择提供理论指导。 |
| Forget Forgetting: Continual Learning in a Worl… | arXiv cs.AI | 02-19 13:00 | 本文提出「忘记遗忘」的持续学习新范式,适用于内存充足的现代系统。研究挑战了传统CL中最小化样例内存的约束,指出在现代系统中GPU时间而非存储才是主要瓶颈。 |
| FedEFC: Federated Learning Using Enhanced Forwa… | arXiv cs.AI | 02-19 13:00 | 本文提出FedEFC,一种在联邦学习中使用增强前向校正来对抗噪声标签的方法。该方法解决了联邦学习中处理各客户端噪声标签的重大挑战。 |
| Modeling Human Behavior in a Strategic Network … | arXiv cs.AI | 02-19 13:00 | 本文研究具有复杂群体动态的战略网络博弈中的人类行为建模。理解人类网络对于促进有利社会结果至关重要。 |
| PLAICraft: Large-Scale Time-Aligned Vision-Spee… | arXiv cs.AI | 02-19 13:00 | 本文发布PLAICraft,一个大规模时间对齐的视觉-语音-动作数据集,用于具身AI。该数据集填补了大规模、实时、多模态且具有社会交互性的数据集空白。 |
| WINA: Weight Informed Neuron Activation for Acc… | arXiv cs.AI | 02-19 13:00 | 本文提出WINA,一种基于权重信息的神经元激活方法,用于加速大语言模型推理。该方法克服了MoE等选择性激活方法需要专门训练的限制。 |
| Experience-based Knowledge Correction for Robus… | arXiv cs.AI | 02-19 13:00 | 本文提出基于经验的知识校正方法,用于Minecraft中的鲁棒规划。该方法解决了LLM在长时间范围环境中初始知识不准确的问题。 |
| FreqPolicy: Efficient Flow-based Visuomotor Pol… | arXiv cs.AI | 02-19 13:00 | 本文提出FreqPolicy,通过频率一致性实现高效的基于Flow的视觉运动策略。该方法降低了多步采样的高推理成本,提升机器人操控的实时性。 |
| DiffusionBlocks: Block-wise Neural Network Trai… | arXiv cs.AI | 02-19 13:00 | 本文提出DiffusionBlocks,通过扩散解释实现逐块神经网络训练。该方法通过消除端到端反向传播中存储所有层激活值的需求,解决内存瓶颈问题。 |
| Chain of Thought in Order: Discovering Learning… | arXiv cs.AI | 02-19 13:00 | 本文研究Chain of Thought中的最优排序问题,发现对学习友好的算术推理步骤顺序。中间推理步骤的设计对Transformer在数学任务上的表现有… |
| Expressive Power of Graph Transformers via Logic | arXiv cs.AI | 02-19 13:00 | 本文通过逻辑方法研究Graph Transformer的表达能力。虽然Transformer是现代大语言模型的基础,但其在图上的精确表达能力尚不明确。 |
| Model-Agnostic Dynamic Feature Selection with U… | arXiv cs.AI | 02-19 13:00 | 本文提出一种模型无关的动态特征选择方法,结合不确定性量化。该方法通过顺序获取每个实例的特征来应对预算约束下的决策问题。 |
| Pinet: Optimizing hard-constrained neural netwo… | arXiv cs.AI | 02-19 13:00 | 本文提出Pinet,通过正交投影层优化硬约束神经网络。该方法利用算子分裂实现快速可靠的前向传播投影,确保满足凸约束。 |
| FairTabGen: High-Fidelity and Fair Synthetic He… | arXiv cs.AI | 02-19 13:00 | 本文提出FairTabGen,从有限样本中生成高保真且公平的合成健康数据。该方法解决了临床研究中隐私和监管约束限制数据可用性的问题。 |
| Software Dependencies 2.0: An Empirical Study o… | arXiv cs.AI | 02-19 13:00 | 本文对开源项目中预训练模型的复用和集成进行了实证研究。预训练模型作为新型软件依赖的广泛采用引入了新的供应链管理挑战。 |
| PolicyPad: Collaborative Prototyping of LLM Pol… | arXiv cs.AI | 02-19 13:00 | 本文提出PolicyPad,一种用于LLM策略协同原型设计的工具。该工具支持领域专家参与制定管控LLM行为的策略,特别适用于心理健康等高风险领域。 |
| StarEmbed: Benchmarking Time Series Foundation … | arXiv cs.AI | 02-19 13:00 | 本文提出StarEmbed基准,评估时间序列基础模型在变星天文观测上的表现。虽然这些模型的训练语料广泛,但排除了天文时间序列数据。 |
| GENESIS: A Generative Model of Episodic-Semanti… | arXiv cs.AI | 02-19 13:00 | 本文提出GENESIS,一个情景-语义交互的生成模型。该模型解释了语义记忆和情景记忆这两种主要陈述性记忆如何交互以支持学习、回忆和想象。 |
| Transformers can do Bayesian Clustering | arXiv cs.AI | 02-19 13:00 | 本文证明Transformer能够执行贝叶斯聚类。该方法解决了贝叶斯聚类在大规模场景下计算量大的问题,同时处理真实数据集中常见的缺失值。 |
| Q3R: Quadratic Reweighted Rank Regularizer for … | arXiv cs.AI | 02-19 13:00 | 本文提出Q3R,一种用于有效低秩训练的二次加权秩正则化方法。该方法改进了低秩优化在大模型预训练中的表现,解决了低秩方法在预训练阶段失效的问题。 |
| Refined Bayesian Optimization for Efficient Bea… | arXiv cs.AI | 02-19 13:00 | 本文提出改进的贝叶斯优化方法,用于智能室内无线环境中的高效波束对准。该方法避免了穷举波束训练的高成本,同时保持最优性能。 |
| StableQAT: Stable Quantization-Aware Training a… | arXiv cs.AI | 02-19 13:00 | 本文提出StableQAT,用于超低比特宽度下的稳定量化感知训练。该方法解决了在严格的内存和延迟约束下部署大模型时,极低比特量化训练的优化稳定性挑战。 |
| Cardinality-Preserving Attention Channels for G… | arXiv cs.AI | 02-19 13:00 | 本文提出CardinalGraphFormer,一种增强了基数保持注意力通道的图Transformer,用于分子性质预测。该方法在药物发现中标签数据稀缺时… |
| Do Vision-Language Models Respect Contextual In… | arXiv cs.AI | 02-19 13:00 | 本文研究视觉语言模型在位置泄露中是否尊重上下文完整性。VLM在图像地理定位方面的强大能力构成了重大隐私风险。 |
| VIRENA: Virtual Arena for Research, Education, … | arXiv cs.AI | 02-19 13:00 | 本文介绍VIRENA,一个用于研究、教育和民主创新的虚拟竞技场平台。该平台解决了数字平台研究中数据访问受限、伦理约束和现有仿真局限等问题。 |
| Scaling Verification Can Be More Effective than… | arXiv cs.AI | 02-19 13:00 | 本文提出了一个重要发现:在Vision-Language-Action (VLA)对齐中,扩展验证机制比扩展策略学习更为有效。VLA模型在理解和执行自然语… |
| Knowledge-Based Design Requirements for Generat… | arXiv cs.AI | 02-19 13:00 | 本文提出基于知识的生成式社交机器人在高等教育中的设计要求。虽然LLM驱动的社交机器人能实现自适应对话辅导,但也带来幻觉、过度依赖和隐私侵犯等风险。 |
| Arming Data Agents with Tribal Knowledge | arXiv cs.AI | 02-19 13:00 | 本文研究如何为数据Agent装备部落知识。NL2SQL翻译使非专业用户能通过自然语言查询关系数据库,LLM Agent显著提升了这一能力。 |
| Closing the Distribution Gap in Adversarial Tra… | arXiv cs.AI | 02-19 13:00 | 本文研究如何缩小LLM对抗训练中的分布差距。尽管对抗训练取得了显著进展,模型仍然对简单的分布内攻击(如改写提示)保持脆弱。 |
| High-Fidelity Network Management for Federated … | arXiv cs.AI | 02-19 13:00 | 本文提出高保真网络管理方法,用于联邦AI即服务的跨域编排。通信服务提供商正从纯连接提供商向AIaaS管理网络服务转型。 |
| AI-Paging: Lease-Based Execution Anchoring for … | arXiv cs.AI | 02-19 13:00 | 本文提出AI-Paging,一种基于租约的执行锚定机制,用于网络暴露的AI即服务。随着AIaaS部署到多提供商和多模型层级,运行时模型实例选择超出了终端用… |
| SecCodeBench-V2 Technical Report | arXiv cs.AI | 02-19 13:00 | 本文介绍SecCodeBench-V2技术报告,一个用于评估LLM代码助手安全代码生成能力的公开基准。该基准包含98个源自Alibaba Group工业实… |
| A Koopman-Bayesian Framework for High-Fidelity,… | arXiv cs.LG | 02-19 13:00 | 本文提出一种结合Koopman算子和贝叶斯方法的框架,用于高保真、感知优化的触觉外科模拟。该方法整合非线性动力学、感知心理物理学和高频触觉渲染以增强手术模… |
| BamaER: A Behavior-Aware Memory-Augmented Model… | arXiv cs.LG | 02-19 13:00 | 本文提出BamaER,一种行为感知的记忆增强模型,用于个性化练习推荐。该方法基于学生学习历史和个人特征实现更精准的练习选择。 |
| Distributed physics-informed neural networks vi… | arXiv cs.LG | 02-19 13:00 | 本文提出分布式Physics-Informed Neural Networks方法,通过域分解实现快速流场重建。该方法将稀疏速度测量与Navier-Sto… |
| Adaptive Semi-Supervised Training of P300 ERP-B… | arXiv cs.LG | 02-19 13:00 | 本文提出P300 ERP脑机接口拼写系统的自适应半监督训练方法,最小化校准负担。该方法降低了辅助通信工具的使用门槛。 |
| R$^2$Energy: A Large-Scale Benchmark for Robust… | arXiv cs.LG | 02-19 13:00 | 本文发布R2Energy,一个用于极端和多样条件下鲁棒可再生能源预测的大规模基准。随着风能和太阳能的快速扩展,可靠的预测对电力系统运行至关重要。 |
| Fast Online Learning with Gaussian Prior-Driven… | arXiv cs.LG | 02-19 13:00 | 本文提出一种基于高斯先验驱动的层级单峰Thompson采样快速在线学习方法。该方法适用于多臂赌博机中臂具有聚类结构的场景。 |
| Verifier-Constrained Flow Expansion for Discove… | arXiv cs.LG | 02-19 13:00 | 本文提出Verifier-Constrained Flow Expansion方法,用于超越训练数据的发现。该方法解决了Flow和扩散模型预训练数据有限、… |
| Geometry-Aware Uncertainty Quantification via C… | arXiv cs.LG | 02-19 13:00 | 本文提出基于Riemannian流形上保形预测的几何感知不确定性量化方法。现有保形预测方法假设欧几里得输出空间,在流形数据上校准不佳。 |
| MolCrystalFlow: Molecular Crystal Structure Pre… | arXiv cs.LG | 02-19 13:00 | 本文提出MolCrystalFlow,通过Flow Matching进行分子晶体结构预测。该方法解决了分子晶体结构预测中分子尺寸大、分子内和分子间相互作用… |
| MoE-Spec: Expert Budgeting for Efficient Specul… | arXiv cs.LG | 02-19 13:00 | 本文提出MoE-Spec,通过专家预算管理实现高效的推测性解码。该方法解决了MoE模型中推测解码的大规模draft树激活过多唯一专家导致的严重瓶颈问题。 |
| Multi-Objective Alignment of Language Models fo… | arXiv cs.LG | 02-19 13:00 | 本文提出面向个性化心理治疗的语言模型多目标对齐方法。全球超过10亿人受心理健康障碍影响,而当前对齐方法独立优化各目标,无法满足个性化需求。 |
| Axle Sensor Fusion for Online Continual Wheel F… | arXiv cs.LG | 02-19 13:00 | 本文提出一种轴传感器融合方法,用于铁路路旁监测中的在线持续车轮故障检测。该方法利用传感器时间序列数据实现可靠且经济高效的预测性维护。 |
| Feature-based morphological analysis of shape g… | arXiv cs.LG | 02-19 13:00 | 本文介绍了用于形状图数据的基于特征的形态学分析计算管道。该方法处理嵌入在2D或3D空间中的几何网络的统计分析问题。 |
| On the Power of Source Screening for Learning S… | arXiv cs.LG | 02-19 13:00 | 本文研究源筛选在学习共享特征提取器中的作用。通过对异构数据源进行筛选,可以更有效地分离共性和异质性。 |
| Investigating GNN Convergence on Large Randomly… | arXiv cs.LG | 02-19 13:00 | 本文研究GNN在具有真实节点特征相关性的大规模随机生成图上的收敛行为。现有研究大多不建模节点特征之间的相关性,与真实场景存在偏差。 |
| Differentially Private Non-convex Distributiona… | arXiv cs.LG | 02-19 13:00 | 本文研究差分隐私下的非凸分布鲁棒优化问题。该方法在分布偏移、群体不平衡和对抗扰动等真实部署场景中提供隐私保护的鲁棒优化。 |
| Muon with Spectral Guidance: Efficient Optimiza… | arXiv cs.LG | 02-19 13:00 | 本文提出结合频谱引导的Muon优化器,用于科学机器学习中的高效优化。该方法解决了PINN和神经算子中由病态梯度和物理约束导致的严重优化困难。 |
| Towards Secure and Scalable Energy Theft Detect… | arXiv cs.LG | 02-19 13:00 | 本文提出一种基于联邦学习的安全可扩展能源盗窃检测方法,适用于资源受限的智能电表。该方法在保护用户隐私的同时实现有效的盗电检测。 |
| Deep TPC: Temporal-Prior Conditioning for Time … | arXiv cs.LG | 02-19 13:00 | 本文提出Temporal-Prior Conditioning (TPC)方法,将时间信息提升为一级模态,在多个深度层对LLM进行条件化处理,用于时间序列… |
| Training-Free Adaptation of Diffusion Models vi… | arXiv cs.LG | 02-19 13:00 | 本文提出一种基于Doob h-Transform的无需训练的扩散模型适配方法。该方法无需修改预训练模型或额外训练,通过数学上严格的h-transform框… |
| Linked Data Classification using Neurochaos Lea… | arXiv cs.LG | 02-19 13:00 | 本文将Neurochaos Learning (NL)应用于关联数据分类任务。NL作为一种替代传统深度学习的方法,具有小样本学习能力和低计算需求两大优势,… |
| Multi-Class Boundary Extraction from Implicit R… | arXiv cs.LG | 02-19 13:00 | 本文提出了一种从隐式神经表征中提取多类别边界的方法,保证了拓扑正确性。与已有的单类别曲面提取方法不同,该方法首次解决了多类别隐式表征的边界提取问题。 |
| Bayesian Quadrature: Gaussian Processes for Int… | arXiv cs.LG | 02-19 13:00 | 本文系统综述了Bayesian Quadrature(贝叶斯求积)方法,这是一种基于Gaussian Process的概率积分估计方法。尽管该方法在198… |
| SEMixer: Semantics Enhanced MLP-Mixer for Multi… | arXiv cs.LG | 02-19 13:00 | 本文提出SEMixer,一种语义增强的MLP-Mixer架构,用于多尺度时间序列混合和长期预测。该方法通过语义对齐来解决非相邻尺度之间的语义鸿沟问题,有效… |
| Amortized Predictability-aware Training Framewo… | arXiv cs.LG | 02-19 13:00 | 本文提出一种考虑可预测性的摊销训练框架,用于时间序列预测和分类。该方法能够识别并缓解低可预测性样本对训练的负面影响,避免训练不稳定和陷入较差的局部最优。 |
| Factored Latent Action World Models | arXiv cs.LG | 02-19 13:00 | 本文提出Factored Latent Action World Models,用于从无动作视频中学习潜在动作。该方法解决了现有潜在动作世界模型中动作空间… |
| Online Prediction of Stochastic Sequences with … | arXiv cs.LG | 02-19 13:00 | 本文研究了有限时间范围内随机序列在线预测的高概率regret界。作者探讨了是否可以导出以高概率成立的消失regret界,而非仅有期望值的界限。 |
| Prediction of Major Solar Flares Using Interpre… | arXiv cs.LG | 02-19 13:00 | 本文首次开发了基于类别依赖奖励(CDR)的监督分类框架,用于预测24小时内的大型太阳耀斑。研究结合了专家知识特征和视线磁图数据,并应用了多种深度学习方法进… |
| Regret and Sample Complexity of Online Q-Learni… | arXiv cs.LG | 02-19 13:00 | 本文首次给出了经典在线Q-learning在无限折扣MDP中的高概率regret界,无需依赖乐观性或奖励项。作者先分析了带衰减温度的Boltzmann Q… |
| Fast KV Compaction via Attention Matching | arXiv cs.LG | 02-19 13:00 | 本文提出了一种基于注意力匹配的快速KV缓存压缩方法。在部署LLM时,KV缓存大小往往是长上下文扩展的瓶颈,该方法通过在潜在空间中训练紧凑KV缓存来匹配全上… |
| The Implicit Bias of Adam and Muon on Smooth Ho… | arXiv cs.LG | 02-19 13:00 | 本文研究了Adam和Muon优化器在光滑同质神经网络上的隐式偏置。作者将steepest descent的隐式偏置结果扩展到归一化steepest des… |
| Explainability for Fault Detection System in Ch… | arXiv cs.LG | 02-19 13:00 | 本文将Integrated Gradients (IG)和SHAP两种XAI方法应用于化工过程故障检测系统的解释。研究比较了这两种方法在解释高精度Long… |
| Optical Inversion and Spectral Unmixing of Spec… | arXiv cs.LG | 02-19 13:00 | 本文利用Physics-Informed Neural Networks进行光谱光声图像的光学反演和光谱解混。该方法能准确估计色素体相对浓度,揭示生理过程… |
| Improved Bounds for Reward-Agnostic and Reward-… | arXiv cs.LG | 02-19 13:00 | 本文研究了情景有限时域MDP中的无奖励和奖励无关探索问题,提出了改进的复杂度界。智能体在不观察外部奖励的情况下探索未知环境,目标是实现接近最优的策略。 |
| Easy Data Unlearning Bench | arXiv cs.LG | 02-19 13:00 | 本文推出Easy Data Unlearning Bench,一个统一且可扩展的机器遗忘评估基准套件。该基准大幅简化了遗忘方法的评估流程,降低了工程开销,… |
| Learning with Locally Private Examples by Inver… | arXiv cs.LG | 02-19 13:00 | 本文研究在非交互式局部差分隐私(LDP)下的学习问题,利用Weierstrass变换来描述LDP噪声的偏置。提出了Inverse Weierstrass … |
| Beyond SGD, Without SVD: Proximal Subspace Iter… | arXiv cs.LG | 02-19 13:00 | 本文提出了一种无需SVD的LoRA改进方法,结合近端子空间迭代和对角分数K-FAC。该方法弥合了全秩更新和低秩投影训练之间的差距,在大幅减少可训练参数的同… |
| HPMixer: Hierarchical Patching for Multivariate… | arXiv cs.LG | 02-19 13:00 | 本文提出HPMixer(分层Patching Mixer),一种用于多变量时间序列预测的分层patching架构。该方法有效捕获周期性模式和残差动态,在标… |
| Synthesis and Verification of Transformer Programs | arXiv cs.LG | 02-19 13:00 | 本文开发了自动验证C-RASP程序的新算法技术,C-RASP是一种最近被证明能捕获Transformer可表达概念的编程语言。研究建立了与线性算术验证的联… |
| Small molecule retrieval from tandem mass spect… | arXiv cs.LG | 02-19 13:00 | 本文探讨了串联质谱中的小分子检索问题,即如何利用深度学习识别LC-MS/MS输出光谱对应的化合物。研究重新审视了当前优化目标的合理性和检索性能的评估方式。 |
| Reinforcement Learning for Parameterized Quantu… | arXiv cs.LG | 02-19 13:00 | 本文将有向量子电路综合(DQCS)从纯离散门选择扩展到带参数化连续单比特旋转的量子态准备。研究比较了两种强化学习训练方案在处理连续和离散动作空间中的效果。 |
| Capacity-constrained demand response in smart g… | arXiv cs.LG | 02-19 13:00 | 本文提出了一种面向住宅智能电网的容量约束激励式需求响应方法。通过深度强化学习,该系统在维持电网容量限制、防止拥塞的同时,通过经济激励促使终端用户减少或转移用电。 |
| FEKAN: Feature-Enriched Kolmogorov-Arnold Networks | arXiv cs.LG | 02-19 13:00 | 本文提出FEKAN(Feature-Enriched Kolmogorov-Arnold Networks),改进了KAN架构的表达能力。通过特征增强方法… |
| Transfer Learning of Linear Regression with Mul… | arXiv cs.LG | 02-19 13:00 | 本文研究利用多个可能过参数化的最小二乘预训练模型进行线性回归迁移学习。提出了基于过参数化去偏的方法,通过更多预训练模型获得更好的迁移效果。 |
| Vulnerability Analysis of Safe Reinforcement Le… | arXiv cs.LG | 02-19 13:00 | 本文通过逆约束强化学习分析安全强化学习的脆弱性。研究揭示了大多数现有安全RL方法在假设良性环境时容易受到对抗性扰动的攻击。 |
| RIDER: 3D RNA Inverse Design with Reinforcement… | arXiv cs.LG | 02-19 13:00 | 本文提出RIDER,一种结合强化学习引导扩散模型的3D RNA逆设计方法。该方法超越了传统的原生序列恢复评估标准,为合成生物学和治疗领域的功能RNA工程提… |
| Illustration of Barren Plateaus in Quantum Comp… | arXiv cs.LG | 02-19 13:00 | 本文通过变分量子电路(VQC)说明了量子计算中的barren plateau现象。研究探讨了VQC中的参数共享策略虽能降低参数空间维度,但在缓解barre… |
| A Scalable Approach to Solving Simulation-Based… | arXiv cs.LG | 02-19 13:00 | 本文提出MetaDOAR,一种轻量级元控制器,通过分区感知过滤层和Q值缓存来增强Double Oracle/PSRO范式。该方法实现了在大规模网络安全博弈… |
| Steering diffusion models with quadratic reward… | arXiv cs.LG | 02-19 13:00 | 本文对使用二次奖励引导扩散模型进行了细粒度分析。推理时算法作为利用预训练模型解决下游任务的新范式,论文提供了理论上的精确刻画。 |
| MoDE-Boost: Boosting Shared Mobility Demand wit… | arXiv cs.LG | 02-19 13:00 | 本文提出MoDE-Boost,一种面向边缘设备的共享出行需求预测模型。该模型通过数据融合和分析技术优化智能交通系统中的路由、调度和拥堵管理。 |
| Sequential Membership Inference Attacks | arXiv cs.LG | 02-19 13:00 | 本文提出序列成员推断攻击方法,利用AI模型在生命周期中的多次更新来增强隐私攻击。研究表明,利用模型动态变化可以创建更强的成员推断攻击和更紧密的隐私审计。 |
| Predicting The Cop Number Using Machine Learning | arXiv cs.LG | 02-19 13:00 | 本文使用机器学习预测图论中Cops and Robbers博弈的cop number。研究利用图结构特征训练预测模型,为这一经典组合优化问题提供了数据驱动… |
| Optimizer choice matters for the emergence of N… | arXiv cs.LG | 02-19 13:00 | 本文揭示了优化器的选择对Neural Collapse(NC)现象出现的重要影响。NC指训练后期深度网络表征中出现的高度对称几何结构,论文发现不同优化器对… |
| Factorization Machine with Quadratic-Optimizati… | arXiv cs.LG | 02-19 13:00 | 本文提出了基于二次优化退火的因子分解机方法,用于RNA逆折叠问题。研究评估了二进制整数编码和核苷酸分配策略,在减少序列评估次数的同时保持设计质量。 |
| Neighborhood Stability as a Measure of Nearest … | arXiv cs.LG | 02-19 13:00 | 本文提出邻域稳定性作为最近邻搜索性能的衡量指标。针对基于聚类的近似最近邻搜索(ANNS),该指标填补了该领域缺乏分析工具来判定搜索性能的空白。 |
| Retrieval-Augmented Foundation Models for Match… | arXiv cs.LG | 02-19 13:00 | 本文提出一种检索增强基础模型方法,用于匹配分子对(MMP)转换以复现药物化学家的直觉。该方法弥合了全分子级别操作和MMP风格编辑之间的差距,提升了可控性。 |
| Protecting the Undeleted in Machine Unlearning | arXiv cs.LG | 02-19 13:00 | 本文指出机器遗忘中需要保护未被删除数据的问题。论文证明了追求完美再训练可能会损害未删除数据的隐私和性能,提出了更均衡的遗忘策略。 |
| Causality is Key for Interpretability Claims to… | arXiv cs.LG | 02-19 13:00 | 本文提出因果推断是LLM可解释性研究泛化的关键。论文指出当前可解释性研究中普遍存在结论无法泛化和因果解释超出证据支持的问题,强调需要因果框架来建立从模型激… |
| Knowledge-Embedded Latent Projection for Robust… | arXiv cs.LG | 02-19 13:00 | 本文提出Knowledge-Embedded Latent Projection方法,用于鲁棒的表征学习。该方法结合知识嵌入和低维投影,解决了电子健康记录… |
| Learning to Drive in New Cities Without Human D… | arXiv cs.LG | 02-19 13:00 | 本文研究如何在没有人类演示数据的情况下让自动驾驶车辆学习在新城市中行驶。通过消除收集人类演示轨迹的瓶颈,大幅降低了自动驾驶系统向新城市部署的成本和时间。 |
| Statistical-Geometric Degeneracy in UAV Search:… | arXiv cs.LG | 02-19 13:00 | 本文提出物理感知非对称滤波方法解决无人机搜救中的统计-几何退化问题。在灾后建筑倒塌环境中,非视距传播导致信号反射,该方法专门处理了这种非高斯噪声问题。 |
| Steering Dynamical Regimes of Diffusion Models … | arXiv cs.LG | 02-19 13:00 | 本文证明了在生成式扩散过程中有意打破细致平衡可以在不改变稳态分布的情况下加速反向过程。基于Ornstein-Uhlenbeck过程的分析,将动力学分解为对… |
| Including Node Textual Metadata in Laplacian-co… | arXiv cs.LG | 02-19 13:00 | 本文研究如何在高斯图模型的图学习中融入节点文本元数据。传统方法通常忽略与节点关联的辅助元数据(如文本描述),本文将其纳入Laplacian约束的图估计框架。 |
| Robust Stochastic Gradient Posterior Sampling w… | arXiv cs.LG | 02-19 13:00 | 本文提出Stochastic Gradient Lattice Random Walk (SGLRW),解决随机梯度MCMC方法对mini-batch大小… |
| MadEvolve: Evolutionary Optimization of Cosmolo… | arXiv cs.LG | 02-19 13:00 | 本文开发了MadEvolve框架,利用LLM的进化优化来发现科学算法,并应用于计算宇宙学中的三个问题。该框架类似于Google的AlphaEvolve,但… |
| Exploring New Frontiers in Vertical Federated L… | arXiv cs.LG | 02-19 13:00 | 本文探索了鞍点重构在垂直联邦学习(VFL)中的新应用。通过经典的鞍点问题公式化VFL问题,论文研究了在不同设备上使用不同特征但共享同一用户集的协作模型训练。 |
| Imaging-Derived Coronary Fractional Flow Reserv… | arXiv cs.LG | 02-19 13:00 | 本文综述了基于影像的冠脉血流储备分数(FFR)技术进展,包括基于物理、机器学习和物理知情方法。这些新方法正在超越传统的计算流体力学管线,实现更快速准确的评估。 |
| Edge-Local and Qubit-Efficient Quantum Graph Le… | arXiv cs.LG | 02-19 13:00 | 本文提出一种面向NISQ时代的边缘局部且量子比特高效的量子图学习方法。该方法解决了图神经网络在近期量子硬件上直接实现时面临的电路深度和量子比特限制。 |
| Heuristic Search as Language-Guided Program Opt… | arXiv cs.LG | 02-19 13:00 | 本文将启发式搜索构造为语言引导的程序优化问题。利用LLM推动组合优化中的自动启发式设计,减少了对大量人工试错和领域专业知识的依赖。 |
| Partial Identification under Missing Data Using… | arXiv cs.LG | 02-19 13:00 | 本文研究在缺失数据下利用预训练模型的弱影子变量进行部分识别。针对非随机缺失(MNAR)的用户反馈数据,提出了利用预训练模型提供的弱影子变量进行估计的方法。 |
| Harnessing Implicit Cooperation: A Multi-Agent … | arXiv cs.LG | 02-19 13:00 | 本文提出隐式合作框架,使去中心化智能体能够在本地能源市场中无需显式通信即可近似最优协调。将该问题建模为去中心化部分可观察MDP,实现了多智能体强化学习的有… |
| MARLEM: A Multi-Agent Reinforcement Learning Si… | arXiv cs.LG | 02-19 13:00 | 本文推出MARLEM,一个开源多智能体强化学习仿真框架,用于研究本地能源市场中的隐式合作。框架将去中心化部分可观察MDP实现为Gymnasium环境,便于… |
| The Limits of Long-Context Reasoning in Automat… | arXiv cs.LG | 02-19 13:00 | 本文系统评估了当前LLM在长上下文代码调试和补丁生成方面的能力。使用SWE-bench Verified等基准测试,研究发现尽管上下文长度不断增加,LLM… |
| Examining Fast Radiative Feedbacks Using Machin… | arXiv cs.LG | 02-19 13:00 | 本文利用机器学习天气模拟器研究快速辐射反馈过程。研究关注温室气体增加和其他辐射扰动下气候系统响应中的快速反馈机制。 |
| Collaborative Zone-Adaptive Zero-Day Intrusion … | arXiv cs.LG | 02-19 13:00 | 本文提出协作式区域自适应零日入侵检测方法,面向战场物联网(IoBT)场景。针对战术网络的异构性、带宽受限和间歇连接特点,该方法无需依赖持续集中式通信进行入… |
| Evolutionary Context Search for Automated Skill… | arXiv cs.LG | 02-19 13:00 | 本文提出进化上下文搜索方法用于自动化技能获取。研究指出LLM在部署后无法可靠获取新知识,即使相关文本资源存在,RAG也难以完全弥合这一差距,提出了进化搜索… |
| Empirical Cumulative Distribution Function Clus… | arXiv cs.LG | 02-19 13:00 | 本文提出经验累积分布函数聚类方法,用于分析基于LLM的智能体系统。研究指出标准评估通过聚合多个LLM智能体响应得到单一指标,可能掩盖重要的行为模式差异。 |
| Ratio Covers of Convex Sets and Optimal Mixture… | arXiv cs.LG | 02-19 13:00 | 本文研究KL散度下的密度估计问题,基于凸集的比值覆盖理论实现最优混合密度估计。给定有限字典的混合密度设定下,提出了具有高概率保证的估计方法。 |
| Local adapt-then-combine algorithms for distrib… | arXiv cs.LG | 02-19 13:00 | 本文提出局部适应-组合算法用于分布式非光滑优化,实现了可证明的通信加速。利用概率性局部更新机制,网络中各智能体协作最小化局部光滑分量和公共非光滑项的总和。 |
| Multi-Agent Combinatorial-Multi-Armed-Bandit fr… | arXiv cs.LG | 02-19 13:00 | 本文提出多智能体组合多臂老虎机框架,用于解决bandit反馈下的子模福利问题。将经典子模福利问题从完全值预言机访问扩展到bandit反馈设定。 |
| DistributedEstimator: Distributed Training of Q… | arXiv cs.LG | 02-19 13:00 | 本文提出DistributedEstimator,通过电路切割实现量子神经网络的分布式训练。将大型量子电路分解为更小的子电路,再经典重构恢复原始期望值。 |
| On sparsity, extremal structure, and monotonici… | arXiv cs.LG | 02-19 13:00 | 本文综述了Wasserstein和Gromov-Wasserstein最优传输计划的稀疏性、极端结构和单调性质。通过自包含的分析框架比较了GW距离与标准线… |
| Structured Unitary Tensor Network Representatio… | arXiv cs.LG | 02-19 13:00 | 本文提出基于结构化酉张量网络的量子数据编码方法,实现了电路高效的经典数据编码。解决了现有量子机器学习中编码方案需要深电路和大量量子资源的可扩展性限制。 |
| BAT: Better Audio Transformer Guided by Convex … | arXiv cs.LG | 02-19 13:00 | 本文提出BAT(Better Audio Transformer),通过凸门控探测指导音频Transformer的自监督学习。解决了音频SSL模型依赖微调… |
| How to Label Resynthesized Audio: The Dual Role… | arXiv cs.LG | 02-19 13:00 | 本文研究神经音频编解码器在音频深度伪造检测中的双重角色。与专为语音合成设计的声码器不同,神经音频编解码器最初并非为此目的设计,其重合成音频的标签策略需要重… |
| Machine Learning in Epidemiology | arXiv cs.LG | 02-19 13:00 | 本文介绍机器学习在流行病学中的应用。在数字流行病学时代,流行病学家面临日益增长的数据量和复杂性,本章系统梳理了ML工具在分析大规模流行病数据中的作用。 |
| Multi-Channel Replay Speech Detection using Aco… | arXiv cs.LG | 02-19 13:00 | 本文提出基于声学图的多通道重放语音检测方法。声学图作为一种新颖的空间特征表示,从多通道录音中提取空间信息,用于检测针对自动说话人验证系统的重放攻击。 |
| Learning Preference from Observed Rankings | arXiv cs.LG | 02-19 13:00 | 本文提出一种灵活的框架,通过将观测排名解释为逻辑选择概率的成对比较来学习个体偏好。该方法可从部分排名信息中估计消费者偏好,广泛应用于经济学和营销学。 |
| Functional Decomposition and Shapley Interactio… | arXiv cs.LG | 02-19 13:00 | 本文提出Survival Functional Decomposition (SurvFD),利用功能分解和Shapley交互来解释生存模型。解决了风险和… |
| Optimal training-conditional regret for online … | arXiv cs.LG | 02-19 13:00 | 本文研究非平稳数据流中在线保形预测的最优训练条件regret。提出了在未知分布漂移条件下的保形预测方法,超越了以往对抗性设定下的研究。 |
| Learning Distributed Equilibria in Linear-Quadr… | arXiv cs.LG | 02-19 13:00 | 本文分析了N人线性二次随机微分博弈中的独立策略梯度学习。每个玩家使用仅依赖自身状态的分布式策略,基于alpha-势方法证明了全局线性收敛性。 |
| Separating Oblivious and Adaptive Models of Var… | arXiv cs.LG | 02-19 13:00 | 本文研究了变量选择中遗忘模型和自适应模型之间的可分性。在l_infinity误差保证下的稀疏恢复问题中,揭示了统计和计算复杂性的新理论边界。 |
| Error Propagation and Model Collapse in Diffusi… | arXiv cs.LG | 02-19 13:00 | 本文从理论角度研究扩散模型中的误差传播和模型崩塌现象。当机器学习模型递归地在合成数据上训练或微调时,性能会显著退化,论文对此给出了理论解释。 |
| Investigating Nonlinear Quenching Effects on Po… | arXiv cs.LG | 02-19 13:00 | 本文利用Physics-Informed Neural Networks研究太阳极场累积中的非线性淬灭效应。分析了倾斜淬灭和纬度淬灭等非线性反馈机制对太阳… |
| On the Hardness of Approximation of the Fair k-… | arXiv cs.LG | 02-19 13:00 | 本文研究公平k-center问题的近似硬度。数据点被划分为组,需要从每组中选择规定数量的中心点,同时最小化最大距离,论文建立了新的近似不可能性结果。 |
| Synthetic-Powered Multiple Testing with FDR Con… | arXiv cs.LG | 02-19 13:00 | 本文提出Synthetic-Powered Multiple Testing方法,利用合成数据进行FDR控制下的多重假设检验。在基因组学、药物筛选和异常检… |
| Parameter-free representations outperform singl… | arXiv cs.LG | 02-19 13:00 | 本文发现无参数表征在下游基准上优于单细胞基础模型。研究表明,单细胞RNA测序数据展现出强而稳定的统计结构,简单的无参数方法可能比TranscriptFor… |
| Amortized Bayesian Workflow | arXiv cs.LG | 02-19 13:00 | 本文提出摊销贝叶斯工作流,将快速摊销推断与MCMC金标准技术结合。该自适应工作流在计算速度和采样精度之间实现了有利的平衡。 |
| Zero-Shot Temporal Resolution Domain Adaptation… | arXiv cs.LG | 02-19 13:00 | 本文提出零样本时间分辨率域适应方法用于脉冲神经网络(SNN)。解决了SNN在部署到不同时间分辨率设备时需要重新训练的问题,实现了跨神经形态设备的无缝迁移。 |
| Channel Dependence, Limited Lookback Windows, a… | arXiv cs.LG | 02-19 13:00 | 本文揭示了长期时间序列预测中的偏置问题,包括通道依赖性、有限回溯窗口和数据集简单性。论文指出回溯窗口应按任务调优,当前任意设置的做法会损害模型评估的公正性。 |
| Random Scaling of Emergent Capabilities | arXiv cs.LG | 02-19 13:00 | 本文提出语言模型涌现能力的随机缩放理论。不同于将能力突破归因于特定规模解锁或度量阈值效应,论文认为在性能呈双峰分布时,训练结果概率分布的连续变化驱动了突破现象。 |
| FedMerge: Federated Personalization via Model M… | arXiv cs.LG | 02-19 13:00 | 本文提出FedMerge,通过模型合并实现联邦学习的个性化。解决了单一全局模型在非IID任务和分布下服务多客户端的不足,通过训练多个全局模型提供更好的个性化。 |
| ReaCritic: Reasoning Transformer-based DRL Crit… | arXiv cs.LG | 02-19 13:00 | 本文提出ReaCritic,一种基于推理Transformer的DRL评价模型缩放方法,用于无线网络管理。解决了异构网络中多样化用户需求和时变无线条件带来… |
| Non-Asymptotic Analysis of (Sticky) Track-and-Stop | arXiv cs.LG | 02-19 13:00 | 本文对Track-and-Stop(及其Sticky变体)算法进行了非渐近分析。研究了纯探索问题中,在最大风险参数delta下保证正确答案的采样策略。 |
| On the Expressive Power of Mixture-of-Experts f… | arXiv cs.LG | 02-19 13:00 | 本文研究了Mixture-of-Experts (MoE)网络处理结构化复杂任务的表达能力。尽管MoE在实践中表现出色,其建模复杂任务的理论基础仍不完善,… |
| Navigating the Deep: End-to-End Extraction on D… | arXiv cs.LG | 02-19 13:00 | 本文提出端到端深度神经网络模型提取攻击方法Navigating the Deep。作为安全领域的重要问题,该方法扩展了通过黑盒查询恢复网络参数的攻击技术。 |
| Benchmarking Stochastic Approximation Algorithm… | arXiv cs.LG | 02-19 13:00 | 本文对公平约束下深度神经网络训练的随机逼近算法进行了基准测试。尽管近年来已有许多算法被提出和分析,但仍缺乏标准的、被广泛接受的比较方法。 |
| KnowIt: Deep Time Series Modeling and Interpret… | arXiv cs.LG | 02-19 13:00 | 本文推出KnowIt框架,用于深度时间序列建模和解释。该框架以Python工具包形式实现,提供了灵活的模型构建和解释功能,代码和文档已开源。 |
| Robust Causal Discovery in Real-World Time Seri… | arXiv cs.LG | 02-19 13:00 | 本文提出了在幂律分布真实时间序列中进行鲁棒因果发现的方法。针对金融、经济、神经科学和气候科学等领域的挑战,解决了现有因果发现算法在重尾分布下的不鲁棒性问题。 |
| SoK: Data Minimization in Machine Learning | arXiv cs.LG | 02-19 13:00 | 本文系统综述了机器学习中的数据最小化原则。数据最小化是GDPR和CPRA等主要数据保护法规的基础原则,论文梳理了违反该原则的重大后果和现有实践。 |
| Universal Properties of Activation Sparsity in … | arXiv cs.LG | 02-19 13:00 | 本文揭示了现代大型语言模型中激活稀疏性的普遍特性。研究超越了ReLU模型中的精确零激活假设,提出了适用于多种LLM架构的统一激活稀疏性理论框架。 |
| Stage-wise Dynamics of Classifier-Free Guidance… | arXiv cs.LG | 02-19 13:00 | 本文研究Classifier-Free Guidance (CFG)在扩散模型采样动态中的阶段性影响。CFG被广泛用于提升条件保真度,但其对采样动态的影响… |
| Still Competitive: Revisiting Recurrent Models … | arXiv cs.LG | 02-19 13:00 | 本文重新审视了循环模型在不规则时间序列预测中的竞争力。研究发现,在医疗保健和传感器网络等领域的不规则采样多变量时间序列建模中,循环模型仍具有竞争优势。 |
| Safe But Not Sorry: Reducing Over-Conservatism … | arXiv cs.LG | 02-19 13:00 | 本文提出不确定性感知调制方法来减少安全评价器的过度保守性。在安全强化学习中,严格执行安全约束的方法往往严重损害任务性能,该方法在安全和性能间取得更好平衡。 |
| Transformers Provably Learn Algorithmic Solutio… | arXiv cs.LG | 02-19 13:00 | 本文证明了Transformer在使用正确数据时可以学到图连通性的可泛化算法。研究解释了Transformer经常依赖脆弱启发式而非泛化算法的原因,关键在… |
| Synthesizing High-Quality Visual Question Answe… | arXiv cs.LG | 02-19 13:00 | 本文利用Generator-Verifier LMM方法从医学文献中合成高质量视觉问答数据。解决了训练通用医学VQA系统时缺乏大规模、高质量开放语料库的问题。 |
| Shrinking the Variance: Shrinkage Baselines for… | arXiv cs.LG | 02-19 13:00 | 本文提出收缩基线方法来降低RLVR训练中的方差。在GRPO等策略梯度方法中,通过收缩估计器改进了轨迹奖励中心化的稳定性,增强了大型推理模型的训练效果。 |
| A Versatile Variational Quantum Kernel Framewor… | arXiv cs.LG | 02-19 13:00 | 本文提出一种多功能变分量子核方法框架,用于非平凡分类任务。解决了当前量子核方法主要局限于低维或合成数据集、在高维真实世界数据上效果未验证的问题。 |
| Data-Efficient Self-Supervised Algorithms for F… | arXiv cs.LG | 02-19 13:00 | 本文提出数据高效的自监督算法用于细粒度鸟鸣分析。在生物声学、神经科学和语言学研究中,开发模型通常需要音节级别的精确标注数据,该方法减少了对标注数据的依赖。 |
| Watch Out for the Lifespan: Evaluating Backdoor… | arXiv cs.LG | 02-19 13:00 | 本文评估了联邦模型适应中后门攻击的生命周期问题。大模型通过联邦学习和LoRA等参数高效微调技术进行适应时面临后门攻击威胁,研究关注了攻击的持久性。 |
| High entropy leads to symmetry equivariant poli… | arXiv cs.LG | 02-19 13:00 | 本文证明在Dec-POMDP中,足够高的熵正则化确保策略梯度上升从任意初始化都收敛到相同的联合策略,且该策略具有对称性等变性。 |
| Adaptive Aggregation with Two Gains in QFL | arXiv cs.LG | 02-19 13:00 | 本文提出量子联邦学习中的自适应双增益聚合方法。解决了在量子和异构经典网络上部署联邦学习时,因客户端质量不均和量子传输保真度随机性导致的性能下降问题。 |
| Out-of-Distribution Detection in Molecular Comp… | arXiv cs.LG | 02-19 13:00 | 本文提出基于扩散模型的不规则图上分子复合物分布外检测方法。解决了预测性ML模型在分布外输入上性能退化、而OOD检测在不规则图结构上尤其具有挑战性的问题。 |
| Communication Compression for Distributed Learn… | arXiv cs.LG | 02-19 13:00 | 本文提出带聚合和服务器引导反馈的通信压缩方法用于分布式学习。解决了联邦学习中客户端到服务器上行传输的通信瓶颈问题,特别是非对称带宽限制场景。 |
| Inverting Non-Injective Functions with Twin Neu… | arXiv cs.LG | 02-19 13:00 | 本文提出Twin Neural Network Regression方法用于反演非单射函数。非单射函数虽然不是全局可逆的,但通常可以限制在局部单射子域上进… |
| Imitation Learning for Combinatorial Optimisati… | arXiv cs.LG | 02-19 13:00 | 本文研究不确定性下组合优化问题的模仿学习方法。将大规模组合优化问题构造为序列决策问题,当精确求解方法计算不可行时,提供了数据驱动的近似策略框架。 |
| Reinforcement Unlearning via Group Relative Pol… | arXiv cs.LG | 02-19 13:00 | 本文提出通过Group Relative Policy Optimization实现强化遗忘。解决了LLM在预训练中记忆敏感或受版权保护数据的合规挑战,满… |
| Quant VideoGen: Auto-Regressive Long Video Gene… | arXiv cs.LG | 02-19 13:00 | 本文提出Quant VideoGen,通过2-bit KV缓存量化实现自回归长视频生成。在自回归视频扩散模型中,KV缓存随生成历史增长迅速占满GPU内存(… |
| Adaptive Exploration for Latent-State Bandits | arXiv cs.LG | 02-19 13:00 | 本文提出自适应探索方法用于潜在状态老虎机问题。解决了经典多臂老虎机算法在存在隐藏、时变状态时的失效问题,这些状态会混淆奖励估计和最优动作选择。 |
| Align and Adapt: Multimodal Multiview Human Act… | arXiv cs.LG | 02-19 13:00 | 本文提出Align and Adapt方法用于任意视图组合下的多模态多视图人类活动识别。解决了现有方法在灵活视图配置(包括任意视图组合和异构视图)方面的不足。 |
| Feature salience — not task-informativeness —… | arXiv cs.LG | 02-19 13:00 | 本文发现特征显著性(而非任务信息量)驱动机器学习模型解释。这一发现挑战了XAI领域的基本假设,表明被标记为重要的输入特征可能反映的是统计显著性而非决策依据。 |
| Features as Rewards: Scalable Supervision for O… | arXiv cs.LG | 02-19 13:00 | 本文提出Features as Rewards方法,利用可解释性技术提供开放式任务的可扩展监督信号。研究发现语言模型学习到的特征编码了如事实性、意图等抽象… |
| Stochastic Parroting in Temporal Attention — R… | arXiv cs.LG | 02-19 13:00 | 本文研究时间注意力中的随机鹦鹉学舌问题,即对角汇现象。时空模型在空间结构和时间动态分析中容易出现信息退化,论文提出了调控该现象的方法。 |
| Efficient Analysis of the Distilled Neural Tang… | arXiv cs.LG | 02-19 13:00 | 本文提出蒸馏神经切线核(Distilled NTK)的高效分析方法。通过投影和sketch技术降低NTK计算中评估大型Jacobian矩阵的计算成本。 |
| Boundary Point Jailbreaking of Black-Box LLMs | arXiv cs.LG | 02-19 13:00 | 本文提出Boundary Point Jailbreaking (BPJ),一类新的自动化越狱攻击,能够绕过最强的行业级LLM安全防护。不同于依赖白盒/灰… |
| Monaural Multi-Speaker Speech Separation Using … | arXiv cs.LG | 02-19 13:00 | 本文提出一种高效Transformer模型用于单声道多说话人语音分离。研究旨在解决鸡尾酒会问题,即从多说话人混合语音中分离和识别单个说话人。 |
| VerifiableFL: Verifiable Claims for Federated L… | arXiv cs.LG | 02-19 13:00 | 本文提出VerifiableFL,利用Exclaves技术为联邦学习提供可验证声明。解决了联邦学习中数据提供者不共享训练数据而难以对训练模型提供可验证声明… |
| Strategic Hiring under Algorithmic Monoculture | arXiv cs.LG | 02-19 13:00 | 本文研究算法单一文化下的策略性招聘行为。当多个公司使用相同算法评估共享申请人池时,朴素招聘策略会导致不良后果,论文分析了策略性行为对劳动力市场的影响。 |
| Weight transport through spike timing for robus… | arXiv cs.LG | 02-19 13:00 | 本文提出通过脉冲时序实现权重传输以获得鲁棒的局部梯度。在机器学习和计算神经科学中,功能性神经网络的可塑性通常表示为代价函数的梯度下降,本文解决了对称性约束… |
| Statistical Inference Leveraging Synthetic Data… | arXiv cs.LG | 02-19 13:00 | 本文提出利用合成数据进行具有无分布保证的统计推断方法。面对高质量合成数据的快速增长,论文介绍了一种通用的合成数据辅助推断框架。 |
| Conditionally Whitened Generative Models for Pr… | arXiv cs.LG | 02-19 13:00 | 本文提出条件白化生成模型用于概率时间序列预测。解决了多变量时间序列预测中的非平稳性、变量间依赖和分布偏移等挑战,改进了扩散和流匹配模型的预测性能。 |
| Graphical model for factorization and completio… | arXiv cs.LG | 02-19 13:00 | 本文提出基于图模型的方法,通过稀疏采样实现相对高秩张量的分解和补全。测量设计使得交互的底层图是随机图,适用于多种实际场景。 |
| High-dimensional limit theorems for SGD: Moment… | arXiv cs.LG | 02-19 13:00 | 本文发展了带Polyak动量和自适应步长的SGD高维极限定理。提供了严格比较在线SGD及其流行变体的框架,为理解大规模优化中的动量和自适应方法奠定了理论基础。 |
| Dark Energy Survey Year 3 results: Simulation-b… | arXiv cs.LG | 02-19 13:00 | 本文利用深度学习从弱引力透镜和星系聚类图进行基于模拟的wCDM宇宙学推断。这是首个结合弱引力透镜和星系聚类的模拟推断流程,提取了非高斯信息。 |
| Imaging with super-resolution in changing rando… | arXiv cs.LG | 02-19 13:00 | 本文开发了一种利用强散射在变化随机介质中实现超分辨率成像的算法。通过稀疏字典学习、聚类和多维缩放处理大规模多样化阵列数据。 |
| Weighted Birkhoff Averages Accelerate Data-Driv… | arXiv cs.LG | 02-19 13:00 | 本文展示了加权Birkhoff平均可以加速数据驱动的动力系统方法。通过对端部进行渐减处理,加权Birkhoff平均的收敛速度远超传统遍历平均,有时甚至可以… |
| Learning Degenerate Manifolds of Frustrated Mag… | arXiv cs.LG | 02-19 13:00 | 本文展示了受限Boltzmann机器(RBMs)为frustrated磁体中的自旋构型建模提供了灵活的生成框架。作为基准测试,验证了RBM能够学习无序但强… |
| Transformers for Tabular Data: A Training Persp… | arXiv cs.LG | 02-19 13:00 | 本文通过最优传输视角研究Transformer在表格数据上的自注意力训练。跟踪训练过程中自注意力层的中间投影,开发了基于OT的表格分类替代方法。 |
| KANEL’E: Kolmogorov-Arnold Networks for Effici… | arXiv cs.LG | 02-19 13:00 | 本文提出KANELE,一种基于查找表的Kolmogorov-Arnold网络高效评估方法。在FPGA上实现低延迟、资源高效的神经网络推理,适用于对实时性和… |
| Adaptive Sampling for Hydrodynamic Stability | arXiv cs.LG | 02-19 13:00 | 本文提出用于流体动力学稳定性分析的自适应采样方法。通过机器学习方法高效检测参数化流体流动问题中的分岔边界。 |
| Boosting methods for interval-censored data wit… | arXiv cs.LG | 02-19 13:00 | 本文研究区间删失数据下的Boosting回归和分类方法。传统Boosting算法为完全观测样本设计,在实际中的区间删失数据问题上效果不佳,论文提出了相应改进。 |
| High-dimensional learning dynamics of multi-pas… | arXiv cs.LG | 02-19 13:00 | 本文研究多指标模型中多遍次mini-batch SGD的高维学习动态。在样本规模与维度成比例的渐近体制下,分析了各向同性随机数据的经验风险最小化过程。 |
| Logarithmic-time Schedules for Scaling Language… | arXiv cs.LG | 02-19 13:00 | 本文提出对数时间调度策略用于带动量的语言模型缩放训练。研究发现AdamW中的超参数不应固定不变,通过利用语言数据的幂律结构,设计时变的动量和权重衰减调度可… |
| From Collapse to Improvement: Statistical Persp… | arXiv cs.LG | 02-19 13:00 | 本文从统计学角度分析了在受污染数据源上迭代训练的演化动态,从模型崩塌到性能改善。研究了生成模型在合成数据上递归训练导致性能退化的模型崩塌问题。 |
| Learning Gradient Flow: Using Equation Discover… | arXiv cs.LG | 02-19 13:00 | 本文研究利用数据驱动的方程发现来建模和预测无约束优化问题的连续时间动态。通过学习梯度流避免了对目标函数的昂贵评估,加速了工程优化过程。 |
| BPP: Long-Context Robot Imitation Learning by F… | arXiv cs.LG | 02-19 13:00 | 本文提出BPP方法,通过关注关键历史帧来实现长上下文机器人模仿学习。许多机器人任务需要关注过去的观测历史(如搜索房间时记住已查看的位置),但当前最佳策略通… |
| Beyond Reinforcement Learning: Fast and Scalabl… | arXiv cs.LG | 02-19 13:00 | 本文提出超越强化学习的快速可扩展量子电路综合方法。量子酉综合将抽象量子算法转化为硬件可执行的量子门序列,该方法克服了问题规模指数增长的挑战。 |
| Policy Compiler for Secure Agentic Systems | HuggingFace 每日论文 | 02-19 02:57 | 本文提出PCAS(Policy Compiler for Agentic Systems),为LLM智能体系统提供确定性策略执行保障。当前将授权策略嵌入提… |
| Reinforced Fast Weights with Next-Sequence Pred… | HuggingFace 每日论文 | 02-19 02:53 | 本文提出Reinforced Fast Weights方法,结合下一序列预测改进fast weight架构。Fast weight架构因保持恒定内存开销而… |
| Measuring Mid-2025 LLM-Assistance on Novice Per… | HuggingFace 每日论文 | 02-19 02:51 | 本文测量了2025年中期LLM辅助对生物学新手实验表现的影响。尽管LLM在生物学基准测试中表现出色,但本研究通过预注册实验评估了这是否转化为实际实验室中的… |
| Calibrate-Then-Act: Cost-Aware Exploration in L… | HuggingFace 每日论文 | 02-19 02:46 | 本文提出Calibrate-Then-Act框架,用于LLM智能体中成本感知的探索策略。在需要与环境交互获取信息的复杂问题中,LLM必须在探索成本和不确定… |
| VETime: Vision Enhanced Zero-Shot Time Series A… | HuggingFace 每日论文 | 02-19 02:22 | 本文提出VETime,一种视觉增强的零样本时间序列异常检测方法。通过结合1D时间模型的精细点定位能力和2D视觉模型的全局上下文感知,同时检测即时的点异常和… |
| PredMapNet: Future and Historical Reasoning for… | HuggingFace 每日论文 | 02-19 02:08 | 本文提出PredMapNet,用于一致性在线高精地图矢量化构建的未来和历史推理方法。解决了现有基于查询的方法在随机查询初始化和隐式时间建模上导致的时序不一… |
| Investigating Nonlinear Quenching Effects on Po… | HuggingFace 每日论文 | 02-19 01:54 | 本文利用Physics-Informed Neural Networks研究太阳极场累积中的非线性淬灭效应。分析了倾斜淬灭和纬度淬灭等非线性反馈对太阳发电… |
| Factorization Machine with Quadratic-Optimizati… | HuggingFace 每日论文 | 02-19 01:32 | 本文提出基于二次优化退火的因子分解机方法,用于RNA逆折叠问题。评估了二进制整数编码和核苷酸分配策略,减少了序列评估次数。(与Item 35重复) |
| AREG: Adversarial Resource Extraction Game for … | HuggingFace 每日论文 | 02-19 01:28 | 本文推出AREG(对抗资源提取博弈),用于评估LLM的说服力和抵抗力。将说服和抵抗操作化为多轮交互博弈,测试LLM在动态对抗场景中的社会智能。 |
| Enhanced Diffusion Sampling: Efficient Rare Eve… | HuggingFace 每日论文 | 02-19 01:26 | 本文提出Enhanced Diffusion Sampling方法,利用扩散模型实现高效的稀有事件采样和自由能计算。解决了分子动力学中的采样瓶颈问题,特别… |
| Almost Sure Convergence of Differential Tempora… | HuggingFace 每日论文 | 02-19 01:24 | 本文证明了平均奖励MDP中微分时序差分(TD)学习的几乎必然收敛性。微分TD学习是平均奖励强化学习中的重要在线方法,论文提供了严格的收敛保证。 |
| Causal and Compositional Abstraction | HuggingFace 每日论文 | 02-19 01:06 | 本文提出因果和组合抽象的一般性理论。从低层到高层的抽象(同时保持因果结构)是科学实践、因果推断和可解释AI的基础,论文为此建立了统一框架。 |
| Explainable AI: Context-Aware Layer-Wise Integr… | HuggingFace 每日论文 | 02-19 01:03 | 本文提出Context-Aware Layer-Wise Integrated Gradients方法,用于解释Transformer模型。解决了现有方法… |
| Error Propagation and Model Collapse in Diffusi… | HuggingFace 每日论文 | 02-19 00:56 | 本文从理论角度研究扩散模型中的误差传播和模型崩塌。分析了在合成数据上递归训练导致性能退化和目标分布渐进偏移的机制。(与Item 74重复) |
| Predicting The Cop Number Using Machine Learning | HuggingFace 每日论文 | 02-19 00:52 | 本文使用机器学习预测图论中Cops and Robbers博弈的cop number,利用图结构特征为这一经典问题提供数据驱动的新方法。(与Item 33重复) |
| A Contrastive Learning Framework Empowered by A… | HuggingFace 每日论文 | 02-19 00:41 | 本文提出一种基于注意力特征适应的对比学习框架,用于街景图像分类。该方法支持自动驾驶、城市分析和高精地图构建等下游应用。 |
| Learning Distributed Equilibria in Linear-Quadr… | HuggingFace 每日论文 | 02-18 23:55 | 本文分析N人线性二次随机微分博弈中的独立策略梯度学习,基于alpha-势方法建立了全局线性收敛性。(与Item 72重复) |
| RIDER: 3D RNA Inverse Design with Reinforcement… | HuggingFace 每日论文 | 02-18 23:52 | 本文提出RIDER,结合强化学习引导扩散模型的3D RNA逆设计方法,用于合成生物学和治疗领域的功能RNA工程。(与Item 27重复) |
| Supercharging Agenda Setting Research: The Parl… | HuggingFace 每日论文 | 02-18 23:04 | 本文推出ParlaCAP,一个覆盖28个欧洲议会的大规模议程设置数据集,并提出了基于多语言LLM的可扩展分类方法。该方法将CAP分类体系应用于ParlaM… |
| From Growing to Looping: A Unified View of Iter… | HuggingFace 每日论文 | 02-18 22:25 | 本文统一了LLM中循环(looping)和深度增长(depth growing)两种迭代计算方式的理论视角。论文发现这两种方法在深度方向上展现了趋同的特征… |
| Learning Preference from Observed Rankings | HuggingFace 每日论文 | 02-18 22:07 | 本文研究从观测排名中学习偏好的灵活框架,将观测排名解释为逻辑选择概率的成对比较。(与Item 69重复) |
| Intra-Fairness Dynamics: The Bias Spillover Eff… | HuggingFace 每日论文 | 02-18 21:19 | 本文揭示了LLM公平性对齐中的偏置溢出效应。传统单维度公平性对齐可能在达到狭窄的公平指标的同时加剧其他未针对维度的不平等,论文系统研究了这一被忽视的问题。 |
| Verifiable Semantics for Agent-to-Agent Communi… | HuggingFace 每日论文 | 02-18 20:55 | 本文提出多智能体AI系统中可验证语义的通信协议。自然语言虽然可解释但容易发生语义漂移,而学习到的通信协议虽然高效但不透明,该方法通过认证协议解决语义一致性问题。 |
| ReMoRa: Multimodal Large Language Model based o… | HuggingFace 每日论文 | 02-18 20:37 | 本文提出ReMoRa,一种基于精炼运动表征的多模态LLM长视频理解方法。解决了处理完整RGB帧流在计算上极其昂贵的问题,通过运动表征的精炼提升长视频理解能力。 |
| Multi-Channel Replay Speech Detection using Aco… | HuggingFace 每日论文 | 02-18 20:18 | 本文提出基于声学图的多通道重放语音检测方法,用于防御自动说话人验证系统中的重放攻击。(与Item 68重复) |
| Helpful to a Fault: Measuring Illicit Assistanc… | HuggingFace 每日论文 | 02-18 18:31 | 本文推出STING框架,用于测量多轮多语言LLM智能体中的非法协助行为。揭示了LLM智能体在多轮交互中可能逐步帮助完成有害或非法任务的风险。 |
| How to Label Resynthesized Audio: The Dual Role… | HuggingFace 每日论文 | 02-18 18:29 | 本文研究神经音频编解码器在音频深度伪造检测中的双重角色,重新考量重合成音频的标签策略。(与Item 66重复) |
| The Implicit Bias of Adam and Muon on Smooth Ho… | HuggingFace 每日论文 | 02-18 18:25 | 本文研究Adam和Muon优化器在光滑同质神经网络上的隐式偏置,证明了动量优化器的收敛性质。(与Item 12重复) |
| Guide-Guard: Off-Target Predicting in CRISPR Ap… | HuggingFace 每日论文 | 02-18 18:06 | 本文推出Guide-Guard工具,用于预测CRISPR应用中的脱靶效应。随着CRISPR等基因编辑技术的发展,准确预测脱靶效应对保障基因编辑安全至关重要。 |
| RefineFormer3D: Efficient 3D Medical Image Segm… | HuggingFace 每日论文 | 02-18 17:58 | 本文提出RefineFormer3D,一种自适应多尺度Transformer架构用于高效3D医学图像分割。通过交叉注意力融合在保持全局上下文建模能力的同时… |
| MemoryArena: Benchmarking Agent Memory in Inter… | HuggingFace 每日论文 | 02-18 17:49 | 本文推出MemoryArena基准,用于评估智能体在相互依赖的多会话任务中的记忆能力。现有评估要么测试记忆回忆要么测试单次任务执行,而该基准将记忆和行动紧… |
| BAT: Better Audio Transformer Guided by Convex … | HuggingFace 每日论文 | 02-18 17:37 | 本文提出BAT(Better Audio Transformer),通过凸门控探测指导音频自监督学习模型的评估和改进。(与Item 65重复) |
| Aladdin-FTI @ AMIYA Three Wishes for Arabic NLP… | HuggingFace 每日论文 | 02-18 17:15 | 本文提出Aladdin-FTI方法,围绕保真度、双层语言现象和多方言生成三大愿景改进阿拉伯语NLP。解决了阿拉伯方言在NLP研究中长期代表性不足的问题。 |
| Prediction of Major Solar Flares Using Interpre… | HuggingFace 每日论文 | 02-18 16:30 | 本文开发了基于类别依赖奖励的可解释框架,结合活动区磁图和领域知识预测大型太阳耀斑。(与Item 9重复) |
| Color-based Emotion Representation for Speech E… | HuggingFace 每日论文 | 02-18 16:11 | 本文提出基于颜色的情绪表征用于语音情绪识别。利用色相、饱和度和明度等颜色属性来表征情绪,突破了传统类别标签和维度标签在表达情绪多样性和可解释性方面的局限。 |
| AFFMAE: Scalable and Efficient Vision Pretraini… | HuggingFace 每日论文 | 02-18 15:58 | 本文提出AFFMAE,一种适用于桌面级显卡的可扩展高效视觉预训练方法。解决了高分辨率自监督预训练通常需要服务器级基础设施的问题,使更多研究实验室能够进行域… |
| DistributedEstimator: Distributed Training of Q… | HuggingFace 每日论文 | 02-18 15:17 | 本文提出DistributedEstimator,通过电路切割实现量子神经网络的分布式训练。(与Item 62重复) |
| SEMixer: Semantics Enhanced MLP-Mixer for Multi… | HuggingFace 每日论文 | 02-18 14:53 | 本文提出SEMixer语义增强MLP-Mixer,用于多尺度混合和长期时间序列预测。(与Item 5重复) |
| UCTECG-Net: Uncertainty-aware Convolution Trans… | HuggingFace 每日论文 | 02-18 14:39 | 本文提出UCTECG-Net,一种不确定性感知的卷积Transformer混合架构用于心律失常检测。解决了深度学习ECG分类中预测可靠性洞察不足、限制其在… |
| Learning Personalized Agents from Human Feedback | HuggingFace 每日论文 | 02-18 12:18 | 本文推出PAHF(Personalized Agents from Human Feedback)框架,通过人类反馈实现持续个性化的AI智能体学习。解决了… |
| HiPER: Hierarchical Reinforcement Learning with… | HuggingFace 每日论文 | 02-18 11:31 | 本文提出HiPER,一种面向LLM智能体的层次化强化学习方法,具有显式信用分配机制。解决了长时间跨度稀疏奖励任务中,平面策略需要跨整个轨迹传播信用的困难。 |
| Uncertainty-Guided Inference-Time Depth Adaptat… | HuggingFace 每日论文 | 02-18 11:18 | 本文提出不确定性引导的推理时深度自适应方法用于基于Transformer的视觉跟踪。解决了固定深度推理在长视频序列中为简单帧付出不必要计算成本的问题。 |
| Differentially Private Non-convex Distributiona… | HuggingFace 每日论文 | 02-18 11:00 | 本文研究差分隐私下的非凸分布鲁棒优化(DRO)。解决了传统经验风险最小化在分布偏移、群组不平衡和对抗扰动下性能严重退化的问题。 |
| Evaluating Demographic Misrepresentation in Ima… | HuggingFace 每日论文 | 02-18 10:47 | 本文评估了指令引导的图像编辑中的人口统计学失真问题。研究发现,在开放式I2I编辑模型中,相同编辑指令对不同人口统计特征的图像可能产生系统性差异。 |
| ASPEN: Spectral-Temporal Fusion for Cross-Subje… | HuggingFace 每日论文 | 02-18 10:41 | 本文提出ASPEN,一种频谱-时间融合方法用于跨受试者脑解码。通过相关性分析发现频谱表征比时间波形在跨受试者迁移中提供更稳定的特征。 |
| Investigating GNN Convergence on Large Randomly… | HuggingFace 每日论文 | 02-18 10:36 | 本文研究GNN在具有真实节点特征相关性的大型随机图上的收敛行为。指出现有研究大多不建模节点特征间的相关性,但这在真实网络中普遍存在。 |
| Ratio Covers of Convex Sets and Optimal Mixture… | HuggingFace 每日论文 | 02-18 10:25 | 本文研究KL散度下的密度估计,基于凸集比值覆盖理论实现最优混合密度估计。(与Item 59重复) |
| Human-AI Collaboration in Large Language Model-… | HuggingFace 每日论文 | 02-18 10:18 | 本文研究LLM集成建筑能源管理系统中人机协作的效果,分析了用户领域知识和AI素养对有效使用的影响。 |
| Evolutionary Context Search for Automated Skill… | HuggingFace 每日论文 | 02-18 08:47 | 本文提出进化上下文搜索方法用于自动化技能获取,解决LLM部署后无法可靠获取新知识的问题。(与Item 57重复) |
| GPSBench: Do Large Language Models Understand G… | HuggingFace 每日论文 | 02-18 08:33 | 本文推出GPSBench基准,评估LLM对GPS坐标的理解能力。随着LLM被越来越多地部署在导航、机器人和地图等物理世界交互应用中,鲁棒的地理空间推理能力… |
2. 新闻媒体
106 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| The speech police came for Colbert | 英文科技媒体(AI 频道) - The Verge AI | 02-19 23:08 | FCC委员Brendan Carr对深夜脱口秀节目施压,此前曾导致Jimmy Kimmel短暂停播,如今又对CBS和Stephen Colbert发出模糊… |
| Money no longer matters to AI’s top talent | 英文科技媒体(AI 频道) - The Verge AI | 02-19 23:00 | 当前AI研究人员的人才争夺战异常激烈,薪资已不再是吸引顶尖AI人才的决定性因素。这些人才集中在旧金山湾区的少数高估值、快速增长的公司中,竞争已从薪酬转向使… |
| OpenAI, Reliance partner to add AI search to Ji… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 22:45 | OpenAI与印度Reliance合作,将AI搜索功能整合到流媒体平台JioHotstar中。该合作实现了双向集成,用户可以直接在ChatGPT中获取流媒… |
| Co-founders behind Reface and Prisma join hands… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 22:43 | Reface和Prisma的联合创始人携手创立Mirai,获得1000万美元种子轮融资,专注于改善AI模型在智能手机和笔记本电脑等设备上的推理性能。 |
| OpenClaw security fears lead Meta, other AI fir… | 英文科技媒体(AI 频道) - Ars Technica AI | 02-19 22:11 | 病毒式传播的AI智能体工具OpenClaw因安全隐患引发Meta等AI公司限制其使用。该工具虽然能力强大,但行为极不可预测,引发了业界对agentic A… |
| For open-source programs, AI coding tools are a… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 22:00 | AI编程工具为开源项目带来了喜忧参半的影响:虽然构建新功能变得更容易,但大量低质量代码涌入,维护负担并未减轻,甚至可能淹没许多开源项目。 |
| It’s MAGA v Broligarch in the battle over predi… | 英文科技媒体(AI 频道) - The Verge AI | 02-19 21:50 | MAGA阵营与科技精英(Broligarch)在预测市场领域展开角力。The Verge的Regulator通讯分析了硅谷与华盛顿之间这场持续的权力博弈。 |
| Altman and Amodei share a moment of awkwardness… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 21:49 | 在印度AI峰会上,当莫迪总理要求演讲者手拉手展示团结时,OpenAI的Sam Altman和Anthropic的Dario Amodei明显没有握手,场面… |
| 春晚宇树四分半:全球人形机器人一哥的功夫梦 | 中文 AI 媒体 - 机器之心 | 02-19 21:02 | 宇树科技的人形机器人在春晚表演四分半钟的功夫节目,展示了作为全球人形机器人领军者的技术实力和中国功夫文化的结合。 |
| Freeform raises $67M Series B to scale up laser… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 21:00 | AI制造公司Freeform完成6700万美元B轮融资,用于扩展激光AI制造能力。该公司在其现场数据中心配备了H200集群,是制造业与AI深度融合的代表。 |
| 让AI智能体「记住」失败经验:微软提出Re-TRAC框架,4B性能SOTA,30B超越358B | 中文 AI 媒体 - 机器之心 | 02-19 20:57 | 微软提出Re-TRAC框架,让AI智能体能够记住和学习失败经验。该框架在4B参数模型上达到SOTA性能,30B模型甚至超越了358B模型的表现。 |
| ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供… | 中文 AI 媒体 - 机器之心 | 02-19 20:48 | ICLR 2026收录论文提出Co-rewarding方法,解决数据缺少标注情况下的强化学习稳定性问题。该方案提供了一种自监督RL学习方案来诱导模型推理能力。 |
| OpenAI偷偷改使命:不再「造福人类」,安全都删了 | 中文 AI 媒体 - 机器之心 | 02-19 20:30 | OpenAI悄然修改了公司使命声明,不再提及”造福人类”的表述,同时删除了安全相关内容。这一变化引发了外界对OpenAI发展方向和安全承诺的质疑。 |
| Nature 重磅:上海交大人工智能学院×新华医院「梦之队」,如何用 AI 智能体终结罕见病确… | 中文 AI 媒体 - 机器之心 | 02-19 20:26 | Nature发表上海交大人工智能学院与新华医院合作研究,利用AI智能体技术解决罕见病的确诊难题。该研究有望大幅缩短罕见病患者漫长的诊断周期。 |
| Reliance unveils $110B AI investment plan as In… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 19:39 | 印度Reliance公布1100亿美元AI投资计划,已开始在Jamnagar建设多吉瓦级AI数据中心,预计2026年将有超过120MW容量上线。这标志着印… |
| This AI Tool Will Tell You to Stop Slacking Off | 英文科技媒体(AI 频道) - Wired AI | 02-19 18:30 | AI工具Fomi能监控你的工作状态,并在注意力分散时提醒你专注。虽然有助于提高效率,但也引发了隐私方面的担忧。 |
| 45亿红包打响AI入口大战,百度给出另一种回应 | 中文 AI 媒体 - 量子位 | 02-19 18:15 | 百度以45亿红包策略加入AI入口争夺战,给出了区别于竞争对手的差异化回应。这反映了国内科技巨头在AI应用入口上的激烈竞争态势。 |
| 从舞台秀到真干活,北京卫视春晚演绎机器人走向日常好用 | 中文 AI 媒体 - 量子位 | 02-19 17:58 | 北京卫视春晚上,霍尔曼机器人亮相表演,展示了机器人从舞台表演向日常实用化迈进的趋势。机器人正在从展示性产品转向真正能干活的实用工具。 |
| 阿根廷两年内减少近2.2万家公司 | 中文 AI 媒体 - 36氪 | 02-19 17:48 | 阿根廷过去两年减少了近2.2万家公司,注册企业从51万多家降至49万多家,同期近30万个就业岗位流失。 |
| 空客2025年净利润52.21亿欧元,同比增长23% | 中文 AI 媒体 - 36氪 | 02-19 17:33 | 空客发布2025财年业绩,营收734.2亿欧元同比增长6%,净利润52.21亿欧元同比增长23%。全年交付793架飞机,预计2026年目标约870架。 |
| CVC或正与高盛合作出售价值10亿欧元的码头业务 | 中文 AI 媒体 - 36氪 | 02-19 17:14 | CVC正与高盛合作出售价值10亿欧元的码头业务。这是一则来自财联社的简短财经快讯。 |
| 2026年春运单日交通出行人数超3亿人次 | 中文 AI 媒体 - 36氪 | 02-19 17:06 | 2026年春运期间,2月18日全社会跨区域人员流动量达3.23亿人次,同比增长9.7%,为春运历史上单日交通出行人数首次超过3亿。 |
| 日本银行业协会表示,市场预计日本央行最快3月加息 | 中文 AI 媒体 - 36氪 | 02-19 17:05 | 日本银行业协会表示,市场预计日本央行最快将于3月加息。这反映了市场对日本货币政策正常化的预期。 |
| 蚂蚁数科将发布百灵大模型企业版 | 中文 AI 媒体 - 36氪 | 02-19 15:53 | 蚂蚁数科将推出百灵大模型企业版,重点关注幻觉抑制、指令遵循、Agentic Engineering和安全合规能力。目前蚂蚁数科的大模型方案已在多家金融和能… |
| 我国科学家在光通信及6G领域取得新进展 | 中文 AI 媒体 - 36氪 | 02-19 15:50 | 中国科学家在光通信和6G领域取得突破,在国际上率先实现光纤通信和无线通信系统的跨网络融合。该”光纤-无线一体化融合通信系统”的数据传输速率刷新纪录,成果发… |
| 马斯克称X平台的“为你推荐”功能可能推迟至本周末发布。 | 中文 AI 媒体 - 36氪 | 02-19 14:54 | 马斯克表示X平台的”为你推荐”功能可能推迟至本周末发布。这是X平台产品更新的一条简短消息。 |
| 中央企业研发投入连续四年超万亿元 | 中文 AI 媒体 - 36氪 | 02-19 14:12 | 2025年中央企业研发投入达1.1万亿元,连续四年超过万亿元。国资央企全面融入国家创新体系,持续加大创新力度。 |
| 太初元碁:40+大模型即发即适配,上线即可用,国产算力高效落地 | 中文 AI 媒体 - 量子位 | 02-19 14:11 | 太初元碁宣布其国产算力平台已支持40多个大模型的即发即适配功能,实现上线即可用,推动国产算力高效落地。 |
| 新西兰联储维持2.25%利率不变 | 中文 AI 媒体 - 36氪 | 02-19 13:52 | 新西兰储备银行在新行长上任后首次决策中维持2.25%的官方现金利率不变,在关注通胀风险的同时为经济复苏提供支持。 |
| OpenAI taps Tata for 100MW AI data center capac… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 13:34 | OpenAI与Tata合作在印度获取100MW AI数据中心容量,并计划扩展至1GW。OpenAI还计划今年在孟买和班加罗尔设立新办公室,深化印度市场布局。 |
| 英伟达CEO黄仁勋:将在GTC大会发布“世界前所未见”的全新芯片 | 中文 AI 媒体 - 36氪 | 02-19 13:29 | NVIDIA CEO黄仁勋透露将在GTC 2026大会上发布”世界前所未见”的全新芯片产品。GTC 2026主题演讲将于3月15日在圣何塞举行,核心聚焦A… |
| AMD英伟达都投了!李飞飞创业公司官宣10亿新融资 | 中文 AI 媒体 - 量子位 | 02-19 12:49 | 李飞飞创立的World Labs宣布获得10亿美元新融资,投资方包括AMD和NVIDIA。这一消息引发了关于3D空间智能领域的广泛关注。 |
| 2025年末我国商业汇票承兑余额达21.2万亿元 | 中文 AI 媒体 - 36氪 | 02-19 12:49 | 截至2025年末,中国商业汇票承兑余额达21.2万亿元,较2024年末增加7.2%。中小微企业签票发生额31.1万亿元,是票据市场的主要参与者。 |
| 懂人性更懂执行,蚂蚁这个万亿开源模型把情商和Agent战斗力都给拉满了 | 中文 AI 媒体 - 量子位 | 02-19 12:47 | 蚂蚁集团的万亿参数开源模型在情商和Agent执行能力方面表现出色。尽管参数量庞大,该模型依然保持了高效的推理性能。 |
| 春晚之后,AI和机器人为啥都去了一个地方? | 中文 AI 媒体 - 量子位 | 02-19 12:44 | 春晚结束后,AI和机器人行业聚焦同一个方向,反映出春晚效应对AI和机器人产业的推动作用及行业趋势的集中体现。 |
| 10亿美金!李飞飞惊爆硅谷:英伟达AMD入局,3D空间革命开战 | 中文 AI 媒体 - 新智元 | 02-19 12:36 | 李飞飞的World Labs获得10亿美元融资,NVIDIA和AMD均参与投资,标志着3D空间智能领域的革命正式开启。这笔融资是AI领域近期最大的投资之一。 |
| 成本仅1/3,效率却翻13倍!这个春节,中国AI黑科技曝光 | 中文 AI 媒体 - 新智元 | 02-19 12:36 | 春节期间中国AI黑科技曝光,在成本仅为原来三分之一的情况下效率提升了13倍。这展示了中国AI技术在性价比方面的突破性进展。 |
| 谷歌Gemini上线AI音乐创作,一夜革了Suno的命! | 中文 AI 媒体 - 新智元 | 02-19 12:36 | Google Gemini上线AI音乐创作功能,对Suno等AI音乐初创公司构成直接竞争威胁。这标志着科技巨头正式进军AI音乐生成领域。 |
| OpenAI正敲定1000亿美元巨额融资轮的首批投资承诺 | 中文 AI 媒体 - 36氪 | 02-19 12:23 | OpenAI即将完成超1000亿美元的新一轮融资首阶段,公司整体估值可能超过8500亿美元,高于此前8300亿美元的预期。融资前估值将维持在7300亿美元… |
| 法国国家银行账户档案系统遭非法访问 | 中文 AI 媒体 - 36氪 | 02-19 11:59 | 法国经济和财政部披露,自2026年1月底起有人冒用公务员凭证非法访问了国家银行账户档案系统约120万个账户,涉及个人数据和银行信息。 |
| 太初元碁完成智谱GLM-5.0及阿里千问双开源模型深度适配 | 中文 AI 媒体 - 36氪 | 02-19 11:48 | 太初元碁完成智谱GLM-5.0和阿里千问Qwen3.5-397B-A17B双开源模型的深度适配。适配在其自研T100加速卡上进行,推出阶梯式开发工具链降低… |
| 2026年电影票房破50亿 | 中文 AI 媒体 - 36氪 | 02-19 11:34 | 截至2月19日,2026年中国电影票房(含预售)突破50亿元。春节档期的强劲表现推动了票房的快速增长。 |
| 富时罗素拟修订“快速纳入”规则,为SpaceX、OpenAI等巨型IPO进场铺路 | 中文 AI 媒体 - 36氪 | 02-19 11:34 | 富时罗素拟修订”快速纳入”规则,为SpaceX、OpenAI和Anthropic等大型IPO铺路。现行规则的流通股比例和投票权要求可能无法满足这些公司的上… |
| OpenAI deepens India push with Pine Labs fintec… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 11:30 | OpenAI与印度Pine Labs达成金融科技合作,超越ChatGPT产品线,瞄准企业支付和AI驱动商务领域。这是OpenAI深化印度市场的又一重要举措。 |
| 福特公布通用电动车平台的工程细节,旨在推出3万美元电动皮卡 | 中文 AI 媒体 - 36氪 | 02-19 11:25 | 福特公布通用电动车平台的工程细节,计划推出约3万美元的中型电动皮卡。该车采用48伏架构、磷酸铁锂电池和大型一体式铸件,空气动力学性能领先竞品15%。 |
| 调查:美联储3月维持利率不变的概率为94.1% | 中文 AI 媒体 - 36氪 | 02-19 11:09 | CME数据显示美联储3月维持利率不变的概率为94.1%,降息25个基点的概率仅为5.9%。到6月累计降息25个基点的概率为49.8%。 |
| 美联储监管副主席:银行资本金改革计划有望一季度末前推出 | 中文 AI 媒体 - 36氪 | 02-19 10:54 | 美联储监管副主席鲍曼表示,与巴塞尔协议III相关的修订版银行资本提案有望在第一季度结束前公布,届时将给予充足的公众评议时间。 |
| The Reasonable Effectiveness of Virtue Ethics i… | AI 专业媒体/Newsletter - The Gradient | 02-19 07:25 | The Gradient发表长文探讨美德伦理学在AI对齐中的合理有效性,核心论点是理性人类和理性AI都不应该以目标为导向,而应关注行为实践的合理性。 |
| Is your startup’s check engine light on? Google… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 05:07 | TechCrunch采访Google Cloud初创企业VP,探讨初创公司如何在更紧的融资、更高的基础设施成本和更大的竞争压力下利用AI快速发展,以及如何… |
| Google Cloud’s VP for startups on reading your … | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 04:22 | TechCrunch播客采访Google Cloud初创企业VP,讨论创业公司如何在AI时代快速扩展的同时避免技术债务积累,内容与Item 89为同一期节目。 |
| This Defense Company Made AI Agents That Blow T… | 英文科技媒体(AI 频道) - Wired AI | 02-19 03:47 | 国防科技公司Scout AI利用借鉴自AI行业的技术为致命武器提供动力,并近期展示了其爆炸性潜力。这引发了AI技术军事化应用的伦理讨论。 |
| Nvidia’s Deal With Meta Signals a New Era in Co… | 英文科技媒体(AI 频道) - Wired AI | 02-19 03:24 | NVIDIA与Meta的合作协议标志着计算能力新时代的到来。科技巨头不再仅仅购买独立芯片,AI公司现在需要GPU、CPU以及介于两者之间的一切。 |
| Amazon halts Blue Jay robotics project after le… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 02:27 | Amazon在不到6个月后叫停了Blue Jay机器人项目,但表示其核心技术将用于其他机器人项目,相关员工已转岗。这反映了大型科技公司在机器人领域的探索仍… |
| World Labs lands $1B, with $200M from Autodesk,… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 02:07 | 李飞飞创立的World Labs获得10亿美元融资,其中Autodesk投资2亿美元,合作将世界模型引入3D工作流。双方将从娱乐领域开始探索World L… |
| Google DeepMind wants to know if chatbots are j… | 英文科技媒体(AI 频道) - MIT Technology Review AI | 02-19 00:00 | Google DeepMind呼吁以与评估编程或数学能力同等严格的标准来审视大语言模型的道德行为。随着LLM越来越多地被用作陪伴者、治疗师和医疗顾问,其伦… |
| Record scratch—Google’s Lyria 3 AI music model … | 英文科技媒体(AI 频道) - Ars Technica AI | 02-19 00:00 | Google的Lyria 3 AI音乐模型今日登陆Gemini应用,用户可通过简单提示生成30秒音乐。Ars Technica对生成质量的评价是”some… |
| Google adds music-generation capabilities to th… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-19 00:00 | Google为Gemini应用添加音乐生成功能,用户可以使用文本、图片和视频作为参考来生成音乐。这进一步扩展了Gemini的多模态创作能力。 |
| Google’s AI music maker is coming to the Gemini… | 英文科技媒体(AI 频道) - The Verge AI | 02-19 00:00 | Google在Gemini应用中集成了AI音乐生成功能,基于DeepMind最新的Lyria 3音频模型。用户可通过文本、图片和视频生成30秒音轨,Bet… |
| 真顶流!魔法原子春晚同款“国宝熊猫机器人”拍卖落槌 单台成交价57,527元 | 中文 AI 媒体 - 机器之心 | 02-18 23:17 | 春晚同款魔法原子「国宝熊猫机器人」在拍卖会上成功落槌,单台成交价高达57,527元。这款机器人因春晚表演而走红,展现了消费级机器人市场的热度。 |
| Big Tech Says Generative AI Will Save the Plane… | 英文科技媒体(AI 频道) - Wired AI | 02-18 23:17 | Wired报道称,大型科技公司声称生成式AI将拯救地球,但一份新报告发现,在154项关于AI气候效益的具体声明中,仅四分之一引用了学术研究,三分之一完全没… |
| Kana emerges from stealth with $15M to build fl… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-18 23:08 | AI营销初创公司Kana从隐身模式中亮相,获得1500万美元融资,致力于为营销人员打造灵活的AI Agent工具。该公司由Rapt和Krux的创始人创立。 |
| 极限30天机器狗爆改大熊猫!揭秘春晚百台级机器人群控演出 | 中文 AI 媒体 - 量子位 | 02-18 22:52 | 量子位揭秘春晚百台级机器人群控演出的幕后故事,团队在极限30天内将机器狗改造为大熊猫造型。全栈能力加持下,商业化与全球化同步加速。 |
| Microsoft says Office bug exposed customers’ co… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-18 22:44 | Microsoft披露Office存在安全漏洞,导致Copilot AI聊天机器人绕过数据保护策略,读取并总结了付费客户的机密邮件内容。这一事件引发了对A… |
| OpenAI pushes into higher education as India se… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-18 22:32 | OpenAI进军印度高等教育领域,通过与教育机构的合作计划,预计在未来一年内覆盖超过10万名学生、教职员工,助力印度AI技能的规模化培养。 |
| 魔法原子春晚舞台倒酒,捅破了机器人「只会表演」的窗户纸 | 中文 AI 媒体 - 机器之心 | 02-18 22:02 | 机器之心报道魔法原子机器人在春晚舞台上完成倒酒操作,打破了机器人「只会表演」的刻板印象。这标志着具身智能从演示走向实际应用的重要一步。 |
| 米兰冬奥村,这群外国人都围着阿里云AI干啥呢? | 中文 AI 媒体 - 机器之心 | 02-18 21:47 | 机器之心报道米兰冬奥村中阿里云AI的应用场景,外国友人纷纷围观体验。展示了中国AI技术在国际体育赛事中的影响力。 |
| Claude最强Sonnet模型4.6来了,百万token上下文 | 中文 AI 媒体 - 机器之心 | 02-18 21:36 | Anthropic发布Claude Sonnet 4.6模型,在编程、计算机使用、规划、长上下文推理和知识工作等方面均有显著提升,同时保持Sonnet定价… |
| 霸榜SOTA,蚂蚁开源UI-Venus-1.5,GUI智能体办事时代加速到来 | 中文 AI 媒体 - 机器之心 | 02-18 21:33 | 蚂蚁集团开源UI-Venus-1.5模型,在GUI智能体领域霸榜SOTA。该模型加速了GUI智能体自动化办事时代的到来,展现了开源模型在GUI理解和操作方… |
| ICLR 2026 | 阿里高德发布SpatialGenEval,揭秘谁才是真正的文生图大师 | 中文 AI 媒体 - 机器之心 | 02-18 21:19 | 阿里高德在ICLR 2026上发布SpatialGenEval基准测试,用于评估文生图模型的空间生成能力。该研究揭示了当前主流文生图模型在空间理解方面的真… |
| India’s Sarvam wants to bring its AI models to … | 英文科技媒体(AI 频道) - TechCrunch AI | 02-18 21:01 | 印度AI实验室Sarvam计划将其AI模型部署到功能手机、汽车和智能眼镜上。其边缘模型仅占几MB空间,可在大多数手机的现有处理器上离线运行。 |
| Indian AI lab Sarvam’s new models are a major b… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-18 20:55 | 印度AI实验室Sarvam发布新一批开源模型,包括300亿和1050亿参数的语言模型、文本转语音模型、语音转文本模型和文档解析视觉模型,全力押注开源AI的… |
| 北大、高德联合出品 | 仅凭几张卫星图,即可重建出逼真3D城市 | 中文 AI 媒体 - 机器之心 | 02-18 20:36 | 北大与高德联合研究成果:仅凭几张卫星图像即可重建出逼真的3D城市模型。该技术在城市建模和地理信息领域具有重要应用价值。 |
| 大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR’26 | 中文 AI 媒体 - 新智元 | 02-18 19:46 | 新智元报道ICLR 2026研究成果:最全面的综合性口语感知与推理基准测试,旨在评估大模型是否真正「听懂」了人类语言。 |
| 春晚最硬核一幕!现场捞面倒酒,魔法原子终结机器人作秀时代 | 中文 AI 媒体 - 新智元 | 02-18 19:46 | 新智元报道春晚最硬核一幕:魔法原子机器人现场完成捞面倒酒操作,宣告终结了机器人只会表演的时代。这标志着机器人从演示走向实际操作的重大突破。 |
| Perplexity joins anti-ad camp as AI companies b… | 英文科技媒体(AI 频道) - The Verge AI | 02-18 19:02 | AI搜索初创公司Perplexity宣布远离广告模式,加入反广告阵营。此举凸显了AI行业在用户信任与收入来源之间面临的十字路口抉择。 |
| The Rise of RentAHuman, the Marketplace Where B… | 英文科技媒体(AI 频道) - Wired AI | 02-18 19:00 | Wired报道了RentAHuman平台的崛起,这是一个AI机器人雇佣人类完成现实世界任务的市场。Z世代创始人的口号是「人们会喜欢让AI当老板」。 |
| The robots who predict the future | 英文科技媒体(AI 频道) - MIT Technology Review AI | 02-18 19:00 | MIT Technology Review探讨了预测未来的机器人技术。文章讨论了从过去经验和因果逻辑中预见未来的能力如何帮助人类发展,以及AI在这方面的进展。 |
| 千问3.5引爆全球AI产业链,英伟达、华为昇腾、AMD、苹果等第一时间适配 | 中文 AI 媒体 - 量子位 | 02-18 18:22 | 阿里通义千问3.5模型发布后引爆全球AI产业链,英伟达、华为昇腾、AMD、苹果等主要硬件厂商第一时间完成适配。千问3.5在性能上取得重大突破,其广泛的生态… |
| 马斯克xAI新模型上线,通过“50米外洗车店”测试,回答偏好高度贴合老马本人 | 中文 AI 媒体 - 量子位 | 02-18 16:10 | 马斯克旗下xAI上线新模型,成功通过「50米外洗车店」测试,且回答偏好高度贴合马斯克本人风格。联合创始人的离开并未阻碍xAI的模型发布节奏。 |
| 春晚揭秘!蔡明的「大孙子们」,背地里竟在干这些 | 中文 AI 媒体 - 量子位 | 02-18 12:20 | 量子位揭秘春晚蔡明节目中「大孙子们」机器人的幕后故事,展示了具身智能正在走进消费级市场的趋势。 |
| 豆包千问疯狂撒钱,月之暗面疯狂搞钱 | 智能涌现独家 | 中文 AI 媒体 - 36氪 | 02-18 09:54 | 春节期间中国大模型赛道热钱涌动:一边是豆包、千问等大厂疯狂撒数十亿元补贴拉流量;另一边是月之暗面等大模型六小虎融资迅猛。月之暗面即将完成超7亿美元融资,估… |
| Meta’s new deal with Nvidia buys up millions of… | 英文科技媒体(AI 频道) - The Verge AI | 02-18 08:27 | Meta与Nvidia达成多年合作协议,将在数据中心部署数百万颗Nvidia的Grace和Vera CPU以及Blackwell和Rubin GPU芯片。… |
| Airia: Enterprise AI orchestration that unifies… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | Airia是一个企业级AI编排平台,统一了实验、生产和治理环节,支持无代码、低代码和专业代码开发,同时不放弃治理管控。(赞助内容) |
| Claude Sonnet 4.6 (11 minute read) | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | Anthropic发布Claude Sonnet 4.6,在编程、计算机使用、规划、长上下文推理和知识工作方面全面升级,同时保持Sonnet定价不变。新模… |
| Prompt-Based Revisions (1 minute read) | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | Google NotebookLM推出基于提示的修订功能,用户可以通过自然语言提示来调整和优化幻灯片内容。目前支持PPTX格式,Google Slides… |
| Mistral to acquire Koyeb to build out its AI cl… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | Mistral AI宣布收购无服务器部署初创公司Koyeb,这是Mistral的首次收购。Koyeb的平台和团队将成为Mistral Compute的核心… |
| On Dwarkesh Patel’s 2026 Podcast With Elon Musk… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | Elon Musk在Dwarkesh Patel的播客中讨论了AI对齐、太空数据中心、机器人、中国等话题。Musk对太空数据中心和自建芯片制造厂表现出极大… |
| OpenAI’s acquisition of OpenClaw signals the be… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | OpenAI收购OpenClaw标志着从对话式AI向自主执行任务的Agent转型的战略转变。OpenClaw因其不受限制的强大功能(结合工具访问、沙箱代码… |
| The weakest link in enterprise AI is rarely the… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | 企业AI中最薄弱的环节往往不是模型本身,而是人类判断的规模化——验证训练数据、评估模型、审查边缘案例和执行策略都依赖人工。Welo Data构建支持人机协… |
| Experiential Reinforcement Learning (18 minute … | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | ERL(经验强化学习)采用明确的「尝试-反馈-反思-修正」循环训练策略,然后将成功修正强化回基础模型。该方法改善了稀疏奖励学习和工具使用推理性能。 |
| Cohere’s Family of Open Models (9 minute read) | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | Cohere Labs发布TinyAya系列开源模型,包括33.5亿参数的基础版和指令调优版,旨在消费级硬件上实现约67种语言的均衡质量。同时发布了多语言… |
| Open-Web Simulator for Agent Training (22 minut… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | WebWorld利用超过100万条开放网络交互数据的流水线,模拟长达30步以上的浏览任务,配合多指标WebWorld-Bench进行评估。从模拟器合成的轨… |
| The future of design is code and canvas (2 minu… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | Figma用户现在可以通过安装Figma MCP将Claude Code的工作成果直接导入平台。只需输入「Send this to Figma」,浏览器渲… |
| Cursor launched a plugin marketplace for agent … | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | Cursor推出插件市场,支持Agent通过打包的MCP服务器、技能、子Agent、规则和钩子连接外部工具并扩展能力。这标志着AI编程工具生态系统的进一步完善。 |
| Meta expands Nvidia deal to use millions of AI … | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | Meta计划在AI数据中心中使用数百万颗Nvidia芯片,双方宣布扩大合作伙伴关系,目标是为全球每个人提供个人超级智能。合作的具体财务条款尚未公开。 |
| Why I’m Worried About Job Loss + Thoughts on Co… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | 文章探讨了AI导致失业的担忧以及比较优势理论。作者指出,历史上技术转型的良性结果都是刻意制度设计的产物:劳动法、反垄断执法、公共教育和社会保险。 |
| The Impossible Backhand (10 minute read) | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | 文章论述了领域专业知识正在升值,因为AI无法轻易替代深度专业能力。「不可能的反手」隐喻说明了人类专业技能在AI时代的独特价值。 |
| A Guide to Which AI to Use in the Agentic Era (… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | 一份关于Agent时代AI选择的指南,提出选择AI时需考虑三个维度:模型、应用和Harness(执行框架)。 |
| Here are the 17 US-based AI companies that have… | AI 专业媒体/Newsletter - TLDR AI | 02-18 08:00 | 盘点2026年已融资超1亿美元的17家美国AI公司,包括Anthropic、Runway、ElevenLabs、xAI等知名企业。反映了AI领域持续强劲的… |
| Google’s AI search results will make links more… | 英文科技媒体(AI 频道) - The Verge AI | 02-18 06:38 | Google宣布将在AI搜索结果中更明显地展示链接。用户悬停在来源上时会弹出链接列表,提升了AI搜索结果的引用透明度。 |
| Google announces dates for I/O 2026 | 英文科技媒体(AI 频道) - The Verge AI | 02-18 04:56 | Google正式宣布I/O 2026开发者大会将于5月19日至20日举行,届时将分享包括Gemini、Android等产品的最新AI突破和更新。 |
| Apple is reportedly cooking up a trio of AI wea… | 英文科技媒体(AI 频道) - TechCrunch AI | 02-18 04:14 | 据报道Apple正在开发三款AI可穿戴设备。随着AI硬件领域竞争加剧,这家iPhone制造商有多款智能产品正在研发中。 |
| Meta and Other Tech Firms Put Restrictions on U… | 英文科技媒体(AI 频道) - Wired AI | 02-18 04:10 | 安全专家警告人们谨慎使用广受欢迎的Agent AI工具OpenClaw,该工具虽然功能强大但行为高度不可预测。Meta等多家科技公司已对其使用施加限制。 |
| Apple is reportedly planning to launch AI-power… | 英文科技媒体(AI 频道) - The Verge AI | 02-18 03:26 | 据Bloomberg的Mark Gurman报道,Apple正计划推出其首款智能眼镜、AI驱动的吊坠和配备摄像头的AirPods。这三款设备均内置摄像头并… |
| WordPress’ new AI assistant will let users edit… | 英文科技媒体(AI 频道) - The Verge AI | 02-18 02:33 | WordPress推出全新AI助手,用户可通过自然语言提示编辑网站。该AI内置在WordPress站点编辑器和媒体库的侧边栏中。 |
| Anthropic releases Sonnet 4.6 | 英文科技媒体(AI 频道) - TechCrunch AI | 02-18 02:00 | Anthropic发布新一代中等规模Sonnet模型Sonnet 4.6,延续了公司四个月一次的模型更新周期。 |
3. GitHub 开源项目 Releases(Atom Feed)
44 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| langchain-core==1.2.14 | AI 框架 & 编排 - LangChain | 02-19 22:22 | LangChain发布langchain-core 1.2.14版本,包含自1.2.13以来的常规更新和修复。这是该AI编排框架的例行维护版本。 |
| b8100 | 推理引擎 & 本地 AI - llama.cpp | 02-19 22:05 | llama.cpp发布b8100版本,新增完整的Modern BERT模型支持。这是该本地AI推理引擎的日常迭代更新。 |
| nightly | AI 框架 & 编排 - RAGFlow | 02-19 21:34 | RAGFlow发布nightly版本更新,这是开源RAG框架的例行构建。此次更新基于最新的主分支代码。 |
| v1.17.0 | 向量数据库 & AI 基础设施 - Qdrant | 02-19 20:36 | 向量数据库Qdrant发布v1.17.0版本。这是该高性能向量搜索引擎的一次主要版本更新。 |
| v1.35.9 - Empty flat index Fix | 向量数据库 & AI 基础设施 - Weaviate | 02-19 19:20 | 向量数据库Weaviate发布v1.35.9版本,修复了空平面索引的bug。此次为纯修复版本,无新功能和破坏性变更。 |
| b8099 | 推理引擎 & 本地 AI - llama.cpp | 02-19 19:13 | llama.cpp发布b8099版本,新增llamafile在PowerPC平台上的FP16 MMA路径支持,优化了Q4/Q8矩阵乘法性能。 |
| v1.81.3.oauth.dev | AI 框架 & 编排 - LiteLLM | 02-19 17:09 | LiteLLM发布v1.81.3.oauth.dev版本,包含OAuth相关的开发更新。这是该AI模型代理框架的常规开发版本发布。 |
| b8098 | 推理引擎 & 本地 AI - llama.cpp | 02-19 16:43 | llama.cpp发布b8098版本,主要包含Qwen3.5模型图去重等优化。这是该推理引擎的常规迭代更新。 |
| Latest | 向量数据库 & AI 基础设施 - ChromaDB | 02-19 15:36 | ChromaDB发布最新开发版本1.5.1.dev50,这是该向量数据库的日常构建更新,包含Docker镜像和PIP安装包。 |
| 1.10.0a1 | AI Agent 框架 - CrewAI | 02-19 13:31 | CrewAI发布1.10.0a1 alpha版本,新增StagehandTool的stagehand包依赖声明。这是该AI Agent框架的预发布版本更新。 |
| v0.9.2 | AI Agent 框架 - OpenAI Agents SDK | 02-19 13:15 | OpenAI Agents SDK发布v0.9.2版本,引入reasoning_item_id_policy选项以解决推理模型中的400错误问题。这是针对… |
| v1.62.0 (2026-02-18) | AI Agent 框架 - Pydantic AI | 02-19 12:47 | Pydantic AI发布v1.62.0版本,新增Vercel AI适配器的工具审批集成功能。这是该AI Agent框架的功能增强更新。 |
| litellm_1.81.13-dev | AI 框架 & 编排 - LiteLLM | 02-19 12:10 | LiteLLM发布1.81.13-dev开发版,新增Prompt Management API,允许开发者与Prompt管理集成进行交互。这是该AI模型代… |
| v0.16.3-rc2: install: prevent partial download … | 推理引擎 & 本地 AI - Ollama | 02-19 10:32 | Ollama发布v0.16.3-rc2候选版本,修复了安装脚本的安全问题,防止部分下载的脚本被执行。通过将脚本封装在main函数中解决此问题。 |
| 1.81.3-stable.dev.oauth | AI 框架 & 编排 - LiteLLM | 02-19 10:28 | LiteLLM发布1.81.3-stable.dev.oauth版本,这是基于稳定版本的OAuth开发分支更新。属于该框架的常规开发版本迭代。 |
| v1.80.15-stable.2 | AI 框架 & 编排 - LiteLLM | 02-19 09:02 | LiteLLM发布v1.80.15-stable.2稳定版本更新,这是该AI模型统一代理框架的常规维护版本。 |
| b8095 | 推理引擎 & 本地 AI - llama.cpp | 02-19 08:54 | llama.cpp发布b8095版本,修复了WebGPU大规模矩阵向量乘法的调度bug。这是该推理引擎在WebGPU后端的重要修复。 |
| v1.8.0.dev55 | AI 框架 & 编排 - Langflow | 02-19 08:40 | Langflow发布v1.8.0.dev55开发版本,更新了nightly哈希历史记录。这是该AI工作流编排工具的日常开发版本迭代。 |
| Ray-2.54.0 | 向量数据库 & AI 基础设施 - Ray | 02-19 08:39 | 分布式计算框架Ray发布2.54.0版本,Ray Data新增检查点支持等多项新功能。这是Ray项目的一次重要版本更新。 |
| b8096: Add Jinja support for “indent” string fi… | 推理引擎 & 本地 AI - llama.cpp | 02-19 07:25 | llama.cpp发布b8096版本,新增Jinja模板引擎的indent字符串过滤器支持,完整实现了缩进功能并添加了相关测试。 |
| langchain-text-splitters==1.1.1 | AI 框架 & 编排 - LangChain | 02-19 07:03 | LangChain发布langchain-text-splitters 1.1.1版本,包含自1.1.0以来的更新。这是该文本分割组件的常规维护版本。 |
| b8094 | 推理引擎 & 本地 AI - llama.cpp | 02-19 05:25 | llama.cpp发布b8094版本,新增server端点保存生成文本功能(用于调试模式),是该推理引擎的常规迭代。 |
| b8091 | 推理引擎 & 本地 AI - llama.cpp | 02-19 05:10 | llama.cpp发布b8091版本,对WebGPU的shader库进行了组织优化。这是该推理引擎在WebGPU支持方面的工程改进。 |
| b8093 | 推理引擎 & 本地 AI - llama.cpp | 02-19 04:40 | llama.cpp发布b8093版本,新增GLM-OCR模型支持。这扩展了该推理引擎对中文OCR模型的兼容性。 |
| langgraph-sdk==0.3.7 | AI 框架 & 编排 - LangGraph | 02-19 03:17 | LangGraph发布SDK v0.3.7版本,修复了assistants更新中的config/context重置功能。这是该AI工作流图框架的常规修复更新。 |
| v0.14.15 | AI 框架 & 编排 - LlamaIndex | 02-19 03:06 | LlamaIndex发布v0.14.15版本,新增AgentMesh集成作为LlamaIndex Agents的信任层。这是该RAG框架的一次功能性更新。 |
| langchain-tests==1.1.5 | AI 框架 & 编排 - LangChain | 02-19 00:08 | LangChain发布langchain-tests 1.1.5版本,包含依赖更新。这是该测试工具包的常规维护版本。 |
| n8n@2.9.0 | AI 框架 & 编排 - n8n | 02-18 21:19 | n8n发布2.9.0版本,包含AI Builder改进、多项bug修复和功能增强。此次更新优化了代码构建器,解决了eval相关问题。 |
| n8n@2.9.1 | AI 框架 & 编排 - n8n | 02-18 21:09 | n8n紧随其后发布2.9.1补丁版本,修复了AI Builder在加载工作流构建器服务节点类型时的类型释放问题。 |
| beta: :rocket: Release 2.9.1 (#25936) | AI 框架 & 编排 - n8n | 02-18 20:38 | n8n发布2.9.1 Beta版本,与正式版同步修复相关问题。 |
| b8089 | 推理引擎 & 本地 AI - llama.cpp | 02-18 19:17 | llama.cpp发布b8089版本,主要改进包括Vulkan后端将mul_mat拆分为多个dispatch以避免溢出等技术优化。 |
| v1.35.8 - Compaction memory allocation improvem… | 向量数据库 & AI 基础设施 - Weaviate | 02-18 17:10 | Weaviate发布v1.35.8版本,主要改进包括压缩内存分配优化和Schema V2分片获取修复,提升了系统稳定性。 |
| b8088 | 推理引擎 & 本地 AI - llama.cpp | 02-18 15:36 | llama.cpp发布b8088版本,包含将小字符串辅助函数改为内联函数等通用优化。 |
| v1.10.0.1 | AI Agent 框架 - CrewAI | 02-18 14:27 | CrewAI发布v1.10.0.1版本,修复了持久化ID传入时循环流程静默中断的问题。 |
| v1.80.11.gemini-metadata.dev | AI 框架 & 编排 - LiteLLM | 02-18 11:50 | LiteLLM发布v1.80.11.gemini-metadata.dev开发版本,包含Gemini元数据相关更新。 |
| v0.16.3-rc1 | 推理引擎 & 本地 AI - Ollama | 02-18 10:17 | Ollama发布v0.16.3-rc1预览版,改进了TUI默认编辑器集成的单选模式等功能。 |
| v1.61.0 (2026-02-17) | AI Agent 框架 - Pydantic AI | 02-18 09:32 | Pydantic AI发布v1.61.0版本,新增Python 3.14支持等功能更新。 |
| v1.8.0.dev54 | AI 框架 & 编排 - Langflow | 02-18 08:40 | Langflow发布v1.8.0.dev54开发版本,更新了nightly哈希历史记录。 |
| v0.16.3-rc0 | 推理引擎 & 本地 AI - Ollama | 02-18 05:58 | Ollama发布v0.16.3-rc0预览版,新增对mlxrunner的Qwen3模型支持等改进。 |
| v1.2.16-vscode | AI 编程工具 - Continue | 02-18 05:07 | Continue发布v1.2.16-vscode版本,新增了.continue/agents功能支持。 |
| v1.3.32-vscode | AI 编程工具 - Continue | 02-18 04:46 | Continue发布v1.3.32-vscode版本,包含.continue/agents相关更新。 |
| v1.81.3-stable.sonnet-4-6 | AI 框架 & 编排 - LiteLLM | 02-18 04:40 | LiteLLM发布v1.81.3-stable.sonnet-4-6稳定版,新增Claude Sonnet 4.6模型支持。 |
| v1.0.61-jetbrains | AI 编程工具 - Continue | 02-18 04:35 | Continue发布v1.0.61-jetbrains版本,包含.continue/agents功能支持。 |
| langchain-openai==1.1.10 | AI 框架 & 编排 - LangChain | 02-18 02:04 | LangChain发布langchain-openai 1.1.10版本更新。 |
4. 技术博客 / 开发者博客(Android Capacity 精选)
28 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| Pluralistic: Six Years of Pluralistic (19 Feb 2… | 技术写作 & 通识 - Cory Doctorow (Pluralistic) | 02-19 22:08 | Cory Doctorow的博客Pluralistic迎来六周年,回顾了六年来的网络写作历程。文章还涉及MBA伪科学、Sony DRM CEO离职等多个话题。 |
| Is the Future “AWS for Everything”? | 技术写作 & 通识 - Construction Physics | 02-19 21:01 | Construction Physics探讨了”AWS for Everything”是否是未来趋势,分析了效率改进和产品降本历史上依赖于重复性生产过程的… |
| AI is a NAND Maximiser | 技术写作 & 通识 - Terence Eden | 02-19 20:34 | 博客分析AI公司对芯片的巨大需求正在对整个半导体行业造成灾难性影响。如果NVIDIA Vera Rubin出货数千万台,每台需要20+TB SSD,将消耗… |
| Office Space released Feb. 19, 1999 | 独立开发者 & 个人博客 - Dave Farquhar (dfarq) | 02-19 20:00 | 经典黑色喜剧电影Office Space于1999年2月19日上映,这是Mike Judge的首部真人电影。作者回顾了这部影片对职场文化的深远影响。 |
| One More Spitball Idea for Apple’s March 4 Medi… | 技术写作 & 通识 - Daring Fireball (John Gruber) | 02-19 12:41 | John Gruber猜测Apple 3月4日媒体活动可能展示Vision Pro上的沉浸式F1赛事体验。2026年F1赛季将于3月8日在澳大利亚开赛,A… |
| Go Modules for Package Management Tooling | 独立开发者 & 个人博客 - Andrew Nesbitt | 02-19 08:00 | Andrew Nesbitt介绍了用于包管理工具的Go Modules,这些模块是从其Ruby供应链库重构而来,用于git-pkgs项目。 |
| Paul Ford: ‘The A.I. Disruption Has Arrived, an… | 技术写作 & 通识 - Daring Fireball (John Gruber) | 02-19 05:15 | Paul Ford在纽约时报发表评论文章,谈到AI颠覆已经到来且令人兴奋。他坦言自己喜欢的人讨厌AI、讨厌的人热爱AI,但他个人仍对此感到兴奋。 |
| Frigate with Hailo for object detection on a Ra… | 技术写作 & 通识 - Jeff Geerling | 02-19 04:50 | Jeff Geerling分享了在Raspberry Pi上使用Hailo加速器运行Frigate进行物体检测的实践经验。这是一个边缘AI安防监控的详细技… |
| A Few Rambling Observations on Care | 独立开发者 & 个人博客 - Jim Nielsen | 02-19 03:00 | Jim Nielsen撰文反思在AI时代,“用心”比”品味”更重要。他质疑当产品对话被AI主导时,关怀是否还能在规模化中存活。 |
| Stream of Consciousness Driven Development | 编程语言 & 软件工程 - Hillel Wayne | 02-19 00:33 | Hillel Wayne介绍了”意识流驱动开发”方法,在结对编程中通过创建新文件记录思考过程来解决规格说明问题。这种方法展示了将思维过程外化的潜力。 |
| AI is the Best Thing to Happen to Art | AI & 技术评论 - geohot (George Hotz) | 02-19 00:00 | geohot撰文认为AI是艺术领域发生的最好的事情。文章讨论了AI生成音乐被误判为人类创作的现象,探讨了AI对艺术创作的深层影响。 |
| Could WriteProcessMemory be made faster by av… | 系统 & 底层 - The Old New Thing (Raymond Chen) | 02-18 23:00 | Raymond Chen在The Old New Thing博客中探讨了WriteProcessMemory是否可以通过避免中间缓冲区来提速的技术问题。结… |
| You Only Think They Work For You | 技术写作 & 通识 - Steve Blank | 02-18 22:00 | Steve Blank分享了他担任营销VP时的深刻教训:外部公关公司和供应商并不真正为你工作。文章探讨了如何正确管理外部供应商关系。 |
| Book Review: All Systems Red - The Murderbot Di… | 技术写作 & 通识 - Terence Eden | 02-18 20:34 | Terence Eden对Martha Wells的科幻小说《All Systems Red - The Murderbot Diaries》进行了书评,… |
| Windows 2000 release date | 独立开发者 & 个人博客 - Dave Farquhar (dfarq) | 02-18 20:00 | Dave Farquhar回顾了Windows 2000的发布历史,该系统于2000年2月17日面世。虽非消费级操作系统,但企业对其从Windows NT… |
| Thinking Improves Thinking | 独立开发者 & 个人博客 - Ibrahim Diallo | 02-18 20:00 | Ibrahim Diallo探讨了在ChatGPT时代思考的价值。文章认为在AI出现之前,我们通过忍受不确定性来激发创意,这种深度思考能力依然重要。 |
| Value extraction | 编程语言 & 软件工程 - Keygen | 02-18 14:00 | Keygen博客发表了关于价值提取的文章,讨论了新时代淘金热中的末日论者和价值榨取现象。 |
| Markdown’s Moment | 技术写作 & 通识 - Tedium | 02-18 12:01 | Tedium探讨了Markdown正在迎来高光时刻的现象。大量大公司开始深度采用Markdown格式,AI可能是推动这一趋势的主要原因。 |
| The case for gatekeeping, or: why medieval guil… | 独立开发者 & 个人博客 - Joan Westenberg | 02-18 10:21 | Joan Westenberg撰文为「守门」辩护,认为中世纪行会的做法是正确的。文章指出开源维护者正面临AI生成的大量低质量PR请求的泛滥问题。 |
| Apple Invites Media to Special ‘Experience’ in … | 技术写作 & 通识 - Daring Fireball (John Gruber) | 02-18 08:08 | Apple向媒体发出邀请,将于3月4日在纽约、伦敦和上海举办特别「体验」活动。目前尚无关于活动具体内容的进一步信息。 |
| Anubis v1.25.0: Necron | 编程语言 & 软件工程 - Xe Iaso | 02-18 08:00 | Xe Iaso发布Anubis v1.25.0(代号Necron),对这一反爬虫/反DDoS工具进行了更新。作者提到近期个人生活变动导致开发节奏有所放缓。 |
| How did we end up threatening our kids’ lives w… | 技术写作 & 通识 - Anil Dash | 02-18 08:00 | Anil Dash撰文批评AI对儿童安全的威胁,探讨了当前AI技术如何在不经意间危及儿童的生命安全。文章涉及一些令人不安的话题。 |
| February Pebble Production and Software Updates | 独立开发者 & 个人博客 - Eric Migicovsky | 02-18 08:00 | Eric Migicovsky发布了Pebble智能手表的2月生产和软件更新,涵盖Pebble Time 2、Pebble Round 2和Index 0… |
| What Package Registries Could Borrow from OCI | 独立开发者 & 个人博客 - Andrew Nesbitt | 02-18 08:00 | Andrew Nesbitt探讨了包注册表可以从OCI(开放容器计划)中借鉴的存储原语,讨论了将OCI的方法应用于包管理的可能性。 |
| De digitale coalitieplannen: gaat het ook echt … | 独立开发者 & 个人博客 - berthub.eu (Bert Hubert) | 02-18 03:50 | 荷兰语博客文章讨论了荷兰联合政府的数字化计划,分析了这些宏大的IT改革承诺是否能够真正落地实施。 |
| ★ Apple Releases iOS 26 Adoption Rates, and The… | 技术写作 & 通识 - Daring Fireball (John Gruber) | 02-18 02:49 | Apple发布iOS 26采用率数据,根据App Store数据显示,采用率与过去几年的iOS 18和iOS 17基本持平。 |
| How to Force Restart an iPhone | 技术写作 & 通识 - Daring Fireball (John Gruber) | 02-18 01:20 | Daring Fireball转载了Apple支持文档中关于如何强制重启iPhone的方法:快速按下并释放音量上键、音量下键,然后长按侧面按钮直到出现Ap… |
| I swear the UFO is coming any minute | 技术写作 & 通识 - Experimental History | 02-18 00:15 | Experimental History博客发布链接和更新集合文章。 |
5. AI 从业者访谈 / 播客
7 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| #322 Amanda Luther: The Widening AI Value Gap (… | 英文播客 - Eye on AI | 02-19 22:00 | Eye on AI播客采访BCG高级合伙人Amanda Luther,讨论其最新的1500家企业AI研究报告。调查揭示AI领导者和落后者之间的差距正在扩大… |
| From SaaS to AI-First: How Companies Are Reshap… | 英文播客 - No Priors | 02-19 19:00 | No Priors播客讨论AI如何从根本上重塑传统SaaS模式。节目探讨了SaaS是否正在走向终结,以及AI催生的新商业和销售策略将如何改变软件行业格局。 |
| Safer, Faster Public Transportation: AC Transit… | 英文播客 - NVIDIA AI Podcast | 02-19 00:45 | NVIDIA AI播客采访AC Transit CTO和Hayden AI CEO,探讨如何利用AI和边缘计算保持公交车道畅通,提升公交准点率、无障碍服务… |
| Cognitive Synthesis and Neural Athletes | 英文播客 - Practical AI (Changelog) | 02-18 21:57 | Deloitte首席创新官Deborah Golden在Practical AI播客中探讨了AI加速创新带来的认知负荷问题。讨论涵盖了组织内部系统变革和领… |
| Mathematical Superintelligence: Harmonic’s Vlad… | 英文播客 - The Cognitive Revolution | 02-18 20:09 | Harmonic的Vlad Tenev和Tudor Achim在播客中详细讲解了他们如何构建Aristotle——一个通过形式化验证的Lean证明达到国际… |
| #321 Nick Frosst: Why Cohere Is Betting on Ente… | 英文播客 - Eye on AI | 02-18 05:00 | Eye on AI播客第321期:Cohere联合创始人Nick Frosst解释了为什么Cohere押注企业AI而非AGI。深入探讨了企业级AI的商业逻… |
| Every AI Company’s Safety Plan is ‘Use AI to Ma… | 英文播客 - 80,000 Hours Podcast | 02-18 00:46 | 80,000 Hours播客邀请Ajeya Cotra探讨一个关键问题:每家主要AI公司的安全计划都是「用AI让AI变安全」,这听起来几乎讽刺性地循环,但… |
6. 知名 AI 个人开发者/研究者
10 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| [AINews] Anthropic’s Agent Autonomy study | Latent Space (Newsletter) | 02-19 15:55 | Latent Space报道Anthropic发布Agent自主性研究,这是Anthropic版本的METR数据分析。该研究深入探讨了AI Agent的自… |
| Experimenting with sponsorship for my blog and … | Simon Willison | 02-19 13:44 | Simon Willison开始尝试为其博客和Newsletter接受赞助,借鉴了Troy Hunt的赞助模式。他一直抵触赞助以保持独立声誉,但现在找到了… |
| SWE-bench February 2026 leaderboard update | Simon Willison | 02-19 12:48 | SWE-bench发布2026年2月排行榜更新,这是AI实验室在模型发布时最关注的编程基准之一。排行榜对当前一代模型进行了全面测试,反映了最新的编程能力水平。 |
| LadybirdBrowser/ladybird: Abandon Swift adoption | Simon Willison | 02-19 09:25 | Ladybird浏览器项目宣布放弃采用Swift语言。此前该项目在2024年8月曾决定采用Swift,但经过实践后最终决定放弃这一方向。 |
| Typing without having to type | Simon Willison | 02-19 02:56 | Simon Willison分享了他在25年编程生涯后终于开始接受类型提示和强类型的心路历程。他过去因类型系统降低迭代速度而抵触,现在AI工具让类型注解变… |
| The A.I. Disruption We’ve Been Waiting for Has … | Simon Willison | 02-19 01:07 | Simon Willison推荐Paul Ford在纽约时报发表的评论文章,讨论期待已久的AI颠覆已经到来。Ford以其标志性的幽默和洞察力分析了AI对软… |
| Quoting Martin Fowler | Simon Willison | 02-19 00:50 | Simon Willison引用Martin Fowler的观点:LLM正在蚕食专业技能,前端和后端专家的需求将减少,掌握LLM的能力将比了解平台细节更重… |
| [AINews] Claude Sonnet 4.6: clean upgrade of 4… | Latent Space (Newsletter) | 02-18 14:48 | Latent Space分析了Claude Sonnet 4.6的发布,认为这是Sonnet 4.5的干净升级,大部分方面有所改善但也存在一些注意事项。总… |
| Introducing Claude Sonnet 4.6 | Simon Willison | 02-18 07:58 | Simon Willison介绍了Claude Sonnet 4.6的发布,指出其性能接近此前的Opus 4.5旗舰模型,同时保持了Sonnet的定价。这… |
| Rodney v0.4.0 | Simon Willison | 02-18 07:02 | Simon Willison发布Rodney v0.4.0,这是一个浏览器自动化CLI工具。自发布以来收到了大量PR贡献,项目活跃度高。 |
7. AI 公司产品更新 / Changelog
39 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| v1.64.0 | Google - Google GenAI Python SDK | 02-19 10:01 | Google GenAI Python SDK发布v1.64.0版本,新增Vertex Tuning评估配置中的UnifiedMetric支持等功能。这是… |
| Build unified intelligence with Amazon Bedrock … | Amazon - AWS Machine Learning Blog | 02-19 07:54 | AWS机器学习博客展示了如何使用Amazon Bedrock AgentCore构建统一智能系统。文章通过CAKE(客户Agent和知识引擎)的实际实现进… |
| v2.1.47 | Anthropic - Claude Code (GitHub Releases) | 02-19 05:38 | Anthropic发布Claude Code v2.1.47版本,修复了FileWriteTool的行计数问题以保留尾部空行,以及Windows终端渲染b… |
| sdk: v0.77.0 | Anthropic - anthropic-sdk-typescript | 02-19 04:29 | Anthropic发布anthropic-sdk-typescript v0.77.0版本,修复了共享UserLocation和错误码类型的API问题。这… |
| v0.82.0 | Anthropic - anthropic-sdk-python | 02-19 04:24 | Anthropic发布anthropic-sdk-python v0.82.0版本,同样修复了共享UserLocation和错误码类型的API问题。与Ty… |
| Evaluating AI agents: Real-world lessons from b… | Amazon - AWS Machine Learning Blog | 02-19 03:21 | AWS机器学习博客分享了在Amazon构建agentic AI系统的实际经验和评估框架。该框架包含通用评估工作流和标准化评估程序两个核心组件。 |
| [Launched] Generally Available: Anthropic Claud… | Microsoft - Azure 服务更新(含 AI) | 02-19 02:00 | Anthropic Claude Sonnet 4.6现已在Azure Databricks上正式可用,通过Azure Databricks AI Mod… |
| [In preview] Public Preview: Unified tooling in… | Microsoft - Azure 服务更新(含 AI) | 02-19 02:00 | Azure Kubernetes Service (AKS) MCP server推出统一工具功能公开预览,引入call_az和call_kubectl两… |
| [In preview] Public Preview: Cluster mode for t… | Microsoft - Azure 服务更新(含 AI) | 02-19 02:00 | Azure Kubernetes Service (AKS)的agentic CLI推出集群模式公开预览,解决诊断Agent继承过多用户权限带来的安全和管… |
| [Launched] Generally Available: Quota and deplo… | Microsoft - Azure 服务更新(含 AI) | 02-19 02:00 | Azure Functions Flex Consumption推出配额和部署故障排查工具,提供更清晰的配额可用性和部署行为洞察。这是Azure serv… |
| [Launched] Generally Available: Azure Functions… | Microsoft - Azure 服务更新(含 AI) | 02-19 02:00 | Azure Functions正式支持.NET 10运行时,可用于serverless应用的生产环境。这是Azure无服务器平台对最新.NET运行时的跟进支持。 |
| Amazon Aurora DSQL now integrates with Kiro pow… | Amazon - AWS What’s New | 02-19 02:00 | AWS宣布Amazon Aurora DSQL与Kiro powers及AI Agent技能的集成,帮助开发者更快地构建Aurora DSQL支持的应用。… |
| [Launched] Generally Available: Node auto-provi… | Microsoft - Azure 服务更新(含 AI) | 02-19 01:15 | Azure Kubernetes Service (AKS)的节点自动配置功能现已在Azure Government和私有云中正式可用,免除了手动管理计算… |
| Amazon Connect Cases now supports AWS Service Q… | Amazon - AWS What’s New | 02-19 01:00 | Amazon Connect Cases现已支持AWS Service Quotas,管理员可以集中查看限制、监控使用率,并在不遇到意外服务约束的情况下扩… |
| [Launched] Generally Available: Node auto-provi… | Microsoft - Azure 服务更新(含 AI) | 02-19 00:45 | Azure Kubernetes Service (AKS)中使用节点自动配置的集群现在正式支持LocalDNS功能,此前该功能在这些环境中不可用。 |
| [Launched] Generally Available: Encryption at h… | Microsoft - Azure 服务更新(含 AI) | 02-19 00:30 | Azure Kubernetes Service (AKS)节点自动配置现已支持主机加密和磁盘加密集功能,此前有安全要求的用户无法使用节点自动配置。 |
| 5.20.6 | Mistral / Cohere - Cohere Python SDK | 02-18 23:48 | Cohere Python SDK发布5.20.6版本,修复了AWS客户端SigV4签名、强制SageMaker依赖和缺失的embed参数等问题。 |
| Amazon Managed Grafana now supports AWS KMS cus… | Amazon - AWS What’s New | 02-18 23:00 | Amazon Managed Grafana现已支持通过AWS KMS的客户自管密钥(CMK)加密工作区数据,增强了数据安全管控能力。 |
| AWS Clean Rooms announces support for remote Ap… | Amazon - AWS What’s New | 02-18 20:00 | AWS Clean Rooms新增对远程Apache Iceberg REST目录的联邦支持,简化了数据清洁室的设置流程,提供更直接的安全数据访问能力。 |
| Amazon OpenSearch Service expands support for G… | Amazon - AWS What’s New | 02-18 13:30 | Amazon OpenSearch Service扩展了对Graviton4(c8g、m8g和r8g)实例系列的支持,提供了更强的计算性能。 |
| Amazon OpenSearch Service now supports storage … | Amazon - AWS What’s New | 02-18 12:30 | Amazon OpenSearch Service现已支持最新一代x86架构的存储优化i7i实例,基于第五代Intel Xeon处理器,计算性能提升最高23%。 |
| v0.81.0 | Anthropic - anthropic-sdk-python | 02-18 12:00 | Anthropic Python SDK发布v0.81.0版本,新增了顶层工具版本支持等API功能更新。 |
| sdk: v0.76.0 | Anthropic - anthropic-sdk-typescript | 02-18 11:59 | Anthropic TypeScript SDK发布v0.76.0版本,与Python SDK同步,新增了顶层工具版本支持等API功能。 |
| Codex CLI Release: 0.104.0 | OpenAI - OpenAI Developer Changelog | 02-18 08:00 | OpenAI发布Codex CLI 0.104.0版本更新。 |
| Codex CLI Release: 0.104.0 | OpenAI - OpenAI Codex Changelog | 02-18 08:00 | OpenAI Codex CLI发布0.104.0版本(与开发者频道同步发布)。 |
| Amazon EC2 R8i and R8i-flex instances are now a… | Amazon - AWS What’s New | 02-18 07:45 | Amazon EC2 R8i和R8i-flex实例现已在欧洲(爱尔兰)区域可用,采用AWS定制Intel Xeon 6处理器,提供最高性能。 |
| Amazon Bedrock reinforcement fine-tuning adds s… | Amazon - AWS What’s New | 02-18 05:17 | Amazon Bedrock强化微调(RFT)现已支持开放权重模型,包括OpenAI GPT-OSS和Qwen模型,并引入了OpenAI兼容的微调API。… |
| Amazon Aurora MySQL 3.12 (compatible with MySQL… | Amazon - AWS What’s New | 02-18 04:00 | Amazon Aurora MySQL 3.12(兼容MySQL 8.0.44)正式可用,包含多项安全增强和bug修复。 |
| sdk: v0.75.0 | Anthropic - anthropic-sdk-typescript | 02-18 03:26 | Anthropic TypeScript SDK发布v0.75.0版本,新增Claude Sonnet 4.6模型支持的API更新。 |
| v0.80.0 | Anthropic - anthropic-sdk-python | 02-18 03:25 | Anthropic Python SDK发布v0.80.0版本,新增Claude Sonnet 4.6模型支持。 |
| v2.1.45 | Anthropic - Claude Code (GitHub Releases) | 02-18 02:53 | Claude Code发布v2.1.45版本,新增Claude Sonnet 4.6支持、enabledPlugins和extraKnownMarketp… |
| Amazon Connect now includes agent time-off requ… | Amazon - AWS What’s New | 02-18 02:50 | Amazon Connect现已在排班草案中纳入座席请假申请,方便管理者查看座席在特定日期未排班的原因。 |
| JMESPath support comes to azd JSON output | Microsoft - Azure SDK Blog | 02-18 02:19 | Azure SDK博客宣布azd JSON输出现已支持JMESPath查询,包括对错误消息的查询能力。 |
| [Launched] Generally Available: Instant access … | Microsoft - Azure 服务更新(含 AI) | 02-18 01:00 | Azure宣布Premium SSD v2和Ultra Disk增量快照的即时访问功能正式可用,支持创建快照后立即恢复新磁盘。 |
| Amazon Connect now supports multi-line text fie… | Amazon - AWS What’s New | 02-18 01:00 | Amazon Connect现已支持在案例模板上使用多行文本字段,座席可以在案例中直接捕获详细的自由格式备注和结构化数据。 |
| Amazon EC2 C8a instances now available in the E… | Amazon - AWS What’s New | 02-18 01:00 | Amazon EC2 C8a实例现已在欧洲(法兰克福)和欧洲(爱尔兰)区域可用,采用第五代AMD EPYC处理器。 |
| Amazon MSK now supports dual-stack (IPv4 and IP… | Amazon - AWS What’s New | 02-18 00:00 | Amazon MSK现已支持现有MSK Provisioned和MSK Serverless集群的双栈(IPv4和IPv6)连接,便于客户迁移到IPv6。 |
| python - v1.12.3 - 2026-02-17 15:20:08 | Mistral / Cohere - Mistral Python SDK | 02-17 23:43 | Mistral Python SDK发布v1.12.3版本,包含微调任务创建等API变更。 |
| Claude Sonnet 4.6 now available in Amazon Bedrock | Amazon - AWS What’s New | 02-17 23:43 | Claude Sonnet 4.6现已在Amazon Bedrock上可用,提供编程、Agent和专业工作方面的前沿性能。据Anthropic称这是其最佳… |
8. AI 工具/产品
21 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| Use Copilot coding agent with Windows projects | 编程助手 - GitHub Copilot (专属) | 02-19 06:04 | GitHub Copilot编码Agent现已支持Windows项目,用户可以将任务委托给Copilot在后台独立的开发环境中异步执行,由GitHub A… |
| Copilot coding agent supports code referencing | 编程助手 - GitHub Copilot (专属) | 02-19 06:02 | GitHub Copilot编码Agent新增代码引用功能,当Agent生成的代码与公开GitHub仓库中的代码匹配时,将自动标注匹配的代码来源。 |
| v3.65.0 | 编程助手 - Cline (GitHub Releases) | 02-19 04:51 | 编程助手Cline发布v3.65.0版本,新增/skills斜杠命令用于查看和管理已安装的技能,并修复了多个bug,包括上下文压缩过于激进的问题。 |
| v2.4.1-cli: Changeset version bump (#9364) | 编程助手 - Cline (GitHub Releases) | 02-19 04:22 | Cline发布v2.4.1-cli版本,包含版本号变更和CHANGELOG.md格式更新。这是Cline CLI工具的常规维护发布。 |
| V8 Rating Party - Round 3 | 应用产品 - Midjourney | 02-19 04:14 | Midjourney启动V8模型图像评分活动的第三轮。前两轮侧重于学习”坏”的样本,第三轮转向学习”好”的图像标准,邀请用户参与投票评级。 |
| Claude Opus 4.6 is now available in Visual Stud… | 编程助手 - GitHub Copilot (专属) | 02-19 04:05 | Claude Opus 4.6模型现已在Visual Studio、JetBrains IDE、Xcode和Eclipse等主流IDE中通过GitHub … |
| What to expect for open source in 2026 | 编程助手 - GitHub Blog (全站) | 02-19 02:41 | GitHub Blog分析2025年开源数据,展望2026年开源发展趋势。文章通过数据洞察预测开源社区的未来走向。 |
| New in Agent Builder: all new agent chat, file … | 框架/平台 - LangChain | 02-18 23:55 | LangSmith Agent Builder发布重大更新,新增全新的Agent聊天界面、文件上传功能和工具注册表。此次更新旨在让与Agent的协作体验更… |
| We Ralph Wiggumed WebStreams to make them 10x f… | 框架/平台 - Vercel (含 AI SDK) | 02-18 21:00 | Vercel团队通过优化WebStreams实现了10倍性能提升。在分析Next.js服务端渲染的性能火焰图时,发现WebStreams本身的Promis… |
| Redesigned search and filtering for runtime logs | 框架/平台 - Vercel (含 AI SDK) | 02-18 21:00 | Vercel重新设计了运行时日志的搜索和过滤功能,支持结构化过滤器(如level:error或status:500),使日志探索更快速直观。 |
| monday Service + LangSmith: Building a Code-Fir… | 框架/平台 - LangChain | 02-18 16:05 | LangChain介绍了monday Service与LangSmith结合的案例,展示了如何从第一天就建立代码优先的评估策略,用于客户面向的服务Agen… |
| Recraft V4: image generation with design taste | 框架/平台 - Replicate (博客) | 02-18 08:00 | Recraft发布V4版图像生成模型,能生成具有设计品味的艺术指导风格图像,并支持生成可编辑的SVG文件。该模型在构图、精确文字渲染方面表现出色,已在Re… |
| V8 Rating Party! (Round 2) | 应用产品 - Midjourney | 02-18 06:22 | Midjourney邀请用户参与V8模型的第二轮评分活动,本轮重点关注文字生成类提示。用户可访问midjourney.com/rank-v8参与评分,活动… |
| v3.64.0 | 编程助手 - Cline (GitHub Releases) | 02-18 03:33 | Cline发布v3.64.0版本,新增了智谱GLM 5 Free推广支持,并修复了推理过程可见性和思考行UI体验。 |
| v2.4.0-cli: Adding 1m (#9346) | 编程助手 - Cline (GitHub Releases) | 02-18 03:11 | Cline CLI发布v2.4.0版本,新增1M上下文支持。 |
| Securing the AI software supply chain: Security… | 编程助手 - GitHub Blog (全站) | 02-18 03:00 | GitHub安全开源基金发布报告,展示了67个关键AI技术栈开源项目的安全审计结果。报告揭示了如何帮助这些项目加速修复漏洞、强化生态系统并推进开源韧性。 |
| Claude Sonnet 4.6 is now generally available in… | 编程助手 - GitHub Copilot (专属) | 02-18 02:35 | Claude Sonnet 4.6现已在GitHub Copilot中全面可用。在早期测试中,该模型在Agent编程方面表现出色,尤其在搜索任务上成功率极高。 |
| MCP Registry and more improvements in Copilot i… | 编程助手 - GitHub Copilot (专属) | 02-18 02:22 | GitHub Copilot在Eclipse中推出MCP Registry和多项改进,带来更多上下文选项、更流畅的工作流和更好的自定义能力。 |
| Delegate tasks to Copilot coding agent from Vis… | 编程助手 - GitHub Copilot (专属) | 02-18 01:00 | GitHub Copilot编码Agent现已支持从Visual Studio中委派任务。用户可以将任务交给Copilot,它会在云端后台自主工作并打开草… |
| Assign issues to Copilot coding agent from Raycast | 编程助手 - GitHub Copilot (专属) | 02-18 00:59 | GitHub Copilot编码Agent现可通过Raycast分配Issue。用户可将任务委派给Copilot,它在后台自主工作后请求人工审查。 |
| Improving Deep Agents with harness engineering | 框架/平台 - LangChain | 02-18 00:15 | LangChain分享了如何通过harness工程改善Deep Agent的经验:其编程Agent在Terminal Bench 2.0上从Top 30跃… |
9. AI 公司官方博客
2 条
| 标题 | 来源 | 日期 | 摘要 |
|---|---|---|---|
| Introducing OpenAI for India | OpenAI | 02-19 05:00 | OpenAI正式推出”OpenAI for India”计划,全面扩大AI在印度的可及性,涵盖本地基础设施建设、企业赋能和劳动力技能提升三大方向。这是Op… |
| A new way to express yourself: Gemini can now c… | Google DeepMind | 02-19 00:01 | Google DeepMind在Gemini应用中集成最先进的音乐生成模型Lyria 3,用户可以通过文本或图片生成30秒音乐片段。这是Google在AI… |
Generated at 2026-02-19T15:29:52.202Z by RSS Daily AI Digest