RESEARCHarXiv CS.LG·3d atrás

Kernel Contracts: A Specification Language for ML Kernel Correctness Across Heterogeneous Silicon

Esta pesquisa propõe uma linguagem de especificação para contratos de kernel de ML, visando definir formalmente seu comportamento esperado em plataformas de silício heterogêneas. Ela introduz uma estrutura de contrato de oito partes e doze classes de contrato para arbitrar disputas decorrentes de precisão, ordenação ou outros modos de falha.

Machine Learningverificationsoftware engineering
40
RESEARCHarXiv CS.CL·3d atrás

Shared Lexical Task Representations Explain Behavioral Variability In LLMs

Esta pesquisa investiga a sensibilidade de prompts em LLMs, comparando estilos baseados em instruções e exemplos. Descobre-se que, apesar da variação no desempenho, os LLMs compartilham mecanismos subjacentes comuns, como "lexical task heads" que descrevem a tarefa e disparam a produção de respostas.

model interpretabilityLLMsprompt-engineeringattention mechanisms
51
RESEARCHarXiv CS.CL·3d atrás

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Este artigo apresenta um sistema eficiente de Geração Aumentada por Recuperação (RAG) para perguntas e respostas em documentos ucranianos, que obteve o 2º lugar na UNLP 2026 Shared Task. Ele emprega uma busca híbrida personalizada e um modelo de linguagem ucraniano otimizado e comprimido para implantação local em hardware com recursos limitados, mantendo alta qualidade.

Ukrainian languageRAGNatural Language Processinglocal AI
46
RESEARCHarXiv CS.CL·3d atrás

Where Should LoRA Go? Component-Type Placement in Hybrid Language Models

Esta pesquisa investiga sistematicamente a colocação de LoRA em modelos de linguagem híbridos que combinam atenção e componentes recorrentes. O estudo revela que adaptar o caminho da atenção supera consistentemente a adaptação do modelo completo com menos parâmetros, e o impacto da adaptação do componente recorrente difere significativamente entre arquiteturas híbridas sequenciais e paralelas.

hybrid language modelsmodel adaptationattention mechanismsrecurrent neural networks
46
RESEARCHarXiv CS.AI·3d atrás

An Artifact-based Agent Framework for Adaptive and Reproducible Medical Image Processing

Esta pesquisa apresenta uma estrutura de agente baseada em artefatos para aprimorar o processamento de imagens médicas, com foco em adaptabilidade e reprodutibilidade. O framework introduz uma camada semântica e um contrato de artefato para permitir a interrogação estruturada do fluxo de trabalho e a configuração condicionada por objetivos, atendendo às condições específicas do conjunto de dados.

workflow automationMachine LearningreproducibilityMedical Imaging
46
RESEARCHarXiv CS.AI·3d atrás

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Este trabalho apresenta um sistema de reprodução agentic que utiliza LLMs para replicar resultados de pesquisa em ciências sociais, partindo apenas da descrição dos métodos de um artigo e dos dados originais. O sistema avalia a capacidade de diferentes agentes e LLMs em 48 artigos, revelando que os resultados publicados podem ser recuperados, mas com variação de desempenho e erros atribuíveis a falhas do agente.

scientific methodssocial science researchLLM agentsreproducibility
46
RESEARCHarXiv CS.AI·3d atrás

MolClaw: An Autonomous Agent with Hierarchical Skills for Drug Molecule Evaluation, Screening, and Optimization

MolClaw é um agente autônomo de IA para avaliação, triagem e otimização de moléculas de medicamentos. Ele utiliza uma arquitetura de habilidades hierárquica de três níveis, integrando mais de 30 ferramentas especializadas, e introduz o MolBench, um novo benchmark para este domínio.

Drug Discoveryautonomous agentsAI
46
RESEARCHarXiv CS.AI·3d atrás

When Does LLM Self-Correction Help? A Control-Theoretic Markov Diagnostic and Verify-First Intervention

Esta pesquisa enquadra a autocorreção de LLMs como um ciclo de feedback cibernético, usando um modelo de Markov de dois estados para determinar quando o refinamento iterativo ajuda ou prejudica. Ela identifica um limiar crítico de EIR (<= 0,5%) que separa a autocorreção benéfica da prejudicial, mostrando que apenas alguns modelos melhoram, enquanto outros como o GPT-5 degradam.

LLMsself-correctionbenchmarkingAI agents
46
RESEARCHarXiv CS.LG·3d atrás

Focus Session: Hardware and Software Techniques for Accelerating Multimodal Foundation Models

Esta pesquisa apresenta uma metodologia multicamadas para acelerar modelos de fundação multimodais (MFMs) através de co-design de hardware e software. Ela emprega técnicas de otimização como quantização de precisão mista, poda estrutural e decodificação especulativa para reduzir os requisitos computacionais e de memória.

optimizationmultimodal AIAI-accelerationFoundation Models
46
RESEARCHarXiv CS.LG·3d atrás

Conditional anomaly detection using soft harmonic functions: An application to clinical alerting

Este artigo propõe um novo método não-paramétrico para detecção condicional de anomalias, usando funções harmônicas suaves. Ele visa identificar respostas incomuns em dados clínicos, como a omissão de testes laboratoriais, demonstrando sua eficácia em registros eletrônicos de saúde.

anomaly detectionMachine Learninghealthcare-aiclinical alerting
46
RESEARCHarXiv CS.LG·3d atrás

Mochi: Aligning Pre-training and Inference for Efficient Graph Foundation Models via Meta-Learning

Mochi é um Modelo de Fundação Gráfica que melhora a eficiência e unificação de tarefas através de uma estrutura de treinamento baseada em meta-aprendizagem. Ele realiza o pré-treinamento com episódios few-shot que espelham a avaliação downstream, superando as limitações dos métodos tradicionais e alcançando desempenho competitivo.

Meta-learningModel AlignmentGraph Neural NetworksFoundation Models
46
RESEARCHarXiv CS.LG·3d atrás

Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning

Este estudo investiga a necessidade de tokens de memória aprendidos como bloco de rascunho computacional para Universal Transformers com Adaptive Computation Time (ACT) em um benchmark de raciocínio combinatório. Ele conclui que os tokens de memória são empiricamente necessários para um desempenho não trivial e identifica um limite inferior acentuado para a contagem ótima e uma armadilha comum de inicialização do roteador.

neural networksdeep learningmemoryreasoning
46
RESEARCHarXiv CS.LG·3d atrás

LTBs-KAN: Linear-Time B-splines Kolmogorov-Arnold Networks

LTBs-KAN é uma nova arquitetura de rede neural que aborda a lentidão das KANs tradicionais, oferecendo complexidade linear e redução de parâmetros. A pesquisa demonstra melhorias significativas na eficiência computacional e redução de parâmetros em datasets como MNIST, Fashion-MNIST e CIFAR-10.

neural networksB-splinesdeep learningcomputational efficiency
46
RESEARCHarXiv CS.LG·3d atrás

LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs

LayerBoost propõe uma otimização para LLMs, modificando seletivamente o mecanismo de atenção com base na sensibilidade de cada camada do transformer. Isso visa reduzir a complexidade quadrática do softmax attention, um grande gargalo para a inferência eficiente, sem comprometer significativamente a qualidade do modelo.

LLMsAI optimizationattention mechanismsTransformers
46
ARTICLEDEV.to AI·3d atrás

Grok Imagine on Flaq AI: A Practical Look at xAI’s Visual Generation API

Grok Imagine na Flaq AI é apresentado como uma API prática de geração de imagens, projetada para criação visual rápida e flexível. Ela se integra a fluxos de trabalho de produção, permitindo que equipes gerem resultados confiáveis para aplicativos e campanhas.

xAIimage generationAPIAI tools
36
ARTICLEDEV.to AI·3d atrás

How I built an AI-first No-Code engine that actually understands your data schema

Zenku é um motor No-Code de código aberto e AI-first que usa uma arquitetura multiagente para construir e evoluir aplicações de dados empresariais. Ele vai além da simples geração de código, entendendo e criando dinamicamente esquemas de banco de dados, UIs e lógica de negócios através de conversas em linguagem natural.

No-code/Low-codeSoftware architectureApplication developmentMulti-Agent Systems
40
ARTICLEDEV.to AI·3d atrás

AI agents have no identity — we built the open registry that gives them one

Provenance é um registro e protocolo aberto que visa resolver a falta de identidade padrão para agentes de IA. Ele permite que as plataformas verifiquem a identidade e as capacidades de um agente antes de despachar o trabalho, melhorando a segurança e a confiança nas interações entre agentes.

identity managementsecurityprotocolAI agents
40
CASEDEV.to AI·3d atrás

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Este conteúdo detalha a construção de um sistema de agente de IA autônomo 24/7 em um VPS de $6/mês, utilizando OpenClaw e DeepSeek V4 Pro. Ele automatiza publicações em redes sociais, artigos e gestão de e-commerce, demonstrando grande economia de custos.

open-sourcecloud-computingCost Optimizationautomation
40
ARTICLEDEV.to AI·3d atrás

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

Este conteúdo explora o crescimento e a transformação sem precedentes no cenário da IA, destacando grandes investimentos em tecnologia e a integração da IA no desenvolvimento de software. Ele também aborda considerações críticas de segurança, dinâmicas de mercado e estratégias globais que moldam o futuro da inteligência artificial.

Software Developmentmarket trendsAI ethicsAI investment
40
ARTICLE↑ trendingReddit r/LocalLLaMA·3d atrás

Anthropic's Claude remote uses GLM-4.7

Um usuário descobriu que o ambiente de código remoto do Claude da Anthropic usa o modelo GLM-4.7 por padrão, e não um modelo proprietário da Anthropic. Essa observação levanta questões sobre o uso de modelos de código aberto por empresas de IA que possuem seus próprios modelos.

AI modelsAnthropiclarge language models
56
←1…1920212223…317→
Sobre·[email protected]
⌘K
NVDA-1.84%GOOGL+0.05%MSFT-1.12%META-0.33%AMZN+1.29%AMD+4.30%ORCL-1.28%PLTR-2.27%