RESEARCHarXiv CS.CL·23d atrás

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-JudgeConstrained MLEmodel evaluationFailure Rate Estimation
27
RESEARCHarXiv CS.CL·23d atrás

Evolutionary Search for Automated Design of Uncertainty Quantification Methods

Este artigo explora o uso de busca evolucionária impulsionada por LLMs para desenvolver automaticamente métodos de Quantificação de Incerteza (UQ) não supervisionados. Os métodos evoluídos superam baselines manuais em verificação de alegações, demonstrando generalização robusta e estratégias distintas entre diferentes modelos de LLM.

LLMsuncertainty-quantificationEvolutionary SearchAI research
27
RESEARCHarXiv CS.CL·23d atrás

Text Summarization With Graph Attention Networks

Este estudo explorou o uso de informações de grafos (RST e Co-referência) para sumarização de texto, descobrindo que Redes de Atenção Gráficas não melhoraram o desempenho, enquanto um Perceptron Multicamadas obteve sucesso. Adicionalmente, foi criado um novo benchmark para sumarização baseada em grafos ao anotar o dataset XSum com informações RST.

Graph Attention NetworksRhetorical Structure TheoryMachine LearningNatural Language Processing
27
RESEARCHarXiv CS.AI·23d atrás

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

Este trabalho explora a segmentabilidade do universo no Problema da Cobertura Mínima de Conjuntos (MSCP) para otimizar heurísticas. Propõe uma estratégia de pré-processamento baseada em union-find para decompor instâncias em subproblemas independentes, resolvidos com a metaheurística GRASP.

Otimização CombinatóriaAlgoritmosIANP-hard
27
RESEARCHarXiv CS.CL·23d atrás

Self-Execution Simulation Improves Coding Models

Este trabalho demonstra que LLMs de código podem ser treinados para simular a execução de programas passo a passo, melhorando o desempenho em programação competitiva. A abordagem combina fine-tuning supervisionado e aprendizado por reforço, permitindo que os modelos realizem auto-verificação e correção iterativa.

LLMsReinforcement Learningcode generationprogram execution simulation
28
RESEARCHarXiv CS.AI·23d atrás

To Throw a Stone with Six Birds: On Agents and Agenthood

A Teoria dos Seis Pássaros (SBT) aborda objetos macroscópicos como fechamentos induzidos, e não primitivos, e redefine agência nesse contexto. O artigo propõe uma operacionalização da agência em sistemas controlados, baseada em quatro componentes verificáveis, incluindo um kernel de viabilidade robusto e empoderamento factível.

Sistemas de ControleTeoria de AgênciaAgentes de IAFilosofia da IA
28
RESEARCHarXiv CS.AI·23d atrás

Evaluating Artificial Intelligence Through a Christian Understanding of Human Flourishing

Este conteúdo argumenta que o alinhamento de IA é um problema de formação, não apenas de segurança, pois LLMs atuam como instrumentos de catequese digital que moldam o entendimento humano. É introduzido o Flourishing AI Benchmark (FAI-C-ST) para avaliar modelos de IA contra uma compreensão cristã do florescimento humano, revelando que os sistemas atuais não são neutros, mas aderem a um Secularismo Processual.

AI-alignmentAvaliação de ModelosFilosofia da IAÉtica em IA
28
RESEARCHarXiv CS.AI·23d atrás

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models

Este trabalho explora o potencial de Grandes Modelos de Linguagem (LLMs), como o ChatGPT, e agentes de IA para automação e controle de instrumentação laboratorial. Demonstra-se como essas ferramentas reduzem barreiras de programação e podem evoluir para agentes autônomos capazes de operar equipamentos científicos e refinar estratégias de controle.

LLMsChatGPTInstrumentation Controllarge language models
28
RESEARCHarXiv CS.AI·23d atrás

VERT: Reliable LLM Judges for Radiology Report Evaluation

O artigo propõe VERT, uma nova métrica baseada em LLM para avaliação de relatórios radiológicos. Ele compara VERT com métricas existentes em diversos modelos e datasets, analisando sua correlação com avaliações de especialistas para determinar as melhores configurações de LLM para juízes em radiologia.

Modelos de Linguagem GrandesIARadiologiaAvaliação de Modelos
28
RESEARCHarXiv CS.AI·23d atrás

Hume's Representational Conditions for Causal Judgment: What Bayesian Formalization Abstracted Away

O artigo explora as condições representacionais de Hume para o juízo causal e argumenta que frameworks modernos de IA, como a epistemologia Bayesiana e modelos de linguagem grandes, abstraem essas condições. Ele demonstra como, embora preservem a estrutura de atualização, falham em satisfazer requisitos fundamentais da psicologia causal de Hume, destacando lacunas na IA atual.

Epistemologia BayesianaProcessamento PreditivoHumeCausalidade
28
RESEARCHarXiv CS.AI·23d atrás

Beyond Predefined Schemas: TRACE-KG for Context-Enriched Knowledge Graphs from Complex Documents

TRACE-KG é um framework multimodal que constrói grafos de conhecimento enriquecidos por contexto e um esquema induzido, superando limitações de métodos baseados em ontologias ou esquemas livres. Ele organiza entidades e relações usando um esquema guiado por dados, mantendo a rastreabilidade e capturando relações condicionais.

multimodal AIschema inductionKnowledge Graphsdocument understanding
29
RESEARCHarXiv CS.AI·23d atrás

Explainable Model Routing for Agentic Workflows

Este conteúdo descreve o Topaz, um framework para roteamento auditável em fluxos de trabalho de agentes de IA. Ele visa resolver a falta de transparência na seleção de modelos, que atualmente prioriza custo e desempenho sem registrar as compensações subjacentes, utilizando perfis de habilidades e algoritmos de roteamento rastreáveis.

model routingAgentic Workflowsexplainable AI
28
RESEARCHarXiv CS.CL·23d atrás

LPC-SM: Local Predictive Coding and Sparse Memory for Long-Context Language Modeling

Este artigo propõe LPC-SM, uma arquitetura híbrida autorregressiva para modelos de linguagem de contexto longo, que separa atenção local, memória persistente, correção preditiva e controle em tempo de execução. O modelo de 158M parâmetros é avaliado, demonstrando melhorias na perda de LM e estabilidade em sequências longas.

neural networkslanguage modelsLong Contextattention mechanisms
28
RESEARCHarXiv CS.AI·23d atrás

Contextual Control without Memory Growth in a Context-Switching Task

Este artigo propõe uma nova arquitetura recorrente baseada em intervenção para lidar com a tomada de decisões sequenciais dependentes de contexto, sem a necessidade de aumentar a dimensionalidade da memória recorrente. O método atua intervindo em um estado latente recorrente compartilhado, utilizando um operador aditivo indexado por contexto.

Estados LatentesAprendizado por ReforçoRedes RecorrentesInteligência Artificial
28
RESEARCHarXiv CS.CL·23d atrás

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

SparsityLow-Rank DecompositionLLM compressionlarge language models
27
RESEARCHarXiv CS.CL·23d atrás

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

Noise SteeringNLP Diversitytext generationTransformer Models
27
RESEARCHarXiv CS.CL·23d atrás

MultiPress: A Multi-Agent Framework for Interpretable Multimodal News Classification

Este artigo propõe o MultiPress, uma estrutura inovadora de múltiplos agentes em três estágios para a classificação de notícias multimodais, visando superar as limitações de métodos existentes na compreensão de dados heterogêneos como texto e imagens. A pesquisa integra agentes especializados para percepção, raciocínio aumentado por recuperação e fusão, demonstrando melhorias significativas em um novo conjunto de dados em grande escala.

news classificationdeep learningmultimodal classificationMulti-Agent Systems
27
RESEARCHarXiv CS.CL·23d atrás

Towards a theory of morphology-driven marking in the lexicon: The case of the state

Este artigo explora variações na realização de substantivos em diferentes idiomas, propondo um modelo formal de marcação impulsionada pela morfologia. O modelo organiza substantivos em conjuntos cognitivos modulares para explicar diferenças de marcação e reavalia os conceitos de marcação e estado dentro das funções sintáticas.

morphologysyntaxnoun categorieslexicon
15
ARTICLETogether AI Blog·23d atrás

What is an AI Native Cloud?

Empresas nativas de IA exigem infraestrutura otimizada para modelos, e não para cargas de trabalho legadas. Este conteúdo explica o que define uma Nuvem Nativa de IA e sua importância para a próxima grande mudança de plataforma tecnológica.

AI modelsAI Native CloudPlatform Shiftenterprise-ai
26
ARTICLEDEV.to AI·23d atrás

Я продал AI-услуги на 500к. Вот что реально убедило клиентов

O autor compartilha sua experiência vendendo serviços de IA, destacando que o sucesso veio ao mostrar resultados concretos de negócios (como aumento de conversão e redução de custos) em vez de focar em detalhes técnicos. Ele enfatiza que clientes pagam pelo impacto no negócio, não pela ferramenta em si.

resultados de negóciosestratégia de clientesImpacto nos Negóciosvendas de IA
24
←1…304305306307308…317→
Sobre·[email protected]
⌘K
NVDA-1.84%GOOGL+0.05%MSFT-1.12%META-0.33%AMZN+1.29%AMD+4.30%ORCL-1.28%PLTR-2.27%