RESEARCHarXiv CS.CL·21d atrás

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucinationAbstention Architectureslarge language modelsAI safety
27
RESEARCHarXiv CS.CL·21d atrás

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Este estudo avalia metodologias de Large Language Models (LLM) – Fine-Tuning, RAG e uma abordagem Híbrida – para construir uma base de conhecimento de Análise de Causa Raiz (RCA) a partir de tickets de suporte. Os experimentos com um conjunto de dados industrial real demonstram que a base de conhecimento gerada acelera as tarefas de RCA e melhora a resiliência da rede.

RAGknowledge-baseFine-TuningLLM
27
RESEARCHarXiv CS.LG·21d atrás

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

diffusion modelssearch-algorithmslanguage modelsinference
27
RESEARCHarXiv CS.CL·21d atrás

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

Distributional InformationReading ComprehensionLLMsbenchmarking
27
RESEARCHarXiv CS.LG·21d atrás

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

sequence generationReinforcement Learningdata compressionprobabilistic models
27
RESEARCHarXiv CS.LG·21d atrás

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMsReinforcement Learningreasoningevaluation metrics
27
RESEARCHarXiv CS.AI·21d atrás

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMsmodel evaluationuncertainty-quantificationreasoning
27
RESEARCHarXiv CS.AI·21d atrás

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

deterministic AILLM applicationsinterpretabilityAI reliability
27
arXiv CS.LG·21d atrás

Spectral Edge Dynamics Reveal Functional Modes of Learning

15
RESEARCHarXiv CS.CL·21d atrás

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

LLMsTurkic languagesCross-lingual transferParameter-efficient adaptation
27
RESEARCHarXiv CS.CL·21d atrás

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

LLMsQuestion AnsweringconsistencyNLP
29
RESEARCHarXiv CS.AI·21d atrás

High-Precision Estimation of the State-Space Complexity of Shogi via the Monte Carlo Method

Este artigo estima com alta precisão a complexidade do espaço de estados do jogo Shogi (xadrez japonês), um problema desafiador. Utilizando o método Monte Carlo e uma nova busca reversa, os autores estimam o número de posições legais em $6.55 \times 10^{68}$.

Monte CarloComputational ComplexityGame TheoryShogi
27
RESEARCHarXiv CS.LG·21d atrás

SMT-AD: a scalable quantum-inspired anomaly detection approach

SMT-AD é uma nova abordagem inspirada em computação quântica para detecção de anomalias, utilizando redes de tensores e embedding de características assistido por Fourier. O método se mostrou eficaz em datasets padrão, como transações de cartão de crédito, alcançando performance competitiva mesmo com configurações mínimas.

anomaly detectionMachine Learningtensor networksfeature embedding
27
RESEARCHarXiv CS.CL·21d atrás

Temporally Phenotyping GLP-1RA Case Reports with Large Language Models: A Textual Time Series Corpus and Risk Modeling

Este estudo desenvolveu um corpus de séries temporais textuais a partir de relatórios de casos de diabetes tipo 2 para extrair cronogramas clínicos complexos com LLMs. O GPT5 demonstrou alta eficácia na recuperação de eventos e sequenciamento temporal, com aplicações que sugerem redução do risco de sequelas respiratórias entre usuários de GLP-1.

DiabetesSaúdeProcessamento de Linguagem NaturalSéries Temporais
27
RESEARCHarXiv CS.LG·21d atrás

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Este artigo investiga a geração de código cross-lingual, focando em métodos de fine-tuning paramétrico-eficiente (PEFT) e otimizadores para LLMs. Os autores demonstram que o fine-tuning LoRA no Code Llama 7B, com um dataset pequeno de alta qualidade, pode superar o desempenho de modelos mais amplamente fine-tuned, e que otimizadores como Sophia oferecem convergência mais rápida com resultados finais comparáveis.

Cross-lingual code generationPEFTLoRALLM fine-tuning
30
RESEARCHarXiv CS.LG·21d atrás

MO-RiskVAE: A Multi-Omics Variational Autoencoder for Survival Risk Modeling in Multiple MyelomaMO-RiskVAE

Este trabalho explora autoencoders variacionais multimodais para modelagem de risco de sobrevivência no mieloma múltiplo, integrando dados ômicos e clínicos. A pesquisa investiga como escolhas no design do espaço latente afetam a preservação de variações prognósticas relevantes em treinamentos supervisionados por sobrevivência.

Multiple MyelomaMulti-OmicsVariational AutoencoderAI
28
RESEARCHarXiv CS.CL·21d atrás

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Esta pesquisa explora a detecção automatizada de depressão em consultas de atenção primária, analisando sinais linguísticos de áudios gravados. O estudo compara modelos de IA como GPT-OSS, Sentence-BERT e LIWC+LR, destacando o melhor desempenho do GPT-OSS e a importância das transcrições conjuntas entre médico e paciente.

Depression DetectionPrimary CareMachine LearningNLP
28
RESEARCHarXiv CS.CL·21d atrás

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

information-theoryLLMsMachine Learningreasoning
28
RESEARCHarXiv CS.CL·21d atrás

SensorPersona: An LLM-Empowered System for Continual Persona Extraction from Longitudinal Mobile Sensor Streams

SensorPersona é um sistema baseado em LLM que infere continuamente personas de usuários a partir de dados multimodais coletados de forma discreta de sensores móveis. Ele aprofunda a personalização ao extrair padrões físicos, traços psicossociais e experiências de vida, superando as limitações da inferência baseada apenas em histórico de chat.

Personalizationmultimodal AImobile sensorspersona extraction
28
RESEARCHarXiv CS.AI·21d atrás

Weakly Supervised Distillation of Hallucination Signals into Transformer Representations

Este artigo propõe um novo método para detecção de alucinações em LLMs, destilando sinais de supervisão externa diretamente nas representações internas do modelo durante o treinamento. Para isso, introduz um framework de supervisão fraca que combina correspondência de substrings, similaridade de embeddings e um LLM como juiz, culminando na criação de um dataset de 15.000 amostras para este propósito.

Transformer RepresentationsHallucination DetectionLLMsMachine Learning
28
←1…286287288289290…317→
Sobre·[email protected]
⌘K
NVDA-4.13%GOOGL+9.30%MSFT-3.77%META-7.95%AMZN+1.15%AMD+4.80%ORCL-1.26%PLTR+0.94%