notch

RAGknowledge-baseFine-TuningLLM

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

Este estudo avalia metodologias de Large Language Models (LLM) – Fine-Tuning, RAG e uma abordagem Híbrida – para construir uma base de conhecimento de Análise de Causa Raiz (RCA) a partir de tickets de suporte. Os experimentos com um conjunto de dados industrial real demonstram que a base de conhecimento gerada acelera as tarefas de RCA e melhora a resiliência da rede.

diffusion modelssearch-algorithmslanguage modelsinference

$S^3$: Stratified Scaling Search for Test-Time in Diffusion Language Models

O trabalho propõe $S^3$ (Stratified Scaling Search), um método de busca guiado por verificador para melhorar a qualidade de geração em modelos de linguagem de difusão durante o tempo de inferência. Ele realoca a computação no processo de denoising, avaliando e reamostrando seletivamente candidatos promissores para favorecer saídas de maior qualidade.

Distributional InformationReading ComprehensionLLMsbenchmarking

Beyond Facts: Benchmarking Distributional Reading Comprehension in Large Language Models

Este artigo introduz o Text2DistBench, um novo benchmark para avaliar a capacidade de LLMs inferirem conhecimento distribucional a partir de linguagem natural. Diferente dos benchmarks tradicionais, ele foca em tarefas do mundo real, como estimar proporções de sentimentos ou identificar tópicos frequentes em coleções de texto como comentários do YouTube.

sequence generationReinforcement Learningdata compressionprobabilistic models

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

Este artigo apresenta Probabilistic Language Tries (PLTs), uma representação unificada que explicita a estrutura de prefixo de qualquer modelo generativo sobre sequências. PLTs atuam como compressor lossless ideal, representação de política para problemas de decisão sequencial (como jogos e robótica) e índice de memoização para reuso de execução, com um teorema chave sobre caching guiado por prior.

LLMsReinforcement Learningreasoningevaluation metrics

RAGEN-2: Reasoning Collapse in Agentic RL

Este estudo introduz o conceito de 'colapso de template', uma falha em agentes LLM de múltiplas interações onde a resposta se torna agnóstica à entrada, mesmo com entropia estável. Propõe a Informação Mútua (MI) como uma métrica superior à entropia para diagnosticar a qualidade do raciocínio, correlacionando-se mais fortemente com o desempenho final.

LLMsmodel evaluationuncertainty-quantificationreasoning

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

deterministic AILLM applicationsinterpretabilityAI reliability

SymptomWise: A Deterministic Reasoning Layer for Reliable and Efficient AI Systems

SymptomWise é um framework que aprimora a análise de sintomas por IA, separando a compreensão da linguagem do raciocínio diagnóstico para aumentar a confiabilidade e rastreabilidade. Ele utiliza conhecimento médico especializado e inferência determinística, empregando LLMs apenas para extração de sintomas e explicações, não para o diagnóstico em si.

arXiv CS.LG·21d atrás

Spectral Edge Dynamics Reveal Functional Modes of Learning

LLMsTurkic languagesCross-lingual transferParameter-efficient adaptation

Cross-Lingual Transfer and Parameter-Efficient Adaptation in the Turkic Language Family: A Theoretical Framework for Low-Resource Language Models

Este artigo propõe um arcabouço teórico para estudar a transferência interlinguística e a adaptação eficiente de parâmetros em LLMs multilingues para a família de línguas túrquicas. Ele busca abordar a sub-representação de línguas de baixos recursos nesses modelos, como azerbaijano, cazaque, uzbeque, turcomeno e gagauz.

LLMsQuestion AnsweringconsistencyNLP

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Este conteúdo apresenta CGD-PD, uma camada leve para modelos de linguagem grandes (LLMs) que melhora a resposta a perguntas lógicas de três vias (Verdadeiro/Falso/Desconhecido). Ele aborda falhas recorrentes como inconsistência de negação e previsões 'Desconhecido' epistêmicas, utilizando decisões consistentes e desambiguação baseada em prova para maior precisão.

Monte CarloComputational ComplexityGame TheoryShogi

High-Precision Estimation of the State-Space Complexity of Shogi via the Monte Carlo Method

Este artigo estima com alta precisão a complexidade do espaço de estados do jogo Shogi (xadrez japonês), um problema desafiador. Utilizando o método Monte Carlo e uma nova busca reversa, os autores estimam o número de posições legais em $6.55 \times 10^{68}$.

anomaly detectionMachine Learningtensor networksfeature embedding

SMT-AD: a scalable quantum-inspired anomaly detection approach

SMT-AD é uma nova abordagem inspirada em computação quântica para detecção de anomalias, utilizando redes de tensores e embedding de características assistido por Fourier. O método se mostrou eficaz em datasets padrão, como transações de cartão de crédito, alcançando performance competitiva mesmo com configurações mínimas.

DiabetesSaúdeProcessamento de Linguagem NaturalSéries Temporais

Temporally Phenotyping GLP-1RA Case Reports with Large Language Models: A Textual Time Series Corpus and Risk Modeling

Este estudo desenvolveu um corpus de séries temporais textuais a partir de relatórios de casos de diabetes tipo 2 para extrair cronogramas clínicos complexos com LLMs. O GPT5 demonstrou alta eficácia na recuperação de eventos e sequenciamento temporal, com aplicações que sugerem redução do risco de sequelas respiratórias entre usuários de GLP-1.

Cross-lingual code generationPEFTLoRALLM fine-tuning

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Este artigo investiga a geração de código cross-lingual, focando em métodos de fine-tuning paramétrico-eficiente (PEFT) e otimizadores para LLMs. Os autores demonstram que o fine-tuning LoRA no Code Llama 7B, com um dataset pequeno de alta qualidade, pode superar o desempenho de modelos mais amplamente fine-tuned, e que otimizadores como Sophia oferecem convergência mais rápida com resultados finais comparáveis.

Multiple MyelomaMulti-OmicsVariational AutoencoderAI

MO-RiskVAE: A Multi-Omics Variational Autoencoder for Survival Risk Modeling in Multiple MyelomaMO-RiskVAE

Este trabalho explora autoencoders variacionais multimodais para modelagem de risco de sobrevivência no mieloma múltiplo, integrando dados ômicos e clínicos. A pesquisa investiga como escolhas no design do espaço latente afetam a preservação de variações prognósticas relevantes em treinamentos supervisionados por sobrevivência.

Depression DetectionPrimary CareMachine LearningNLP

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Esta pesquisa explora a detecção automatizada de depressão em consultas de atenção primária, analisando sinais linguísticos de áudios gravados. O estudo compara modelos de IA como GPT-OSS, Sentence-BERT e LIWC+LR, destacando o melhor desempenho do GPT-OSS e a importância das transcrições conjuntas entre médico e paciente.

information-theoryLLMsMachine Learningreasoning

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Este artigo investiga a correlação entre a dinâmica interna de entropia e o raciocínio correto em Large Language Models (LLMs), um enigma ainda sem solução. Propõe a Hipótese de Informatividade Gradual (SIA), que afirma que os modelos raciocinam corretamente ao acumular informações relevantes sobre a resposta por meio de prefixos informativos, um processo reforçado por métodos de treinamento padrão.

Personalizationmultimodal AImobile sensorspersona extraction

SensorPersona: An LLM-Empowered System for Continual Persona Extraction from Longitudinal Mobile Sensor Streams

SensorPersona é um sistema baseado em LLM que infere continuamente personas de usuários a partir de dados multimodais coletados de forma discreta de sensores móveis. Ele aprofunda a personalização ao extrair padrões físicos, traços psicossociais e experiências de vida, superando as limitações da inferência baseada apenas em histórico de chat.