RESEARCHarXiv CS.CL·24d atrás

Train Yourself as an LLM: Exploring Effects of AI Literacy on Persuasion via Role-playing LLM Training

Este estudo apresenta o LLMimic, um tutorial gamificado e interativo que permite aos participantes simular o treinamento de um LLM para aumentar a alfabetização em IA. A pesquisa avalia como essa intervenção proativa mitiga a persuasão por IA em cenários realistas, como doações ou recomendações, em comparação com um grupo de controle.

human-computer interactionrole-playinggamificationAI Training
27
RESEARCHarXiv CS.CL·24d atrás

An Empirical Study of Many-Shot In-Context Learning for Machine Translation of Low-Resource Languages

Este estudo empírico investiga o aprendizado em contexto (ICL) de muitos exemplos para tradução automática de inglês para dez idiomas de baixo recurso. Os achados mostram que o ICL se torna mais eficaz com o aumento do número de exemplos, e a recuperação baseada em BM25 melhora substancialmente a eficiência dos dados.

LLMsMany-Shot LearningNLPmachine-translation
27
RESEARCHarXiv CS.LG·24d atrás

LLM Reasoning with Process Rewards for Outcome-Guided Steps

Este conteúdo apresenta o PROGRS, um framework para melhorar o raciocínio matemático em LLMs, combinando modelos de recompensa de processo (PRMs) com a priorização da correção do resultado final. Ele busca resolver o problema de PRMs que podem recompensar raciocínios intermediários fluentes, mas que levam a respostas incorretas, otimizando o aprendizado com feedback mais alinhado.

mathematical reasoningProcess RewardsReinforcement LearningAI
27
RESEARCHarXiv CS.LG·24d atrás

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

FTimeXer é um Transformer de séries temporais com consciência de frequência proposto para previsão robusta da pegada de carbono da rede elétrica. Ele aborda a não-estacionariedade e entradas exógenas irregulares através de uma ramificação de frequência baseada em FFT e um esquema de treinamento robusto.

Dados ExógenosPegada de CarbonoMachine LearningIA
27
RESEARCHarXiv CS.AI·24d atrás

A Comprehensive Framework for Long-Term Resiliency Investment Planning under Extreme Weather Uncertainty for Electric Utilities

Este conteúdo propõe um arcabouço abrangente para o planejamento de investimentos de longo prazo em resiliência para concessionárias de energia elétrica. Ele aborda a gestão da incerteza de eventos climáticos extremos, provavelmente utilizando métodos avançados de IA para otimização e tomada de decisão.

climate-changeEnergy ResilienceInvestment Optimizationrisk management
26
RESEARCHarXiv CS.AI·24d atrás

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Este conteúdo descreve o projeto GrandCode, uma iniciativa de inteligência artificial que visa alcançar o nível de grandmaster em programação competitiva. Para isso, o sistema utiliza uma abordagem de aprendizado por reforço agêntico.

Reinforcement LearningGrandmaster AIcompetitive programmingagentic AI
25
RESEARCHarXiv CS.LG·24d atrás

From Broad Exploration to Stable Synthesis: Entropy-Guided Optimization for Autoregressive Image Generation

O artigo analisa a interação entre Chain-of-Thought (CoT) e Reinforcement Learning (RL) na geração de imagens a partir de texto (T2I) usando uma análise sistemática baseada em entropia. Ele revela que menor entropia dos tokens de imagem e do CoT textual se correlaciona com melhor qualidade de imagem, propondo a estratégia Entropy-Guided Group Relative Policy Optimization (EG-GRPO) para otimização com base na incerteza.

optimizationdeep learningReinforcement LearningText-to-Image Generation
28
RESEARCHarXiv CS.CL·24d atrás

Principled and Scalable Diversity-Aware Retrieval via Cardinality-Constrained Binary Quadratic Programming

Este trabalho propõe uma formulação rigorosa para a recuperação consciente da diversidade em Geração Aumentada por Recuperação (RAG), abordando a falta de garantias teóricas e escalabilidade dos métodos existentes. A solução utiliza programação quadrática binária com restrição de cardinalidade (CCBQP) e um algoritmo baseado em Frank-Wolfe, demonstrando desempenho superior na fronteira de Pareto de relevância-diversidade e maior velocidade.

Retrieval-Augmented GenerationscalabilityDiversity-aware RetrievalBinary Quadratic Programming
28
RESEARCHarXiv CS.CL·24d atrás

Pragmatics Meets Culture: Culturally-adapted Artwork Description Generation and Evaluation

Este artigo apresenta a tarefa de geração de descrições de arte culturalmente adaptadas para combater o viés cultural em modelos de linguagem na geração de texto aberto. Ele propõe um framework de avaliação baseado em perguntas e respostas culturalmente fundamentadas, mostrando que um modelo de locutor pragmático melhora significativamente a compreensão do ouvinte.

Art Descriptionlanguage modelsEvaluationPragmatics
28
RESEARCHarXiv CS.LG·24d atrás

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models

Este trabalho explora o agendamento de modelos para acelerar os Modelos de Linguagem de Difusão Mascarada (MDLMs), substituindo o modelo completo por um menor em certas etapas de denoising. A pesquisa mostra que as etapas iniciais e finais são mais robustas a essa substituição, permitindo uma redução de até 17% nos FLOPs com degradação mínima na perplexidade generativa.

diffusion modelslanguage modelscomputational efficiencydenoising
28
RESEARCHarXiv CS.AI·24d atrás

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Holos é um sistema multiagente baseado em LLM projetado para operar em escala web, visando a 'Web Agêntica'.

ResearchWeb-Scale AIAI systemsagentic AI
3
RESEARCHarXiv CS.AI·24d atrás

Compositional Neuro-Symbolic Reasoning

O título refere-se à pesquisa sobre raciocínio neuro-simbólico composicional, uma área avançada da inteligência artificial. Este campo explora a integração de redes neurais com sistemas simbólicos para permitir raciocínio mais robusto e estruturado.

CompositionalityreasoningNeuro-symbolic AI
27
RESEARCHarXiv CS.AI·24d atrás

Competency Questions as Executable Plans: a Controlled RAG Architecture for Cultural Heritage Storytelling

Este conteúdo apresenta uma arquitetura RAG (Retrieval Augmented Generation) controlada que utiliza perguntas de competência como planos executáveis. O objetivo é aplicar essa metodologia para a criação de narrativas no campo do patrimônio cultural.

Cultural HeritageStorytellingNatural Language ProcessingAI
27
RESEARCHarXiv CS.CL·24d atrás

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

linguistic biasstereotypingLLM biastask-dependent bias
27
RESEARCHarXiv CS.LG·24d atrás

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

O LiME (Lightweight Mixture of Experts) propõe uma nova abordagem para MoE-PEFT, utilizando modulação leve de um único módulo PEFT compartilhado em vez de adaptadores separados por especialista. Isso reduz significativamente os parâmetros, introduz roteamento de parâmetros zero e generaliza para qualquer método PEFT, superando as limitações de escalabilidade e aplicabilidade.

multi-task learningmodel efficiencyDeep Learning ArchitecturesMixture-of-Experts
27
RESEARCHarXiv CS.CL·24d atrás

Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework

O artigo discute as limitações das avaliações atuais de sistemas RAG (Retrieval-Augmented Generation) em ambientes corporativos, que não diagnosticam sistematicamente os desafios complexos além da precisão final. Para suprir essa lacuna, a pesquisa propõe um framework de diagnóstico multi-dimensional e um benchmark para RAG empresarial, baseado em uma taxonomia de dificuldade de quatro eixos.

Evaluationdiagnostic frameworkRAGbenchmark
27
RESEARCHarXiv CS.CL·24d atrás

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

counterfactual promptingcomputational linguisticsycophancylarge language models
27
RESEARCHarXiv CS.AI·24d atrás

Interpretable Deep Reinforcement Learning for Element-level Bridge Life-cycle Optimization

O artigo aborda a aplicação de Aprendizado por Reforço Profundo interpretável para a otimização do ciclo de vida de pontes em nível de elemento. Ele busca oferecer transparência e eficiência na gestão da infraestrutura.

Deep Reinforcement LearningoptimizationInterpretable AICivil Engineering
27
RESEARCHarXiv CS.LG·24d atrás

DrugPlayGround: Benchmarking Large Language Models and Embeddings for Drug Discovery

Este conteúdo apresenta o DrugPlayGround, um framework para avaliar e comparar o desempenho de Large Language Models (LLMs) na descoberta de medicamentos. Ele foca na geração de descrições textuais de características de medicamentos, sinergismo, interações proteína-medicamento e respostas fisiológicas, com a participação de especialistas para justificar as previsões dos LLMs.

LLMsAI in healthcarebenchmarkingDrug Discovery
27
RESEARCHarXiv CS.LG·24d atrás

Characterizing WebGPU Dispatch Overhead for LLM Inference Across Four GPU Vendors, Three Backends, and Three Browsers

Este estudo caracteriza a sobrecarga de despacho do WebGPU para inferência de LLM em diversas plataformas de GPU, backends e navegadores. Ele revela que benchmarks simples superestimam os custos e identifica o verdadeiro custo por despacho da API WebGPU, destacando a necessidade dessa distinção para otimizações eficazes.

neural networksoptimizationbrowsersOverhead
27
←1…308309310311312…317→
Sobre·[email protected]
⌘K
NVDA-1.84%GOOGL+0.05%MSFT-1.12%META-0.33%AMZN+1.29%AMD+4.30%ORCL-1.28%PLTR-2.27%