notch — curadoria de IA

NVDA-1.84%GOOGL+0.05%MSFT-1.12%META-0.33%AMZN+1.29%AMD+4.30%ORCL-1.28%PLTR-2.27%

⌘K

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.

O cenário da IA está em crescimento acelerado com investimentos recordes de grandes empresas de tecnologia e sua integração em processos de desenvolvimento de software. Há um foco crescente na segurança, responsabilidade e ética da IA, enquanto se observam suas influências nas dinâmicas de mercado e estratégias globais.

AI regulationAI IntegrationAI ethicsAI investment

NEWSDEV.to AI·3d atrás

Nerq AI Agent Ecosystem Weekly Report for Week Ending 2026-04-27

O relatório semanal do ecossistema de agentes de IA Nerq mostra que 9.441 novos agentes e ferramentas foram indexados esta semana, atingindo um total de 257.686. Destaca-se o crescimento de frameworks comunitários e ferramentas de cibersegurança, com a Panther Labs sendo o Agente da Semana por suas integrações de segurança.

AI-ecosystemsecurityAI agents

Building an operational tool for heavy industry — Seeking "real world" data and site reality [R]

Uma pequena equipe de P&D está desenvolvendo uma ferramenta operacional para a indústria pesada (Portos, Mineração, Frotas) para preencher lacunas de dados. Eles buscam conversas e dados históricos de profissionais da indústria para validar sua lógica com a realidade do campo antes do lançamento.

industrial-aidata managementproduct developmentoperational-efficiency

ARTICLEDEV.to AI·3d atrás

I Replaced 80% of My Coding Workflow with AI — And It Made Me a Better Developer

O autor integrou a IA em 80% do seu fluxo de trabalho de codificação, transformando seu papel de escrever código repetitivo para focar em design arquitetônico e resolução de problemas complexos. Essa mudança, onde a IA lida com a repetição e o desenvolvedor com o pensamento, amplificou suas capacidades e produtividade, tornando-o um desenvolvedor melhor.

future-of-workdeveloper productivity

RESEARCHarXiv CS.AI·3d atrás

Sound Agentic Science Requires Adversarial Experiments

Agentes baseados em LLM estão sendo rapidamente adotados na análise de dados científicos, mas correm o risco de produzir rapidamente análises plausíveis otimizadas para resultados positivos. Os autores propõem que as afirmações não experimentais feitas com assistência de agentes sejam avaliadas sob uma ótica de falsificação para garantir a robustez do conhecimento científico.

falsificationLLM agentsscientific methodologyAI in science

RESEARCHarXiv CS.CL·3d atrás

Source-Modality Monitoring in Vision-Language Models

Esta pesquisa investiga o monitoramento de modalidade de origem em modelos de visão-linguagem (VLMs), definindo-o como a capacidade de rastrear a procedência da informação. Os autores avaliam como VLMs utilizam sinais sintáticos e semânticos para ligar termos às suas fontes de entrada, descobrindo que ambos são importantes, mas os sinais semânticos tendem a predominar, impactando a robustez dos modelos.

model robustnessmultimodal AIVision-Language Models

RESEARCHarXiv CS.CL·3d atrás

Incentivizing Neuro-symbolic Language-based Reasoning in VLMs via Reinforcement Learning

Este trabalho explora o raciocínio em linguagem neuro-simbólica em VLMs, utilizando Aprendizado por Reforço para aprimorar habilidades analíticas e eficiência. Conseguiu um aumento de 3,33% na precisão em um dataset de visão-linguagem e uma redução de 75% nos tokens de raciocínio.

Vision-Language ModelsReinforcement LearningreasoningNeuro-symbolic AI

RESEARCHarXiv CS.AI·3d atrás

Rethinking Publication: A Certification Framework for AI-Enabled Research

Este artigo propõe um arcabouço de certificação de duas camadas para publicações, visando separar a avaliação da qualidade do conhecimento da contribuição humana em pesquisas habilitadas por IA. Isso permite que os sistemas de publicação lidem com trabalhos gerados por pipelines de forma consistente e transparente, categorizando as contribuições.

research publicationAI authorshipacademic publishing

arXiv CS.AI·3d atrás

Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models

RESEARCHarXiv CS.AI·3d atrás

Math Takes Two: A test for emergent mathematical reasoning in communication

Este artigo propõe o Math Takes Two, um novo benchmark para avaliar o raciocínio matemático emergente em modelos de linguagem através da comunicação. Ele testa a capacidade de dois agentes sem conhecimento matemático prévio de desenvolver um protocolo simbólico compartilhado para resolver uma tarefa visualmente fundamentada, facilitando a extrapolação numérica.

language modelsmathematical reasoningAI communicationbenchmarks

RESEARCHarXiv CS.CL·3d atrás

Lightweight Retrieval-Augmented Generation and Large Language Model-Based Modeling for Scalable Patient-Trial Matching

Este trabalho propõe uma estrutura leve para a correspondência escalável entre pacientes e ensaios clínicos, abordando desafios de registros eletrônicos de saúde longos e complexos. Ele combina geração aumentada por recuperação (RAG) para identificar segmentos relevantes de EHRs com modelos de linguagem grandes (LLMs) para codificá-los em representações informativas, melhorando a eficiência.

RAGmedical-informaticshealthcare-aiLLM

RESEARCHarXiv CS.CL·3d atrás

When Cow Urine Cures Constipation on YouTube: Limits of LLMs in Detecting Culture-specific Health Misinformation

Esta pesquisa explora as limitações dos LLMs na detecção de desinformação de saúde culturalmente específica, usando o discurso sobre urina de vaca na Índia como estudo de caso. Ela demonstra que LLMs treinados predominantemente em dados ocidentais são inadequados para analisar conteúdo que mistura linguagem tradicional com alegações pseudocientíficas, ressaltando a necessidade de competência cultural na análise assistida por IA.

LLMscultural competencymisinformation

RESEARCHarXiv CS.CL·3d atrás

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Este artigo investiga se as recompensas de resultado no aprendizado por reforço para cadeias de raciocínio garantem raciocínio verificável ou causalmente importante em LLMs. Os autores introduzem as métricas Causal Importance of Reasoning (CIR) e Sufficiency of Reasoning (SR), descobrindo que, embora o RLVR melhore a precisão, ele não melhora consistentemente o CIR ou SR, e um pequeno ajuste de SFT pode ser um remédio.

Reinforcement LearningAI TrainingLarge Language Models (LLMs)model evaluation

RESEARCHarXiv CS.LG·3d atrás

When Quotes Crumble: Detecting Transient Mechanical Liquidity Erosion in Limit Order Books

Esta pesquisa propõe um método para detectar a erosão transitória de liquidez ("quotes em colapso") em livros de ordens eletrônicos, distinguindo-a entre retirada mecânica e reprecificação informacional. Utilizando o simulador ABIDES para dados de referência, um modelo neural é desenvolvido que supera significativamente as linhas de base na identificação desses eventos em diversas condições de mercado.

neural networksMachine Learningpredictive-modelingfinancial markets

RESEARCHarXiv CS.CL·3d atrás

Knowledge-driven Augmentation and Retrieval for Integrative Temporal Adaptation

O KARITA (Knowledge-driven Augmentation and Retrieval for Integrative Temporal Adaptation) é um sistema desenvolvido para enfrentar os desafios das mudanças temporais em modelos de IA, que são treinados com dados históricos mas implantados em dados futuros. Ele integra aumento e recuperação impulsionados pelo conhecimento para capturar diversas mudanças e aproveitar insights para uma adaptação temporal aprimorada em múltiplos domínios.

temporal adaptationmodel adaptationMachine Learningknowledge representation

RESEARCHarXiv CS.AI·3d atrás

Memanto: Typed Semantic Memory with Information-Theoretic Retrieval for Long-Horizon Agents

Memanto é uma camada de memória universal para agentes de IA autônomos, abordando o gargalo arquitetônico da memória em sistemas persistentes de múltiplas sessões. Ele desafia a necessidade de grafos de conhecimento complexos, propondo um esquema de memória semântica tipada mais simples com resolução automatizada de conflitos e versionamento temporal.

Knowledge Graphssemantic-memorymemory-managementinformation-retrieval

RESEARCHarXiv CS.AI·3d atrás

Emergent Strategic Reasoning Risks in AI: A Taxonomy-Driven Evaluation Framework

Modelos de linguagem grandes (LLMs) apresentam Riscos de Raciocínio Estratégico Emergente (ESRRs), como engano e exploração de recompensas. É introduzido o ESRRSim, uma estrutura agêntica baseada em taxonomia, para avaliar sistematicamente esses riscos através de cenários gerados automaticamente e rubricas duplas.

security

RESEARCHarXiv CS.LG·3d atrás

Multi-Task Optimization over Networks of Tasks

MONET (Multi-Task Optimization over Networks of Tasks) é apresentado como um novo algoritmo para otimização multi-tarefa, que modela o espaço de tarefas como um grafo para permitir a transferência de conhecimento. Ele supera as limitações dos métodos existentes ao explorar a topologia do espaço de tarefas e combinar aprendizado social e individual.

multi-task optimizationoptimization algorithmsMachine Learninggraph-based models

RESEARCHarXiv CS.LG·3d atrás

Performance Anomaly Detection in Athletics: A Benchmarking System with Visual Analytics

Esta pesquisa apresenta um sistema para detecção de padrões de desempenho suspeitos no atletismo, utilizando 1,6 milhão de performances e oito métodos, incluindo aprendizado de máquina e análise de trajetória. O objetivo é complementar o controle antidoping tradicional, identificando potenciais violações por meio da análise de dados, sendo os métodos baseados em trajetória os mais eficazes.

anomaly detectionsports-analyticsMachine Learninganti-doping

RESEARCHarXiv CS.CL·3d atrás

Optimal Question Selection from a Large Question Bank for Clinical Field Recovery in Conversational Psychiatric Intake

Este artigo de pesquisa aborda a seleção ideal de perguntas para recuperação de informações em consultas psiquiátricas usando IA conversacional. Ele introduz um benchmark com 655 perguntas e vinhetas sintéticas, avaliando políticas adaptativas guiadas por LLM.

healthcareNatural Language ProcessingConversational AILLM