cs.CV Apr 17
Haoran Feng, Yifan Niu, Zehuan Huang +4
TL;DR: LaviGenは、3D生成モデルを再利用して3Dレイアウト生成を行うフレームワークで、オートリグレッシブプロセスを用いて物体間の幾何学的関係と物理的制約をモデル化し、物理的に妥当な3Dシーンを生成します。実験結果では、従来の手法に比べて物理的妥当性が19%向上し、計算速度が65%向上したことが示されています。
We introduce LaviGen, a framework that repurposes 3D generative models for 3D layout generation. Unlike previous methods that infer object layouts from textual descriptions, LaviGen operates directly ...
cs.CV cs.RO Apr 17
Dian Shao, Zhengzheng Xu, Peiyang Wang +4
TL;DR: FineCog-Navは、UAVの視覚と言語によるナビゲーションを人間の認知に基づいて細分化されたモジュールで組織し、ゼロショットでのナビゲーション性能を向上させる新しいフレームワークを提案します。実験結果は、指示遵守や長期計画、未見環境への一般化において、従来のゼロショット手法を上回ることを示しています。
UAV vision-language navigation (VLN) requires an agent to navigate complex 3D environments from an egocentric perspective while following ambiguous multi-step instructions over long horizons. Existing...
math.AP cond-mat.stat-mech math-ph Apr 17
Kyunghoo Mun, Matthew Rosenzweig
TL;DR: Doi-Onsagerモデルやノイジートランスフォーマーなどの多モーダルモデルにおける相転移を研究し、特定の条件下で臨界結合強度$K_c$が均一分布の線形安定性閾値$K_\#$と一致し、相転移が連続であることを証明した。特に、Doi-Onsagerモデルでは$K_c=K_\#=3π/4$で連続相転移が確認され、ノイジートランスフォーマーでは$β_*$を境に相転移の性質が変わることを示
We study phase transitions for repulsive-attractive mean-field free energies on the circle. For a $\frac{1}{n+1}$-periodic interaction whose Fourier coefficients satisfy a certain decay condition, we ...
cs.AI Apr 17
Eric Gan, Aryan Bhatt, Buck Shlegeris +2
TL;DR: ASMR-Benchは、ML研究におけるサボタージュを検出する監査能力を評価するためのベンチマークであり、9つのML研究コードベースにサボタージュされたバリアントを含んでいます。評価の結果、最先端のLLMや人間の監査者はサボタージュを信頼性高く検出するのに苦労し、最良のパフォーマンスはAUROC 0.77とトップ1修正率42%でした。
As AI systems are increasingly used to conduct research autonomously, misaligned systems could introduce subtle flaws that produce misleading results while evading detection. We introduce ASMR-Bench (...
cs.CV Apr 17
Shivarth Rai, Tejeswar Pokuri
TL;DR: 動物の検出や行動分析における大気の霞の影響を軽減するため、3,477枚の合成画像からなるAnimalHaze3kデータセットと、IncepDehazeGanアーキテクチャを提案し、最先端の性能を達成しました。これにより、YOLOv11の検出精度が大幅に向上し、野生動物保護のための信頼性の高いツールが提供される可能性があります。
Atmospheric haze significantly degrades wildlife imagery, impeding computer vision applications critical for conservation, such as animal detection, tracking, and behavior analysis. To address this ch...
cs.LG math.DS math.PR Apr 17
Sean Hill, Felix X. -F. Ye
TL;DR: TL;DR: 本研究では、観測された確率的ダイナミクスに基づいて、オートエンコーダの幾何学的正則化手法を提案し、低次元多様体の学習を改善するためのペナルティを導入。実験により、従来の手法に比べてエラーを50~70%削減し、メタスタブルなダイナミクス下でのパフォーマンスを向上させた。
Stochastic dynamical systems with slow or metastable behavior evolve, on long time scales, on an unknown low-dimensional manifold in high-dimensional ambient space. Building a reduced simulator from s...
cs.AI Apr 17
Thomas Bayer, Alexander Lohr, Sarah Weiß +2
TL;DR: 大規模言語モデル(LLM)と知識グラフ(KG)を活用して、製造業における機械学習モデルの解釈可能性を向上させる手法を提案し、実際の製造環境での適用を評価した結果、ユーザーにとって理解しやすい説明を生成できることを示しました。
Explaining Machine Learning (ML) results in a transparent and user-friendly manner remains a challenging task of Explainable Artificial Intelligence (XAI). In this paper, we present a method to enhanc...
cs.LG physics.chem-ph Apr 17
Shriram Chennakesavalu, Kirill Shmilovich, Hayley Weir +5
TL;DR: TL;DR: 大規模言語モデル(LLMs)は小分子薬物設計において有望だが、実用性は不明であり、化学に基づいたタスクを強化学習環境として評価することで、モデルの能力を向上させることができることが示された。特に、ポストトレーニングにより小型モデルが最先端モデルに匹敵する性能を発揮する可能性がある。
Large Language Models (LLMs) have the potential to accelerate small molecule drug design due to their ability to reason about information from diverse sources and formats. However, their practical uti...
cs.AI cs.CL cs.LG Apr 17
Yunhe Li, Hao Shi, Bowen Deng +8
TL;DR: TL;DR: 本研究では、非形式的定理証明における洞察の欠如を解決するために、$\mathtt{DeepInsightTheorem}$という階層的データセットを提案し、モデルが基本的な証明から洞察的思考へと進化できるようにするProgressive Multi-Stage SFT戦略を設計しました。このアプローチは、数学的推論の向上に寄与することが実験で示されました。
Although most of the automated theorem-proving approaches depend on formal proof systems, informal theorem proving can align better with large language models' (LLMs) strength in natural language proc...
cs.CL Apr 17
Hitesh Mehta, Arjit Saxena, Garima Chhikara +1
TL;DR: この研究は、異なる礼儀正しさの度合いが大規模言語モデル(LLMs)の応答に与える影響を調査し、英語、ヒンディー語、スペイン語の三言語で実験を行った結果、礼儀正しいプロンプトは応答の質を最大約11%向上させる一方で、その効果は言語やモデルによって異なることを示しています。また、PLUMコーパスを公開し、今後の研究を支援するためのデータセットを提供しています。
This paper explores the response of Large Language Models (LLMs) to user prompts with different degrees of politeness and impoliteness. The Politeness Theory by Brown and Levinson and the Impoliteness...
cs.CV cs.AI cs.CL Apr 17
Xiangbo Gao, Sicong Jiang, Bangya Liu +13
TL;DR: VEFX-Benchは、AI支援のビデオ編集と視覚効果のための包括的なベンチマークであり、5,049の人間注釈付きビデオ編集例を含むVEFX-Datasetを基に、ビデオ編集品質評価のためのVEFX-Rewardモデルを提案しています。この新しい評価システムは、商業およびオープンソースのビデオ編集システムを比較し、視覚的妥当性や指示遵守におけるギャップを明らかにしました。
As AI-assisted video creation becomes increasingly practical, instruction-guided video editing has become essential for refining generated or captured footage to meet professional requirements. Yet th...
cs.CL cs.AI Apr 17
Van-Truong Le
TL;DR: ベトナムの法律文書の複雑さに対処するため、最新の大規模言語モデル(LLMs)の性能を評価するための二重側面評価フレームワークを提案し、精度、可読性、一貫性の3つの次元での性能を比較した結果、モデルごとに異なる強みと弱みが明らかになった。特に、現在のLLMsの主な課題は要約ではなく、制御された正確な法律的推論であることが確認された。
The complexity of Vietnam's legal texts presents a significant barrier to public access to justice. While Large Language Models offer a promising solution for legal text simplification, evaluating the...