论文 1:ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis
- 作者:Yuan Li等
- 论文地址:https://arxiv.org/pdf/2211.13226.pdf
摘要:本文介绍了一种将物理模拟与场景 NeRF 模型相融合的全新方法,生成这些场景中物理现象的逼真影片。就具体效果而言,该方法能够逼真地模拟出气候变化可能产生的影响 —— 在一场小范围的洪水爆发后,操场会变成什么样子?大洪水后呢?暴雪后呢?
推荐:一秒起雾、入冬、发洪水,新 NeRF 模型渲染出逼真物理大片。
论文 2:Pretraining Without Attention
- 作者:Junxiong Wang 等
- 论文地址:https://arxiv.org/pdf/2212.10544.pdf
摘要:本文提出了双向门控 SSM(BiGS)模型,结合基于状态空间模型(SSM)的 Routing 层和基于乘法门的模型架构,在不使用注意力的情况下能够复制 BERT 预训练结果,并可扩展到 4096 个 token 的长程预训练,不需要近似。
推荐:预训练无需注意力,扩展到 4096 个 token 不成问题,与 BERT 相当。
论文 3:One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations
- 作者:Yiming Zhu 等
- 论文地址:https://arxiv.org/pdf/2210.07883.pdf
摘要:最近用文本来引导图像编辑取得了非常大的进展以及关注度,特别是基于去噪扩散模型如 StableDiffusion 或者 DALLE 等。但基于 GAN 的文本 – 图像编辑依旧有一些问题等待解决,例如经典的 StyleCILP 中针对每一个文本必须要训练一个模型,这种单文本对单模型的方式在实际应用中是不方便的。
本文提出 FFCLIP 并解决了这个问题,针对灵活的不同文本输入,FFCLIP 只需要一个模型就能够对图片进行相应的编辑,无需针对每个文本重新训练模型,并且在多个数据集上都取得了非常不错的效果。本文已被 NeurIPS 2022 接收。
推荐:文本图片编辑新范式,单个模型实现多文本引导图像编辑。
论文 4:SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions
- 作者:Yizhong Wang 等
- 论文地址:https://arxiv.org/pdf/2212.10560v1.pdf
摘要:华盛顿大学等机构近期联合发表了一篇论文,提出的新框架 SELF-INSTRUCT 通过引导模型自己的生成过程,提高了预训练语言模型的指令遵循能力。SELF-INSTRUCT 是一种半自动化过程,使用来自模型本身的指令信号对预训练的 LM 进行指令调整。
推荐:无需人工标注,自生成指令框架打破 ChatGPT 等 LLM 的成本瓶颈。
论文 5:Ab Initio Calculation of Real Solids via Neural Network Ansatz
- 作者:Xiang Li 等
- 论文地址:https://www.nature.com/articles/s41467-022-35627-1
摘要:机器学习能够处理海量数据,解决复杂场景下的科学难题,带领科学探索抵达过去无法触及的新领域。比如 DeepMind 用人工智能软件 AlphaFold 对科学界已知的几乎所有蛋白质结构进行了高度准确的预测;Christian Lagemann 提出的基于深度学习的粒子图像测速 (PIV) 方法一改原本的纯手动设置参数,大大提升模型的应用范围,对汽车、航空航天和生物医学工程等多个领域的研究具有至关重要的意义。
最近,字节跳动 AI Lab Research 团队和北京大学物理学院陈基课题组的工作《 Ab initio calculation of real solids via neural network ansatz》 给出了研究凝聚态物理的新思路,该工作提出了业内首个适用于固体系统的神经网络波函数,实现了固体的第一性原理计算,并将计算结果推向了热力学极限。其有力地证明了神经网络是研究固体物理的高效工具,也预示着深度学习技术将在凝聚态物理中发挥越来越重要的作用。相关研究成果于 2022 年 12 月 22 日发表于国际顶级刊物 Nature Communication 杂志上。
推荐:业界首个适用于固体系统的神经网络波函数,登上 Nature 子刊。
论文 6:Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
- 作者:Damai Dai 等
- 论文地址:https://arxiv.org/pdf/2212.10559v2.pdf
摘要:In-Context Learning(ICL)在大型预训练语言模型上取得了巨大的成功,但其工作机制仍然是一个悬而未决的问题。本文中,来自北大、清华、微软的研究者将 ICL 理解为一种隐式微调,并提供了经验性证据来证明 ICL 和显式微调在多个层面上表现相似。
推荐:被 GPT 带飞的 In-Context Learning 为什么起作用?模型在秘密执行梯度下降。
论文 7:Experimental Indications of Non-classical Brain Functions
- 作者:Christian Matthias Kerskens 等
- 论文地址:https://iopscience.iop.org/article/10.1088/2399-6528/ac94be
摘要:几十年来,科学家们一直在探索人脑的计算和思考机制。但人脑的构成太过复杂,包含几百亿个神经元,相当于上万亿块芯片,我们很难一探究竟。因对黑洞的研究贡献而获得诺贝尔物理学奖的罗杰・彭罗斯曾大胆地提出「量子意识」观点,即人脑本身就是量子结构,或者说是量子计算机。但这一观点一直备受质疑。
近期都柏林圣三一大学的一项研究表明我们的大脑执行的是量子计算,该研究认为人脑中存在与意识相关的大脑功能介导的纠缠。如果这些大脑功能必须以非经典的方式运作,那么这意味着意识是非经典的,即大脑的认知过程涉及量子计算。
推荐:大脑的思考是量子计算,这一猜测有了新证据。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各 10 篇精选,并提供音频形式的论文摘要简介,详情如下:
10 NLP Papers音频:00:0020:18
本周 10 篇 NLP 精选论文是:
1. Does unsupervised grammar induction need pixels?. (from Serge Belongie, Kilian Q. Weinberger, Jitendra Malik, Trevor Darrell)
2. Understanding Stereotypes in Language Models: Towards Robust Measurement and Zero-Shot Debiasing. (from Bernhard Schölkopf)
3. Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation. (from Cordelia Schmid, Ivan Laptev)
4. Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment. (from Ruslan Salakhutdinov, Louis-Philippe Morency)
5. Original or Translated? On the Use of Parallel Data for Translation Quality Estimation. (from Dacheng Tao)
6. Toward Human-Like Evaluation for Natural Language Generation with Error Analysis. (from Dacheng Tao)
7. Can Current Task-oriented Dialogue Models Automate Real-world Scenarios in the Wild?. (from Kyunghyun Cho)
8. On the Blind Spots of Model-Based Evaluation Metrics for Text Generation. (from Kyunghyun Cho)
9. Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval. (from William W. Cohen)
10. The Impact of Symbolic Representations on In-context Learning for Few-shot Reasoning. (from Li Erran Li, Eric Xing)
10 CV Papers音频:00:0023:15
本周 10 篇 CV 精选论文是:
1. Revisiting Residual Networks for Adversarial Robustness: An Architectural Perspective. (from Kalyanmoy Deb)
2. Benchmarking Spatial Relationships in Text-to-Image Generation. (from Eric Horvitz)
3. A Brief Survey on Person Recognition at a Distance. (from Rama Chellappa)
4. MetaCLUE: Towards Comprehensive Visual Metaphors Research. (from Leonidas Guibas, William T. Freeman)
5. Aliasing is a Driver of Adversarial Attacks. (from Antonio Torralba)
6. Reversible Column Networks. (from Xiangyu Zhang)
7. Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from Sparse Image Ensemble. (from Ming-Hsuan Yang)
8. Learning Object-level Point Augmentor for Semi-supervised 3D Object Detection. (from Ming-Hsuan Yang)
9. Unleashing the Power of Visual Prompting At the Pixel Level. (from Alan Yuille)
10. From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models. (from Dacheng Tao, Steven C.H. Hoi)