弥合人类视觉和机器视觉之间的差距

假设您从几英尺外短暂地看了一眼您以前从未见过的人。退后几步，再看一遍。你能认出她的脸吗？ “是的，当然，”你可能会想。如果这是真的，那就意味着我们的视觉系统在看到某个物体（例如特定脸部）的单个图像后，可以稳健地识别它，尽管物体的位置和比例发生了变化。另一方面，我们知道最先进的分类器，例如普通深度网络，将无法通过这个简单的测试。

为了在一系列变换下识别特定的脸部，需要使用不同条件下的许多脸部示例来训练神经网络。换句话说，他们可以通过记忆实现不变性，但如果只有一张图像可用，则无法做到这一点。因此，了解人类视觉如何实现这一非凡壮举对于旨在改进现有分类器的工程师来说至关重要。对于神经科学家用深度网络对灵长类动物视觉系统进行建模也很重要。特别是，生物视觉所表现出的一次性学习的不变性可能需要一种与深度网络截然不同的计算策略。

麻省理工学院电气工程和计算机科学博士研究生 Yena Han 及其同事发表的一篇新论文 自然的科学报告 题为“人类视觉中新物体的尺度和平移不变性”讨论了他们如何更仔细地研究这种现象以创建新颖的受生物学启发的网络。

“与深度网络不同，人类可以从很少的例子中学习。这是一个巨大的差异，对视觉系统工程和理解人类视觉的真正工作原理具有巨大的影响。”合著者、大脑、思维和机器中心 (CBMM) 主任、尤金·麦克德莫特大脑教授 Tomaso Poggio 说道。和麻省理工学院的认知科学。 “造成这种差异的一个关键原因是灵长类动物视觉系统在缩放、移动和其他转换方面的相对不变性。奇怪的是，这一点在人工智能界大多被忽视，部分原因是心理物理学数据迄今为止还不够明确。韩的工作现在已经建立了对人类视觉基本不变性的可靠测量。”

为了区分内在计算带来的不变性与经验和记忆带来的不变性，这项新研究测量了一次性学习中不变性的范围。通过向不熟悉该语言的人类受试者提供韩语字母刺激来执行一次性学习任务。这些字母最初在一种特定条件下出现一次，并在与原始条件不同的尺度或位置进行测试。第一个实验结果是——正如你所猜测的——人类仅在一次接触这些新奇物体后就表现出了显着的尺度不变识别能力。第二个结果是位置不变性的范围是有限的，具体取决于对象的大小和位置。

接下来，韩和她的同事在深度神经网络中进行了一项类似的实验，旨在重现这种人类表现。结果表明，为了解释人类对物体的不变识别，神经网络模型应该明确地包含内置的尺度不变性。此外，通过使模型神经元的感受野随着远离视野中心而增加，可以在网络中更好地复制人类视觉的有限位置不变性。这种架构与常用的神经网络模型不同，后者使用相同的共享滤波器在统一分辨率下处理图像。

“我们的工作提供了对不同视角下大脑对物体的表征的新理解。它对人工智能也有影响，因为研究结果为深度神经网络的良好架构设计提供了新的见解。”CBMM 研究员兼该研究的主要作者 Han 评论道。

Han 和 Poggio 与 Gemma Roig 和 Gad Geiger 一起参与了这项工作。

Source: https://news.mit.edu/2020/bridging-gap-between-human-and-machine-vision-0211

生成数据智能

弥合人机视觉之间的鸿沟

增强加密素养和增长：Bybit 的 Layer 2 驱动、被动收入策略和关键市场走势

赋能金融未来：Bybit 全球比特币 Layer 2 素养驱动及 2024 年最新加密货币创新与趋势

最新情报

探索金融的未来：Bybit 的比特币 Layer 2 素养驱动和新兴加密货币趋势

赋能加密经济：Bybit 的素养驱动、被动收入策略、Solana 的激增以及区块链最新发展中的更多内容

推动加密货币的采用：Bybit Web3 在市场动态中推出全球比特币第 2 层扫盲活动

Bybit Web3 倡导可扩展性：在市场势头强劲的背景下推出全球比特币 Layer 2 扫盲计划

在 Meme 股票交易和加密货币投资趋势激增的背景下，Bybit Web3 通过全球 Layer 2 扫盲计划捍卫比特币的未来

在 Robinhood 的收入激增和加密货币的智能货币趋势中，Bybit Web3 引领全球比特币第 2 层素养推动