跳转至

Introduction

约 962 个字 预计阅读时间 5 分钟

计算机视觉起源:生物神经信号的传输

实际上很难找到一个真正意义上的起源,因为根据 Justin 所说,每一个工作都有其之前的工作,每个人都会收到之前工作的启发,所以只能找一个可以说有划时代意义的节点来作为所谓的起源,中节点就是 1959 年的实验,

  • 1959 年的实验内容,就是生物学家想了解生物的视觉神经是如何工作的,他们将一些电极插入猫的视觉皮层中,可以用来记录视觉皮层中单个神经元的活动,他们向猫展示不同的幻灯片。

他们的假设:视觉皮层中不同神经元会对不同类型的视觉刺激做出响应。所以他们向猫展示不同的类型的图像,来记录猫的神经元对此做出什么响应。

此项研究在 1981 年获得诺贝尔生物学奖,也成为计算机视觉领域的开创鼻祖

一篇关于计算机视觉的博士论文

1963 年,Larry Robert 从 MIT 毕业,其博士论文可以称得上是第一篇计算机视觉方面的博士论文,当然那时候想使用计算机进行计算是非常麻烦的,包括使用相机进行拍摄也麻烦,所以论文很大一部分都是在围绕摄影信息如何输入到计算机中,当然,其中也提到了很多关于边缘检测方面的方法

在 1966 年,MIT 的举办了一个视觉夏令营,想与五个本科生一起在一个夏天实现计算机视觉的内容,当然,直到现在,这个任务都没有圆满完成

这个时候,可以检测边缘和简单几何形状

新阶段

  • 1970 年后,入门开始对物体识别领域感兴趣,开始思考构建计算机系统

物体识别领域开始尝试新的方向,识别更复杂的物体——比如人,所以有了一些关于圆柱体和圆形结构的工作,这些尝试将人识别为带有某种已知

拓扑结构的刚性部件的可变形配置

  • 1980 年代,计算能力开始发展(camera 发展),主题是通过边缘检测来识别物体

John Canny 和 David Lowe 等人发表了一些关于强大的边缘检测方法方面的论文

图片与模板图片的 matching

  • 1990 年代,人们想构建更复杂的图像和场景,主题:尝试通过分组来识别对象
  • 2000 年,sift 输入图片,检查图像中关键点和不同位置,对于每一个关键点,我们使用特征向量表示关键点的 appearance,通过对特征向量编码不同类型的不变性(invariances),可以实现图像的旋转,亮暗调整(点对点的映射)
  • 2001 年,Viola and Jones,提出图像人脸识别的算法
  • 使用 machine learning 和 computer vision,the boosted decision trees 能够学习特征的正确组合
  • 商业化快,数码相机自动对焦

深度学习突破时刻

  • imageNet:外包数据标注,数据集大

  • 2012 年,AlexNet 的出现,标志着深度学习的诞生,将图像分类的错误率从 25 降低到了 16,这是一个巨大的进步

发展历史

Maxpooling:Yamaguchi 首次提出用于声音信号识别(1990)

LeNet:卷积神经网络鼻祖,可以识别 32x32 的网络,1998

AlexNet:首个 GPU 优化的深层 CNN,在这之前硬件的算力无法支持神经网络的训练,所以大家感觉这是一个很慢的模型,所以 AlexNet 也是这个局面的分界点