Introduction¶

约 962 个字预计阅读时间 5 分钟

计算机视觉起源：生物神经信号的传输¶

实际上很难找到一个真正意义上的起源，因为根据 Justin 所说，每一个工作都有其之前的工作，每个人都会收到之前工作的启发，所以只能找一个可以说有划时代意义的节点来作为所谓的起源，中节点就是 1959 年的实验，

1959 年的实验内容，就是生物学家想了解生物的视觉神经是如何工作的，他们将一些电极插入猫的视觉皮层中，可以用来记录视觉皮层中单个神经元的活动，他们向猫展示不同的幻灯片。

他们的假设：视觉皮层中不同神经元会对不同类型的视觉刺激做出响应。所以他们向猫展示不同的类型的图像，来记录猫的神经元对此做出什么响应。

此项研究在 1981 年获得诺贝尔生物学奖，也成为计算机视觉领域的开创鼻祖

1963 年，Larry Robert 从 MIT 毕业，其博士论文可以称得上是第一篇计算机视觉方面的博士论文，当然那时候想使用计算机进行计算是非常麻烦的，包括使用相机进行拍摄也麻烦，所以论文很大一部分都是在围绕摄影信息如何输入到计算机中，当然，其中也提到了很多关于边缘检测方面的方法

在 1966 年，MIT 的举办了一个视觉夏令营，想与五个本科生一起在一个夏天实现计算机视觉的内容，当然，直到现在，这个任务都没有圆满完成

这个时候，可以检测边缘和简单几何形状

物体识别领域开始尝试新的方向，识别更复杂的物体——比如人，所以有了一些关于圆柱体和圆形结构的工作，这些尝试将人识别为带有某种已知

拓扑结构的刚性部件的可变形配置

John Canny 和 David Lowe 等人发表了一些关于强大的边缘检测方法方面的论文

图片与模板图片的 matching

1990 年代，人们想构建更复杂的图像和场景，主题：尝试通过分组来识别对象
2000 年，sift 输入图片，检查图像中关键点和不同位置,对于每一个关键点，我们使用特征向量表示关键点的 appearance，通过对特征向量编码不同类型的不变性（invariances），可以实现图像的旋转，亮暗调整（点对点的映射）
2001 年，Viola and Jones，提出图像人脸识别的算法
使用 machine learning 和 computer vision，the boosted decision trees 能够学习特征的正确组合
商业化快，数码相机自动对焦

Maxpooling：Yamaguchi 首次提出用于声音信号识别（1990）

LeNet：卷积神经网络鼻祖，可以识别 32x32 的网络，1998

AlexNet：首个 GPU 优化的深层 CNN，在这之前硬件的算力无法支持神经网络的训练，所以大家感觉这是一个很慢的模型，所以 AlexNet 也是这个局面的分界点