Introduction¶
约 962 个字 预计阅读时间 5 分钟
计算机视觉起源:生物神经信号的传输¶
实际上很难找到一个真正意义上的起源,因为根据 Justin 所说,每一个工作都有其之前的工作,每个人都会收到之前工作的启发,所以只能找一个可以说有划时代意义的节点来作为所谓的起源,中节点就是 1959 年的实验,
- 1959 年的实验内容,就是生物学家想了解生物的视觉神经是如何工作的,他们将一些电极插入猫的视觉皮层中,可以用来记录视觉皮层中单个神经元的活动,他们向猫展示不同的幻灯片。
他们的假设:视觉皮层中不同神经元会对不同类型的视觉刺激做出响应。所以他们向猫展示不同的类型的图像,来记录猫的神经元对此做出什么响应。
此项研究在 1981 年获得诺贝尔生物学奖,也成为计算机视觉领域的开创鼻祖
一篇关于计算机视觉的博士论文¶
1963 年,Larry Robert 从 MIT 毕业,其博士论文可以称得上是第一篇计算机视觉方面的博士论文,当然那时候想使用计算机进行计算是非常麻烦的,包括使用相机进行拍摄也麻烦,所以论文很大一部分都是在围绕摄影信息如何输入到计算机中,当然,其中也提到了很多关于边缘检测方面的方法
在 1966 年,MIT 的举办了一个视觉夏令营,想与五个本科生一起在一个夏天实现计算机视觉的内容,当然,直到现在,这个任务都没有圆满完成
这个时候,可以检测边缘和简单几何形状
新阶段¶
- 1970 年后,入门开始对物体识别领域感兴趣,开始思考构建计算机系统
物体识别领域开始尝试新的方向,识别更复杂的物体——比如人,所以有了一些关于圆柱体和圆形结构的工作,这些尝试将人识别为带有某种已知
拓扑结构的刚性部件的可变形配置
- 1980 年代,计算能力开始发展(camera 发展),主题是通过边缘检测来识别物体
John Canny 和 David Lowe 等人发表了一些关于强大的边缘检测方法方面的论文
图片与模板图片的 matching
- 1990 年代,人们想构建更复杂的图像和场景,主题:尝试通过分组来识别对象
- 2000 年,
sift
输入图片,检查图像中关键点和不同位置,对于每一个关键点,我们使用特征向量表示关键点的 appearance,通过对特征向量编码不同类型的不变性(invariances),可以实现图像的旋转,亮暗调整(点对点的映射) - 2001 年,Viola and Jones,提出图像人脸识别的算法
- 使用 machine learning 和 computer vision,the boosted decision trees 能够学习特征的正确组合
- 商业化快,数码相机自动对焦
深度学习突破时刻¶
-
imageNet:外包数据标注,数据集大
-
2012 年,AlexNet 的出现,标志着深度学习的诞生,将图像分类的错误率从 25 降低到了 16,这是一个巨大的进步
发展历史¶
Maxpooling:Yamaguchi 首次提出用于声音信号识别(1990)
LeNet:卷积神经网络鼻祖,可以识别 32x32 的网络,1998
AlexNet:首个 GPU 优化的深层 CNN,在这之前硬件的算力无法支持神经网络的训练,所以大家感觉这是一个很慢的模型,所以 AlexNet 也是这个局面的分界点