计算机视觉常用算法(计算机视觉有哪些分类)
计算机视觉算法在图像识别中的一些难点:
1)角度变化:同一物体可以被摄像头从多个角度显示;
2)大小变化:物体可见的大小通常会发生变化(不仅在图片中,在现实世界中也是如此);
3)变形:很多东西的形状不是一成不变的,而是会发生很大的变化;
4)遮挡:目标物体可能被遮挡。有时只有物体的一部分(可以小到几个像素)是可见的;5)光照条件:在像素级别,光照的影响非常大;
6)背景干扰:物体可能混入背景中,难以被识别;
7)类内差异:一类物体的个体外观差异很大,比如椅子。这种物体有很多不同的物体,各有各的形状。
人脸识别算法主要包括三个模块:
人脸检测:确定图像中人脸的大小和位置,即预测锚点;在形象上;
人脸对齐:其原理是找到几个关键点(参考点,如眼角、鼻尖、嘴角等。)的人脸,然后利用这些对应的关键点,通过相似性变换(旋转、缩放、平移),将人脸尽可能地变换为标准人脸;
特征表示:它接收的输入是标准化的人脸图像,通过特征建模得到矢量化的人脸特征,最后通过分类器判别得到识别结果。关键点是如何得到不同人脸的区别特征,如鼻子、嘴巴、眼睛等。
早期算法:
子空间(线性降维)
PCA(主成分分析):尽可能保留原始数据的主要信息,减少冗余信息;
LDA(线性判别分析):增大类间差距,减小类内差距。
非线性降维:流形学习和添加核函数。
ICA(独立分量分析):优于PCA,更依赖于训练和测试场景,对光照、面部表情和姿态敏感,泛化能力不足。
HMM(隐马尔可夫):与之前的算法相比,对光照、表情、姿态的变化更具鲁棒性。
早期:数据和模型结构;
后期:损耗,从而得到不同脸的区别特征。
常用算法概述
计算机视觉中相关算法的源代码
计算机视觉中常用算法的博客
特征提取(找到几个关键点)
(1) SIFT(尺度不变特征变换)具有尺度不变性,可以检测图像中的关键点。
(2) SURF(加速健壮特征,SIFT加速版)
核心:构造Hessian矩阵,确定当前点比邻域亮还是暗,从而确定关键点的位置。
优秀:特性稳定;
缺乏:提取边缘光滑物体的能力较弱。
(3)球体
结合快速和简洁算法,对快速特征点增加方向性,使特征点具有旋转不变性,并提出金字塔构造方法解决尺度不变性。
ORB算法比sift快100倍,比surf快10倍。
显示器观察到ORB算法的特征点数量很少,如下图所示:
SIFT、SURF和ORB的实现
(4)快速角点检测
快速的方法主要考虑圆形窗口上16个像素附近的像素。
如果想加快检测速度,只需要检测四个点。首先,比较第1个和第9个像素。如果两个点的像素强度都在中心像素强度T的变化范围内(并且与中心点相似),则说明这不是一个角点。如果接下来检测到第5个和第13个点,上述四个点中至少有三个点与中心点不相似,就说明这是一个角点。
非最大值抑制:如果有多个关键点,删除角度响应小的特征点。
(5) HOG(方向梯度直方图)
(6) LBP(局部二元特征)讨论了高维特征与验证性能之间存在正相关关系,即人脸维数越高,验证准确率越高。
(7)哈尔
计算机视觉有哪些分类?人类视觉强大的功能和完善的信息处理方法引起了智能研究者的极大兴趣。人们希望为机器人研究一种基于生物视觉的人工视觉系统,期望机器人具有与人类相似的感知环境的能力。为了感知外界的信息,机器人不得不依靠各种传感器。就像人类一样,在机器人的众多感觉传感器中,视觉系统提供了大部分机器人所需的外部相位信息。因此,视觉系统在机器人技术中起着重要的作用。
根据视觉传感器的数量和特点,目前主流的移动机器人视觉系统包括单目视觉、双目立体视觉、多目视觉和全景视觉。
单目视觉,单目视觉系统只使用一个视觉传感器。单目视觉系统在成像过程中,由于从三维客观世界投影到N维图像上,丢失了深度信息,这是这类视觉系统的主要缺点。(而单目视觉系统由于结构简单、算法成熟、计算量小,已经广泛应用于自主移动机器人中,如目标跟踪、室内定位和基于单目特征的导航等。同时,单目视觉是其他类型视觉系统的基础,如双目立体视觉、多目视觉等,都是在单目视觉系统的基础上增加其他手段和措施实现的。
双目立体视觉。双目视觉系统由两个摄像头组成,利用三角测量原理获取场景的深度信息,可以重建周围景物的三维形状和位置,类似于人眼的立体功能,原理简单。双目视觉系统需要精确知道两个摄像机之间的空间位置关系,场景环境的3D信息需要两个摄像机同时从不同角度拍摄同一场景的两幅图像并进行复杂匹配,这样视觉场景的3D信息才能被立体视觉系统精确恢复,立体视觉系统已经广泛应用于移动机器人定位导航、避障和地图构建等领域。然而,立体视觉系统的难点在于对应点的匹配,这在很大程度上制约了立体视觉在机器人领域的应用前景。
多眼视觉系统。多目视觉系统使用三个或三个以上的摄像机,且多为三目视觉系统,主要用于解决多目立体视觉系统中的匹配模糊问题,提高匹配精度。Moravik首先研究了多目视觉系统。他为“StanfordCart”开发的视觉导航系统采用了单摄像头的“滑动”。
立体视觉”,雅思达提出了解决对应点匹配问题的三眼立体视觉系统,真正突破了三眼立体视觉系统的局限性,指出在以边界点为匹配特征的三眼视觉系统中,三元匹配的准确率比较高。艾亚飞提出了以多边形近似边界点为特征的三眼匹配算法,并将其应用于移动机器人,取得了良好的效果。双目视觉系统的优点是充分利用了第三个摄像头的信息,减少了误匹配,解决了双目视觉系统匹配的模糊性,提高了定位精度。但是双目视觉系统的结构配置比双目视觉系统更复杂,匹配算法更复杂,所以耗时更多,实时性更差。
全景,全景视觉系统是一种具有大水平视场的多方位成像系统。它的突出优点是视野大,可以达到360度,这是其他常规镜头无法比拟的。全景视觉系统可以通过图像拼接或反折射光学元件来实现。图像拼接的方法是利用一台或多台摄像机旋转,大角度扫描场景,获得不同方向的连续多帧图像,然后利用拼接技术得到全景图像。折反射全景视觉系统由CCD摄像机、折反射光学元件等组成。利用镜面成像原理,可以观察360度场景,成像速度快,可以满足实时性要求。它具有非常重要的应用前景,可以应用于机器人导航。全景视觉系统本质上是一种单目视觉系统,它无法获得场景的深度信息。另一个特点是得到的图像分辨率低,图像有很大的畸变,会影响图像处理的稳定性和准确性。在图像处理中,需要根据成像模型对畸变图像进行校正。这种校正过程不仅会影响视觉系统的实时性能,还会造成信息的丢失。另外,这种视觉系统对全景镜的加工精度要求很高。如果双曲面镜的精度达不到要求,用理想模型进行图像校正就会出现较大偏差。
混合视觉系统吸收了各种视觉系统的优点,采用两种或两种以上的视觉系统组成复合视觉系统,多采用单目或双目视觉系统,并配以其他视觉系统。全景视觉系统由球面反射系统组成,其中全景视觉系统提供大视角的环境信息,双目立体视觉系统和激光测距仪探测近距离障碍物。清华大学朱志刚研制了带摄像头的多尺度视觉传感系统岗位,实现了双目凝视、全方位环视、左右时代全景成像,为机器人提供导航。全景视觉系统具有全景视觉系统的大视场和双目视觉系统的高精度的优点,但这种系统结构复杂,价格昂贵。
在不久的将来,多元智能时代一定会彻底进入我们的生活。未来有意进入前沿行业的朋友,可以收集多元智能时代,及时获取人工智能、大数据、云计算、物联网的前沿信息和基础知识。让我们携手引领人工智能的未来!
推荐阅读
- 通过ICE1CS02芯片如何实现PFC+PWM电路的设计
- 哔哩哔哩弹幕礼仪题答案2016,哔哩哔哩弹幕礼仪题
- 2021工伤保险全文?(工伤保险条例赔偿标准)
- 打印机买喷墨好还是激光好(打印机选激光的好还是喷墨?联想至像的打印机用着咋样?)
- 翼豹10代_翼豹impreza
- 湖南科技学院属于几本?(湖南科技学院是本科吗?)
- 手机腾讯文章怎么关闭弹幕,腾讯文章关闭弹幕
- 开罐头的小妙招用热水,开罐头的小妙招
- 安卓手机清理内存怎么清理,手机多余安装包怎么清理
- 律师咨询免费24小时在线吗?(律师咨询免费24小时在线婚姻官司)
- 怎样才能提高成绩,怎样能提高成绩
- 西北工业大学的地址在哪里?它是一所著名的大学吗?校园里有什么好的宿舍有空调吗?
- 道奇公羊房车价格多少_道奇公羊房车价格
- 爱奇艺会员账号共享几个,爱奇艺会员账号共享方法
- 如何轻松除掉铁锈的方法,如何轻松除掉铁锈
- 世界工厂网盈利模式?(世界工厂网网址)
- 爱普生投影仪百科(爱普生工程投影仪的分类有哪些?)
- 劳动法开除员工补偿标准?(被辞退谈赔偿技巧)
- 华为手机桌面天气怎么恢复显示,华为手机桌面天气怎么恢复