Web浏览器日益强大。网站和Web应用程序的复杂性也在增加。几十年前需要超级计算机的操作现在可以在智能手机上运行。其中之一就是人脸检测。 检测和分析人脸的能力非常有用,因为它使我们能够添加聪明的特征。想想自动模糊面部(如谷歌地图)、平移和缩放网络摄像头供稿以专注于人(如MicrosoftTeams)、验证护照、添加愚蠢的过滤器(如Instagram和Snapchat)等等。但在我们做这一切之前,我们首先需要找到这张脸! Faceapi。js是一个库,使开发人员无需机器学习背景即可在其应用程序中使用人脸检测。 本教程的代码可在GitHub上找到。使用机器学习进行人脸检测 检测物体,比如人脸,是相当复杂的。想一想:也许我们可以编写一个程序来扫描像素以找到眼睛、鼻子和嘴巴。这是可以做到的,但要使其完全可靠实际上是无法实现的,因为要考虑许多因素。想想照明条件、面部毛发、各种各样的形状和颜色、妆容、角度、面罩等等。 然而,神经网络擅长处理这些类型的问题,并且可以概括为解释大多数(如果不是全部)条件。我们可以使用流行的JavaScript机器学习库TensorFlow。js在浏览器中创建、训练和使用神经网络。然而,即使我们使用现成的、预训练的模型,我们仍然会稍微了解向TensorFlow提供信息和解释输出的细节。如果您对机器学习的技术细节感兴趣,请查看APrimeronMachineLearningwithPython。 输入faceapi。js。它将所有这些包装到一个直观的API中。我们可以传递一个img、canvas或videoDOM元素,该库将返回一个或一组结果。Faceapi。js可以检测人脸,也可以估计人脸中的各种东西,如下所示。人脸检测:获取一张或多张人脸的边界。这对于确定人脸在图片中的位置和大小很有用。人脸地标检测:获取眉毛、眼睛、鼻子、嘴巴和嘴唇、下巴的位置和形状。这可用于确定朝向或在特定区域投影图形,例如鼻子和嘴唇之间的胡须。人脸识别:确定照片中的人。人脸表情检测:从人脸中获取表情。请注意,不同文化的里程可能会有所不同。年龄和性别检测:从人脸中获取年龄和性别。请注意,对于性别分类,它将面孔分类为女性或男性,这并不一定揭示他们的性别。 在您使用任何超出实验的方法之前,请注意人工智能擅长放大偏见。性别分类适用于顺性别的人,但它无法检测我的非二元朋友的性别。它会在大部分时间识别白人,但经常无法检测到有色人种。 在使用这项技术时要深思熟虑,并与多元化的测试小组一起进行彻底的测试。安装 我们可以通过npm安装faceapi。js:npminstallfaceapi。js 但是,要跳过设置构建工具,我将通过unpkg。org包含UMD包:globalsfaceapiimporthttps:unpkg。comfaceapi。js0。22。2distfaceapi。min。 之后,我们需要从库的存储库中下载正确的预训练模型。确定我们想从面部了解什么,并使用可用模型部分来确定需要哪些模型。某些功能适用于多个模型。在这种情况下,我们必须在带宽性能和准确性之间做出选择。比较各种可用模型的文件大小,然后选择您认为最适合您的项目的模型。 不确定您需要使用哪些型号?您可以稍后返回此步骤。当我们在没有加载所需模型的情况下使用API时,会抛出错误,说明库需要哪个模型。 我们现在可以使用faceapi。jsAPI。例子 让我们建立一些东西! 对于下面的示例,我将使用此函数从UnsplashSource加载随机图像:functionloadRandomImage(){constimagenewImage();image。crossOreturnnewPromise((resolve,reject){image。addEventListener(error,(error)reject(error));image。addEventListener(load,()resolve(image));image。srchttps:source。unsplash。com512x512?face,});}裁剪图片 您可以在随附的GitHub存储库中找到此演示的代码。 首先,我们必须选择并加载模型。要裁剪图像,我们只需要知道人脸的边界框,因此人脸检测就足够了。我们可以使用两个模型来做到这一点:SSDMobilenetv1模型(不到6MB)和TinyFaceDetector模型(不到200KB)。假设准确性是无关紧要的,因为用户还可以选择手动裁剪。此外,假设访问者在互联网连接速度较慢的情况下使用此功能。因为我们的重点是带宽和性能,所以我们将选择较小的TinyFaceDetector模型。 下载模型后,我们可以加载它:awaitfaceapi。nets。tinyFaceDetector。loadFromUri(models); 我们现在可以加载图像并将其传递给faceapi。js。faceapi。detectAllFaces默认情况下使用SSDMobilenetv1模型,因此我们必须显式传递newfaceapi。TinyFaceDetectorOptions()以强制它使用TinyFaceDetector模型。constimageawaitloadRandomImage();constfacesawaitfaceapi。detectAllFaces(image,newfaceapi。TinyFaceDetectorOptions()); 该变量faces现在包含一个结果数组。每个结果都有一个boxandscore属性。该分数表明神经网络对结果确实是一张脸的信心。该box属性包含一个带有人脸坐标的对象。我们可以选择第一个结果(或者我们可以使用faceapi。detectSingleFace()),但是如果用户提交了一张合影,我们希望在裁剪后的图片中看到所有这些。为此,我们可以计算一个自定义边界框:constbox{Setboundariestotheirinverseinfinity,soanynumberisgreatersmallerbottom:Infinity,left:Infinity,right:Infinity,top:Infinity,Giventheboundaries,wecancomputewidthandheightgetheight(){returnthis。bottomthis。},getwidth(){returnthis。rightthis。},};Updatetheboxboundariesfor(constfaceoffaces){box。bottomMath。max(box。bottom,face。box。bottom);box。leftMath。min(box。left,face。box。left);box。rightMath。max(box。right,face。box。right);box。topMath。min(box。top,face。box。top);} 最后,我们可以创建一个画布并显示结果:constcanvasdocument。createElement(canvas);constcontextcanvas。getContext(2d);canvas。heightbox。canvas。widthbox。context。drawImage(image,box。left,box。top,box。width,box。height,0,0,canvas。width,canvas。height);放置表情符号 您可以在随附的GitHub存储库中找到此演示的代码。 为什么不享受一点乐趣呢?我们可以制作一个过滤器,将嘴巴表情符号()放在所有眼睛上。为了找到眼睛标志,我们需要另一个模型。这一次,我们关心准确性,因此我们使用SSDMobilenetv1和68PointFaceLandmarkDetection模型。 同样,我们需要先加载模型和图像:awaitfaceapi。nets。faceLandmark68Net。loadFromUri(models);awaitfaceapi。nets。ssdMobilenetv1。loadFromUri(models);constimageawaitloadRandomImage(); 要获取地标,我们必须附加withFaceLandmarks()函数调用以detectAllFaces()获取地标数据:constfacesawaitfaceapi。detectAllFaces(image)。withlandmarks(); 与上次一样,faces包含结果列表。除了人脸在哪里之外,每个结果还包含一个原始的地标点列表。为了获得每个特征的正确地标,我们需要对点列表进行切片。因为点数是固定的,所以我选择对索引进行硬编码:for(constfaceoffaces){constfeatures{jaw:face。landmarks。positions。slice(0,17),eyebrowLeft:face。landmarks。positions。slice(17,22),eyebrowRight:face。landmarks。positions。slice(22,27),noseBridge:face。landmarks。positions。slice(27,31),nose:face。landmarks。positions。slice(31,36),eyeLeft:face。landmarks。positions。slice(36,42),eyeRight:face。landmarks。positions。slice(42,48),lipOuter:face。landmarks。positions。slice(48,60),lipInner:face。landmarks。positions。slice(60),};。。。} 现在我们终于可以享受一点乐趣了。有很多选择,但让我们用嘴巴表情符号()遮住眼睛。 首先,我们必须确定表情符号的放置位置以及应该绘制多大。为此,让我们编写一个辅助函数,从任意一组点创建一个框。该框包含我们需要的所有信息:functiongetBoxFromPoints(points){constbox{bottom:Infinity,left:Infinity,right:Infinity,top:Infinity,getcenter(){return{x:this。leftthis。width2,y:this。topthis。height2,};},getheight(){returnthis。bottomthis。},getwidth(){returnthis。rightthis。},};for(constpointofpoints){box。leftMath。min(box。left,point。x);box。rightMath。max(box。right,point。x);box。bottomMath。max(box。bottom,point。y);box。topMath。min(box。top,point。y);}} 现在我们可以开始在图片上绘制表情符号了。因为我们必须对两只眼睛都这样做,所以我们可以将feature。eyeLeft和feature。eyeRight放入一个数组中并遍历它们以对每只眼睛执行相同的代码。剩下的就是在画布上绘制表情符号!for(consteyeof〔features。eyeLeft,features。eyeRight〕){consteyeBoxgetBoxFromPoints(eye);constfontSize6eyeBox。context。font{fontSize}px{fontSize}context。textAcontext。textBcontext。fillStyle000;context。fillText(,eyeBox。center。x,eyeBox。center。y0。6fontSize);} 请注意,我使用了一些幻数来调整字体大小和确切的文本位置。因为表情符号是unicode并且网络上的排版很奇怪(至少对我来说),我只是调整数字直到它们看起来正确。更强大的替代方法是将图像用作叠加层。结束语 Faceapi。js是一个很棒的库,它使人脸检测和识别变得非常容易。不需要熟悉机器学习和神经网络。我喜欢启用的工具,这绝对是其中之一。 根据我的经验,Web上的人脸识别会影响性能。我们将不得不在带宽和性能或准确性之间做出选择。较小的模型肯定会不太准确,并且会在我之前提到的一些因素中错过一张脸,比如光线不足或脸部被面具覆盖。 微软Azure、谷歌云和可能的其他企业在云中提供人脸检测。由于我们避免下载大型模型,基于云的检测避免了繁重的页面加载,并且由于经常改进而趋于更准确,并且由于优化的硬件甚至可能更快。如果您需要高精度,您可能需要研究一个您觉得满意的计划。 我绝对推荐使用faceapi。js来进行业余项目、实验,也许还有MVP。