李彦宏赏花看视觉搜索未来

发布时间：2020-03-10 10:21:19 阅读：次来源：冷饮厂家

A5交易A5任务 SEO诊断淘宝客站长团购

在百度第五届Hackathon(百度内部编程马拉松)上，李彦宏一如既往地参与点评。据百度内部同学爆料，这次李彦宏特别被一个美女博士领衔的学生团队赏花宝典运用所吸引。

88年美女博士与赏花宝典

据百度同学说本次Hackathon是首次对外开放，有6支校园高手组队参加Hackathon。其中1支名为TAGroup的校园代表队leader是88年美女博士古晓艳，目前在中科院计算所读大数据方向的博士。

通过主动争取李彦宏的注意，这个团队的Demo(原型)吸引了李彦宏。这个Demo被命名为赏花宝典。基于手机拍照实现花卉辨认，主动提示百度百科内容;同时还可智能推荐赏花地、导航信息，并引入百度贴吧，方便花友们交换。在百度最大的会议室5福，李彦宏详细了解他们的Demo，与4名学生相谈甚欢，主要探讨的是技术问题。这个学生团队终究也摘得黑马奖。

记得在2013年极客公园大会上，李彦宏坦言自己爱好上网，他没说的是，自己还喜欢花草。听说李彦宏最喜欢逛的贴吧不是李彦宏吧，而是白皮松吧、植物吧等等。除在自家花园种植外，李彦宏连去国外出差也不忘抽空网购植物。

Robin酷爱花草，这在百度内部已不是秘密。或许是由于这个，李彦宏被赏花宝典吸引。

还有一个缘由可能是，赏花宝典与百度正在攻坚的视觉搜索有紧密联系，这是一项面向未来但又复杂浩大的工程。

随着百度魔图凭PK大咖功能迅速走红，百度在人脸辨认技术的进展取得业界关注。与此类似，识花运用也是视觉搜索的一种，视觉搜索更直白地说是以图搜图。几个月前我曾进行过分析，认为视觉搜索是移动搜索的未来。

百度Hackathon鼓励天马行空，更鼓励解决实际问题。因此，每次产生的上百个创意产品或半成品，除要本身创意足外，还要斟酌、实用性强，以便参赛成果真正转换为产品，或为产品所用。比如这个识花运用，就可能在进一步突破以后，纳入百度APP的移动搜索当中。

视觉搜索的难点

见微知著，赏花宝典虽然是个技术demo，却也集中体现了未来视觉搜索技术发展需要解决的问题。

1. 辨认准确率

视觉搜索在对平面或刚体(书籍、CD、建筑物、油画、明星照片等不容易变形的物体)的搜索方面，召回率(反应搜索引擎查得全不全的技术指标)已超过90%;但对非刚体的柔性图象(比如动物、衣服、环境)的辨认，就对机器算法有更高的要求。

鲜花属于与动物类似的非刚性图象。如果再将范围扩大到植物，辨认难度会更大。鲜花之间的区分除形状，还有大小、色采乃至细节。据了解，赏花宝典目前支持20多类花卉辨认，种类不算多，召回率可以接受，但距离百度正式上线的视觉搜索项目还有不小差距，固然，作为24小时优化的成果，这已是非常赞的成绩了。

目前识别率较高的垂直领域，很多都已成为视觉搜索的切入口。例如条码、二维码、人脸、图书、CD封面，这些在iOS版的手机百度APP中都已作为标配置入了。但这也是垂直品类的细分，生活中的物品千千万，种别是没法穷举的。水果、盆景、树木、昆虫等领域都得一个个分别来，百度的程序猿们也必须得根据使用率来排个优先级，否则从此就可以不用睡觉了。

2.大数据与海量计算

图象辨认需要云端积累的海量数据。百度魔图的明星脸辨认之所以能运转，最基础的是百度拥具有海量的明星图片库。赏花宝典4人团队中，也有一个成员是专门负责获得花卉图片库。

在视觉搜索的服务器端，数据被聚类提取特点。构成长这样的是什么的规律，搜索引擎在取得用户上传的图片并提取出特点后，通过比对来了解这个图片的意义。数据越多，规律越准确越细，辨认准确率越高。

从数据信息提取出规律并构成知识，这是深度学习技术在做的事情。也就是说，机器像人脑一样思考，自动从海量数据中找出规律来，整个过程中自我完善。有些需要人工纠正干预，有些干脆就是无监督学习。

百度在深度学习方面布局很早，延揽人材之手早已伸向硅谷腹地，国家千人计划学者余凯、Facebook前资深科学家徐伟、新泽西州立大学统计学教授张潼，均被李彦宏招至麾下。深度学习也不是万能的，要有计算能力和大数据做基础，没有这两样，一切都是空谈。好在，百度这两样都有。

3.理解用户意图

视觉搜索当前的流程是上传一张图片，搜索引擎返回结果。这个信息输入常常是不够的。仅仅通过一张图片便知道用户的搜索意图，除特别信息特别明确的图片，这几近是机器现阶段难以完成的任务。

视觉搜索目前的处理逻辑有三种：第一种是默许用户要搜索的是：这张图片是什么?例如宠物狗搜索;第二种是只返回类似图片，不提供具体信息，例如百度PC端的图片搜索;第三种是在特定领域提供个性化信息图书、CD封面和条形码是比价，PK大咔是比对明星脸，赏花宝典则进一步提供社交、知道、百科信息。但这三种都还是猜想搜索意图。而不是理解用户搜索意图。

如何通过辨认图片，进而理解用户搜索意图是当前的难点。这与语音搜索遇到的困难类似，语音转换为文字已相对成熟，但人机对话目前仍然停留在很低级的阶段。这也需要深度学习来解决。只有期望深度学习继续带来欣喜了。

视觉搜索的趋势

1.与可穿着装备结合：手机固然是目前使用起来最自然的，可也不能忘了Google Glass，它让拍摄-上传-搜索的流程更加顺畅，百度内部也在加强百度眼镜工程版的调试。不仅如此，后期一定还会出现比眼镜更隐形、便捷的装备。

2.与语音搜索结合：与人交谈时，我们同时向对方传递视觉信息和声音信息。因此要解决视觉搜索的一张图没法表明搜索意图的问题，也许需要与语音搜索结合。例如拍摄菜市场的蔬菜上传时，可以语音问这是什么菜?这个菜合适与甚么搭配?这个菜要怎样炒?一步一步逼近你要的结果，而这样的语音交互，乃至可以是多几轮很自然的对话交换。

3.动态视觉搜索：解决看一眼的问题。在移动网络瓶颈消失后，所见即所搜，拍照、上传等带来的延时消失。用户需要的不是拍照，而是要让搜索引擎与之分享眼前所见。现在的AR实景，能算是这类运用的雏形。

以上种种，都是让视觉搜索变得更自然，或让搜索消失。就好像钢铁侠里面的贾维斯一样，这个隐形的管家无处不在，他比你还了解你自己，帮你安排生活，解答问题，与你分享和帮助你认识这个世界。现实残暴，未来仍然很饱满。这需要搜索科学家们的延续努力，早日带来我们一种全新的搜索引擎。