搜索引擎教程 百度语音搜索

9158APP 0

搜索引擎教程百度语音搜索简介:随着2010年iPhone 4的发布,智能手机得到了广泛的应用,从大学生到老人和孩子,移动互联网的发展如火如荼。近两年,5G技术让下载速度越来越快。与传统的文本搜索技术相比,越南出现了语音搜索、图像搜索等新的搜索方式。

导读:2010年随着iPhone 4的发布,智能手机得到了广泛的应用,从大学生到老人、孩子,移动互联网的发展正如火如荼。近两年,5G技术让下载速度越来越快。与传统的文本搜索技术相比,语音搜索、图像搜索等新的搜索方式已经以越来越多的产品形态出现。

今天的内容主要分为4部分来介绍多模式搜索技术:

多模式搜索:始于移动,繁荣5G+智能时代语音搜索:听得清楚+听得懂+满意视觉搜索:所见即所得“破圈”:无限可能

01多模式搜索:从移动起步,繁荣5G+智能时代

1.多模式搜索的概念

多模态搜索包括视觉搜索和语音搜索。在百度应用的底部,语音按钮是语音搜索的入口。搜索框右侧的拍照按钮是视觉搜索的入口。语音搜索可以很好地替代文本搜索,而视觉搜索可以帮助用户轻松找到图片背后的信息。

2、百度为何从2015年开始积累多模式搜索技术?

以iPhone为代表的智能手机时代的到来,让语音输入成为可能。 4G通信网络大大提高了上传和下载速度,上传图片不再困难。我们的网友从青壮年开始,扩展到两边的儿童和老人。

3、5G新时代多模式搜索的变化

身临其境的体验。 5G带宽变得更强大后,我们需要一些超越视频的沉浸式体验。减少延迟。 5G推广以后,特别是通过云-边-端三个阶段的服务部署,包括很多模式,从云前端到端,这可能会带来很大的便利。新硬件。随着智能音箱、蓝牙耳机、智能手表、智能眼镜的广泛使用,用户多模式搜索的需求进一步兴起。

02语音搜索:听得清楚+听得懂+满意

1、语音搜索的三个目标:听清楚、听懂、满意

听清楚:将我们所说的语音信号准确地转换为文本。这里其实存在很多挑战:环境比较吵; 方言; 声音太小。理解:即使我们将语音转换为文本,也不意味着我们可以按照传统的搜索方式将转换后的文本直接丢给搜索引擎进行理解。原因:口语问题; 长尾问题; 连续搜索。例如,用户第一次会问“伦敦现在几点了”,但下次他就不会说“巴黎现在几点了”,而是直接问“巴黎在哪里”。满意度:对于某些特定的语音门户,例如智能音箱,我们不太可能向用户报告前十名的搜索结果。我们只能给用户最准确的top1结果。

2、技术方案

这三个阶段的总体技术框架如下:

首先,听清楚。从输入的角度来看,有两个:语音识别。此阶段更多是将声音信号转换为基本文本; 语音纠错。语音纠错将用户的原始文本表达变成适合搜索引擎真正理解的查询。在最终的内容表达过程中,会进行一些广播生成和语音合成,使交互更加自然。理解过程主要有四个部分:查询的泛化。这一步的目标是将整个用户的长尾表达映射到一些搜索引擎更好理解的频率相对较高的查询; 对于口语理解可以转化为QA问题; 语境理解; 整个搜索会话的管理满足此链接级别。站在整个百度通用搜索的肩膀上,在某些特定的场景下需要给用户更精准的表达,所以这就需要智能问答技术,包括知识图谱技术,最后提供一些特定的服务。

03视觉搜索:所见即所得

1. 目标

视觉搜索要做的就是所见即所得。无论是用户通过手机看到的还是实时摄像头看到的东西,我们都可以给你它背后的内容。这方面大约存在三个挑战。

相互作用。交互技术是影响用户整体交互效率的一个非常重要的环节。洞察力。与文本搜索通过相对高层的抽象来表达每一段文本或自身的需求不同,视觉搜索需要从像素级别感知和构建更高级别的对象级别信息。确认。了解由像素集合表示的整个对象背后的信息。

2. 成果

经过几年的努力,百度已经取得了比较好的技术积累,取得了全球领先的视觉感知和搜索引擎。从交互角度来看,基本上可以在100毫秒左右的时间内给用户在手机上带来良好的感官反馈。覆盖60多个场景,索引超过8000万个实体、数十亿个产品。图片数量超过1000亿张。

3、视觉科技

整个视觉搜索技术大致分为三个层次:

第一个层次是视觉感知。这个级别主要是在用户手机本地计算,包括2D和3D检测,2D和3D跟踪,包括一些简单的场景识别,并且支持AR定位和渲染。第二步是视觉识别。当我们在手机上完成这些感知之后,我们需要搜索并满足我们感知到的物体的更详细的信息。第三个是基础技术,主要是用来支撑上面的感知和识别的,包括图像理解、文本理解、视频理解,还有一些关于人体、人脸等的感知技术,以及一些基础的云和识别技术。设备端性能优化、多模态QA技术等

4.视觉感知过程

将视觉感知打造为基于视频流的感知计算和MR交互框架。这个框架完全是最后计算出来的,主要包括六个流程。

检测和分割。主要是发现图中的一些基本物体及其一些物体类型。追踪。因为我们需要进行连续的交互,并且屏幕会不断移动,所以我们需要做一些跟踪和定位来保持被跟踪对象的具体位置。粗粒度的理解。客户端对整个流量进行一些简单的了解,以达到精准流量分配的目的。 AR展示。云搜索结果返回后,通过AR方式展示结果信息。 MR交互。通过手指或肢体表情交互,用户可以进一步与AR内容进行互动和交流。应用场景。最后,它支持现有的几种产品形态,包括动态多目标识别、照片搜索、AR翻译、实时取词等。

视觉感知算法的演变

从2017年开始,我们首次尝试开发末端物体检测技术。它的目标是制造轻量级模型。第二阶段是2018年,当时做连续帧检测,解决新的检测稳定性问题。从2019年开始,我们想要进一步提高小物体的检测效果,在多尺度检测和网络结构自动搜索方面做了一些工作。那么20年后,我们将通过多阶段蒸馏和anchor free模型进行更多探索,进一步提高整体检测效果。

算法迭代

第一代检测算法:首先,在第一个轻量级阶段,我们直接选择了one stage检测方法,使用公共的mobilenet-v1结合剪枝来提高模型的速度,同时在layer层面也做了loss 。做了一些简单的优化并尝试使用焦点损失。第二代检测算法:刚才提到,我们发现了一个新问题。连续检测时检测输出会发生较大变化。这是影响连续帧检测稳定性的根本原因。我们首次提出了问题的定义和量化公式,最终结合多帧信息解决了检测稳定性同时兼顾性能的问题。第三代检测算法:第三代的主要目的是解决小物体召回问题。它基本上从两个阶段开始。首先是整体网络模型结构。 yolo-v3对于小物体会更加友好。二是网络上结构化搜索的引入将进一步提高小对象的优化。对于第四代检测算法,我们观察到虽然改进后的yolo-v3已经很不错了,但与retinanet-50甚至更大的模型相比还是有很大的差距。因此,我们希望通过蒸馏进一步提高检测结果的准确性。

5. 视觉识别检索过程

基本流程是:根据sift或者cnn提取的特征,然后使用ANN进行检索。

我们大概经历了三个进化阶段:

第一阶段是我们在2015 年首次开始这样做,基于监督方法。第二阶段是2018年,当时我们开始引入半监督方法,通过数据驱动训练来训练图像和视频特征表示。从20年前开始,我们将算法从半监督方式升级为无监督方式,希望利用更多的数据来学习更适合任务场景、具有更好泛化能力的特征表示。

监督方法的问题

第一个标记的数据通常尺寸较小并且噪声相对较多。第二点是由于其规模相对较小,样本多样性往往不足。第三个问题是,通过这种人工标注,有多少体力劳动就有多少智力。贴标成本也很高,周期也比较长。

无监督方法的选择和演化

第一个是以更传统的谱聚类方式实现的。根据向量得到对之间的相似度,然后将簇号作为数据的标签。

第二种以BYOL算法为代表。经过各种增强后图像发生变形。通过原始图像和变形图像之间的比较学习,学习到整个图像更好的特征表达。

04《破圈》:无限可能

打破这个循环有无限的可能性。未来多模式搜索的技术和产品形态将向何处发展?杜小小App就是答案之一。

度笑笑是在2020年百度世界大会上首次发布的多模式搜索新产品。从技术角度来看,它是语音、视觉、文本三大技术领域的交叉点,汇集了语音识别和图像识别。还有智能搜索、NLU和多轮对话技术。同时,它本身还拥有化身和富含多种情感的语音合成技术。其背后是百度各种技术方法和产品的整合,其中包含着信息。和服务搜索,以及互动娱乐部分。

未来,将通过更加融合的多模式搜索技术,创造更多无限可能。

今天的分享就到这里,谢谢大家。

文章作者:

李国红

百度高级研发工程师|百度多模式搜索策略领导者

分享嘉宾:李国红,百度高级研发工程师

编辑整理:李斌

制作平台:DataFunTalk