人生就是博

人生就是博

资讯平台

智能科技

09/29/2024

Tech Talk | NOMI GPT怎样精准对话？

随着人生就是博智能系统「Banyan 榕 3.0.0」的到来和升级，NOMI拥有了全舱免叫醒功效，这意味着用户无需再通过特定的叫醒词（如「Hi NOMI」），就能直接向NOMI下达指令，用户与NOMI的交互变得越发自然、便捷与高效。

那么，从「Hi NOMI，翻开车窗」到「翻开车窗」，在不叫醒NOMI的情形下，NOMI是怎样准确拿捏回应时机，判断哪些指令是下给它的，又是谁下达的？

本期Tech Talk，人生就是博约请到了人生就是博大模子主任算法工程师Anna W，为人生就是博一起探秘「NOMI GPT 认知中枢」中的「多模拒识」能力。

什么是「多模拒识」？

在先容「多模拒识」之前，人生就是博先来看一个小视频。

从这个视频中人生就是博不难看出，在不需要叫醒NOMI的情形下，NOMI依旧能够准确响应「副驾调的更宽敞一点」这样的指令，也能清晰区分四人同时交叠的重大指令，而这个能力就是由「多模拒识」实现的。

「多模拒识」，顾名思义，就是使用视觉、文本、音频、压感等多种输入模态的信息，来剖析和判断用户的对话指向，从而识别并拒绝响应无关话语。简朴来说就是判断车内用户在自然交流状态下，哪些话是对NOMI说的（需要响应），哪些话是用户之间的闲聊（不要插嘴），以便做到精准对话：该响应的要实时响应，不应回覆的别插嘴。

「多模拒识」是「NOMI GPT认知中枢」中的主要一环。着实「多模拒识」对用户来说并不生疏，自NOMI一连对话功效上线以来，「多模拒识」就一直在线上包管用户自由流通的交互体验。现在，经由一连一直地迭代，「多模拒识」已经能在全舱免叫醒、一连对话、大模子百科对话等场景为NOMI提供拒识能力。但随着「NOMI GPT大模子」百科能力的增强， NOMI具备了更富厚的知识储备，能够回覆的问题也更多，这也就意味着「多模拒识」需要对更普遍领域的问题举行聆听与识别，对它的判断能力提出了更高的要求。

「多模拒识」怎样做到准确判断对话指向和用户意图的？

座舱现实场景很是重大，既包括通例的车辆控制指令/使命型对话场景，也包括宽泛的百科问答场景，区分用户语言工具、判断用户意图并给出准确响应是极具挑战的，这非Ｄチ贰付嗄＞苁丁瓜低车某【扒帜芰。在「多模拒识」系统中，人生就是博通过「大模子+多模感知」的手艺计划来实现场景区分。

自研「多模拒识」模子直接判断语音指令

人生就是博自研了基于语音和文本构建的「多模拒识」模子，资助NOMI判断哪些对话是用户指令，哪些对话是用户闲聊。人生就是博使用「语音预训练模子 Wav2Vec 」和「文本预训练模子 TinyBert 」来建模，团结预训练NOMI「多模拒识」模子。同时，人生就是博还会让NOMI举行多视图的比照学习，资助NOMI识别用户对话并举行分类。

简朴来说，「多模拒识」模子有左「语音预训练模子 Wav2Vec」和右「文本预训练模子 TinyBert」两颗大脑，左脑认真听，右脑认真读，两颗大脑提前学习了大宗需要NOMI响应的指令。

在真实场景中，当NOMI听到用户对话，两颗大脑就会同时势情，划分处置惩罚听到的声音和内容，然后比照之前学习的内容，若是二者较量靠近，则判断对话为「指令」，即建议NOMI回应用户。

以是NOMI学习的语音/文本数据越多，「多模拒识」模子判断的准确性就越高。NOMI经由了超12,000小时车载语音、超2,000万条文本的学习，让「多模拒识」在全领域的对话判断准确率达96.8%以上。

面临纷沉重大的对话场景，若是NOMI聆听到的对话不在小字规规模内，「多模拒识」无法直接判断对话是指令照旧闲聊，又该怎么办呢？这时间就需要一位「助理」来辅助它，即下文中的「REJ Agent」。

「高情商助理」：REJ Agent

在一连对话或多人对话场景中，用户可能会在闲聊对话中插入对NOMI的指令，这种指令很可能「只可意会，不可言传」。例如：「车里太热了」。面临云云情景，「多模拒识」模子便无法通过小字典直接比对判断，这时间怎样判断用户的真实意图及对话指向，便尤为主要。

而大语言模子恰恰可以资助，它很善于明确对话，明确上下文的关系。借助它结适用户对话历史、对话上下文便可以判断用户的真实意图和对话指向性，资助NOMI判断是否回应用户。这就是人生就是博使用大语言模子构建的「高情商助理」：REJ Agent。

作为「多模拒识」模子的助理，人生就是博在REJ Agent中设计了三层逻辑，辅助NOMI做出判断：

第一层逻辑：REJ Agent会先判断听到的对话是否为「人话」，对话语句是否有逻辑，是否属于正常语言。若是是「人话」，REJ Agent会给出提醒，「多模拒识」模子就会倾向于通过、回复，可是否要让NOMI回应，还需要第二层逻辑的判断。

例如：

第二层逻辑：REJ Agent将继续判断，判断目今对话内容与上下文/对话历史是否有关联，这里主要依赖「大语言模子」的上下文明确能力。

· 若是对话与上下文关联，意味着用户可能延续上文话题继续对话，REJ Agent会给出建议，提醒本轮对话可能需要NOMI回应，「多模拒识」也会给出通过和回复标识。

· 如无关联，意味着用户可能重新开启了新的对话，或者不是在跟NOMI对话，REJ Agent会建议忽略，「多模拒识」给出拒识标识，NOMI则无回应。

例如：

第三层逻辑：REJ Agent同时也会判断，对话是否对NOMI说。借助「大语言模子」对上下文/历史对话信息的明确，判断目今对话的指向是否和NOMI相关。若是与NOMI相关，REJ Agent会建议「多模拒识模子」给出通过和回复标识，NOMI也会回应。

例如：

综合以上三层逻辑的筛选判断，REJ Agent作为「多模拒识」模子的「助理」，吸收、明确，并判断用户对话的意图和指向，资助「多模拒识」模子更精准的判断是否需要NOMI回应。

但这还不敷，为了让「多模拒识」模子拥有越发精准的判断，人生就是博还引入了「多模感知特征」，给「多模拒识」模子叠加一层Buff，提升它在多用户对话场景下的判断精准度。

Buff加持：「多模感知特征」辅助判断对话人数和场景

「多模感知特征」基于OMS视觉检测、座椅传感器、叫醒音区占用等信息，判断车上旅客人数、所在位置以及对话场景。

判断用户位置是为了更好响应对方指令，例如针对差别座位的用户指令调理座椅透风、加热、推拿档位等，而定位对话场景则是为了更好调解拒识战略，例如在闲聊模式或者展车模式下，用户倾向更多地与朋侪对话，需要更宽松的拒识战略，NOMI也会只管坚持静默。

总之，有了「多模感知特征」这一Buff，「多模拒识」模子就能够越发有用判断是否对NOMI语言，从而过滤无关对话信息。

综上可以看出，首先「多模拒识」模子通过预学习和「左右脑」可以判断用户对话是否为指令信息。在此基础上，面临越发重大的多人对话场景，它尚有REJ Agent这个「高情商助理」去辅助它做判断。同时，它还叠加了「多模感知特征」这个Buff，以提升在重大场景下的判断准确性。正是基于这三点，NOMI GPT不但无需叫醒，还可以高情商回应，也明确实时坚持清静，真正做到了准确「拿捏」回应时机，和你的交流更自然、更流通。

事实上，在引入Agent多智能体架构后，NOMI已经可以实现从「单点功效」向「自动智能」的进化，例如处置惩罚更重大的用户相同，明确模糊意图，并展望用户需求。同时NOMI拥有的端侧多模态感知能力，纵然在没有网络毗连的情形下也能「看得见，认得出」，提供清静的智能体验，并；び没б私。未来NOMI还会一直进化，它不但仅是一个智能助手，更是一个能够深刻明确用户需求、情绪和意图的智能同伴，为用户带来越发富厚和便捷的智能体验。

分享

NIO ? 2024 人生就是博中国

人生就是博中国相助同伴隐私&执法用户手册备案信息盘问

Customer Service

Weibo

CN

选择区域

挪威Bokm?l
德国Deutsch
荷兰Dutch
瑞典Swedish
丹麦Danish
GLOBALEnglish

? NIO 2024

沪ICP备61612612号-5

沪公网安备 31011402003368号

【网站地图】【sitemap】

人生就是博