Hvordan forbedrer GPT-teknologi NOMIs innebygde intelligens
02/10/2024 07:00
NOMI blir - GPT forbedres
En av verdens første innebygde KI-systemer for kjøretøy, NOMI, integrerer nå GPT-teknologi takket være Microsoft Azures OpenAI Service. Denne oppgraderingen gjør det mulig for NOMI å samhandle med brukerne på en enda mer naturlig måte. I denne episoden av Tech Talk skal NOMIs produktansvarlige for Europa, Olga Khryapchenkova, diskutere prosessen bak teknologien.
Hvorfor får NOMI GPT teknologi?
NIOs beslutning om å implementere GPT-teknologi reflekterer vårt engasjement for å være ledende innen innovasjon og møte de stadig skiftende behovene til våre brukere. Siden 2018 har vi kontinuerlig utviklet NOMI, og nå vil integrasjonen av GPT-teknologi ytterligere forbedre den generelle brukeropplevelsen.
Feltet for generativ kunstig intelligens utvikler seg raskt, drevet av betydelige fremskritt innen stor språk modell (SSM). Nylige forbedringer i ytelsen til kunstig intelligens skyldes hovedsakelig tilgang til enorme datasett og økt prosesseringskraft. Disse fremskrittene har gjort kunstig intelligens mer allsidig og kapabel, spesielt innen chatbots og stemmeassistenter. Selv om kunstig intelligens ikke løser alle problemer, har den vist seg å være revelusjonerende i scenarier med uendelige input- og output-muligheter, samt et behov for høy skalerbarhet. Av den grunn har NIO vært tidlig ute med å utforske denne innovative teknologien for å integrere kunstig intelligens i NOMI.
For å kunne tilby maksimal fleksibilitet og skalerbarhet har NOMI oppgradert sin tradisjonelle ASR-NLU-DM-TTS-arkitektur ved å implementere GPT-teknologi i både NLU (naturlig språkforståelse) og DM (Dialog Manager) modulene. Omfattende forskning viser at GPT-teknologi er det beste alternativet for å møte både nåværende og fremtidige brukerbehov.
Forklaringer: ASR: Automatisk talegjenkjenning, NLU: Naturlig språkforståelse, DM: Dialog Manager, TTS: Tekst-til-tale.
Hvordan forbedrer dette kjøreopplevelsen?
NOMI Hilsen: funksjonen gir deg nå en skreddersydd oppdatering slik at reisen kan starte sømløst. NOMI kan for eksempel si: "Hei, det er skyet og 9-11°C. La oss få mest mulig ut av denne dagen, kjør forsiktig."
Bruker Manual: Denne funksjonen hjelper brukerne med å forstå og bruke kjøretøyet bedre. Gjennom RAG (Retrieval-Augmented Generation) leverer NIO spesifikk informasjon til brukerne.
FAQ: Denne funksjonen gjør NOMI til din primære ressurs for både svar og samtaler. NOMI får muligheten til å engasjere seg med brukerne gjennom innsikt i kapabiliteter og personlighet, noe som gjør interaksjonen enda mer informativ og interaktiv.
ChitChat: Denne funksjonen gir en engasjerende og naturlig kommunikasjonsopplevelse med NOMI, i tråd med visjonen fra NIOs grunnleggere: bilen er ikke bare et transportmiddel, men en følgesvenn.
NOMI GPT kan gjøre kjøreturen mer engasjerende med sin interaktive tilstedeværelse, ved for eksempel å utdanne brukerne om bilen deres. Den systemskalerbare SSM-tilnærmingen tilbyr en bredere funksjonalitet enn tradisjonelle intensjonsbaserte systemer. I tillegg forbedrer aktivering av stemmekomandoer sikkerheten ved å la sjåfører holde fokus på veien. Gjennom disse innovasjonene setter NOMI en ny standard for kjøreopplevelser.
Hvordan er NOMI GTP aktivert?
Vi har en solid eksisterende arkitektur som vi bygger videre på; denne skal ikke erstattes. En solid grunnleggende arkitektur gjør det mulig for oss å skalere effektivt og håndtere et bredere spekter av scenarioer. Forbedringen skjer ved å sømløst integrere moduler, tilby varierte svar, samle inn data og koble til flere eksterne tjenester.
Fra et teknisk perspektiv er NOMI en intensjonsbasert stemmechatbot som består av ulike komponenter. Disse inkluderer Wake-up Word (WuW), Automatisk Talegjenkjenning (ASR), Naturlig Språkforståelse (NLU), Dialog Manager (DM) og Tekst-til-Tale (TTS).
Ta for eksempel den nylig lanserte NOMI GPT ChitChat-funksjonen. NOMI GPT ChitChat fungerer for tiden innenfor tre dimensjoner. For det første opererer den innenfor et Retrieval-Augmented Generation (RAG)-rammeverk, som fokuserer på spesifikke spørsmål og svar. For det andre bruker den vårt eget NIO NLU (Natural Language Understanding)-intelligensystem (som vi forklarte i en tidligere Tech Talk-artikkel). For det tredje integreres den med Microsoft Azure OpenAI Service-rammeverket.
RAG (retrieval-augmented generation)
Retrieval-Augmented Generation (RAG) gir flere fordeler som forbedrer kjøreopplevelsen med store språkmodeller (SSM). Blant disse er prompt engineering og fine-tuning. RAG er spesielt godt egnet for håndtering av situasjoner der vi ønsker å referere til selskapets dokumenter, et rammeverk som integrerer både retrieval-baserte og generative modeller innenfor naturlig språkbehandling.
-
Retrieval: RAG bruker en hentemekanisme for å trekke ut relevant informasjon fra et stort tekstkorpus, som en database eller et Q&A-arkiv. Denne prosessen bruker typisk tette vektorinnkoding eller likhetsmål for å finne passasjer som er semantisk relatert til informasjonen som etterspørres.
-
Augmentation: De hentede passasjene brukes deretter til å forbedre genereringsprosessen. I stedet for å stole utelukkende på eksisterende kunnskap eller treningsdata, tilfører disse passasjene extra kontekst og informasjon, noe som forbedrer kvaliteten og relevansen av de genererte svarene.
-
Generation: Til slutt genererer RAG svar ved å kombinere den originale forespørselen eller konteksten med de hentede passasjene. Generative modeller som GPT benyttes ofte i denne prosessen, med mål om å produsere sammenhengende, relevante og informative svar som integrerer både forespørselen og tilleggsinformasjonen.
RAG er også implementert i vår Brukermanual-funksjon, der brukerinput kombineres med vår interne database (brukermanualen) for å gi nøyaktige, NIO-spesifikke svar. På lignende måte matches brukerforespørslene i NOMI FAQ med vår egendefinerte Q&A-database for å gi tilpassede svar som reflekterer NIO og NOMI sine spesifikasjoner.
Microsoft Azure OpenAI Service - rammeverk
I vår forrige Tech Talk om NOMI, dekket vi vårt NOMI NLU-system i detalj. Nå rettes fokuset mot Microsoft Azure OpenAI Service-rammeverket. Vårt NLU-system avgjør først om en forespørsel skal håndteres av vårt eget system eller om GPT skal benyttes. Dersom GPT er nødvendig, vurderes det om forespørselen faller inn under en RAG-kategori (for eksempel en forespørsel om brukermanual) eller en annen type forespørsel. Hvis forespørselen tilfredsstiller alle kriterier, genererer Microsoft Azure OpenAI et svar, som deretter går gjennom et internt filter før det sendes til vår tekst-til-tale-syntetisator for levering til brukeren.
Dette interne filteret sikrer at brukerne mottar nøyaktig informasjon, og anerkjenner at ikke alle kilder nødvendigvis er pålitelige. For å unngå uverifisert innhold og beskytte brukerdata, bruker vi filtre og hvitelister for å definere tillatte bruksområder. Dette inkluderer bruken av RAG, plugins (eksterne agenter), prompter (prompt engineering), fine-tuning eller multi-agenter for å generere de mest nøyaktige svarene for brukerne.
Hvordan våre brukere finner verdi i Microsoft Azure-funksjoner:
-
Forbedret pålitelighet: Microsoft Azure tilbyr en robust og pålitelig infrastruktur, som sikrer at NOMI GPT-systemet leverer presise og konsistente svar.
-
Skalerbarhet: Med Azures Skyfunksjoner kan NOMI GPT-systemet enkelt håndtere et stort antall forespørsel samtidig, noe som sikrer jevn ytelse selv under høy belastning.
-
Avansert sikkerhet: Azures sikkerhetsfunksjoner beskytter brukerdata og interaksjoner, samtidig som de ivaretar personvernet og sikrer en trygg operasjon.
-
Optimalisert ytelse: Azures integrasjon med OpenAI muliggjør rask behandling og generering av svar, noe som reduserer ventetid og forbedrer systemets generelle hastighet og effektivitet.
-
Global tilgjengelighet: Azures globale nettverk sikrer at NOMI GPT-systemet kan levere høykvalitets tjenester til brukere i forskjellige regioner med minimal nedetid.
-
Kontinuerlige oppdateringer: Azures plattform muliggjør jevnlige oppdateringer og forbedringer, og sikrer at NOMI GPT-systemet er i takt med de nyeste fremskrittene innen kunstig intelligens.
Hva kommer: Et utkikkspunkt for nye brukstilfeller.
Vi gjør disse forbedringene med ett primært formål: å heve kvaliteten på produktene våre og øke vår smidighet for å møte brukernes behov. Vårt fokus er kontinuerlig utvikling av nye brukstilfeller basert på tilbakemeldinger, grundig forskning, omfattende testing og spennende teknologiske fremskritt. Vi undersøker også mulighetene knyttet til innfødt domenebereikning, LLM-agenter (både interne og eksterne), ulike chat-funksjoner, samt innovative opplevelseforbedringer.
Disse strategiene legger til rette for både proaktiv og reaktiv funksjonsutvikling, noe som gir oss muligheten til å skape og forbedre våre løsninger, samtidig som vi opprettholder solide arkitektoniske fundamenter. Ved å minimere feil og optimalisere kjøreopplevelsen, jobber vi for å øke både brukertilfredsheten og lojaliteten gjennom kreativ bruk av fallback-alternativer.
Slikt arbeid bringer oss nærmere en ny, naturlig informasjonsarkitektur hvor vi kan tenke i lineære interaksjoner og utvikle en søkeord-orientert, semantisk mindmap.
Dersom noe ennå ikke er lansert, indikerer det sannsynligvis at vi proaktivt adresserer risikoer, begrensninger eller tidsfrister. Vårt dedikerte internasjonale team arbeider kontinuerlig med å løse brukerutfordringer og validere mulige løsninger.
Har du en idé eller et spørsmål? Vi oppfordrer deg til å ta kontakt – vi er alltid åpne for brukertilbakemeldinger, enten de gjelder LLM-integrasjon eller andre emner.