Forskere har foreslått en ny type intelligens, som er et skritt nærmere hele autonomiprosessen.
13 mins read

Forskere har foreslått en ny type intelligens, som er et skritt nærmere hele autonomiprosessen.

I fjor ble en stor språkmodell representert av Chatgpt «spillreglene endring» i hele AI -feltet.

Blant dem er det spesielt utrolig at de har felles evner innen tekstsceneforståelse, tekstgenerering og kodegenerering.Samtidig har forskere på dette feltet funnet ut at de kan bruke disse grunnleggende modellene for å samhandle med omverdenen for å la dem fullføre noen spesifikke oppgaver nær menneskers virkelige liv.

Hjelp folk for eksempel å kjøpe på nettet;Og dette emnet som kan fullføre oppgaven uavhengig kalles smart.

For tiden, for å trene intelligens for å forbedre ytelsen, er forskere forpliktet til å bruke multi -trinns resonnement og handlingsbane som treningsdata.Enten gjennom kunstige merknader eller forskjellige hurtige rammer, krever innsamling av banen ovenfor mye arbeidskraft.

For dette formål, nylig, foreslår et forskerteam fra Tsinghua University et intelligent organ kalt Actre for å hjelpe smarte partier med å realisere hele prosessen med datainnsamling og selvutvikling.

Som en ny type smart, Actre og React, en kjent intelligens, følger reglene for «Reason-Then-Act».

Med andre ord, ACTRE reverserer årsakssammenheng av tekstresonnement og henrettelse i react for å realisere beskrivelsen av tekstårsakene til en gitt vilkårlig handling.

«Under utførelsen av React Smart, kan du prøve handlingen du trenger å gjøre i neste trinn. Etter at den nye handlingen er oppnådd, kan den sendes til ACTRE for å få tekstbeskrivelsen for denne handlingen.

Deretter blir årsaken til denne teksten beskrevet foran, og prøvene oppnådd av prøvene blir lagt bak, som danner et format av reaktreferanseaksjonen.Yang Zonghan, en doktorgradsstudent ved Tsinghua University, forklarte.

Figur 丨 Yang Zonghan (kilde: Yang Zonghan)

Etter at React og Actre samarbeider med hverandre, kan de få en diversifisert bane med stor skala i miljøet.Til slutten av banen vil simuleringsmiljøet gi sluttresultatet, og sistnevnte har naturlig nok blitt standarden for å bedømme den gode eller dårlige dommen.

Eksperimenter har vist at dataene som er samlet inn over har veldig høy kvalitet.

Yang Zonghan sa: «Selv om React mislykkes, kan du ofte få en høy poengsum etter å ha tatt Actres utforskning.»

Det bruker nettopp denne seieren eller nederlag at den intelligente kroppen kan gjennomføre et sammenlignende selvtrening, og deretter oppnå stor forbedring av evnen.

Til slutt oppnådde forskerteamet ekstraordinære resultater i de to miljøene: Webshop og Alfworld brukt i eksperimentet.

Spesielt bruker de open source-språkmodellen til 7B-parameteren og den intelligente kroppen til QLORA-parameteren effektivt og finjustert.

For tiden har intelligensdrevet intelligens -drevet intelligens en høy grad av applikasjonsverdi, og denne studien fremmer effektivt autonomien til hele prosessen med smart kroppsavstand for å oppnå et tettere skritt.

Basert på dette forventes fremtidig intelligens å spille menneskelige assistentkarakterer i mange aspekter for å hjelpe mennesker til å frigjøre fra mange gjentatte saker.

Nylig er de relevante papirene på pre -printing -plattformen med tittelen Arxiv Publisert [1].Yang Zonghan er den første forfatteren, professor Liu Yang ved Tsinghua University og førsteamanuensis Li Peng som kommunikasjonsforfatter.

Figur 丨 Relaterte papirer (Kilde: ARXIV)

Opplæring open source store språkmodeller for å gjøre det bedre intelligent

Det er underforstått at allerede i 2022 hadde Dr. Yao Shunyu og samarbeidspartnere fra University of Princeton foreslått muligheten til å bruke nettbutikkmiljøet Webshop online for å teste intelligensen.Hver gang en shopping er over, vil simuleringsmiljøet gi en poengsum for å informere om kvaliteten på denne shopping og spørre om det kan dekke de første shoppingbehovene.

Før en stor modell som ChatGPT dukket opp, gjennomførte AI imidlertid spesialisert trening i analogt miljø som Webshop, og den kunne bare få en suksessrate på 29% på 29%.I kontrast er den gjennomsnittlige suksessraten for mennesker 50%, og suksessraten for eksperter er 60%.

Når en stor språkmodell med generell evne vises, er det bare nødvendig å konstruere en enkel ledetekst uten tilleggstrening, slik at den store modellen kan forstå tekstmiljøet og generere handlinger i henhold til CAT -maling -feltet, og til slutt oppnå 40% Suksessraten i kontinuerlig iterativ interaksjon.

«Sammenlignet med den forrige suksessraten, har dette oppnådd sprang. Det viktigste er at alle finner ut at den store modellen er virkelig vanlig. Uansett hvilket scenario basert på, kan du skrive en enkel ledetekst og i tilfelle ingen trening. La deretter den store språkmodellen prøve å utføre oppgaven.

Derfor, siden mars 2023, er det et stort antall open source -verktøy, vitenskapelig forskningsarbeid og gründerprosjekter om smarte partier.

«Blant dem er det mest imponerende at forskerne av Nvidia har foreslått at de kan bruke GPT-4 til å spille «My World» åpne spill. Og forskere fra Stanford University i USA har foreslått at mange store modeller kan brukes For å simulere forskjellige karakterer, legg dem deretter i et miljø, akkurat som science fiction -dramaet «Western World» for å simulere et interaktivt menneskesamfunn.

Som forsker som har vært i kontakt med naturlig språkbehandling siden 2017, ble han sjokkert over denne evnen til å samhandle med slike språkmodeller og miljø, og begynte å prøve å utforske denne forskningen.

Imidlertid fant han i virkeligheten at hvis du bare skriver spørsmål for å «styrke» smarte parter, følger sistnevnte ofte bare hurtiginstruksjoner.

Yang Zonghan sa: «Selv om det ser ut til at det ser ut til å kjenne tekstbeskrivelsen av miljøet og kan gi litt respons, fra perspektivet om faktisk utførelse, forstår den ikke helt den.»

Etter å ha utført flere oppgaver som Webshop og andre simulerte miljøer, vil intelligensen faktisk samle mye suksess eller fiasko.

Så kan du lære videre disse tidligere banene slik at den smarte kroppen har sterkere evne når du står overfor nye oppgaver?

Her er det verdt å nevne at selv om det for øyeblikket er mange smarte rammer på markedet, trenger de ofte å ringe applikasjonsprogrammeringsgrensesnittet (API, applikasjonsprogrammeringsgrensesnitt), som vil gi gode pengeutgifter.

I tillegg vil API (som ChatGPT og GPT-4) av grunnleggende modeller endres over tid, noe som ikke er vennlig for de hurtigbaserte Smart Framework-utviklerne.

Med andre ord kan utvikleren konstruere et smart kroppsrammeverk basert på et visst API i løpet av en viss periode, men etter en periode, hvis denne API er frakoblet, må utvikleren prøve igjen på API -erstatningen, og og og og og og og og API -erstatningen, og den vil prøve å prøve API -alternativet, og API må prøve det igjen, og det vil prøve å prøve API -alternativet, og og API må prøve det igjen, og det vil prøve å prøve API -alternativet, og utviklingen av API, og det vil prøve å prøve API -alternativet på nytt, og APIen må prøve igjen, og API -erstatningene vil prøve å prøve det på nytt Og API må prøve det igjen, og det vil prøve å gjenfelle API -alternativet, og utvikleren vil prøve igjen, og API -erstatningen vil prøve igjen, og API -erstatningene vil bli påstått. ytelsen til det smarte.

Hvordan kan vi kontrollere den underliggende grunnleggende modellen for å drive den smarte kroppen?

Yang Zonghan påpekte: «Vi tror at vi kan bruke open source språkmodeller for smart trening.»

Med andre ord, hvis du holder vekten av modellen i hendene, vil alt dette bli bedre kontrollert.I tillegg oppnås suksessen med dyp læring i seg selv ved opplæring av nevrale nettverk.Derfor, for å gjøre den smarte kroppen smartere, bør treningsveien prøves.

Dette er opprinnelsen til denne studien, det vil si gjennom trening av åpen kildekode -språkmodeller, det blir en bedre intelligent kropp, og har da en sterkere ytelse i oppgaven som ikke har blitt sett i miljøet.

Foreslått en ny type intelligens, som kan få det nivået som overstiger menneskeheten i alle de usettede testscenariene

Etter å ha satt forskningsmålet, fulgte utfordringen.

Først av alt, kan den store språkmodellen til open source støtte teamet til å trene en god intelligent kropp?

Dagens open source -modeller, spesielt de som enkelt kan eksperimenteres på laboratoriet, er vanligvis 7B -parametere.Sammenlignet med de lukkede kildemodellene som GPT-4, er det fortsatt et stort gap i generelle evner.

For det andre gjør ikke den hurtige baserte metoden den grunnleggende modellen til en dedikert modell.

I tillegg, selv om det er en modell av 7B -parameteren, krever det mye datakraft for å finkoble alle parametrene.

Derfor, som et foreløpig eksperiment, tok Yang Zonghan vedtok en effektiv finoppløsning for parametere: ikke å trene den grunnleggende modellen for 7B -parametere, men for å justere denne modellen ved å trene noen lette parametermoduler.

«Ved å bruke QLORA -metoden, kan jeg eksperimentere med ett eller to 24 GB minnekort på laboratorietivå. Og på grunn av plug -in -egenskapene, når den grunnleggende modellen til 7B -parameteren ikke legger til QLORA -parametermodulen, er den Fortsatt det.

Men likevel har det virkelige høydepunktet nettopp begynt.

Det er klart, opplæring må ha data, og datakilden er den interaktive banen for intelligens og miljø.

Den eksisterende metoden avhenger hovedsakelig av to metoder for å skaffe data .

Figur 丨 To vanlige eksempler (kilde: ARXIV) for å samle språk Intelligente kroppsbaner

Dessverre kan ikke begge metodene oppnå diversifiserte banedata med store -skala.Førstnevnte er helt avhengige av menneskelige merker, som krever høye arbeidskraftskostnader;

Imidlertid er diversifiserte banedata i stor skala nøkkelen til suksessen til språkmodellen.

Hvordan løse dette problemet?

Forskere ble inspirert av selve smarte rammer.De overførte de eksisterende smarte rammene og fant ut at de generelt bruker tekst for å resonnere etter tekst, som grunnen til neste handling, og deretter dukket opp igjen i handlingen å gjøre.

React følger denne ideen.Etterretning har en fantastisk ting at folk kan endre bevegelsen av det smarte kroppen ved å endre resonnementinnholdet generert av språkmodellen selv under implementeringen av React.

På denne måten kan bare resonnementinnholdet i resonnementet endres på et kritisk sted, og den intelligente kroppen kan gjøre opp for den gjenværende banen.

Til tross for dette krever bruk av arbeidskraft direkte for å endre React -banen direkte dyre kostnader.

Hvis det intelligente organet uavhengig kan markere banen, tilsvarer det å samle inn data av seg selv, og kan også bruke de innsamlede dataene til å trene seg selv. Oppgave.

Basert på dette, for å drive den autonome merkingen av resonnementinnhold, foreslo forskerteamet at den smarte Actre ikke bare automatisk kan samle inn banedata merket med resonnement, men også bruke dataene som selvtrener for å danne en lukket sløyfe.

Figur 丨 Rammen for Smart Actre (Kilde: ARXIV)

Fordi de to grunnleggende punktene i det intelligente feltet gjenspeiles i et mer komplisert reelt miljø og en mer effektiv læringsmekanisme, velger studien å kutte inn fra sistnevnte, og etter fire iterasjonsrunder i webshop -miljøet er den oppnådde intelligens ikke Sett i alle av dem.

Etter fire iterasjonsrunder i Alfworms miljø, kan den første suksessraten for den foreslåtte intelligensen oppnås i alle de usettede testscenariene.

«Dette beviser at metoden vår er effektiv, og den viser også at vi må eksperimentere i et mer komplekst ekte miljø.» Sa Yang Zonghan.

Det er verdt å nevne at i denne forbindelse utførte forskerteamet også forskning på «Unified Alignment Principle of Intelligence» [2].

Yang Zonghan snakket om det mest minneverdige innholdet i forskningsprosessen, og sa at det er en god artikkel som er minst ukentlig, uendelig.

«Denne oppgaven ble sendt inn 21. mars 2024 ArxivTotalt 39 artikler, hvorav 13 sendes inn i år Arxiv overlegen.Han uttalte videre, «Overfor en så høy hastighets forskningsrytme, vil angsten i hjertet hans uunngåelig produsere, forstørre og spre seg.»»

Men da Yang Zonghan innså dette laget av selvgjenkjenning i naturlig språkbehandling, følte han seg veldig heldig.

Tross alt blir suksessen til språkmodellen ikke bare gradvis utenkelig for noen år siden, men blir også gradvis virkelighet, men gjør også mer og mer utenkelige ting å være fantasifull.For ham gjenspeiler også angsten sin egen jakten på selvrealisering.

Etter hans mening skyldes grunnen til at denne studien ble fullført på grunn av diskusjonen om mange studenter som Liu An, Liu Zijun og Liu Kaiming fra forskerteamet, samt støtte fra læreren Liu Yang og lærer Li Peng.

«Jeg er heldig som kan delta i bølgen av smart utvikling.»

Referansematerialer:

1.Z., Yang, p., Li, m., Yan.et al.React møter ACTRE: Når språkagenter liker data autonomi. Arxiv: 2403.14589

2.Z., Yang, A., Liu, Z., Liu.et al. Arxiv: 2402.07744