Vitajte na informačnom portáli
o Európskom výskumnom priestore (ERA)

Ktoré údaje by sme mali použiť na trénovanie generatívnej AI

Reinhard Heckel, profesor strojového učenia na TU v Mníchove. Zdroj: https://www.tum.de

 

V súčasnosti sa naše údaje zhromažďujú všade na internete a používajú sa aj na trénovanie veľkých jazykových modelov, ako je ChatGPT. Ako však trénujeme umelú inteligenciu (AI), ako sa vyhneme skresleniam – známym ako zaujatosť – v modeloch a ako zabezpečíme ochranu údajov? Reinhard Heckel, profesor strojového učenia na Technickej univerzite v Mníchove (TUM) odpovedal na tieto otázky. Prof. Heckel vykonáva výskum veľkých jazykových modelov a medicínskych zobrazovacích aplikácií.

 

Akú úlohu hrajú dáta pri trénovaní systémov AI?

Systémy AI používajú údaje ako príklady školenia. Veľké jazykové modely, ako je ChatGPT, môžu odpovedať iba na otázky týkajúce sa tém, v ktorých boli vyškolení.

Väčšina informácií používaných všeobecnými jazykovými modelmi na účely školenia pozostáva z údajov s otvoreným prístupom z internetu. Čím viac tréningových údajov je k dispozícii pre otázku, tým lepšie budú odpovede. Napríklad, ak sa dá nájsť veľa dobrých textov pre systém AI určený na popis matematických myšlienok, budú dobré aj tréningové dáta. Výber údajov je však v súčasnosti vysoko filtrovaný. Spomedzi obrovského množstva dostupného materiálu sa na tréning zbiera a používa iba vysokokvalitný materiál.

 

Ako sa pri výbere údajov bráni systémom AI vo vytváraní predsudkov vo forme napríklad rasistických alebo sexistických stereotypov?

Je veľmi ťažké vyvinúť metódu, ktorá by sa neuchyľovala ku konvenčným stereotypom a fungovala spravodlivo a nestranne. Napríklad zabrániť skresleným výsledkom, pokiaľ ide o farbu pleti, je pomerne jednoduché. Ak však spolu s farbou pleti zahrnieme aj pohlavie, môžu nastať situácie, kedy už nebude možné, aby bol model úplne nezaujatý, pokiaľ ide o farbu pleti aj pohlavie.

V dôsledku toho sa väčšina jazykových modelov snaží poskytnúť vyváženú odpoveď na politické otázky a pozrieť sa na niekoľko hľadísk. Pri výcviku systémov AI s mediálnym obsahom sa uprednostňujú médiá, ktoré spĺňajú štandardy novinárskej kvality. Okrem toho proces filtrovania zaisťuje, že texty obsahujúce určité slová, napríklad s rasistickým alebo sexistickým zámerom, nie sú zahrnuté.

 

V niektorých jazykoch je k dispozícii oveľa viac internetového obsahu ako v iných. Ako to ovplyvňuje kvalitu výsledkov?

Väčšina internetového obsahu je v angličtine. V dôsledku toho najlepšie fungujú veľké jazykové modely v angličtine. Ale aj v nemčine je obrovské množstvo obsahu. Pre menej známe jazyky, pre ktoré neexistuje toľko textov, však nie sú údaje o tréningu také bohaté. V dôsledku toho modely nefungujú tak dobre.

Je však ľahké určiť, ako dobre sa dajú jazykové modely použiť v určitých jazykoch, pretože modely sa riadia takzvanými zákonmi škálovania. To zahŕňa testovanie, či je jazykový model schopný predpovedať ďalšie slovo. Čím viac tréningových údajov má, tým lepšie bude model fungovať. A výkon sa časom nielen zlepšuje, ale aj predvídateľným spôsobom. Tento zákon o mierke je celkom dobre vyjadrený v matematickej rovnici.

 

Aký presný musí byť systém AI v praxi?

To závisí od oblasti použitia. Keď sa AI používa napríklad na spracovanie fotografií, nie je potrebné, aby bol každý vlas na svojom mieste. V mnohých prípadoch chceme, aby výsledný obrázok vyzeral dobre. Pri veľkých jazykových modeloch je dôležité mať dobré odpovede, pričom detaily alebo nepresnosti nie sú vždy kľúčové. Ale popri jazykových modeloch vediem aj výskum v oblasti medicínskeho zobrazovania. Tu je veľmi dôležité, aby bol každý detail vygenerovaného obrázku správny. Ak používam AI na diagnostiku v tejto oblasti, musí byť absolútne presná.

V súvislosti s AI sa tiež veľa diskutuje o nedostatočnej ochrane údajov. Ako môžeme zabezpečiť ochranu osobných údajov, najmä v medicínskom kontexte?

Vo väčšine medicínskych aplikácií sa údaje o pacientoch používajú v anonymizovanej forme. Skutočným nebezpečenstvom je, že existujú situácie, v ktorých je možné pomocou údajov zistiť osobné údaje. Napríklad vek alebo pohlavie pacientov možno zhruba určiť na základe MRI alebo CT. V dôsledku toho údaje skutočne obsahujú niektoré z anonymizovaných informácií. V takýchto prípadoch je dôležité, aby boli pacienti riadne informovaní.

 

Aké ďalšie ťažkosti vznikajú pri výcviku systémov AI v lekárskom kontexte?

Veľký problém sa týka zberu údajov, ktoré odrážajú mnoho rôznych situácií a scenárov. AI funguje najlepšie, keď ju aplikujeme na dáta, ktoré sú podobné tréningovým dátam. Údaje sa však budú v jednotlivých nemocniciach líšiť, pokiaľ ide o profily pacientov alebo vybavenie, ktoré údaje generuje. Existujú dva spôsoby riešenia tohto problému: buď vylepšíme algoritmy, alebo musíme optimalizovať naše údaje do bodu, kedy ich možno lepšie aplikovať na iné situácie.

 

Zdroj: https://www.tum.de, zverejnené: 16.8.2024; autor: rup