Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Datan Keruu ja Esikäsittely | Generatiivisten Mallien Rakentaminen ja Koulutus
Generatiivinen Tekoäly

bookDatan Keruu ja Esikäsittely

Generatiivisten mallien kouluttaminen edellyttää paitsi toimivaa arkkitehtuuria ja häviöfunktioita, myös puhdasta, hyvin jäsenneltyä ja monipuolista dataa. Tässä osiossa esitellään korkealaatuisia tietoaineistoja kuva-, teksti- ja äänimuodoissa, tarjotaan yksityiskohtaisia esikäsittelymenetelmiä nykyaikaisiin generatiivisiin putkistoihin sekä käsitellään vankkoja datan jakamisstrategioita käytännön työkalujen avulla.

Datan keruu

Datan kerääminen generatiivista mallinnusta varten riippuu sovellusalueesta, lähteiden saatavuudesta, mittakaavasta ja lisensoinnista. Teksti- ja kuvadatan osalta yleisiä lähteitä ovat avoimet tietoaineistot, kerätty sisältö sekä rakenteiset tietovarannot (esim. tieteelliset arkistot, sosiaalinen media tai verkkokauppa-alustat).

Verkkosivujen skrappausmenetelmät

Kun valmiita tietoaineistoja ei ole saatavilla, dataa voidaan kerätä verkosta skrappausvälineillä. Verkkosivujen skrappaus mahdollistaa tiedon ohjelmallisen poiminnan HTML-sivuilta. Tämä on tehokas tapa kerätä todellisen maailman jäsentymätöntä dataa silloin, kun rajapintoja ei ole käytettävissä. Skrappaukseen liittyy kuitenkin teknisiä ja eettisiä vastuita.

Skrappausmenetelmät sisältävät tyypillisesti:

  • HTTP-pyyntöjen lähettäminen verkkosivujen hakemiseksi. Tämä mahdollistaa sivun raaka-HTML-sisällön saamisen;
  • HTML-sisällön jäsentäminen rakenteisen datan poimimiseksi. Työkalut kuten BeautifulSoup muuttavat jäsentymättömän HTML:n helposti käsiteltäviksi tageiksi ja elementeiksi;
  • Dynaamisten sivujen navigointi selainautomaation avulla. JavaScript-painotteiset sivustot vaativat työkaluja, kuten Selenium, sisällön täydelliseen renderöintiin;
  • Poimitun datan tallentaminen käyttökelpoisiin muotoihin, kuten CSV tai JSON. Tämä varmistaa yhteensopivuuden myöhempien esikäsittely- ja mallin koulutusvaiheiden kanssa.

Alla on kaksi yleistä skrappausstrategiaa:

Tekstin skrappaus BeautifulSoupilla

BeautifulSoup on Python-kirjasto, jota käytetään staattisten HTML-sivujen jäsentämiseen.

1234567891011
import requests from bs4 import BeautifulSoup url = "https://docs.python.org/3/" response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser") # Extract paragraphs paragraphs = [p.text for p in soup.find_all('p')] text = "\n".join(paragraphs) print(text)
copy

Kuvien kerääminen Seleniumilla

Selenium automatisoi selaimen sisällön keräämiseksi JavaScriptillä renderöidyiltä sivuilta.

123456789101112131415161718
# INSTALL SELENIUM # THIS CODE DOWNLOAD IMAGES (I NEED JUST VIZUALIZATION) from selenium import webdriver import time import urllib.request url = "https://example.com/gallery" driver = webdriver.Chrome() driver.get(url) time.sleep(2) images = driver.find_elements("tag name", "img") for idx, img in enumerate(images): src = img.get_attribute('src') if src: urllib.request.urlretrieve(src, f"image_{idx}.jpg") driver.quit()
copy
Note
Huomio

Tarkista aina verkkosivuston käyttöehdot ennen tiedonkeruuta. Käytä kohteliaita pyyntötahtia ja kunnioita robots.txt-tiedostoa. Väärin suoritettu tiedonkeruu voi johtaa IP-osoitteen estoon tai oikeudellisiin seuraamuksiin.

GenAI-yhteyksissä verkkosivujen kaavinta toimii usein esivaiheena esikoulutusdatan kokoamisessa, erityisesti alakohtaisissa tai vähäresurssisissa kielissä. Työkaluja kuten Scrapy, playwright tai selainpohjaiset rajapinnat käytetään usein laajamittaisiin tehtäviin.

Esikäsittelytekniikat

Datan esikäsittely tulee räätälöidä modaliteetin, mallityypin ja laatuvaatimusten mukaan. Tuotantotason generatiivisessa mallinnuksessa putket sisältävät usein alakohtaisia muunnoksia, resoluution mukauttamista ja sisällön perusteella suodatusta.

Kuvan esikäsittely

  • Koon muuttaminen: sovita tietoaineiston resoluutio mallin syötteeseen (esim. 64x64 varhaisille GAN-malleille, 512x512 diffuusiomalleille);
  • Normalisointi: skaalaa pikseliarvot vakiovälille, tyypillisesti [−1, 1] tai [0, 1];
  • Väriavaruuden käsittely: varmista värien yhdenmukaisuus — muunna RGB- tai harmaasävyksi. Ehdollisessa generoinnissa säilytä alfakanavat, jos niitä on;
  • Datan augmentointi: tuo vaihtelua koulutuksen aikana muunnosten avulla.

Tekstin esikäsittely

  • Puhdistus: poistaa erikoismerkit, ylimääräiset välilyönnit ja häiriötekijät;
12345
import re text = "Example text — with symbols!" cleaned = re.sub(r"[^\w\s]", "", text) cleaned = re.sub(r"\s+", " ", cleaned).strip() print(cleaned)
copy
  1. r"[^\w\s]":

    • \w: vastaa mitä tahansa aakkosnumeerista merkkiä (kirjaimet A-Z, a-z, numerot 0-9) ja alaviivaa _;
    • \s: vastaa mitä tahansa välilyöntimerkkiä (välilyönnit, sarkaimet, rivinvaihdot);
    • [^...]: negatiivinen merkkiluokka—vastaa mitä tahansa, mitä ei ole lueteltu sisällä;
    • Merkitys: tämä kuvio vastaa kaikkia merkkejä paitsi kirjaimia, numeroita, alaviivoja ja välilyöntejä. Poistaa siis välimerkit ja symbolit (kuten , !, jne.).
  2. r"\s+":

    • \s: vastaa mitä tahansa välilyöntimerkkiä;
    • +: vastaa yhtä tai useampaa edeltävää merkkiä;
    • Merkitys: tämä korvaa useat peräkkäiset välilyöntimerkit yhdellä välilyönnillä.
  3. .strip(): poistaa alku- ja loppuvälilyönnit lopullisesta puhdistetusta merkkijonosta.

Lisätietoja RegEx-syntaksista löytyy dokumentaatiosta.

  • Pieniksi kirjaimiksi muuntaminen: yhdenmukaistaa tekstin pieniksi kirjaimiksi johdonmukaisuuden vuoksi. Käytetään valikoivasti, koska jotkin mallit, kuten BERT, ovat kirjainkoolla erottelevia tai eivät erota kirjainkokoa;
12
text = "This Is A Sentence." print(text.lower())
copy
  • Tokenisointi: jakaa tekstin tokenoihin tai osasanoihin mallinnusta varten;
1234
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("gpt2") encodings = tokenizer(["Example text."], padding="max_length", truncation=True, max_length=128, return_tensors="pt")
copy
  • Stemmaus/Lemmatisaatio: harvinaista syväoppimisen putkissa, mutta käytössä perinteisessä NLP:ssä tai esikoulutussuodattimissa;
1234
from nltk.stem import PorterStemmer stemmer = PorterStemmer() print(stemmer.stem("running"))
copy
  • Täydennys/katkaisu: katso yllä oleva esimerkki, jossa käytetään max_length.
1234
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("gpt2") inputs = tokenizer("Short text.", max_length=10, padding="max_length", truncation=True, return_tensors="pt")
copy
Note
Huomio

Rakenna modulaarisia esikäsittelyputkia toistettavuus huomioiden. Käytä DVC, wandb artifacts tai huggingface/datasets suoratoiston ja välimuistin kanssa.

Datan jakamisstrategiat

Tehokas datan jakaminen on olennaista yleistettävyyden kannalta, erityisesti generatiivisessa mallinnuksessa, jossa ylisovittaminen tai muistinvarainen oppiminen on yleistä.

Koulutus/Validointi/Testi-jako

  • Perinteiset suhteet: 80/10/10 tai 70/15/15 riippuen aineiston koosta;
  • Sisältötietoinen jako: jaa luokan (kuva), aiheen (teksti) mukaan.
  • Käyttötapaus:
    • Koulutus: ohjaa mallin optimointia;
    • Validointi: ohjaa checkpointausta, varhaista pysäytystä ja metriikan säätöä (esim. FID);
    • Testi: pidetään täysin erillään lopulliseen mallin vertailuun asti.

Esimerkki train_test_split-funktion käytöstä:

Hugging Face -aineistot:

Ristiinvalidointi ja bootstrapping

  • Vähäresurssisissa tai zero-shot -alueissa käytetään K-kertaista ristiinvalidointia (esim. K=5 tai 10);
  • Diffuusiomalleissa käytetään bootstrappattua FID/LPIPS-arviointia generoinnin vakauden mittaamiseen;
  • Visuaalinen tai havaintoperusteinen tarkastelu täydentää numeerista validointia.

Esimerkki K-kertaisesta asetelmasta:

Yleisesti Käytetyt Aineistot

Oikean aineiston valinta riippuu modaliteetista, datan määrästä, lisensoinnista sekä generatiivisen mallin erityistavoitteesta (esim. ehdoton generointi, ehdollinen synteesi tai tyylinsiirto).

Tietokonenäön Aineistot

  • CIFAR-10: 60 000 matalaresoluutioista 32×32 RGB-kuvaa 10 luokassa. Kevyt, soveltuu nopeaan prototyyppien tekoon, yksikkötestaukseen ja kuvien GAN-mallien koulutussilmukoiden vertailuun;
  • CelebA: yli 200 000 kohdistettua julkkiskasvoa, joihin on liitetty 40 binääriattribuuttia. Käytetään usein attribuuttiohjatussa generoinnissa, identiteetin säilyttävässä kasvojen muokkauksessa ja enkooderi-dekooderi-malleissa;
  • LSUN: laajamittainen kohtausaineisto, joka sisältää miljoonia kuvia luokissa kuten makuuhuoneet, kirkot ja ruokasalit. Keskeinen korkean resoluution synteesissä ja progressiivisessa GAN-koulutuksessa;
  • ImageNet: yli 14 miljoonaa korkealaatuista kuvaa, jotka on luokiteltu 20 000 luokkaan. Käytetään pääasiassa siirtoloppuoppimisessa, diffuusiomallien esikoulutuksessa ja tyyliohjatun generoinnin perusaineistona.

Tekstiaineistot

  • WikiText: puhtaita Wikipedia-artikkeleita (WikiText-2: 2M tokenia, WikiText-103: yli 100M). Arvokas kielimallien arviointiin ja dekooderipohjaisten mallien, kuten GPT, hienosäätöön;
  • BookCorpus: yli 11 000 ilmaista romaania. Keskeinen narratiivisen tekstin generoinnissa, pitkän kontekstin transformereissa ja perustavanlaatuisten mallien esikoulutuksessa (esim. BERT, GPT-2);
  • Common Crawl / C4: petatavun kokoluokan monikielinen verkkodata. C4 on deduplikoitu, suodatettu versio, joka on kuratoitu korkealaatuiseen kielimallin koulutukseen (esim. T5);
  • The Pile: 825GB monipuolista dataa (kirjoja, ArXiv, StackExchange, GitHub jne.). Suunniteltu GPT-tyyppisten mallien koulutukseen kilpailukykyisesti OpenAI:n LLM-mallien kanssa.

Yhteenveto

  • Valitse tietoaineistot laadun, lisensoinnin, laajuuden ja generatiivisten tavoitteiden mukaisuuden perusteella;
  • Käytä esikäsittelyputkia, jotka on räätälöity kullekin modaliteetille ja perustuvat vankkoihin, tuotantotason työkaluihin;
  • Varmista tiukat jakostrategiat toistettavuuden tukemiseksi, vuotojen välttämiseksi ja oikeudenmukaisen arvioinnin mahdollistamiseksi.

1. Miksi datan laatu on määrää tärkeämpää generatiivisten tekoälymallien koulutuksessa?

2. Mikä on yksi yleinen haaste kerättäessä monipuolista dataa generatiivisten mallien koulutukseen?

3. Mikä on datan augmentoinnin ensisijainen tavoite generatiivisen tekoälyn koulutuksessa?

question mark

Miksi datan laatu on määrää tärkeämpää generatiivisten tekoälymallien koulutuksessa?

Select the correct answer

question mark

Mikä on yksi yleinen haaste kerättäessä monipuolista dataa generatiivisten mallien koulutukseen?

Select the correct answer

question mark

Mikä on datan augmentoinnin ensisijainen tavoite generatiivisen tekoälyn koulutuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

What are some best practices for web scraping in generative AI projects?

Can you explain more about data augmentation techniques for images?

How do I choose the right dataset for my generative model?

Awesome!

Completion rate improved to 4.76

bookDatan Keruu ja Esikäsittely

Pyyhkäise näyttääksesi valikon

Generatiivisten mallien kouluttaminen edellyttää paitsi toimivaa arkkitehtuuria ja häviöfunktioita, myös puhdasta, hyvin jäsenneltyä ja monipuolista dataa. Tässä osiossa esitellään korkealaatuisia tietoaineistoja kuva-, teksti- ja äänimuodoissa, tarjotaan yksityiskohtaisia esikäsittelymenetelmiä nykyaikaisiin generatiivisiin putkistoihin sekä käsitellään vankkoja datan jakamisstrategioita käytännön työkalujen avulla.

Datan keruu

Datan kerääminen generatiivista mallinnusta varten riippuu sovellusalueesta, lähteiden saatavuudesta, mittakaavasta ja lisensoinnista. Teksti- ja kuvadatan osalta yleisiä lähteitä ovat avoimet tietoaineistot, kerätty sisältö sekä rakenteiset tietovarannot (esim. tieteelliset arkistot, sosiaalinen media tai verkkokauppa-alustat).

Verkkosivujen skrappausmenetelmät

Kun valmiita tietoaineistoja ei ole saatavilla, dataa voidaan kerätä verkosta skrappausvälineillä. Verkkosivujen skrappaus mahdollistaa tiedon ohjelmallisen poiminnan HTML-sivuilta. Tämä on tehokas tapa kerätä todellisen maailman jäsentymätöntä dataa silloin, kun rajapintoja ei ole käytettävissä. Skrappaukseen liittyy kuitenkin teknisiä ja eettisiä vastuita.

Skrappausmenetelmät sisältävät tyypillisesti:

  • HTTP-pyyntöjen lähettäminen verkkosivujen hakemiseksi. Tämä mahdollistaa sivun raaka-HTML-sisällön saamisen;
  • HTML-sisällön jäsentäminen rakenteisen datan poimimiseksi. Työkalut kuten BeautifulSoup muuttavat jäsentymättömän HTML:n helposti käsiteltäviksi tageiksi ja elementeiksi;
  • Dynaamisten sivujen navigointi selainautomaation avulla. JavaScript-painotteiset sivustot vaativat työkaluja, kuten Selenium, sisällön täydelliseen renderöintiin;
  • Poimitun datan tallentaminen käyttökelpoisiin muotoihin, kuten CSV tai JSON. Tämä varmistaa yhteensopivuuden myöhempien esikäsittely- ja mallin koulutusvaiheiden kanssa.

Alla on kaksi yleistä skrappausstrategiaa:

Tekstin skrappaus BeautifulSoupilla

BeautifulSoup on Python-kirjasto, jota käytetään staattisten HTML-sivujen jäsentämiseen.

1234567891011
import requests from bs4 import BeautifulSoup url = "https://docs.python.org/3/" response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser") # Extract paragraphs paragraphs = [p.text for p in soup.find_all('p')] text = "\n".join(paragraphs) print(text)
copy

Kuvien kerääminen Seleniumilla

Selenium automatisoi selaimen sisällön keräämiseksi JavaScriptillä renderöidyiltä sivuilta.

123456789101112131415161718
# INSTALL SELENIUM # THIS CODE DOWNLOAD IMAGES (I NEED JUST VIZUALIZATION) from selenium import webdriver import time import urllib.request url = "https://example.com/gallery" driver = webdriver.Chrome() driver.get(url) time.sleep(2) images = driver.find_elements("tag name", "img") for idx, img in enumerate(images): src = img.get_attribute('src') if src: urllib.request.urlretrieve(src, f"image_{idx}.jpg") driver.quit()
copy
Note
Huomio

Tarkista aina verkkosivuston käyttöehdot ennen tiedonkeruuta. Käytä kohteliaita pyyntötahtia ja kunnioita robots.txt-tiedostoa. Väärin suoritettu tiedonkeruu voi johtaa IP-osoitteen estoon tai oikeudellisiin seuraamuksiin.

GenAI-yhteyksissä verkkosivujen kaavinta toimii usein esivaiheena esikoulutusdatan kokoamisessa, erityisesti alakohtaisissa tai vähäresurssisissa kielissä. Työkaluja kuten Scrapy, playwright tai selainpohjaiset rajapinnat käytetään usein laajamittaisiin tehtäviin.

Esikäsittelytekniikat

Datan esikäsittely tulee räätälöidä modaliteetin, mallityypin ja laatuvaatimusten mukaan. Tuotantotason generatiivisessa mallinnuksessa putket sisältävät usein alakohtaisia muunnoksia, resoluution mukauttamista ja sisällön perusteella suodatusta.

Kuvan esikäsittely

  • Koon muuttaminen: sovita tietoaineiston resoluutio mallin syötteeseen (esim. 64x64 varhaisille GAN-malleille, 512x512 diffuusiomalleille);
  • Normalisointi: skaalaa pikseliarvot vakiovälille, tyypillisesti [−1, 1] tai [0, 1];
  • Väriavaruuden käsittely: varmista värien yhdenmukaisuus — muunna RGB- tai harmaasävyksi. Ehdollisessa generoinnissa säilytä alfakanavat, jos niitä on;
  • Datan augmentointi: tuo vaihtelua koulutuksen aikana muunnosten avulla.

Tekstin esikäsittely

  • Puhdistus: poistaa erikoismerkit, ylimääräiset välilyönnit ja häiriötekijät;
12345
import re text = "Example text — with symbols!" cleaned = re.sub(r"[^\w\s]", "", text) cleaned = re.sub(r"\s+", " ", cleaned).strip() print(cleaned)
copy
  1. r"[^\w\s]":

    • \w: vastaa mitä tahansa aakkosnumeerista merkkiä (kirjaimet A-Z, a-z, numerot 0-9) ja alaviivaa _;
    • \s: vastaa mitä tahansa välilyöntimerkkiä (välilyönnit, sarkaimet, rivinvaihdot);
    • [^...]: negatiivinen merkkiluokka—vastaa mitä tahansa, mitä ei ole lueteltu sisällä;
    • Merkitys: tämä kuvio vastaa kaikkia merkkejä paitsi kirjaimia, numeroita, alaviivoja ja välilyöntejä. Poistaa siis välimerkit ja symbolit (kuten , !, jne.).
  2. r"\s+":

    • \s: vastaa mitä tahansa välilyöntimerkkiä;
    • +: vastaa yhtä tai useampaa edeltävää merkkiä;
    • Merkitys: tämä korvaa useat peräkkäiset välilyöntimerkit yhdellä välilyönnillä.
  3. .strip(): poistaa alku- ja loppuvälilyönnit lopullisesta puhdistetusta merkkijonosta.

Lisätietoja RegEx-syntaksista löytyy dokumentaatiosta.

  • Pieniksi kirjaimiksi muuntaminen: yhdenmukaistaa tekstin pieniksi kirjaimiksi johdonmukaisuuden vuoksi. Käytetään valikoivasti, koska jotkin mallit, kuten BERT, ovat kirjainkoolla erottelevia tai eivät erota kirjainkokoa;
12
text = "This Is A Sentence." print(text.lower())
copy
  • Tokenisointi: jakaa tekstin tokenoihin tai osasanoihin mallinnusta varten;
1234
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("gpt2") encodings = tokenizer(["Example text."], padding="max_length", truncation=True, max_length=128, return_tensors="pt")
copy
  • Stemmaus/Lemmatisaatio: harvinaista syväoppimisen putkissa, mutta käytössä perinteisessä NLP:ssä tai esikoulutussuodattimissa;
1234
from nltk.stem import PorterStemmer stemmer = PorterStemmer() print(stemmer.stem("running"))
copy
  • Täydennys/katkaisu: katso yllä oleva esimerkki, jossa käytetään max_length.
1234
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("gpt2") inputs = tokenizer("Short text.", max_length=10, padding="max_length", truncation=True, return_tensors="pt")
copy
Note
Huomio

Rakenna modulaarisia esikäsittelyputkia toistettavuus huomioiden. Käytä DVC, wandb artifacts tai huggingface/datasets suoratoiston ja välimuistin kanssa.

Datan jakamisstrategiat

Tehokas datan jakaminen on olennaista yleistettävyyden kannalta, erityisesti generatiivisessa mallinnuksessa, jossa ylisovittaminen tai muistinvarainen oppiminen on yleistä.

Koulutus/Validointi/Testi-jako

  • Perinteiset suhteet: 80/10/10 tai 70/15/15 riippuen aineiston koosta;
  • Sisältötietoinen jako: jaa luokan (kuva), aiheen (teksti) mukaan.
  • Käyttötapaus:
    • Koulutus: ohjaa mallin optimointia;
    • Validointi: ohjaa checkpointausta, varhaista pysäytystä ja metriikan säätöä (esim. FID);
    • Testi: pidetään täysin erillään lopulliseen mallin vertailuun asti.

Esimerkki train_test_split-funktion käytöstä:

Hugging Face -aineistot:

Ristiinvalidointi ja bootstrapping

  • Vähäresurssisissa tai zero-shot -alueissa käytetään K-kertaista ristiinvalidointia (esim. K=5 tai 10);
  • Diffuusiomalleissa käytetään bootstrappattua FID/LPIPS-arviointia generoinnin vakauden mittaamiseen;
  • Visuaalinen tai havaintoperusteinen tarkastelu täydentää numeerista validointia.

Esimerkki K-kertaisesta asetelmasta:

Yleisesti Käytetyt Aineistot

Oikean aineiston valinta riippuu modaliteetista, datan määrästä, lisensoinnista sekä generatiivisen mallin erityistavoitteesta (esim. ehdoton generointi, ehdollinen synteesi tai tyylinsiirto).

Tietokonenäön Aineistot

  • CIFAR-10: 60 000 matalaresoluutioista 32×32 RGB-kuvaa 10 luokassa. Kevyt, soveltuu nopeaan prototyyppien tekoon, yksikkötestaukseen ja kuvien GAN-mallien koulutussilmukoiden vertailuun;
  • CelebA: yli 200 000 kohdistettua julkkiskasvoa, joihin on liitetty 40 binääriattribuuttia. Käytetään usein attribuuttiohjatussa generoinnissa, identiteetin säilyttävässä kasvojen muokkauksessa ja enkooderi-dekooderi-malleissa;
  • LSUN: laajamittainen kohtausaineisto, joka sisältää miljoonia kuvia luokissa kuten makuuhuoneet, kirkot ja ruokasalit. Keskeinen korkean resoluution synteesissä ja progressiivisessa GAN-koulutuksessa;
  • ImageNet: yli 14 miljoonaa korkealaatuista kuvaa, jotka on luokiteltu 20 000 luokkaan. Käytetään pääasiassa siirtoloppuoppimisessa, diffuusiomallien esikoulutuksessa ja tyyliohjatun generoinnin perusaineistona.

Tekstiaineistot

  • WikiText: puhtaita Wikipedia-artikkeleita (WikiText-2: 2M tokenia, WikiText-103: yli 100M). Arvokas kielimallien arviointiin ja dekooderipohjaisten mallien, kuten GPT, hienosäätöön;
  • BookCorpus: yli 11 000 ilmaista romaania. Keskeinen narratiivisen tekstin generoinnissa, pitkän kontekstin transformereissa ja perustavanlaatuisten mallien esikoulutuksessa (esim. BERT, GPT-2);
  • Common Crawl / C4: petatavun kokoluokan monikielinen verkkodata. C4 on deduplikoitu, suodatettu versio, joka on kuratoitu korkealaatuiseen kielimallin koulutukseen (esim. T5);
  • The Pile: 825GB monipuolista dataa (kirjoja, ArXiv, StackExchange, GitHub jne.). Suunniteltu GPT-tyyppisten mallien koulutukseen kilpailukykyisesti OpenAI:n LLM-mallien kanssa.

Yhteenveto

  • Valitse tietoaineistot laadun, lisensoinnin, laajuuden ja generatiivisten tavoitteiden mukaisuuden perusteella;
  • Käytä esikäsittelyputkia, jotka on räätälöity kullekin modaliteetille ja perustuvat vankkoihin, tuotantotason työkaluihin;
  • Varmista tiukat jakostrategiat toistettavuuden tukemiseksi, vuotojen välttämiseksi ja oikeudenmukaisen arvioinnin mahdollistamiseksi.

1. Miksi datan laatu on määrää tärkeämpää generatiivisten tekoälymallien koulutuksessa?

2. Mikä on yksi yleinen haaste kerättäessä monipuolista dataa generatiivisten mallien koulutukseen?

3. Mikä on datan augmentoinnin ensisijainen tavoite generatiivisen tekoälyn koulutuksessa?

question mark

Miksi datan laatu on määrää tärkeämpää generatiivisten tekoälymallien koulutuksessa?

Select the correct answer

question mark

Mikä on yksi yleinen haaste kerättäessä monipuolista dataa generatiivisten mallien koulutukseen?

Select the correct answer

question mark

Mikä on datan augmentoinnin ensisijainen tavoite generatiivisen tekoälyn koulutuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1
some-alt