Oppiskele Datan Keruu ja Esikäsittely | Generatiivisten Mallien Rakentaminen ja Koulutus

Generatiivisten mallien kouluttaminen edellyttää paitsi toimivaa arkkitehtuuria ja häviöfunktioita, myös puhdasta, hyvin jäsenneltyä ja monipuolista dataa. Tässä osiossa esitellään korkealaatuisia tietoaineistoja kuva-, teksti- ja äänimuodoissa, tarjotaan yksityiskohtaisia esikäsittelymenetelmiä nykyaikaisiin generatiivisiin putkistoihin sekä käsitellään vankkoja datan jakamisstrategioita käytännön työkalujen avulla.

Datan keruu

Datan kerääminen generatiivista mallinnusta varten riippuu sovellusalueesta, lähteiden saatavuudesta, mittakaavasta ja lisensoinnista. Teksti- ja kuvadatan osalta yleisiä lähteitä ovat avoimet tietoaineistot, kerätty sisältö sekä rakenteiset tietovarannot (esim. tieteelliset arkistot, sosiaalinen media tai verkkokauppa-alustat).

Verkkosivujen skrappausmenetelmät

Kun valmiita tietoaineistoja ei ole saatavilla, dataa voidaan kerätä verkosta skrappausvälineillä. Verkkosivujen skrappaus mahdollistaa tiedon ohjelmallisen poiminnan HTML-sivuilta. Tämä on tehokas tapa kerätä todellisen maailman jäsentymätöntä dataa silloin, kun rajapintoja ei ole käytettävissä. Skrappaukseen liittyy kuitenkin teknisiä ja eettisiä vastuita.

Skrappausmenetelmät sisältävät tyypillisesti:

HTTP-pyyntöjen lähettäminen verkkosivujen hakemiseksi. Tämä mahdollistaa sivun raaka-HTML-sisällön saamisen;
HTML-sisällön jäsentäminen rakenteisen datan poimimiseksi. Työkalut kuten BeautifulSoup muuttavat jäsentymättömän HTML:n helposti käsiteltäviksi tageiksi ja elementeiksi;
Dynaamisten sivujen navigointi selainautomaation avulla. JavaScript-painotteiset sivustot vaativat työkaluja, kuten Selenium, sisällön täydelliseen renderöintiin;
Poimitun datan tallentaminen käyttökelpoisiin muotoihin, kuten CSV tai JSON. Tämä varmistaa yhteensopivuuden myöhempien esikäsittely- ja mallin koulutusvaiheiden kanssa.

Alla on kaksi yleistä skrappausstrategiaa:

Tekstin skrappaus BeautifulSoupilla

BeautifulSoup on Python-kirjasto, jota käytetään staattisten HTML-sivujen jäsentämiseen.


              1234567891011
            
import requests
from bs4 import BeautifulSoup

url = "https://docs.python.org/3/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Extract paragraphs
paragraphs = [p.text for p in soup.find_all('p')]
text = "\n".join(paragraphs)
print(text)

Kuvien kerääminen Seleniumilla

Selenium automatisoi selaimen sisällön keräämiseksi JavaScriptillä renderöidyiltä sivuilta.


              123456789101112131415161718
            
# INSTALL SELENIUM
# THIS CODE DOWNLOAD IMAGES (I NEED JUST VIZUALIZATION)

from selenium import webdriver
import time
import urllib.request

url = "https://example.com/gallery"
driver = webdriver.Chrome()
driver.get(url)
time.sleep(2)

images = driver.find_elements("tag name", "img")
for idx, img in enumerate(images):
    src = img.get_attribute('src')
    if src:
        urllib.request.urlretrieve(src, f"image_{idx}.jpg")
driver.quit()

Huomio

Tarkista aina verkkosivuston käyttöehdot ennen tiedonkeruuta. Käytä kohteliaita pyyntötahtia ja kunnioita robots.txt-tiedostoa. Väärin suoritettu tiedonkeruu voi johtaa IP-osoitteen estoon tai oikeudellisiin seuraamuksiin.

GenAI-yhteyksissä verkkosivujen kaavinta toimii usein esivaiheena esikoulutusdatan kokoamisessa, erityisesti alakohtaisissa tai vähäresurssisissa kielissä. Työkaluja kuten Scrapy, playwright tai selainpohjaiset rajapinnat käytetään usein laajamittaisiin tehtäviin.

Esikäsittelytekniikat

Datan esikäsittely tulee räätälöidä modaliteetin, mallityypin ja laatuvaatimusten mukaan. Tuotantotason generatiivisessa mallinnuksessa putket sisältävät usein alakohtaisia muunnoksia, resoluution mukauttamista ja sisällön perusteella suodatusta.

Kuvan esikäsittely

Koon muuttaminen: sovita tietoaineiston resoluutio mallin syötteeseen (esim. 64x64 varhaisille GAN-malleille, 512x512 diffuusiomalleille);

Normalisointi: skaalaa pikseliarvot vakiovälille, tyypillisesti [−1, 1] tai [0, 1];

Väriavaruuden käsittely: varmista värien yhdenmukaisuus — muunna RGB- tai harmaasävyksi. Ehdollisessa generoinnissa säilytä alfakanavat, jos niitä on;

Datan augmentointi: tuo vaihtelua koulutuksen aikana muunnosten avulla.

Tekstin esikäsittely

Puhdistus: poistaa erikoismerkit, ylimääräiset välilyönnit ja häiriötekijät;


              12345
            
import re
text = "Example   text — with  symbols!"
cleaned = re.sub(r"[^\w\s]", "", text)
cleaned = re.sub(r"\s+", " ", cleaned).strip()
print(cleaned)

r"[^\w\s]":
- \w: vastaa mitä tahansa aakkosnumeerista merkkiä (kirjaimet A-Z, a-z, numerot 0-9) ja alaviivaa _;
- \s: vastaa mitä tahansa välilyöntimerkkiä (välilyönnit, sarkaimet, rivinvaihdot);
- [^...]: negatiivinen merkkiluokka—vastaa mitä tahansa, mitä ei ole lueteltu sisällä;
- Merkitys: tämä kuvio vastaa kaikkia merkkejä paitsi kirjaimia, numeroita, alaviivoja ja välilyöntejä. Poistaa siis välimerkit ja symbolit (kuten —, !, jne.).
r"\s+":
- \s: vastaa mitä tahansa välilyöntimerkkiä;
- +: vastaa yhtä tai useampaa edeltävää merkkiä;
- Merkitys: tämä korvaa useat peräkkäiset välilyöntimerkit yhdellä välilyönnillä.
.strip(): poistaa alku- ja loppuvälilyönnit lopullisesta puhdistetusta merkkijonosta.

Lisätietoja RegEx-syntaksista löytyy dokumentaatiosta.

Pieniksi kirjaimiksi muuntaminen: yhdenmukaistaa tekstin pieniksi kirjaimiksi johdonmukaisuuden vuoksi. Käytetään valikoivasti, koska jotkin mallit, kuten BERT, ovat kirjainkoolla erottelevia tai eivät erota kirjainkokoa;


              12
            
text = "This Is A Sentence."
print(text.lower())

Tokenisointi: jakaa tekstin tokenoihin tai osasanoihin mallinnusta varten;


              1234
            
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")
encodings = tokenizer(["Example text."], padding="max_length", truncation=True, max_length=128, return_tensors="pt")

Stemmaus/Lemmatisaatio: harvinaista syväoppimisen putkissa, mutta käytössä perinteisessä NLP:ssä tai esikoulutussuodattimissa;


              1234
            
from nltk.stem import PorterStemmer
  
stemmer = PorterStemmer()
print(stemmer.stem("running"))

Täydennys/katkaisu: katso yllä oleva esimerkki, jossa käytetään max_length.


              1234
            
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")
inputs = tokenizer("Short text.", max_length=10, padding="max_length", truncation=True, return_tensors="pt")

Huomio

Rakenna modulaarisia esikäsittelyputkia toistettavuus huomioiden. Käytä DVC, wandb artifacts tai huggingface/datasets suoratoiston ja välimuistin kanssa.

Datan jakamisstrategiat

Tehokas datan jakaminen on olennaista yleistettävyyden kannalta, erityisesti generatiivisessa mallinnuksessa, jossa ylisovittaminen tai muistinvarainen oppiminen on yleistä.

Koulutus/Validointi/Testi-jako

Perinteiset suhteet: 80/10/10 tai 70/15/15 riippuen aineiston koosta;
Sisältötietoinen jako: jaa luokan (kuva), aiheen (teksti) mukaan.
Käyttötapaus:
- Koulutus: ohjaa mallin optimointia;
- Validointi: ohjaa checkpointausta, varhaista pysäytystä ja metriikan säätöä (esim. FID);
- Testi: pidetään täysin erillään lopulliseen mallin vertailuun asti.

Esimerkki train_test_split-funktion käytöstä:

Hugging Face -aineistot:

Ristiinvalidointi ja bootstrapping

Vähäresurssisissa tai zero-shot -alueissa käytetään K-kertaista ristiinvalidointia (esim. K=5 tai 10);
Diffuusiomalleissa käytetään bootstrappattua FID/LPIPS-arviointia generoinnin vakauden mittaamiseen;
Visuaalinen tai havaintoperusteinen tarkastelu täydentää numeerista validointia.

Esimerkki K-kertaisesta asetelmasta:

Yleisesti Käytetyt Aineistot

Oikean aineiston valinta riippuu modaliteetista, datan määrästä, lisensoinnista sekä generatiivisen mallin erityistavoitteesta (esim. ehdoton generointi, ehdollinen synteesi tai tyylinsiirto).

Tietokonenäön Aineistot

CIFAR-10: 60 000 matalaresoluutioista 32×32 RGB-kuvaa 10 luokassa. Kevyt, soveltuu nopeaan prototyyppien tekoon, yksikkötestaukseen ja kuvien GAN-mallien koulutussilmukoiden vertailuun;
CelebA: yli 200 000 kohdistettua julkkiskasvoa, joihin on liitetty 40 binääriattribuuttia. Käytetään usein attribuuttiohjatussa generoinnissa, identiteetin säilyttävässä kasvojen muokkauksessa ja enkooderi-dekooderi-malleissa;
LSUN: laajamittainen kohtausaineisto, joka sisältää miljoonia kuvia luokissa kuten makuuhuoneet, kirkot ja ruokasalit. Keskeinen korkean resoluution synteesissä ja progressiivisessa GAN-koulutuksessa;
ImageNet: yli 14 miljoonaa korkealaatuista kuvaa, jotka on luokiteltu 20 000 luokkaan. Käytetään pääasiassa siirtoloppuoppimisessa, diffuusiomallien esikoulutuksessa ja tyyliohjatun generoinnin perusaineistona.

Tekstiaineistot

WikiText: puhtaita Wikipedia-artikkeleita (WikiText-2: 2M tokenia, WikiText-103: yli 100M). Arvokas kielimallien arviointiin ja dekooderipohjaisten mallien, kuten GPT, hienosäätöön;
BookCorpus: yli 11 000 ilmaista romaania. Keskeinen narratiivisen tekstin generoinnissa, pitkän kontekstin transformereissa ja perustavanlaatuisten mallien esikoulutuksessa (esim. BERT, GPT-2);
Common Crawl / C4: petatavun kokoluokan monikielinen verkkodata. C4 on deduplikoitu, suodatettu versio, joka on kuratoitu korkealaatuiseen kielimallin koulutukseen (esim. T5);
The Pile: 825GB monipuolista dataa (kirjoja, ArXiv, StackExchange, GitHub jne.). Suunniteltu GPT-tyyppisten mallien koulutukseen kilpailukykyisesti OpenAI:n LLM-mallien kanssa.

Yhteenveto

Valitse tietoaineistot laadun, lisensoinnin, laajuuden ja generatiivisten tavoitteiden mukaisuuden perusteella;
Käytä esikäsittelyputkia, jotka on räätälöity kullekin modaliteetille ja perustuvat vankkoihin, tuotantotason työkaluihin;
Varmista tiukat jakostrategiat toistettavuuden tukemiseksi, vuotojen välttämiseksi ja oikeudenmukaisen arvioinnin mahdollistamiseksi.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

What are some best practices for web scraping in generative AI projects?

Can you explain more about data augmentation techniques for images?

How do I choose the right dataset for my generative model?

Awesome!

Completion rate improved to 4.76

Pyyhkäise näyttääksesi valikon

Datan keruu

Verkkosivujen skrappausmenetelmät

Skrappausmenetelmät sisältävät tyypillisesti:

HTTP-pyyntöjen lähettäminen verkkosivujen hakemiseksi. Tämä mahdollistaa sivun raaka-HTML-sisällön saamisen;
HTML-sisällön jäsentäminen rakenteisen datan poimimiseksi. Työkalut kuten BeautifulSoup muuttavat jäsentymättömän HTML:n helposti käsiteltäviksi tageiksi ja elementeiksi;
Dynaamisten sivujen navigointi selainautomaation avulla. JavaScript-painotteiset sivustot vaativat työkaluja, kuten Selenium, sisällön täydelliseen renderöintiin;
Poimitun datan tallentaminen käyttökelpoisiin muotoihin, kuten CSV tai JSON. Tämä varmistaa yhteensopivuuden myöhempien esikäsittely- ja mallin koulutusvaiheiden kanssa.

Alla on kaksi yleistä skrappausstrategiaa:

Tekstin skrappaus BeautifulSoupilla

BeautifulSoup on Python-kirjasto, jota käytetään staattisten HTML-sivujen jäsentämiseen.


              1234567891011
            
import requests
from bs4 import BeautifulSoup

url = "https://docs.python.org/3/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

# Extract paragraphs
paragraphs = [p.text for p in soup.find_all('p')]
text = "\n".join(paragraphs)
print(text)

Kuvien kerääminen Seleniumilla

Selenium automatisoi selaimen sisällön keräämiseksi JavaScriptillä renderöidyiltä sivuilta.


              123456789101112131415161718
            
# INSTALL SELENIUM
# THIS CODE DOWNLOAD IMAGES (I NEED JUST VIZUALIZATION)

from selenium import webdriver
import time
import urllib.request

url = "https://example.com/gallery"
driver = webdriver.Chrome()
driver.get(url)
time.sleep(2)

images = driver.find_elements("tag name", "img")
for idx, img in enumerate(images):
    src = img.get_attribute('src')
    if src:
        urllib.request.urlretrieve(src, f"image_{idx}.jpg")
driver.quit()

Huomio

Esikäsittelytekniikat

Kuvan esikäsittely

Koon muuttaminen: sovita tietoaineiston resoluutio mallin syötteeseen (esim. 64x64 varhaisille GAN-malleille, 512x512 diffuusiomalleille);

Normalisointi: skaalaa pikseliarvot vakiovälille, tyypillisesti [−1, 1] tai [0, 1];

Väriavaruuden käsittely: varmista värien yhdenmukaisuus — muunna RGB- tai harmaasävyksi. Ehdollisessa generoinnissa säilytä alfakanavat, jos niitä on;

Datan augmentointi: tuo vaihtelua koulutuksen aikana muunnosten avulla.

Tekstin esikäsittely

Puhdistus: poistaa erikoismerkit, ylimääräiset välilyönnit ja häiriötekijät;


              12345
            
import re
text = "Example   text — with  symbols!"
cleaned = re.sub(r"[^\w\s]", "", text)
cleaned = re.sub(r"\s+", " ", cleaned).strip()
print(cleaned)

r"[^\w\s]":
- \w: vastaa mitä tahansa aakkosnumeerista merkkiä (kirjaimet A-Z, a-z, numerot 0-9) ja alaviivaa _;
- \s: vastaa mitä tahansa välilyöntimerkkiä (välilyönnit, sarkaimet, rivinvaihdot);
- [^...]: negatiivinen merkkiluokka—vastaa mitä tahansa, mitä ei ole lueteltu sisällä;
- Merkitys: tämä kuvio vastaa kaikkia merkkejä paitsi kirjaimia, numeroita, alaviivoja ja välilyöntejä. Poistaa siis välimerkit ja symbolit (kuten —, !, jne.).
r"\s+":
- \s: vastaa mitä tahansa välilyöntimerkkiä;
- +: vastaa yhtä tai useampaa edeltävää merkkiä;
- Merkitys: tämä korvaa useat peräkkäiset välilyöntimerkit yhdellä välilyönnillä.
.strip(): poistaa alku- ja loppuvälilyönnit lopullisesta puhdistetusta merkkijonosta.

Lisätietoja RegEx-syntaksista löytyy dokumentaatiosta.

Pieniksi kirjaimiksi muuntaminen: yhdenmukaistaa tekstin pieniksi kirjaimiksi johdonmukaisuuden vuoksi. Käytetään valikoivasti, koska jotkin mallit, kuten BERT, ovat kirjainkoolla erottelevia tai eivät erota kirjainkokoa;


              12
            
text = "This Is A Sentence."
print(text.lower())

Tokenisointi: jakaa tekstin tokenoihin tai osasanoihin mallinnusta varten;


              1234
            
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")
encodings = tokenizer(["Example text."], padding="max_length", truncation=True, max_length=128, return_tensors="pt")

Stemmaus/Lemmatisaatio: harvinaista syväoppimisen putkissa, mutta käytössä perinteisessä NLP:ssä tai esikoulutussuodattimissa;


              1234
            
from nltk.stem import PorterStemmer
  
stemmer = PorterStemmer()
print(stemmer.stem("running"))

Täydennys/katkaisu: katso yllä oleva esimerkki, jossa käytetään max_length.


              1234
            
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("gpt2")
inputs = tokenizer("Short text.", max_length=10, padding="max_length", truncation=True, return_tensors="pt")

Huomio

Rakenna modulaarisia esikäsittelyputkia toistettavuus huomioiden. Käytä DVC, wandb artifacts tai huggingface/datasets suoratoiston ja välimuistin kanssa.

Datan jakamisstrategiat

Tehokas datan jakaminen on olennaista yleistettävyyden kannalta, erityisesti generatiivisessa mallinnuksessa, jossa ylisovittaminen tai muistinvarainen oppiminen on yleistä.

Koulutus/Validointi/Testi-jako

Perinteiset suhteet: 80/10/10 tai 70/15/15 riippuen aineiston koosta;
Sisältötietoinen jako: jaa luokan (kuva), aiheen (teksti) mukaan.
Käyttötapaus:
- Koulutus: ohjaa mallin optimointia;
- Validointi: ohjaa checkpointausta, varhaista pysäytystä ja metriikan säätöä (esim. FID);
- Testi: pidetään täysin erillään lopulliseen mallin vertailuun asti.

Esimerkki train_test_split-funktion käytöstä:

Hugging Face -aineistot:

Ristiinvalidointi ja bootstrapping

Vähäresurssisissa tai zero-shot -alueissa käytetään K-kertaista ristiinvalidointia (esim. K=5 tai 10);
Diffuusiomalleissa käytetään bootstrappattua FID/LPIPS-arviointia generoinnin vakauden mittaamiseen;
Visuaalinen tai havaintoperusteinen tarkastelu täydentää numeerista validointia.

Esimerkki K-kertaisesta asetelmasta:

Yleisesti Käytetyt Aineistot

Oikean aineiston valinta riippuu modaliteetista, datan määrästä, lisensoinnista sekä generatiivisen mallin erityistavoitteesta (esim. ehdoton generointi, ehdollinen synteesi tai tyylinsiirto).

Tietokonenäön Aineistot

CIFAR-10: 60 000 matalaresoluutioista 32×32 RGB-kuvaa 10 luokassa. Kevyt, soveltuu nopeaan prototyyppien tekoon, yksikkötestaukseen ja kuvien GAN-mallien koulutussilmukoiden vertailuun;
CelebA: yli 200 000 kohdistettua julkkiskasvoa, joihin on liitetty 40 binääriattribuuttia. Käytetään usein attribuuttiohjatussa generoinnissa, identiteetin säilyttävässä kasvojen muokkauksessa ja enkooderi-dekooderi-malleissa;
LSUN: laajamittainen kohtausaineisto, joka sisältää miljoonia kuvia luokissa kuten makuuhuoneet, kirkot ja ruokasalit. Keskeinen korkean resoluution synteesissä ja progressiivisessa GAN-koulutuksessa;
ImageNet: yli 14 miljoonaa korkealaatuista kuvaa, jotka on luokiteltu 20 000 luokkaan. Käytetään pääasiassa siirtoloppuoppimisessa, diffuusiomallien esikoulutuksessa ja tyyliohjatun generoinnin perusaineistona.

Tekstiaineistot

WikiText: puhtaita Wikipedia-artikkeleita (WikiText-2: 2M tokenia, WikiText-103: yli 100M). Arvokas kielimallien arviointiin ja dekooderipohjaisten mallien, kuten GPT, hienosäätöön;
BookCorpus: yli 11 000 ilmaista romaania. Keskeinen narratiivisen tekstin generoinnissa, pitkän kontekstin transformereissa ja perustavanlaatuisten mallien esikoulutuksessa (esim. BERT, GPT-2);
Common Crawl / C4: petatavun kokoluokan monikielinen verkkodata. C4 on deduplikoitu, suodatettu versio, joka on kuratoitu korkealaatuiseen kielimallin koulutukseen (esim. T5);
The Pile: 825GB monipuolista dataa (kirjoja, ArXiv, StackExchange, GitHub jne.). Suunniteltu GPT-tyyppisten mallien koulutukseen kilpailukykyisesti OpenAI:n LLM-mallien kanssa.

Yhteenveto

Valitse tietoaineistot laadun, lisensoinnin, laajuuden ja generatiivisten tavoitteiden mukaisuuden perusteella;
Käytä esikäsittelyputkia, jotka on räätälöity kullekin modaliteetille ja perustuvat vankkoihin, tuotantotason työkaluihin;
Varmista tiukat jakostrategiat toistettavuuden tukemiseksi, vuotojen välttämiseksi ja oikeudenmukaisen arvioinnin mahdollistamiseksi.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 1

Datan Keruu ja Esikäsittely

Datan keruu

Verkkosivujen skrappausmenetelmät

Tekstin skrappaus BeautifulSoupilla

Kuvien kerääminen Seleniumilla

Esikäsittelytekniikat

Kuvan esikäsittely

Tekstin esikäsittely

Datan jakamisstrategiat

Koulutus/Validointi/Testi-jako

Ristiinvalidointi ja bootstrapping

Yleisesti Käytetyt Aineistot

Tietokonenäön Aineistot

Tekstiaineistot

Yhteenveto

1. Miksi datan laatu on määrää tärkeämpää generatiivisten tekoälymallien koulutuksessa?

2. Mikä on yksi yleinen haaste kerättäessä monipuolista dataa generatiivisten mallien koulutukseen?

3. Mikä on datan augmentoinnin ensisijainen tavoite generatiivisen tekoälyn koulutuksessa?

Awesome!

Datan Keruu ja Esikäsittely

Datan keruu

Verkkosivujen skrappausmenetelmät

Tekstin skrappaus BeautifulSoupilla

Kuvien kerääminen Seleniumilla

Esikäsittelytekniikat

Kuvan esikäsittely

Tekstin esikäsittely

Datan jakamisstrategiat

Koulutus/Validointi/Testi-jako

Ristiinvalidointi ja bootstrapping

Yleisesti Käytetyt Aineistot

Tietokonenäön Aineistot

Tekstiaineistot

Yhteenveto

1. Miksi datan laatu on määrää tärkeämpää generatiivisten tekoälymallien koulutuksessa?

2. Mikä on yksi yleinen haaste kerättäessä monipuolista dataa generatiivisten mallien koulutukseen?

3. Mikä on datan augmentoinnin ensisijainen tavoite generatiivisen tekoälyn koulutuksessa?