1. Johdanto
Kurssin Tietorakenteet ja algoritmit tavoitteena on syventää ohjelmointitaitoa ja opettaa ajattelua ja tekniikoita, joiden avulla voi toteuttaa ohjelmia, jotka toimivat oikein ja tehokkaasti kaikissa tilanteissa.
Tutustumme kurssin aiheisiin Python-kielen kautta, mutta kurssin asiat pätevät muissakin ohjelmointikielissä. Kurssilla on paljon ohjelmointia, minkä lisäksi käsittelemme myös aiheeseen liittyvää teoriaa.
Mikä on algoritmi?
Algoritmi (algorithm) on menetelmä, jonka avulla voidaan ratkaista jokin laskennallinen tehtävä. Kun algoritmi toteutetaan ohjelmointikielellä, se voidaan suorittaa tietokoneella.
Algoritmin syöte (input) tarkoittaa, mitä lähtötietoja algoritmille annetaan. Algoritmin tuloste (output) puolestaan tarkoittaa, minkä vastauksen algoritmi antaa suorituksen jälkeen. Pythonissa algoritmi voidaan toteuttaa funktiona, jolloin algoritmin syöte annetaan funktion parametreina ja algoritmin tuloste on funktion palautusarvo.
Tarkastellaan esimerkkinä tehtävää, jossa algoritmille annetaan lista lukuja ja algoritmin pitää laskea, moniko luku on parillinen. Esimerkiksi jos lista on [5, 4, 1, 7, 9, 6]
, haluttu vastaus on 2
, koska luvut 4
ja 6
ovat parillisia.
Tämä tehtävä voidaan ratkaista algoritmilla, joka käy läpi listan luvut ja pitää muuttujassa yllä tietoa, moniko luku on parillinen. Algoritmi voidaan toteuttaa seuraavasti Pythonilla funktiona count_even
:
def count_even(numbers):
result = 0
for x in numbers:
if x % 2 == 0:
result += 1
return result
Funktiota voidaan testata seuraavan pääohjelman avulla:
print(count_even([1, 2, 3])) # 1
print(count_even([2, 2, 2, 2, 2])) # 5
print(count_even([5, 4, 1, 7, 9, 6])) # 2
Tämä pääohjelma testaa funktion toimintaa kolmella eri listalla. Jokaisen testin yhteydessä kommentissa lukee, mikä vastaus testistä pitäisi tulla. Kun ohjelma suoritetaan, sen tulostus on seuraava:
1
5
2
Tämän perusteella vaikuttaa siltä, että funktio toimii halutulla tavalla eli olemme saaneet aikaan toimivan algoritmin tehtävään.
Mikä on tietorakenne?
Tietorakenne (data structure) on tapa pitää muistissa tietoa ohjelmassa. Pythonin perustietorakenne on lista, jonka lisäksi kielessä on muita valmiita tietorakenteita. Sopivien tietorakenteiden valinta on tärkeä osa algoritmien suunnittelua, koska tietorakenteet vaikuttavat paljon algoritmien tehokkuuteen.
Tutustumme tällä kurssilla moniin tietorakenteisiin ja niiden käyttötarkoituksiin algoritmien suunnittelussa. Käymme läpi Pythonin valmiita tietorakenteita, minkä lisäksi opimme toteuttamaan myös itse tietorakenteita, joita ei ole valmiina Pythonissa eikä muissa kielissä.
Algoritmin toteuttaminen
Minkä tahansa algoritmin pystyy toteuttamaan ohjelmoinnin perusasioiden avulla. Pythonissa tällaisia perusasioita ovat:
- muuttujat
- ehdot (
if
) - silmukat (
for
,while
) - listat
- funktiot
- luokat
Näiden lisäksi ohjelmointikielissä on usein paljon muita ominaisuuksia, joiden avulla voi esimerkiksi tiivistää koodia mutta jotka eivät pohjimmiltaan muuta koodin toimintalogiikkaa. Näitä ominaisuuksia voi käyttää algoritmien toteuttamisessa, mutta niitä ilmankin pärjää mainiosti.
Tarkastellaan vielä äskeistä funktiota count_even
, joka on toteutettu käyttäen ohjelmoinnin perusasioita:
def count_even(numbers):
result = 0
for x in numbers:
if x % 2 == 0:
result += 1
return result
Tämän funktion voi toteuttaa tiiviimmin käyttämällä Python-kielelle erityistä generaattorilauseketta:
def count_even(numbers):
return sum(x % 2 == 0 for x in numbers)
Tässä sum
-funktion sisällä on generaattorilauseke, joka laskee jokaiselle listan alkiolle x
lausekkeen x % 2 == 0
arvon (True
tai False
). Kun nämä arvot lasketaan yhteen, jokainen True
-arvo tulkitaan luvuksi 1
, jolloin arvojen summa on yhtä suuri kuin parillisten lukujen määrä.
Vaikka jälkimmäinen funktio on paljon lyhyempi, se kuitenkin tekee pohjimmiltaan saman asian kuin ensimmäinen funktio. Molemmat funktiot käyvät läpi listan luvut ja laskevat yhteen parillisten lukujen määrän, eikä funktioissa ole eroa algoritmin toimintalogiikan kannalta.
Ensimmäisen funktion etuna on, että se on helpompi ymmärtää henkilölle, joka ei tunne Python-kielen erikoisominaisuuksia. Funktion voisi toteuttaa melko samalla tavalla esimerkiksi JavaScriptilla:
function countEven(numbers) {
let result = 0;
for (let x of numbers) {
if (x % 2 == 0) result++;
}
return result;
}
Jälkimmäisen funktion etuna on, että se on tiiviimpi ja sen voi ajatella olevan enemmän Python-kielen tyylin mukainen. Vaikka ohjelmoinnin perusasiat riittävät kaikkeen, voi olla kiinnostavaa oppia myös kielten erikoisominaisuuksia.
Algoritmin tehokkuus
Saman tehtävän ratkaisemiseen on olemassa usein monia erilaisia algoritmeja, joiden tehokkuudessa voi olla eroja. Usein tavoitteena on löytää tehokas algoritmi, jonka avulla tehtävä voidaan ratkaista nopeasti.
Tarkastellaan tehtävää, jossa annettuna on lista lukuja ja tavoitteena on laskea, mikä on suurin ero kahden luvun välillä. Esimerkiksi kun lista on [3, 2, 6, 5, 8, 5]
, haluttu vastaus on 6
, koska suurin ero on lukujen 2
ja 8
välillä.
Seuraavassa on kolme algoritmia tämän tehtävän ratkaisemiseen:
Algoritmi 1
def max_diff(numbers):
result = 0
for x in numbers:
for y in numbers:
result = max(result, abs(x - y))
return result
Tämä algoritmi muodostuu kahdesta for
-silmukasta, jotka käyvät läpi kaikki tavat valita listalta kaksi lukua. Algoritmi laskee lukujen eron abs
-funktion (itseisarvo) avulla ja pitää muistissa tietoa, mikä on suurin löytynyt ero.
Algoritmi 2
def max_diff(numbers):
numbers = sorted(numbers)
return numbers[-1] - numbers[0]
Tämän algoritmin ideana on, että suurin ero kahden luvun välillä saadaan valitsemalla listan pienin ja suurin luku.
Algoritmi järjestää ensin listan sisällön sorted
-funktion avulla. Tämän jälkeen pienin luku on listan alussa ja suurin luku on listan lopussa, joten algoritmin riittää palauttaa listan viimeisen luvun (indeksi -1
) ja ensimmäisen luvun (indeksi 0
) erotus.
Algoritmi 3
def max_diff(numbers):
return max(numbers) - min(numbers)
Tässä on vielä toinen tapa toteuttaa äskeiseen ideaan perustuva algoritmi. Listan järjestämisen sijasta algoritmi käyttää funktioita min
ja max
, jotka palauttavat listan pienimmän ja suurimman alkion.
Algoritmin tehokkuutta voidaan tutkia testiohjelmalla, joka antaa algoritmille tietyn syötteen ja mittaa algoritmin suoritusajan. Usein hyvä tapa on laatia testiohjelma niin, että se muodostaa halutun kokoisen syötteen satunnaisesti. Tämän avulla algoritmia voidaan testata helposti erikokoisilla syötteillä.
Seuraavassa on ohjelma, joka testaa funktion max_diff
tehokkuutta:
import random
import time
def max_diff(numbers):
...
n = 1000
print("n:", n)
random.seed(1337)
numbers = [random.randint(1, 10**6) for _ in range(n)]
start_time = time.time()
result = max_diff(numbers)
end_time = time.time()
print("result:", result)
print("time:", round(end_time - start_time, 2), "s")
Muuttujassa n
annetaan testissä käytettävän listan pituus. Funktio random.seed
määrittää siemenluvun (tässä 1337
), jonka ansiosta satunnaisluvut muodostetaan aina samalla tavalla. Tästä on hyötyä, kun testi suoritetaan useita kertoja, jolloin listan sisältö on aina sama. Ohjelma luo funktiolla random.randint
listan, jossa on n
satunnaista lukua väliltä \(1 \dots 10^6\).
Ohjelma mittaa funktion ajankäytön funktion time.time
avulla. Funktio palauttaa sekunteina kuluneen ajan vuoden 1970 alusta alkaen. Kun tämä aika laitetaan talteen ennen funktion kutsua ja funktion kutsun jälkeen, aikojen erotus kertoo, montako sekuntia funktion suoritus vei aikaa. Aika pyöristetään kahden desimaalin tarkkuudelle funktiolla round
.
Ohjelman suoritus voi näyttää seuraavalta:
n: 1000
result: 999266
time: 0.09 s
Tämä tarkoittaa, että algoritmin syötteenä oli 1000
-kokoinen lista, algoritmi antoi tuloksen 999266
ja algoritmin suoritukseen meni aikaa 0.09
sekuntia.
Seuraava taulukko näyttää, paljonko äskeiset algoritmit veivät aikaa erikokoisilla syötteillä testikoneella:
Listan koko n |
Algoritmi 1 | Algoritmi 2 | Algoritmi 3 |
---|---|---|---|
1000 | 0.17 s | 0.00 s | 0.00 s |
10000 | 15.93 s | 0.00 s | 0.00 s |
100000 | – | 0.01 s | 0.00 s |
1000000 | – | 0.27 s | 0.02 s |
Taulukosta näkee, että algoritmien tehokkuudessa on suuria eroja. Algoritmi 1 on hidas suurilla syötteillä, ja kaksi suurinta testiä jouduttiin keskeyttämään, koska suoritus vei liikaa aikaa. Algoritmit 2 ja 3 ovat sen sijaan tehokkaita myös suurilla syötteillä. Viimeinen testi tuo näkyviin eron myös algoritmin 2 ja 3 välille, vaikkakaan ero ei ole niin suuri kuin verrattuna algoritmiin 1.
Aikavaativuus
Aikavaativuus (time complexity) on matemaattinen tapa mitata algoritmin tehokkuutta. Aikavaativuus on hyödyllinen työkalu algoritmien suunnittelussa, koska sen avulla pystyy arvioimaan kätevästi, miten tehokkaasti algoritmi toimii.
Aikavaativuus ilmoitetaan yleensä \(O\)-merkinnän avulla niin, että muuttuja \(n\) kuvaa syötteen kokoa. Esimerkiksi jos syötteenä on lista, \(n\) tarkoittaa listan kokoa, ja jos syötteenä on merkkijono, \(n\) tarkoittaa merkkijonon pituutta.
Aikavaativuus ilmaisee algoritmin tehokkuuden suuruusluokan lausekkeena, jossa esiintyy syötteen koko \(n\). Tavallisia aikavaativuuksia ovat:
Aikavaativuus | Algoritmin nimitys |
---|---|
\(O(1)\) | Vakioaikainen |
\(O(\log n)\) | Logaritminen |
\(O(n)\) | Lineaarinen |
\(O(n \log n)\) | – |
\(O(n^2)\) | Neliöllinen |
\(O(n^3)\) | Kuutiollinen |
Algoritmin aikavaativuus voidaan usein laskea seuraavien sääntöjen avulla:
1. Yksittäiset komennot
Jos algoritmissa on yksittäisiä komentoja, joiden määrä ei riipu syötteen koosta, komentojen aikavaativuus on \(O(1)\).
Esimerkiksi seuraavan algoritmin aikavaativuus on \(O(1)\):
def distinct(a, b, c):
if a == b and a == c:
return 1
if a == b or a == c or b == c:
return 2
return 3
Algoritmin syötteenä on kolme lukua, ja algoritmi selvittää, montako eri lukua sille annettiin. Esimerkiksi distinct(3, 4, 3)
antaa tuloksen 2
. Algoritmi muodostuu yksittäisistä komennoista, joten sen aikavaativuus on \(O(1)\).
2. Silmukan aikavaativuus
Jos algoritmissa on silmukka, jonka kierrosten määrä on samaa luokkaa kuin syötteen koko, silmukan aikavaativuus on \(O(n)\).
Esimerkiksi seuraavan algoritmin aikavaativuus on \(O(n)\):
def count_even(numbers):
count = 0
for x in numbers:
if x % 2 == 0:
count += 1
return count
Algoritmin aikavaativuus on \(O(n)\), koska siinä on silmukka, joka käy läpi listan sisällön. Silmukan kierrosten määrä on sama kuin listan alkioiden määrä, ja silmukan sisällä olevan koodin aikavaativuus on \(O(1)\).
3. Sisäkkäiset silmukat
Jos algoritmissa on silmukoita sisäkkäin, algoritmin aikavaativuus saadaan kertomalla niiden aikavaativuudet keskenään.
Esimerkiksi seuraavan algoritmin aikavaativuus on \(O(n^2)\):
def has_sum(numbers, x):
for a in numbers:
for b in numbers:
if a + b == x:
return True
return False
Algoritmi selvittää, onko listassa kahta lukua, joiden summa on x
.
Algoritmin aikavaativuus on \(O(n^2)\), koska siinä on sisäkkäin kaksi silmukkaa, joiden kummankin aikavaativuus on \(O(n)\).
Yleisemmin jos algoritmissa on sisäkkäin \(k\) silmukkaa ja kunkin silmukan aikavaativuus on \(O(n)\), algoritmin aikavaativuus on \(O(n^k)\).
4. Peräkkäiset osat
Jos algoritmissa on peräkkäisiä osia, koko algoritmin aikavaativuus on suurin yksittäisen osan aikavaativuus.
Esimerkiksi seuraavan algoritmin aikavaativuus on \(O(n)\):
def even_odd_diff(numbers):
even_count = 0
for x in numbers:
if x % 2 == 0:
even_count += 1
odd_count = 0
for x in numbers:
if x % 2 != 0:
odd_count += 1
return abs(even_count - odd_count)
Algoritmi laskee listan parillisten ja parittomien lukujen määrien erotuksen. Algoritmissa on kaksi peräkkäistä silmukkaa, joiden kummankin aikavaativuus on \(O(n)\). Niinpä koko algoritmin aikavaativuus on \(O(n)\).