Lernen Listen und NumPy-Arrays | Effiziente Nutzung von Datenstrukturen

Swipe um das Menü anzuzeigen

Die Wahl der richtigen Datenstruktur kann sowohl die Geschwindigkeit als auch den Speicherverbrauch erheblich beeinflussen. Zunächst betrachten wir Listen und vergleichen sie mit NumPy-Arrays, um zu verstehen, wann und wie diese Datenstrukturen effektiv eingesetzt werden können.

Liste

Eine list ist einer der am häufigsten verwendeten Datentypen. Sie fungiert als dynamisches Array, das heißt, ihre Größe kann bei Bedarf wachsen oder schrumpfen. Listen sind vielseitig und bieten effizienten Zugriff und Modifikation an beliebigen Indizes. Allerdings können Operationen wie das Einfügen oder Entfernen von Elementen sowie das Suchen nach einem Element (Mitgliedschaftsprüfung) bei großen Listen langsam werden. Eine Ausnahme bildet das Einfügen oder Entfernen am Ende der Liste, das unabhängig von der Listengröße effizient bleibt.

Listen sind in folgenden Szenarien eine gute Wahl:

Es wird geordnete Daten benötigt;
Häufiger Zugriff oder Modifikation von Elementen über den Index;
Speicherung von verschiedenen Datentypen (z. B. Ganzzahlen, Zeichenketten oder benutzerdefinierte Objekte);
Es wird keine schnelle Mitgliedschaftsprüfung oder schnelles Einfügen bzw. Entfernen in der Mitte der Liste benötigt.


              123456789101112131415
            
my_list = [10, 20, 30]
# Access an element by index
print(my_list[1])

# Modify an element at a specific index
my_list[1] = 50
print(my_list)

# Insert an element at the end of the list
my_list.append(40)
print(my_list)

# Remove an element from the end of the list
my_list.pop()
print(my_list)

NumPy-Array

Listen sind vielseitig, jedoch nicht am effizientesten für numerische Operationen im großen Maßstab. Hier kommen NumPy-Arrays ins Spiel.

NumPy-Arrays sind in C implementiert und daher für numerische Operationen deutlich schneller als Listen. Ein entscheidender Faktor ist die Vektorisierung, die es ermöglicht, Operationen auf gesamten Arrays gleichzeitig auszuführen, ohne explizite Schleifen zu benötigen. Dies führt zu erheblichen Leistungssteigerungen, insbesondere bei großen Datensätzen.

Im Folgenden ein Beispiel für das Quadrieren jedes Elements in einer Liste (mittels for-Schleife innerhalb einer List Comprehension) und in einem NumPy-Array (mittels Vektorisierung):


              1234567891011121314151617181920
            
import numpy as np
import os
os.system('wget https://content-media-cdn.codefinity.com/courses/8d21890f-d960-4129-bc88-096e24211d53/section_1/chapter_3/decorators.py 2>/dev/null')
from decorators import timeit_decorator

my_list = list(range(1, 100001))
arr = np.array(my_list)

@timeit_decorator(number=100)
def square_list(numbers_list):
    return [x ** 2 for x in numbers_list]

@timeit_decorator(number=100)
def square_array(numbers_array):
    return numbers_array ** 2

sqaures_list = square_list(my_list)
squares_array = square_array(arr)
if np.array_equal(squares_array, sqaures_list):
  print('The array is equal to the list')

Wie ersichtlich, ist der Leistungsvorteil von NumPy-Arrays deutlich.

Beim Umgang mit numerischen Daten bieten NumPy-Arrays einen Speicherplatzvorteil gegenüber Listen. Sie speichern tatsächliche Daten in zusammenhängenden Speicherblöcken, was sie insbesondere bei großen Datensätzen effizienter macht. Als homogene Strukturen (gleicher Datentyp) vermeiden NumPy-Arrays den Overhead von Objektverweisen.

Im Gegensatz dazu sind Listen heterogen und speichern Verweise auf Objekte in zusammenhängendem Speicher, wobei die eigentlichen Objekte an anderer Stelle abgelegt werden. Diese Flexibilität führt bei der Arbeit mit numerischen Daten zu zusätzlichem Speicheraufwand.

Zusammenfassend vergleicht die folgende Tabelle Listen mit NumPy-Arrays:

1. Sie entwickeln ein Programm zur Verwaltung einer Sammlung von `Sensor`-Objekten (benutzerdefinierte Klasse), die jeweils einen `timestamp` (String) und eine `reading` (Float) enthalten. Der Datensatz wird im Laufe der Zeit wachsen, und häufige Aktualisierungen einzelner Sensorwerte sind erforderlich. Welche Datenstruktur wäre die beste Wahl?

2. Sie arbeiten mit einem großen numerischen Datensatz für ein Machine-Learning-Projekt. Welche Datenstruktur bietet für diese Aufgabe die effizienteste Leistung?

3. Sie analysieren Börsendaten, die aus numerischen Werten (Preisen) über die Zeit bestehen. Sie müssen schnelle Berechnungen durchführen, wie zum Beispiel den Durchschnittspreis ermitteln und mathematische Transformationen auf die Daten anwenden. Welche Datenstruktur würden Sie wählen?

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 2. Kapitel 1