Impressum Kontakt

Statist - ein schnelles kleines aber umfangreiches Statistik-Tool

(undermink)

Mathematische Aufgaben und Computer? Waren die nicht mal nur und ausschließlich dafür gedacht? Aber warum kann ich nur ca 64.000 Einträge in eine Microsoft Excel Tabelle vornehmen? Und warum ist bei OpenOffice schon bei 32.000 Schluß? Dies war die Ausgangslage für die statistische Auswertung von knapp über 3 Millionen Messergebnissen, die untereinader korelliert werden sollten, für die über unterschiedlichwe Abschnitte Mittelwert, Standardabweichung und Varianz berechnet werden sollten.

Also musste ein Programm her, dass dies auf eine möglichst einfache Weise kann und sich am besten noch in Schleifen von Bash-Skripten einbinden lässt und auch gleich Grafiken erstellt. Gesucht und gefunden: statist 1.0.1, ursprünglich von Dirk Melcher und weitergepflegt von Bernhard Reiter.

Am Anfang steht eine rudimentären Dateiverwaltung, die neben dem Einlesen von ASCII-Dateien auch einen Export von einzelnen Spalten zulässt. Aus dem Portfolio statistischer Auswertungen können folgende Berechnungen durchgeführt werden:

  • Lineare Regression und Korrelation
  • Rank-Korrelationskoeffizient von Spearman
  • Multiple lineare Korrelation
  • Partielle lineare Korrelation über maximal 5 Variablen
  • Polynomregression
  • Matrix zu den linearen Korrelationskoeefizienten und zu Spearman
  • Punkt-biserielle Korrelation
  • Kreuz-Validierung multipler linearer Regression
  • Randomisierung multiple lineare Regression

Noch dabei? Gut, denn nun kommen die Tests:

  • t-Test zum Vergleich zweier Mittelwerte aus Stichproben
  • t-Test zum Vergleich paarweise erhobener Stichproben
  • Test auf Normalverteilung
  • Chi-Quadrat Vierfeldertafeltest
  • Chi-Quadrat Zwei-Merkmale-Tafeltest
  • u-Test (Unabhängigkeit zweier Stichproben)
  • H-Test nach Kruskal-Wallis
  • Wilcoxon-Rang-Test
  • Chi-Quadrat-Test auf gleiche Häufigkeit
  • Chi-Quadrat-Test auf Gleichheit gemessener theoretischer Häufigkeiten

Immer noch dabei? Dann zum letzten Teil:

  • statistische Parameter wie Standardabweichung, Mittelwerte, Quantile usw.
  • Probitanalyse
  • Ausreiser und Box-Whisker Plot
  • Perzentile

Nachdem nun der Umfang von statist 1.0.1 beschrieben ist, fehlt noch der Hinweis, das sich die Ergebnisse per gnuplot direkt in Grafiken darstellen lassen. Selbstverständlich ist die Ergebnisausgabe und Grafikausgabe auch in Dateien möglich.

Liegen mehrere Messergebnisse als ASCII Dateien in einem bestimmten Verzeichnis vor, kann statist diese mit Hilfe einer Schleife komplett durcharbeiten. Ausgangsdatei:

#jahr monat tag stunde temperatur
2003 08 10 12 39.5
2003 08 10 13 39.9
2003 08 10 14 40.2
2003 08 10 15 39.8

Dieses Bash-Skript übernimmt die Steuerung von statist:

#!/bin/bash
# statist_parser
statist --bernhard -silent -noplot<<ENDE
$1
4
1
b



0
0
ENDE
  • --bernhard: Ausgabe Tabellen
  • -silent: keine Menus anzeigen
  • -noplot: keine Grafik erstellen
  • 4 --> Verschiedenes
  • 1 --> Statistische Parameter (STABW, VARC,...)
  • e --> Spalte e enthält die Werte (Temperatur)
  • Leerzeilen und 0: statist beenden

Dieses Skript zum Beispiel in einer for-Schleife eines weiteren Bashskriptes kann alle ausgewählten ASCII-Dateien in einem Verzeichnis auf die gleiche Weise bearbeiten.

#!/bin/bash
 
for f in `find /daten-verzeichnis/ -name "*.txt"`;
do
    ./statist_parser $f > /ergebnis-verzeichnis/parameter-`basename $f`;
done