need a pro - cluster analyse mit dem statisik-tool R

    • leelacocca
      leelacocca
      Bronze
      Dabei seit: 26.11.2006 Beiträge: 698
      darf mich atm für die uni mit clusteranalysen beschäftigen und muss dafür nen ziemlich großen datensatz clustern (~16K datensätze). passieren soll das ganze in R. hab das ganze mit nem kleineren datensatz auch einwandfrei hinbekommen, aber bei der anzahl datensätze freezed das tool ständig und das schon bei der distanzberechnung (zieht die kompletten daten in den RAM).

      anscheinend gibt es ein paar packages (bigmemory,filehash,ff) die die daten auf die platte outsourcen, aber irgendwie bekomm ich das damit nich hin. entweder sind für die objekte dann keine methoden da oder ich bekomm mein .csv erst gar nich importiert.

      hat evtl. jmd. schon mal so was in R gemacht und kennt sich aus?

      thx!
  • 7 Antworten
    • marc0506
      marc0506
      Bronze
      Dabei seit: 03.02.2006 Beiträge: 8.241
      kann dir nicht wirklich helfen. habe auch mal versucht nen grossen datensatz mit R zu bearbeiten und bin auf ähnliche probleme gestossen. ich hab's auch nciht hinbekommen!

      kannst du dein datenfile nicht "verkleinern"? d.h. irrelevante (fürs clustern) variablen rauswerfen, nur mit den relevanten daten clustern und bei bedarf die gelöschten variablen hinterher wieder dran mergen?

      wenn du z.b. personen nur nach geschlecht, region, alter und ein paar anderen achen clustern willst musst du nicht unbedingt 1000 verschiedene antworten auf nen fragebogen auch mitschleppen.
    • leelacocca
      leelacocca
      Bronze
      Dabei seit: 26.11.2006 Beiträge: 698
      die idee is gut, aber 1. will ich das varianzkriterium in den clustern minimieren (d.h. ich brauche wahrscheinlich alle variablen oder zumindest einen großteil) und 2. hab ich es testweise mit nur einer clustervariable probiert und selbst da is es gefreezed.

      bin mir nich sicher ob ich evtl. gleiche datensätze (die gibt es) zusammenfassen kann, aber das verändert soweit ich weiss dann auch die ergebnisse bzw. das cluster-merging. und die daten im nachhinein zu matchen bedeutet wieder zusatzaufwand.
    • marc0506
      marc0506
      Bronze
      Dabei seit: 03.02.2006 Beiträge: 8.241
      wieviele variablen hast du denn? bei nur 16k datensätzen müssen es ja ziemlich viele variablen sein, dass du in soclhe probleme kommst!
      hast du dir mal die datentypen angeschaut? vielleicht kannst du die datengrösse verkleinern, wenn jeder variable nur die wirklich benötigte grösse/format zugeordnet ist?
      besseren rechner (mehr RAM) nutzen geht auch nicht?
    • swizz
      swizz
      Bronze
      Dabei seit: 02.03.2006 Beiträge: 3.427
      Habe keine Ahnung von Clusteranalysen aber bei R-Problemen wird dir hier immer geholfen.
    • leelacocca
      leelacocca
      Bronze
      Dabei seit: 26.11.2006 Beiträge: 698
      Original von marc0506
      wieviele variablen hast du denn? bei nur 16k datensätzen müssen es ja ziemlich viele variablen sein, dass du in soclhe probleme kommst!
      hast du dir mal die datentypen angeschaut? vielleicht kannst du die datengrösse verkleinern, wenn jeder variable nur die wirklich benötigte grösse/format zugeordnet ist?
      besseren rechner (mehr RAM) nutzen geht auch nicht?
      habe 7 variablen, wobei das glaube ich nicht das problem ist sondern dass er für 16k x 16k datensätze ne distanzfunktion berechnen muss.

      datentypen hab ich alle auf integer gesetzt, ohne erfolg.

      RAM hab ich 4gb. nutze die 64bit-version von R. also wenig spielraum nach oben.
    • marc0506
      marc0506
      Bronze
      Dabei seit: 03.02.2006 Beiträge: 8.241
      finde das irgendwie komisch, 16k datensätze mit 7 variablen ist ja wirklich garnichts...
    • leelacocca
      leelacocca
      Bronze
      Dabei seit: 26.11.2006 Beiträge: 698
      dachte ich auch, aber es is ja auch keine simple sql-abfrage sondern ne rechenoperation für ~256 mio. datenpaare.

      any hints? ?(