matheraum.de
Raum für Mathematik
Offene Informations- und Nachhilfegemeinschaft

Für Schüler, Studenten, Lehrer, Mathematik-Interessierte.
Hallo Gast!einloggen | registrieren ]
Startseite · Forum · Wissen · Kurse · Mitglieder · Team · Impressum
Forenbaum
^ Forenbaum
Status Mathe
  Status Schulmathe
    Status Primarstufe
    Status Mathe Klassen 5-7
    Status Mathe Klassen 8-10
    Status Oberstufenmathe
    Status Mathe-Wettbewerbe
    Status Sonstiges
  Status Hochschulmathe
    Status Uni-Analysis
    Status Uni-Lin. Algebra
    Status Algebra+Zahlentheo.
    Status Diskrete Mathematik
    Status Fachdidaktik
    Status Finanz+Versicherung
    Status Logik+Mengenlehre
    Status Numerik
    Status Uni-Stochastik
    Status Topologie+Geometrie
    Status Uni-Sonstiges
  Status Mathe-Vorkurse
    Status Organisatorisches
    Status Schule
    Status Universität
  Status Mathe-Software
    Status Derive
    Status DynaGeo
    Status FunkyPlot
    Status GeoGebra
    Status LaTeX
    Status Maple
    Status MathCad
    Status Mathematica
    Status Matlab
    Status Maxima
    Status MuPad
    Status Taschenrechner

Gezeigt werden alle Foren bis zur Tiefe 2

Navigation
 Startseite...
 Neuerdings beta neu
 Forum...
 vorwissen...
 vorkurse...
 Werkzeuge...
 Nachhilfevermittlung beta...
 Online-Spiele beta
 Suchen
 Verein...
 Impressum
Das Projekt
Server und Internetanbindung werden durch Spenden finanziert.
Organisiert wird das Projekt von unserem Koordinatorenteam.
Hunderte Mitglieder helfen ehrenamtlich in unseren moderierten Foren.
Anbieter der Seite ist der gemeinnützige Verein "Vorhilfe.de e.V.".
Partnerseiten
Dt. Schulen im Ausland: Mathe-Seiten:Weitere Fächer:

Open Source FunktionenplotterFunkyPlot: Kostenloser und quelloffener Funktionenplotter für Linux und andere Betriebssysteme
StartseiteMatheForenAlgorithmen und DatenstrukturenHash für Bloom-Filter
Foren für weitere Studienfächer findest Du auf www.vorhilfe.de z.B. Astronomie • Medizin • Elektrotechnik • Maschinenbau • Bauingenieurwesen • Jura • Psychologie • Geowissenschaften
Forum "Algorithmen und Datenstrukturen" - Hash für Bloom-Filter
Hash für Bloom-Filter < Algor.+Datenstr. < Theoretische Inform. < Hochschule < Informatik < Vorhilfe
Ansicht: [ geschachtelt ] | ^ Forum "Algorithmen und Datenstrukturen"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien

Hash für Bloom-Filter: Unabhängigkeit von Hashes
Status: (Frage) beantwortet Status 
Datum: 11:12 Fr 20.04.2018
Autor: tc_engineer

Ich möchte einen Bloom-Filter implementieren. Dazu benötigt man k unabhängige und gleichverteilte Hashfunktionen, welche jeweils ein Eingangselement auf einen Bereich 0...m-1 gleichverteilt abbilden.

Angenommen m ist 2048 und mein erster Hash produziert 256-Bit Werte (also Werte von 0 bis 2^256-1).

Frage 1:
Da das Resultat des Hashs gleichverteilt ist, kann ich für eine Abbildung des Hashergebnisses auf 0...2047 einfach das Resultat des Hashs mod 2048 nehmen (also aus Implementierungssicht die unteren 11 Bit des 256-Bit Hashs), da diese auch gleichverteilt sein sollten?

Frage 2:
Da das Hashresultat gleichverteilt ist, könnte ich mehrere disjunkte Bereiche desselben Hashresultats nehmen (z.B. die schon angesprochenen unteren 11 Bit und dann noch z.B. die oberen 11 Bit des 256-Bit Hashs), um mehrere unabhängige Hashergebnisse für den Bloom-Filter zu haben? Sind also sich nicht überschneidende Teile desselben Hashswertes unabhängig und gleichverteilt, wenn das Hashresultat als Ganzes gleichverteilt ist?

Vielleicht hat ja jemand ein paar Gedanken dazu. Auch über Anregungen für konkrete, möglichst wenig komplexe Hashalgorithmen, welche den Anforderungen für Bloom-Filter genügen, würde ich mich freuen.

Danke!


        
Bezug
Hash für Bloom-Filter: Antwort
Status: (Antwort) fertig Status 
Datum: 20:22 Fr 04.05.2018
Autor: felixf

Moin

> Ich möchte einen Bloom-Filter implementieren. Dazu
> benötigt man k unabhängige und gleichverteilte
> Hashfunktionen, welche jeweils ein Eingangselement auf
> einen Bereich 0...m-1 gleichverteilt abbilden.
>  
> Angenommen m ist 2048 und mein erster Hash produziert
> 256-Bit Werte (also Werte von 0 bis 2^256-1).
>  
> Frage 1:
>  Da das Resultat des Hashs gleichverteilt ist, kann ich
> für eine Abbildung des Hashergebnisses auf 0...2047
> einfach das Resultat des Hashs mod 2048 nehmen (also aus
> Implementierungssicht die unteren 11 Bit des 256-Bit
> Hashs), da diese auch gleichverteilt sein sollten?

Genau.

(Das geht allerdings nur, wenn $m$ ein Teiler von [mm] $2^{256}$ [/mm] ist. Ansonsten ist der Rest nicht wirklich gleichverteilt.)

> Frage 2:
>  Da das Hashresultat gleichverteilt ist, könnte ich
> mehrere disjunkte Bereiche desselben Hashresultats nehmen
> (z.B. die schon angesprochenen unteren 11 Bit und dann noch
> z.B. die oberen 11 Bit des 256-Bit Hashs), um mehrere
> unabhängige Hashergebnisse für den Bloom-Filter zu haben?

Ja. Also zumindest dann, wenn die Hash-Funktion gut genug ist ;-)

Bei kryptographischen Hash-Funktionen ist das (eigentlich) kein Problem. Die sind allerdings im Allgemeinen recht langsam, im Vergleich zu anderen (effizienten) Hash-Funktionen (etwa murmur, fnv, HashMix; siehe auch https://llimllib.github.io/bloomfilter-tutorial/).

> Sind also sich nicht überschneidende Teile desselben
> Hashswertes unabhängig und gleichverteilt, wenn das
> Hashresultat als Ganzes gleichverteilt ist?

Wenn das Hashresultat gleichverteilt ist, ist das immer so.

> Vielleicht hat ja jemand ein paar Gedanken dazu. Auch über
> Anregungen für konkrete, möglichst wenig komplexe
> Hashalgorithmen, welche den Anforderungen für Bloom-Filter
> genügen, würde ich mich freuen.

Siehe oben bzw. https://llimllib.github.io/bloomfilter-tutorial/. Ansonsten siehe auch hier: https://www.jasondavies.com/bloomfilter/ und hier: https://willwhim.wpengine.com/2011/09/03/producing-n-hash-functions-by-hashing-only-once/

LG Felix


Bezug
                
Bezug
Hash für Bloom-Filter: Mitteilung
Status: (Mitteilung) Reaktion unnötig Status 
Datum: 09:06 Fr 29.06.2018
Autor: tc_engineer

Hallo Felix,

danke für deine Antwort. Irgendwie ahnt man im Bereich der Stochastik meist schon, dass es so sein könnte, wie man denkt, aber manchmal gibt es da doch Überraschungen, daher danke für die Bestätigung und die zusätzlichen Links.

Einen kryptographischen Hash will ich nicht verwenden, da meine Implementierung möglichst schnell sein soll. In der Praxis wird es wohl auch mit einer nicht perfekten Gleichverteilung ausreichend gut funktionieren.

Viele Grüße.

Bezug
Ansicht: [ geschachtelt ] | ^ Forum "Algorithmen und Datenstrukturen"  | ^^ Alle Foren  | ^ Forenbaum  | Materialien


^ Seitenanfang ^
www.matheraum.de
[ Startseite | Forum | Wissen | Kurse | Mitglieder | Team | Impressum ]