Jump to content

Deep Reinforcement Learning


Empfohlene Beiträge

vor 1 Stunde schrieb Wintermute:

Für Binance Spot und Future Märkte gibts alle möglichen historische Daten unter:

https://data.binance.vision/

und auch ein paar python scripte die ggf dafür nützlich sind:

https://github.com/binance/binance-public-data

Das wird nicht reichen.

Besser : 

1. 20 Top Coins mit M1 runterladen.

2. Volume muss bei BTC über 24h liegen, sonst wird der Slippage zu gross.

3. Die Daten kann man am besten mit Strategy Quant Downloader runterladen und managen. In Fakt, ich habe alle Binance Daten runtergeladen.

4. Danach eine grosse Datenliste miot den Preisen machen und 4 Wochen rechnen lassen.

5. Es reicht nicht, nur ein Netzwerk trainjiert zu haben, mann muss auch ein sehr stabiles Trading System haben, dass 100% Up Time hat. (ja, das ist eine Challange)

6. Im Moment sind ML Algorithmen wesentlich besser als RL. Ich denke, es ist wesentlich profitabler, RL Risikotrading on Top beizubringen.

 

ich muss mir noch ein paar GPUs kaufen, dann kann ich auch mal DL weitermachen. Aber im Moment schwierig.

Link zum Beitrag
Auf anderen Seiten teilen

Eine Frage an den oder die Experten unter uns ... 😉

Ich habe in den letzten Tagen einiges über genetische Algorithmen gelesen, was auch recht gut klingt. (Ich bin inzwischen schwer am Überlegen, ob ich nicht NDSGA II über meinen bisherigen Backtest stülpen soll: https://www.youtube.com/watch?v=SL-u_7hIqjA)

In den GA-Artikeln wurde öfters betont, dass eine Fitnessfunktion, die nur einen einzelnen Wert zurückgibt, i.A. zu schlechterer Trainierbarkeit (d.h. weniger Genvielfalt und mehr Overfitting) führt als Fitnessfunktionen, die einen mehrkomponentigen Wert zurückmelden.

Beim Reinforcement Learning gibt es ja etwas ähnliches, den Reward. Typischerweise ist das ja auch immer nur eine einzelne Zahl. Gibt es da ebenfalls Ansätze, mehrdimensionale Rewards zu verwenden, um das Agentverhalten differenzierter zu beeinflussen?

 

Link zum Beitrag
Auf anderen Seiten teilen
vor einer Stunde schrieb PeWi:

Eine Frage an den oder die Experten unter uns ... 😉

Ich habe in den letzten Tagen einiges über genetische Algorithmen gelesen, was auch recht gut klingt. (Ich bin inzwischen schwer am Überlegen, ob ich nicht NDSGA II über meinen bisherigen Backtest stülpen soll: https://www.youtube.com/watch?v=SL-u_7hIqjA)

In den GA-Artikeln wurde öfters betont, dass eine Fitnessfunktion, die nur einen einzelnen Wert zurückgibt, i.A. zu schlechterer Trainierbarkeit (d.h. weniger Genvielfalt und mehr Overfitting) führt als Fitnessfunktionen, die einen mehrkomponentigen Wert zurückmelden.

Beim Reinforcement Learning gibt es ja etwas ähnliches, den Reward. Typischerweise ist das ja auch immer nur eine einzelne Zahl. Gibt es da ebenfalls Ansätze, mehrdimensionale Rewards zu verwenden, um das Agentverhalten differenzierter zu beeinflussen?

 

GA : Ich halte nicht viel davon. Ich hatte mir das vor 5 Jahren mal angesehen. Mein Ergebnis war, dass die Algorithmen anhand von vergangenen Daten generiert werden, um dann die Zukunft zu bestimmt. Das kann für automatisches Trading niemals funktionieren. Wenn ich mich richtig erinnere, bietet Strategy Quant solche Tools an.

Was das RL angeht. Das muss Du anders betrachten. Du musst die Grundprinzipen (egal welchen Algorithmus Du nimmst) auf die Algorithmen abbilden und die Daten richtig normalisieren. Ein Beispiel ist, das jeder Algorithmus in Phasen funktioniert und in anderen nicht. Das hat was mit den Marktphasen zu tun. Hier muss Du den RL lernen lassen, das zu erkennen. Das geht nur, wenn Du einen Reward als Triggerlinie hast. Ich verstehe daher nicht, wie jemand lernen soll, wenn er zwei Rewards hat, es sei denn, Du gewichtest die. 

Wer meint, er spielt Software auf und das Geld kommt geflogen, soll sich im MIning umsehen.

bearbeitet von Männergruppe Monk
Link zum Beitrag
Auf anderen Seiten teilen

 

On 4/8/2021 at 6:44 PM, Männergruppe Monk said:

GA : Ich halte nicht viel davon. Ich hatte mir das vor 5 Jahren mal angesehen. Mein Ergebnis war, dass die Algorithmen anhand von vergangenen Daten generiert werden, um dann die Zukunft zu bestimmt.

Machen das die anderen Verfahren nicht auch so - egal, ob Bots mit TA, neuronale Netze oder eben auch RL?

Und bei allen Verfahren muss man sich geeignete Maßnahmen überlegen, dem Overfitting auszukommen, damit das Verfahren nicht an den konkreten historischen Kursen klebt, sondern mehr oder weniger generalisiert.

On 4/8/2021 at 6:44 PM, Männergruppe Monk said:

Ein Beispiel ist, das jeder Algorithmus in Phasen funktioniert und in anderen nicht. Das hat was mit den Marktphasen zu tun. Hier muss Du den RL lernen lassen, das zu erkennen. Das geht nur, wenn Du einen Reward als Triggerlinie hast.

Wenn du bei  https://github.com/matlab-deep-learning/reinforcement_learning_financial_trading
in den Abschnitt "Reward" schaust - da steht haarklein aufgelistet, was sie mit dem Reward alles bezwecken wollen.

Den Reward lediglich als Triggerlinie für die passenden oder unpassenden Maarktsituationen zu bezeichnen, ist schon eine deutliche Untertreibung. 😉

On 4/8/2021 at 6:44 PM, Männergruppe Monk said:

Ich verstehe daher nicht, wie jemand lernen soll, wenn er zwei Rewards hat, es sei denn, Du gewichtest die. 

Ist das nicht einleuchtend, dass ein mehrdimensionaler Reward wesentlich mehr Information an den Agenten transportieren kann als ein eindimensionaler Wert?

Stell dir vor, dein Fahrlehrer früher hätte in deinen Fahrstunden zu dir nur sowas wie ganz schlecht/schlecht/mäßig/naja/mittel/ wird schon/brauchbar/fast gut/gut/recht gut/sehr gut/prima/ausgezeichnet gesagt.

Mir wäre als Fahrschüler detaillierteres Feedback für einzelne Aspekte ("du hast zuwenig geschaut", "dein Umgang mit der Kupplung ..", ...) lieber. 🙂


Ich habe zum Thema "mehrdimensionaler Reward" mal gegoogled, habe aber nichts wesentliches finden können.

"Beifang" waren jedoch mehrere Artikel, die sich darüber ausgelassen haben, dass eine gute Rewardfunktion das wichtigste am RL sei, und dass das eine echte Kunst wäre, eine gute hinzubekommen. Auch der oben erwähnte Matlab-Artikel schreibt, dass sie an der Rewardfunktion länger herumgetüftelt und -probiert haben.

Und weil das so schwierig ist, hat sich Interessanterweise deshalb "inverses RL" entwickelt. Man beobachtet einen menschlichen Experten bei allerlei Situationen und leitet aus dessen sinnvollen und erfolgreichen Aktionen durch irgendwelche Transformationsmaßnahmen eine Rewardfunktion her.

Link zum Beitrag
Auf anderen Seiten teilen
vor 14 Minuten schrieb PeWi:

 

Machen das die anderen Verfahren nicht auch so - egal, ob Bots mit TA, neuronale Netze oder eben auch RL?

Und bei allen Verfahren muss man sich geeignete Maßnahmen überlegen, dem Overfitting auszukommen, damit das Verfahren nicht an den konkreten historischen Kursen klebt, sondern mehr oder weniger generalisiert.

Wenn du bei  https://github.com/matlab-deep-learning/reinforcement_learning_financial_trading
in den Abschnitt "Reward" schaust - da steht haarklein aufgelistet, was sie mit dem Reward alles bezwecken wollen.

Den Reward lediglich als Triggerlinie für die passenden oder unpassenden Maarktsituationen zu bezeichnen, ist schon eine deutliche Untertreibung. 😉

Ist das nicht einleuchtend, dass ein mehrdimensionaler Reward wesentlich mehr Information an den Agenten transportieren kann als ein eindimensionaler Wert?

Stell dir vor, dein Fahrlehrer früher hätte in deinen Fahrstunden zu dir nur sowas wie ganz schlecht/schlecht/mäßig/naja/mittel/ wird schon/brauchbar/fast gut/gut/recht gut/sehr gut/prima/ausgezeichnet gesagt.

Mir wäre als Fahrschüler detaillierteres Feedback für einzelne Aspekte ("du hast zuwenig geschaut", "dein Umgang mit der Kupplung ..", ...) lieber. 🙂


Ich habe zum Thema "mehrdimensionaler Reward" mal gegoogled, habe aber nichts wesentliches finden können.

"Beifang" waren jedoch mehrere Artikel, die sich darüber ausgelassen haben, dass eine gute Rewardfunktion das wichtigste am RL sei, und dass das eine echte Kunst wäre, eine gute hinzubekommen. Auch der oben erwähnte Matlab-Artikel schreibt, dass sie an der Rewardfunktion länger herumgetüftelt und -probiert haben.

Und weil das so schwierig ist, hat sich Interessanterweise deshalb "inverses RL" entwickelt. Man beobachtet einen menschlichen Experten bei allerlei Situationen und leitet aus dessen sinnvollen und erfolgreichen Aktionen durch irgendwelche Transformationsmaßnahmen eine Rewardfunktion her.

Mag alles sein. Wie Du weisst, mache ich meine eigenen Algorithmen zu dem Thema. Deswegen sehe ich die Dinge so, dass sie funktionieren. Ich will Geld verdienen, keine Wissenschaft betreiben. Deine Kommentare zeigen, dass Du die Grundprinzipen vom Trading im Network Design nicht berücksichtigst, das kann nichts werden. 

Wenn das so einfach wäre, würde ja alle auf einmal reich sein 🙂

 

P.S. Mein Fahrlehrer ist mit mir in der ersten Stunde in die Hauptverkehrszone gefahren und hat gesagt, mach mal.

Link zum Beitrag
Auf anderen Seiten teilen

Oha, jetzt bügelst du mich aber ab. 🙄

23 minutes ago, Männergruppe Monk said:

Mag alles sein. Wie Du weisst, mache ich meine eigenen Algorithmen zu dem Thema. Deswegen sehe ich die Dinge so, dass sie funktionieren. Ich will Geld verdienen, keine Wissenschaft betreiben. Deine Kommentare zeigen, dass Du die Grundprinzipen vom Trading im Network Design nicht berücksichtigst, das kann nichts werden.

Das kann durchaus sein, dass ich (zu) viel Wert und Zeit aufs warum und wie lege und verwende. Bin halt neugierig und wissensdurstig. 🤔
Aber okay, vielleicht sollte ich mich auch mehr aufs Geld Verdienen konzentrieren und weniger aufs Verstehen.

Was verstehst du unter "Grundprinzipen vom Trading im Network Design"?

 

 

 

Link zum Beitrag
Auf anderen Seiten teilen
vor einer Stunde schrieb Männergruppe Monk:

P.S. Mein Fahrlehrer ist mit mir in der ersten Stunde in die Hauptverkehrszone gefahren und hat gesagt, mach mal.

Meiner ist ausgestiegen und hat sich die drifts in der Hauptverkehrszone von einer schöneren Perspektive angesehen.

*Schw...vergleich off*

bearbeitet von o0dy
Link zum Beitrag
Auf anderen Seiten teilen
vor 27 Minuten schrieb PeWi:

Oha, jetzt bügelst du mich aber ab. 🙄

Das kann durchaus sein, dass ich (zu) viel Wert und Zeit aufs warum und wie lege und verwende. Bin halt neugierig und wissensdurstig. 🤔
Aber okay, vielleicht sollte ich mich auch mehr aufs Geld Verdienen konzentrieren und weniger aufs Verstehen.

Was verstehst du unter "Grundprinzipen vom Trading im Network Design"?

 

 

 

Du musst folgendes bedenken. Warum machst Du das ? Wenn Du lernen willst OK, dann kannst Du 10 Jahre dran sitzen.

Wenn Du Geld verdienen willst, musst Du Dich fokussieren und fertig werden. Sonst wird das nichts.

Grundprinzipen ist, dass Du im Trading ein sehr eingeschränktes Problem hast und man versuchst, in irgendeiner Form die Treffer zu verbessern. Dazu gibt es mehrere Möglichkeiten. Aber ein Problem bleibt, dass jeder Algorithmus mal funktioniert und mal nicht. Wenn Du diese Phasen erkennen kannst, wirst Du sehr viel Geld verdienen.

Und dann sind wir wieder bei Tharp und dem Computer Risiko beizubringen.

Wenn Du mal genau bei diesen ganzen AI Leuten hinhörst. Keiner kann Dir eine Lösung bieten und die Antwort ist immer, rechnen lassen. Deswegen ist Matlab ideal, ich kann die Parameter alle durchsimulieren lassen. Bedeutet, ich mal mein DL oder RL auf, lass den Code machen und sehe 100 Stunden später das Ergebnis.

Ich gehe von hinten an des  Thema. Ich setze meine Trades und lass den Computer die Regeln finden -> 80+%, ich bereite gerade alle Binance Daten vor. Wird wohl 1 Monat dauern, bis der Computer durch ist ... 

Link zum Beitrag
Auf anderen Seiten teilen
On 4/8/2021 at 5:28 PM, PeWi said:

Ich habe in den letzten Tagen einiges über genetische Algorithmen gelesen, was auch recht gut klingt. (Ich bin inzwischen schwer am Überlegen, ob ich nicht NDSGA II über meinen bisherigen Backtest stülpen soll: https://www.youtube.com/watch?v=SL-u_7hIqjA)

Wer sich - trotz Monks Kritik -  auch mal für genetische Algorithmen im Umfeld Trading interessiert, dem sei folgende Artikelserie empfohlen:

https://fabian-kostadinov.github.io/2014/09/01/evolving-trading-strategies-with-genetic-programming-an-overview/

Das ist eine sechsteilige Artikelserie, mit der man gut in das Thema hineinschnuppern kann.

Link zum Beitrag
Auf anderen Seiten teilen

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.
Note: Your post will require moderator approval before it will be visible.

Gast
Auf dieses Thema antworten...

×   Du hast formatierten Text eingefügt.   Formatierung jetzt entfernen

  Only 75 emoji are allowed.

×   Dein Link wurde automatisch eingebettet.   Einbetten rückgängig machen und als Link darstellen

×   Dein vorheriger Inhalt wurde wiederhergestellt.   Clear editor

×   Du kannst Bilder nicht direkt einfügen. Lade Bilder hoch oder lade sie von einer URL.

×
×
  • Neu erstellen...

Wichtige Information

Wir speichern Cookies auf Ihrem Gerät, um diese Seite besser zu machen. Sie können Ihre Cookie-Einstellungen anpassen, ansonsten gehen wir davon aus, dass Sie damit einverstanden sind. In unseren Datenschutzerklärungen finden sie weitere Informationen.