금융머신러닝 2

[Randomforest] 10분 수익률을 이용한 주가 예측-1

이번 포스팅에서는 간단하게 10분 단위 수익률로 갭상승/하락을 하는 랜덤포레스트 모델을 생성해 보겠습니다. 랜덤포레스트는 분류나 회귀에 쓰이는 앙상블(esemble) 모델로 다수의 의사결정나무(decision tree)를 이용한 예측모델입니다. 금융에서 주가를 예측하는 것은 수익과 직결되므로 학계나 실무 막론하고 많이 연구가 되어왔는데요, 최근에는 머신러닝, 딥러닝이 대두되면서 더욱 연구가 활발히 진행되는 것 같습니다. 이번 실험에 쓰인 데이터는 아래와 같습니다. import pandas as pd stock_df= pd.read_csv('10mindata.csv') stock_df=stock_df.dropna() stock_df.info() 첨부된 데이터를 pandas를 통해 업로드하면 아래와 같은 데..

Sysmetic trading 2023.01.10

[AFML] 데이터의 구조(달러바 vs 볼륨바)

이번 포스팅에서는 시간바, 볼륨바, 달러바의 통계적 특성을 알아보도록 하겠습니다. AFML에서 2장에서 중요하게 다루는 것은 시계열 데이터를 이벤트 드리븐 형태로 표현하는 것입니다. 시간바(timebar)는 아래와 같은 이유 때문에 머신러닝 학습에 좋지 않은 편향을 보일 수 있기 때문입니다. (1) 거래량이 적을때는 오버샘플링, 거래량이 클 때는 오버샘플링 (2) 계열상관, 이분산성, 수익률의 비정규성을 보임 우선 1분 단위 삼성전자 데이터로 미리 만들어 놓은 달러바(dollarbar) 볼륨바(volumebar)를 import시켰습니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt columns =['date','time'..

Sysmetic trading 2022.12.16