Read

[주식논문] 고빈도 자료를 이용한 머신러닝 모형의 예측력 비교 분석

quantoasis 2023. 1. 1. 16:26
반응형


이번에 리뷰할 논문은 고빈도 자료를 이용한 머신러닝 모형의 예측력 비교분석 이라는 논문입니다.

본 논문의 저자는 Lopez pe Prado의 Advanced Financial Machine Learning의 내용을 국내데이터에 적용하여 머신러닝 모형에 학습을 시킨 후 예측력을 평가했습니다.

특히, 주문흐름(order flow)를 통해 새로운 정보가 들어왔음을 확인하고, 이를 이용해 VIB(volume imbalanced bar)를 만들어 학습했네요.

VIB가 미시구조상에서 갖게되는 의미는 아래와 같습니다.

  1. 주문 흐름은 매수주도 주문 거래량에서 매도주도 주문 거래량을 뺀 것이다.
  2. 매수주도 거래는 시장가 주문을 통한 매수 주문, 매도주도 거래는 시장가 주문을 통한 매도 주문이다.
  3. 정보를 가지지 않은 거래자들이 매수나 매도 주문을 진행할 확률이 동일하며 이들의 주문 흐름은 평균적으로 0이 된다.
  4. 정보거래자들은 자신이 가진 정보가 호재이냐 악재이냐에 따라 매수 혹은 매도 거래만 진행하게 된다. 즉 시장에 새로운 정보가 발생하면 정보거래자들의 거래로 인해 주문 흐름이 균형에서 벗어나게 된다.


다음은 수식이 나와서 조금 보기 어려운데요, 예를 들어보겠습니다.

첫번째 tick 가격이 100이라고 칩시다. 다음 거래에서 틱 가격이 101로 올랐다면 이때 tick rule value는 1 입니다. 그 다음 가격이 101이 들어오면 tick rule value는 여전히 1입니다. 또, 그 다음 100이 들어왔다면 이때는 가격이 낮아졌기 때문에 tick rule value는 -1이 됩니다. 이 거래 흐름들을 누적한 것이 tick imbalanced 입니다. 여기에 거래량도 포함시킨것을 나타낸 것이 아래 수식입니다.

b는 매수주도(1), 매도주도(-1), V는 체결거래량


VIB는 거래량에 의한 주문 흐름 불균형이 기대수준을 벗어나는경우에만 바를 구성하는데요, 그 임계치는 기대값 E0[T]와 2V -E0[Vt]의 곱으로 나타냅니다. 이 값들은 이전에 구성된 Imbalance 값의 지수 이동 평균으로 추정합니다. 아래는 바 구성방법을 수식화 한 것입니다.

글로 이해하기 너무 어려운데, 아래 유투브를 참고하시면 조금 더 이해가 되실 수 있습니다.



VIB는 정보거래자들이 거래를 많이할수록(거래량 불균형이 많이 일어날 수록) bar가 많이 구성 됩니다. 이 데이터를 이용하면 정보거래자들의 흐름을 보면서 거래를 할 수 있겠죠.

아래 그림은 저자가 KOSPI200 지수선물 2018년 11월21일~ 2019 7월 2일까지의 실시간 체결데이터로 각 bar를 구성한 것입니다.

다른 bar들은 시간에 흐름에 따라 개수 변동성이 매우 적 은것에 비해 VIB는 주마다 개수 변동성이 매우 큰 것을 알 수 있습니다. VIB가 많이 구성된 날은 정보거래자가 거래에 나선 날이고, 적게 구성된 날은 정보거래자가 적게 거래했던 날로 해석할 수 있습니다.



본 논문에서는 시간바,볼륨바,달러바, 그리고 VIB를 각각 서포트벡터머신(Support Vector Machine), 랜덤포레스트(Random forest), 로지스틱회귀분석(Logistic regression)에 학습시켜 예측을 시도했습니다. 예측의 종속변수는 아래 테이블과 같이 구성되었습니다. 인접한 두개의 바 사이의 수익률이 임계치를 넘으면 1, 아니면 0으로 라벨링하여 학습시켰네요. 그리고 독립변수로는 각 바의 수익률과 거래량 및 주문 흐름이 쓰였다고 언급되어 있습니다.


결론입니다. VIB는 다른 바들의 예측력이 50%에 가까운 것과 달리 최소 65%이상의 예측률을 보여주었습니다.

속변수를 고가가 아니라 종가로 바꾸어 실험했을때도 60%이상의 예측률을 보였다고 언급하고 있습니다.

모델별로는 하이퍼파라미터를 최적화한 후에도 로지스틱회귀분석이나 머신러닝모델간의 차이가 크지 않았는데요,

대신 트레이딩하는 데이터의 크기(window)를 늘려갈수록 랜덤포레스트와 SVM의 예측력의 향상이 뚜렷했습니다. 따라서 많은 데이터를 확보한다면 머신러닝 모델의 예측력이 우월할 것이라고 결론내렸습니다.


시장미시구조의 함의를 포함한 VIB가 머신러닝에서 유의미한 예측력을 보인다는 것을 보인 논문이기 때문에 금융데이터를 이용한 머신러닝이나 High frequency trading을 연구하신다면 꼭 읽어보시길 권합니다.

감사합니다.



박석진 and 정재식. (2019). 고빈도 자료를 이용한 머신러닝모형의 예측력 비교 ․ 분석: KOSPI200 선물시장을 중심으로. 금융연구, 33(4), 31-60.

 

고빈도 자료를 이용한 머신러닝모형의 예측력 비교 ․ 분석: KOSPI200 선물시장을 중심으로

본 연구에서는 KOSPI200 선물의 틱(tick) 데이터를 활용하여 머신러닝 모형의 예측력을 분석한다. 첫째, 미시구조론(microstructure)의 함의를 이용해 바(bar)를 구성했을 경우와 둘째, support vector machine, r

www.kci.go.kr

 

반응형