eljakim
diff --git a/‎backtesting.py
Lines changed: 58 additions & 0 deletions b/‎backtesting.py
Lines changed: 58 additions & 0 deletions
diff --git a/‎current_data.py
Lines changed: 127 additions & 0 deletions b/‎current_data.py
Lines changed: 127 additions & 0 deletions
diff --git a/‎download_historical_prices.py
Lines changed: 58 additions & 0 deletions b/‎download_historical_prices.py
Lines changed: 58 additions & 0 deletions
@@ -0,0 +1,58 @@
+# Preprocessing
+import numpy as np
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.ensemble import RandomForestClassifier
+from sklearn.metrics import precision_score
+from utils import status_calc
+
+
+def backtest():
+    data_df = pd.read_csv("keystats.csv", index_col='Date')
+    data_df.dropna(axis=0, how='any', inplace=True)
+
+    features = data_df.columns[6:]
+    X = data_df[features].values
+
+    y = list(status_calc(data_df["stock_p_change"],
+                         data_df["SP500_p_change"],
+                         outperformance=10))
+
+    z = np.array(data_df[["stock_p_change", "SP500_p_change"]])
+
+    X_train, X_test, y_train, y_test, z_train, z_test = train_test_split(
+        X, y, z, test_size=0.2)
+
+    clf = RandomForestClassifier(n_estimators=100, random_state=0)
+    clf.fit(X_train, y_train)
+
+    y_pred = clf.predict(X_test)
+    print("Classifier performance\n", "=" * 20)
+    print(f"Accuracy score: {clf.score(X_test, y_test): .2f}")
+    print(f"Precision score: {precision_score(y_test, y_pred): .2f}")
+
+    num_positive_predictions = sum(y_pred)
+    if num_positive_predictions < 0:
+        print("No stocks predicted!")
+
+    stock_returns = 1 + z_test[y_pred, 0] / 100
+    market_returns = 1 + z_test[y_pred, 1] / 100
+
+    avg_predicted_stock_growth = sum(stock_returns) / num_positive_predictions
+    index_growth = sum(market_returns) / num_positive_predictions
+    percentage_stock_returns = 100 * (avg_predicted_stock_growth - 1)
+    percentage_market_returns = 100 * (index_growth - 1)
+    total_outperformance = percentage_stock_returns - percentage_market_returns
+
+    print("\n Stock prediction performance report \n", "=" * 40)
+    print(f"Total Trades:", num_positive_predictions)
+    print(
+        f"Average return for stock predictions: {percentage_stock_returns: .1f} %")
+    print(
+        f"Average market return in the same period: {percentage_market_returns: .1f}% ")
+    print(
+        f"Compared to the index, our strategy earns {total_outperformance: .1f} percentage points more")
+
+
+if __name__ == "__main__":
+    backtest()
@@ -0,0 +1,127 @@
+import pandas as pd
+import os
+import re
+import time
+import requests
+import numpy as np
+from tqdm import tqdm
+from utils import data_string_to_float
+
+statspath = "intraQuarter/_KeyStats/"
+
+features = [  # Valuation measures
+    'Market Cap',
+    'Enterprise Value',
+    'Trailing P/E',
+    'Forward P/E',
+    'PEG Ratio',
+    'Price/Sales',
+    'Price/Book',
+    'Enterprise Value/Revenue',
+    'Enterprise Value/EBITDA',
+    # Financials
+    'Profit Margin',
+    'Operating Margin',
+    'Return on Assets',
+    'Return on Equity',
+    'Revenue',
+    'Revenue Per Share',
+    'Quarterly Revenue Growth',
+    'Gross Profit',
+    'EBITDA',
+    'Net Income Avi to Common',
+    'Diluted EPS',
+    'Quarterly Earnings Growth',
+    'Total Cash',
+    'Total Cash Per Share',
+    'Total Debt',
+    'Total Debt/Equity',
+    'Current Ratio',
+    'Book Value Per Share',
+    'Operating Cash Flow',
+    'Levered Free Cash Flow',
+    # Trading information
+    'Beta',
+    '50-Day Moving Average',
+    '200-Day Moving Average',
+    'Avg Vol (3 month)',
+    'Shares Outstanding',
+    'Float',
+    '% Held by Insiders',
+    '% Held by Institutions',
+    'Shares Short',
+    'Short Ratio',
+    'Short % of Float',
+    'Shares Short (prior month']
+
+
+def check_yahoo():
+    if not os.path.exists('forward/'):
+        os.makedirs('forward/')
+
+    ticker_list = os.listdir(statspath)
+
+    # fix .ds_store issue on mac
+    if '.DS_Store' in ticker_list:
+        ticker_list.remove('.DS_Store')
+
+    for ticker in tqdm(ticker_list, desc="Download progress:", unit="tickers"):
+        try:
+            link = f"http://finance.yahoo.com/quote/{ticker.upper()}/key-statistics"
+            resp = requests.get(link)
+
+            save = f"forward/{ticker}.html"
+            with open(save, 'w') as file:
+                file.write(resp.text)
+
+        except Exception as e:
+            print(f"{ticker}: {str(e)}\n")
+            time.sleep(2)
+
+
+def forward():
+    df_columns = ['Date',
+                  'Unix',
+                  'Ticker',
+                  'Price',
+                  'stock_p_change',
+                  'SP500',
+                  'SP500_p_change'] + features
+
+    df = pd.DataFrame(columns=df_columns)
+
+    tickerfile_list = os.listdir('forward/')
+
+    # fix .ds_store issue on mac
+    if '.DS_Store' in tickerfile_list:
+        tickerfile_list.remove('.DS_Store')
+
+    for tickerfile in tqdm(tickerfile_list, desc="Parsing progress:", unit="tickers"):
+        ticker = tickerfile.split('.html')[0].upper()
+        source = open(f"forward/{tickerfile}").read()
+        source = source.replace(',', '')
+
+        value_list = []
+        for variable in features:
+            try:
+                regex = r'>' + re.escape(variable) + r'.*?(\-?\d+\.*\d*K?M?B?|N/A[\\n|\s]*|>0|NaN)%?' \
+                                                     r'(</td>|</span>)'
+                value = re.search(regex, source, flags=re.DOTALL).group(1)
+
+                value_list.append(data_string_to_float(value))
+
+            except AttributeError:
+                value_list.append('N/A')
+
+        new_df_row = [0, 0, ticker,
+                      0, 0, 0, 0] + value_list
+
+        df = df.append(dict(zip(df_columns, new_df_row)), ignore_index=True)
+
+    return df.replace('N/A', np.nan)
+
+
+if __name__ == '__main__':
+    check_yahoo()
+    current_df = forward()
+    current_df.to_csv('forward_sample.csv', index=False)
@@ -0,0 +1,58 @@
+import os
+from pandas_datareader import data as pdr
+import pandas as pd
+import fix_yahoo_finance as yf
+yf.pdr_override()
+
+
+START_DATE = "2003-08-01"
+END_DATE = "2015-01-01"
+
+
+def build_stock_dataset(start=START_DATE, end=END_DATE):
+    statspath = "intraQuarter/_KeyStats/"
+    ticker_list = os.listdir(statspath)
+
+    # fix .ds_store issue on mac
+    if '.DS_Store' in ticker_list:
+        os.remove(f"{statspath}/.DS_Store")
+        ticker_list.remove('.DS_Store')
+
+    all_data = pdr.get_data_yahoo(ticker_list, start, end)
+    stock_data = all_data['Adj Close']
+
+    stock_data.dropna(how='all', axis=1, inplace=True)
+    missing_tickers = [
+        ticker for ticker in ticker_list if ticker.upper() not in stock_data.columns]
+    print(f"{len(missing_tickers)} tickers are missing: \n {missing_tickers} ")
+    stock_data.ffill(inplace=True)
+    stock_data.to_csv('stock_prices.csv')
+
+
+def build_sp500_dataset(start=START_DATE, end=END_DATE):
+    index_data = pdr.get_data_yahoo('SPY', start=START_DATE, end=END_DATE)
+    index_data.to_csv("sp500_index.csv")
+
+
+def build_dataset_iteratively(idx_start, idx_end, date_start=START_DATE, date_end=END_DATE):
+    statspath = "intraQuarter/_KeyStats/"
+    ticker_list = os.listdir(statspath)
+
+    df = pd.DataFrame()
+    # possible methods. Also works better for batches.
+    for ticker in ticker_list:
+        ticker = ticker.upper()
+
+        stock_ohlc = pdr.get_data_yahoo(
+            ticker, start=date_start, end=date_end)
+        if stock_ohlc.empty:
+            print(f"No data for {ticker}")
+            continue
+        adj_close = stock_ohlc['Adj Close'].rename(ticker)
+        df = pd.concat([df, adj_close], axis=1)
+    df.to_csv('stock_prices.csv')
+
+
+if __name__ == "__main__":
+    build_stock_dataset()
+    build_sp500_dataset()