fix test predictions depending on model output specification

2017-08-03 07:51:58 +02:00
parent 8ac195ba6f
commit 787f43b328
3 changed files with 38 additions and 19 deletions
--- a/scripts/make_csv_dataset.py
+++ b/scripts/make_csv_dataset.py
@@ -1,17 +1,26 @@
 #!/usr/bin/python2

+import sys
+
 import joblib
 import numpy as np
 import pandas as pd

-df = joblib.load("/mnt/projekte/pmlcluster/cisco/trainData/multipleTaskLearning/currentData.joblib")
+fn = sys.argv[1]
+
+df = joblib.load("/mnt/projekte/pmlcluster/cisco/trainData/multipleTaskLearning/{}.joblib".format(fn))
 df = pd.concat(df["data"])
 df.reset_index(inplace=True)
 df.dropna(axis=0, how="any", inplace=True)
-df[["duration", "bytes_down", "bytes_up"]] = df[["duration", "bytes_down", "bytes_up"]].astype(np.int)
-df[["domain", "server_ip"]] = df[["domain", "server_ip"]].astype(str)
+
+df.serverLabel = pd.to_numeric(df.serverLabel, errors='coerce')
+df.duration = pd.to_numeric(df.duration, errors='coerce')
+df.bytes_down = pd.to_numeric(df.bytes_down, errors='coerce')
+df.bytes_up = pd.to_numeric(df.bytes_up, errors='coerce')
+
+df.http_method = df.http_method.astype("category")
 df.serverLabel = df.serverLabel.astype(np.bool)
 df.virusTotalHits = df.virusTotalHits.astype(np.int8)
 df.trustedHits = df.trustedHits.astype(np.int8)

-df.to_csv("/tmp/rk/full_future_dataset.csv.gz", compression="gzip")
+df.to_csv("/tmp/rk/{}.csv".format(fn), encoding="utf-8")