From 189330198ce8cd3fc7d01915afbc0bb6a6f00aef Mon Sep 17 00:00:00 2001
From: Nathan TeBlunthuis <nathanteblunthuis@gmail.com>
Date: Thu, 19 Dec 2024 17:53:27 -0800
Subject: [PATCH] repartition for parallelism.

---
 similarities/tfidf.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/similarities/tfidf.py b/similarities/tfidf.py
index d6a43cb..2cfc077 100755
--- a/similarities/tfidf.py
+++ b/similarities/tfidf.py
@@ -8,7 +8,7 @@ from functools import partial
 def _tfidf_wrapper(func, inpath, outpath, topN, term_colname, exclude, included_subreddits, included_terms=None, min_df=None, max_df=None):
     spark = SparkSession.builder.config(map={'spark.executor.memory':'900g','spark.executor.cores':128}).getOrCreate()
     df = spark.read.parquet(inpath)
-
+    df = df.repartition(1280*15, cols=['subreddit',term_colname])
     df = df.filter(~ f.col(term_colname).isin(exclude))
 
     if included_subreddits is not None: