use static tfidf (not weekly) to create tfidf matrix

2024-12-28 20:00:53 -08:00 · 2024-12-28 20:00:53 -08:00 · f11d4cfc72
commit f11d4cfc72
parent 7b5ac73b2c
1 changed files with 6 additions and 4 deletions
--- a/similarities/weekly_cosine_similarities.py
+++ b/similarities/weekly_cosine_similarities.py
@ -75,17 +75,19 @@ def cosine_similarities_weekly_lsi(*args, n_components=100, lsi_model=None, **kw
    return cosine_similarities_weekly(*args, simfunc=simfunc, **kwargs)

 #tfidf = spark.read.parquet('/gscratch/comdata/users/nathante/competitive_exclusion_reddit/data/tfidf_weekly/comment_submission_terms_tfidf.parquet')
-def cosine_similarities_weekly(tfidf_path, outfile, term_colname, included_subreddits = None, topN = None, simfunc=column_similarities, min_df=None,max_df=None):
+def cosine_similarities_weekly(tfidf_path, outfile, term_colname, included_subreddits = None, topN = None, simfunc=column_similarities, min_df=None, max_df=None, static_tfidf_path=None):
    print(outfile)
    # do this step in parallel if we have the memory for it.
    # should be doable with pool.map
    conn = duckdb.connect() 
    subreddit_names = conn.execute(f"SELECT DISTINCT subreddit, subreddit_id from read_parquet('{tfidf_path}/*/*.parquet') ORDER BY subreddit_id;").df()

+    if static_tfidf_path is not None: 
+        nterms = conn.execute(f"SELECT MAX({term_colname + '_id'}) as nterms FROM read_parquet('{static_tfidf_path}/*/*.parquet')").df()    
+    else:
        nterms = conn.execute(f"SELECT MAX({term_colname + '_id'}) as nterms FROM read_parquet('{tfidf_path}/*/*.parquet')").df()    
    nterms = nterms.nterms.values
-    print(nterms)
-    print(int(nterms[0]))
+    nterms = int(nterms[0])
    weeks = conn.execute(f"SELECT DISTINCT week FROM read_parquet('{tfidf_path}/*/*.parquet')").df()
    weeks = weeks.week.values
    conn.close()