cdsc_reddit/tfidf_comments.py

from pyspark.sql import functions as f
from pyspark.sql import SparkSession
from pyspark.sql import Window
from similarities_helper import build_tfidf_dataset

## TODO:need to exclude automoderator / bot posts.
## TODO:need to exclude better handle hyperlinks. 

spark = SparkSession.builder.getOrCreate()
df = spark.read.parquet("/gscratch/comdata/users/nathante/reddit_tfidf_test.parquet_temp")

include_subs = set(open("/gscratch/comdata/users/nathante/cdsc-reddit/top_25000_subs_by_comments.txt"))
include_subs = {s.strip('\n') for s in include_subs}

df = build_tfidf_dataset(df, include_subs, 'term')

df.write.parquet('/gscratch/comdata/users/nathante/subreddit_tfidf.parquet',mode='overwrite',compression='snappy')
spark.stop()
Compute IDF for terms and authors. 2020-08-23 18:57:55 +00:00			`from pyspark.sql import functions as f`
			`from pyspark.sql import SparkSession`
Improvements to idf code 2020-11-10 21:12:11 +00:00			`from pyspark.sql import Window`
Refactor tfidf code to for code resuse. 2020-11-10 21:18:19 +00:00			`from similarities_helper import build_tfidf_dataset`
Improvements to idf code 2020-11-10 21:12:11 +00:00
			`## TODO:need to exclude automoderator / bot posts.`
			`## TODO:need to exclude better handle hyperlinks.`
Compute IDF for terms and authors. 2020-08-23 18:57:55 +00:00
			`spark = SparkSession.builder.getOrCreate()`
			`df = spark.read.parquet("/gscratch/comdata/users/nathante/reddit_tfidf_test.parquet_temp")`

Improvements to idf code 2020-11-10 21:12:11 +00:00			`include_subs = set(open("/gscratch/comdata/users/nathante/cdsc-reddit/top_25000_subs_by_comments.txt"))`
			`include_subs = {s.strip('\n') for s in include_subs}`
Compute IDF for terms and authors. 2020-08-23 18:57:55 +00:00
Refactor tfidf code to for code resuse. 2020-11-10 21:18:19 +00:00			`df = build_tfidf_dataset(df, include_subs, 'term')`
Compute IDF for terms and authors. 2020-08-23 18:57:55 +00:00
Improvements to idf code 2020-11-10 21:12:11 +00:00			`df.write.parquet('/gscratch/comdata/users/nathante/subreddit_tfidf.parquet',mode='overwrite',compression='snappy')`
git-annex in nathante@mox2.hyak.local:/gscratch/comdata/users/nathante/cdsc-reddit 2020-11-12 00:39:44 +00:00			`spark.stop()`