OpenML

JavaScript is required to properly view the contents of this page!

first-order-theorem-proving_seed_0_nrows_2000_nclasses_10_ncols_100_stratify_True

active ARFF Publicly available Visibility: public Uploaded 17-11-2022 by Eddie Bergman
0 likes downloaded by 0 people , 0 total downloads 0 issues 0 downvotes

Issue	#Downvotes for this reason	By

Loading wiki

Help us complete this description Edit

Subsampling of the dataset first-order-theorem-proving (1475) with seed=0 args.nrows=2000 args.ncols=100 args.nclasses=10 args.no_stratify=True Generated with the following source code: ```python def subsample( self, seed: int, nrows_max: int = 2_000, ncols_max: int = 100, nclasses_max: int = 10, stratified: bool = True, ) -> Dataset: rng = np.random.default_rng(seed) x = self.x y = self.y # Uniformly sample classes = y.unique() if len(classes) > nclasses_max: vcs = y.value_counts() selected_classes = rng.choice( classes, size=nclasses_max, replace=False, p=vcs / sum(vcs), ) # Select the indices where one of these classes is present idxs = y.index[y.isin(classes)] x = x.iloc[idxs] y = y.iloc[idxs] # Uniformly sample columns if required if len(x.columns) > ncols_max: columns_idxs = rng.choice( list(range(len(x.columns))), size=ncols_max, replace=False ) sorted_column_idxs = sorted(columns_idxs) selected_columns = list(x.columns[sorted_column_idxs]) x = x[selected_columns] else: sorted_column_idxs = list(range(len(x.columns))) if len(x) > nrows_max: # Stratify accordingly target_name = y.name data = pd.concat((x, y), axis="columns") _, subset = train_test_split( data, test_size=nrows_max, stratify=data[target_name], shuffle=True, random_state=seed, ) x = subset.drop(target_name, axis="columns") y = subset[target_name] # We need to convert categorical columns to string for openml categorical_mask = [self.categorical_mask[i] for i in sorted_column_idxs] columns = list(x.columns) return Dataset( # Technically this is not the same but it's where it was derived from dataset=self.dataset, x=x, y=y, categorical_mask=categorical_mask, columns=columns, ) ```

52 features

Class (target)	nominal	6 unique values 0 missing
V1	numeric	686 unique values 0 missing
V2	numeric	627 unique values 0 missing
V3	numeric	628 unique values 0 missing
V4	numeric	664 unique values 0 missing
V5	numeric	742 unique values 0 missing
V6	numeric	549 unique values 0 missing
V7	numeric	678 unique values 0 missing
V8	numeric	40 unique values 0 missing
V9	numeric	875 unique values 0 missing
V10	numeric	22 unique values 0 missing
V11	numeric	1139 unique values 0 missing
V12	numeric	152 unique values 0 missing
V13	numeric	1368 unique values 0 missing
V14	numeric	80 unique values 0 missing
V15	numeric	1787 unique values 0 missing
V16	numeric	1362 unique values 0 missing
V17	numeric	1002 unique values 0 missing
V18	numeric	94 unique values 0 missing
V19	numeric	1338 unique values 0 missing
V20	numeric	82 unique values 0 missing
V21	numeric	1468 unique values 0 missing
V22	numeric	79 unique values 0 missing
V23	numeric	1610 unique values 0 missing
V24	numeric	97 unique values 0 missing
V25	numeric	1681 unique values 0 missing
V26	numeric	432 unique values 0 missing
V27	numeric	1699 unique values 0 missing
V28	numeric	540 unique values 0 missing
V29	numeric	1783 unique values 0 missing
V30	numeric	62 unique values 0 missing
V31	numeric	75 unique values 0 missing
V32	numeric	80 unique values 0 missing
V33	numeric	18 unique values 0 missing
V34	numeric	25 unique values 0 missing
V35	numeric	45 unique values 0 missing
V36	numeric	50 unique values 0 missing
V37	numeric	665 unique values 0 missing
V38	numeric	959 unique values 0 missing
V39	numeric	598 unique values 0 missing
V40	numeric	52 unique values 0 missing
V41	numeric	651 unique values 0 missing
V42	numeric	27 unique values 0 missing
V43	numeric	24 unique values 0 missing
V44	numeric	775 unique values 0 missing
V45	numeric	992 unique values 0 missing
V46	numeric	876 unique values 0 missing
V47	numeric	762 unique values 0 missing
V48	numeric	792 unique values 0 missing
V49	numeric	1035 unique values 0 missing
V50	numeric	729 unique values 0 missing
V51	numeric	1099 unique values 0 missing