{ "data_id": "40971", "name": "collins", "exact_name": "collins", "version": 4, "version_label": null, "description": "**Author**: Jeff Collins \r\n**Source**: [StatLib](http:\/\/lib.stat.cmu.edu\/datasets\/collins.txt) \r\n**Please cite**: None \r\n\r\nData used in an analysis of the Brown and Frown corpora for my doctoral dissertation titled ``Variations in Written English: Characterizing Authors' Rhetorical Language Choices Across Corpora of Published Texts\" (Completed at Carnegie Mellon Univ, 2003). The source of the corpora was the ICAME CD-ROM (get info at ).\r\n\r\nThe data were generated from the texts using tagging and visualization software, Docuscope.\r\n\r\nThe first row is the variable names. The genre of each text (assigned by the Brown corpus compilers) is in 'Genre' column and the corpus is listed in the 'corpus' column with 1=Brown and 2=Frown corpus.\r\n\r\nThe dataset may be freely used and distributed for non-commercial purposes.\r\n\r\nNote: The Genre and Corpus values together make up the target, and the Countr just counts documents within each counter, so they should probably be ignored.", "format": "ARFF", "uploader": "Joaquin Vanschoren", "uploader_id": 2, "visibility": "public", "creator": null, "contributor": null, "date": "2017-11-10 02:23:06", "update_comment": null, "last_update": "2017-11-10 02:23:06", "licence": "Public", "status": "active", "error_message": null, "url": "https:\/\/www.openml.org\/data\/download\/17953251\/php5OMDBD", "default_target_attribute": "Corp.Genre", "row_id_attribute": "Text", "ignore_attribute": "Genre,Corpus,Counter", "runs": 2048, "suggest": { "input": [ "collins", "Data used in an analysis of the Brown and Frown corpora for my doctoral dissertation titled ``Variations in Written English: Characterizing Authors' Rhetorical Language Choices Across Corpora of Published Texts\" (Completed at Carnegie Mellon Univ, 2003). The source of the corpora was the ICAME CD-ROM (get info at ). The data were generated from the texts using tagging and visualization software, Docuscope. The first row is the variable names. The genre of each text (assigned by the Brown c " ], "weight": 5 }, "qualities": { "NumberOfInstances": 1000, "NumberOfFeatures": 24, "NumberOfClasses": 30, "NumberOfMissingValues": 0, "NumberOfInstancesWithMissingValues": 0, "NumberOfNumericFeatures": 20, "NumberOfSymbolicFeatures": 4, "EquivalentNumberOfAtts": null, "MeanSkewnessOfNumericAtts": 1.1983242883054441, "Quartile2MeansOfNumericAtts": 1.27791, "MajorityClassPercentage": 8, "MeanStdDevOfNumericAtts": 1.0603008551929445, "Quartile2MutualInformation": null, "MajorityClassSize": 80, "MinAttributeEntropy": null, "Quartile2SkewnessOfNumericAtts": 1.0027230779068934, "MaxAttributeEntropy": null, "MinKurtosisOfNumericAtts": -0.3997334683204494, "PercentageOfBinaryFeatures": 4.166666666666666, "Quartile2StdDevOfNumericAtts": 0.731642306297527, "MaxKurtosisOfNumericAtts": 27.661413671043174, "MinMeansOfNumericAtts": 0.27053, "PercentageOfInstancesWithMissingValues": 0, "Quartile3AttributeEntropy": null, "MaxMeansOfNumericAtts": 31.38592, "MinMutualInformation": null, "PercentageOfMissingValues": 0, "Quartile3KurtosisOfNumericAtts": 3.2703253119470834, "MaxMutualInformation": null, "MinNominalAttDistinctValues": 30, "PercentageOfNumericFeatures": 83.33333333333334, "Quartile3MeansOfNumericAtts": 2.62907, "MaxNominalAttDistinctValues": 30, "MinSkewnessOfNumericAtts": -0.07935572244533211, "PercentageOfSymbolicFeatures": 16.666666666666664, "Quartile3MutualInformation": null, "MaxSkewnessOfNumericAtts": 3.9877663263699024, "MinStdDevOfNumericAtts": 0.2506448522151252, "Quartile1AttributeEntropy": null, "Quartile3SkewnessOfNumericAtts": 1.5167816369042737, "MaxStdDevOfNumericAtts": 5.408310436298513, "MinorityClassPercentage": 0.6, "Quartile1KurtosisOfNumericAtts": 0.35993332976422154, "Quartile3StdDevOfNumericAtts": 1.018872170048284, "MeanAttributeEntropy": null, "MinorityClassSize": 6, "Quartile1MeansOfNumericAtts": 0.67997, "StdvNominalAttDistinctValues": 0, "MeanKurtosisOfNumericAtts": 3.8294713133413563, "NumberOfBinaryFeatures": 1, "Quartile1MutualInformation": null, "MeanMeansOfNumericAtts": 3.303781052631579, "Quartile1SkewnessOfNumericAtts": 0.5306971575945301, "AutoCorrelation": 0.970970970970971, "MeanMutualInformation": null, "Quartile1StdDevOfNumericAtts": 0.4029707992709463, "ClassEntropy": 4.6485620760127775, "MeanNoiseToSignalRatio": null, "Quartile2AttributeEntropy": null, "Dimensionality": 0.024, "MeanNominalAttDistinctValues": 30, "Quartile2KurtosisOfNumericAtts": 0.9039011572280908 }, "tags": [ { "uploader": "38960", "tag": "Meteorology" }, { "uploader": "5824", "tag": "study_135" } ], "features": [ { "name": "Corp.Genre", "index": "23", "type": "nominal", "distinct": "30", "missing": "0", "target": "1", "distr": [ [ "101", "102", "103", "104", "105", "106", "107", "108", "109", "110", "111", "112", "113", "114", "115", "201", "202", "203", "204", "205", "206", "207", "208", "209", "210", "211", "212", "213", "214", "215" ], [ [ "44", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "27", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "17", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "17", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "36", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "48", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "75", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "30", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "80", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "24", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "6", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "9", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "44", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "27", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "17", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "17", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "36", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "48", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "75", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "30", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "80", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "24", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "6", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "9" ] ] ] }, { "name": "Text", "index": "0", "type": "nominal", "distinct": "1000", "missing": "0", "identifier": "1", "distr": [] }, { "name": "FirstPerson", "index": "1", "type": "numeric", "distinct": "228", "missing": "0", "min": "0", "max": "8", "mean": "1", "stdev": "1" }, { "name": "InnerThinking", "index": "2", "type": "numeric", "distinct": "326", "missing": "0", "min": "1", "max": "6", "mean": "3", "stdev": "1" }, { "name": "ThinkPositive", "index": "3", "type": "numeric", "distinct": "177", "missing": "0", "min": "0", "max": "3", "mean": "1", "stdev": "0" }, { "name": "ThinkNegative", "index": "4", "type": "numeric", "distinct": "269", "missing": "0", "min": "0", "max": "5", "mean": "1", "stdev": "1" }, { "name": "ThinkAhead", "index": "5", "type": "numeric", "distinct": "205", "missing": "0", "min": "0", "max": "4", "mean": "1", "stdev": "0" }, { "name": "ThinkBack", "index": "6", "type": "numeric", "distinct": "143", "missing": "0", "min": "0", "max": "2", "mean": "1", "stdev": "0" }, { "name": "Reasoning", "index": "7", "type": "numeric", "distinct": "312", "missing": "0", "min": "0", "max": "6", "mean": "3", "stdev": "1" }, { "name": "Share_SocTies", "index": "8", "type": "numeric", "distinct": "339", "missing": "0", "min": "0", "max": "6", "mean": "2", "stdev": "1" }, { "name": "Direct_Activity", "index": "9", "type": "numeric", "distinct": "98", "missing": "0", "min": "0", "max": "3", "mean": "0", "stdev": "0" }, { "name": "Interacting", "index": "10", "type": "numeric", "distinct": "220", "missing": "0", "min": "0", "max": "8", "mean": "1", "stdev": "1" }, { "name": "Notifying", "index": "11", "type": "numeric", "distinct": "273", "missing": "0", "min": "1", "max": "5", "mean": "3", "stdev": "1" }, { "name": "LinearGuidance", "index": "12", "type": "numeric", "distinct": "562", "missing": "0", "min": "0", "max": "14", "mean": "5", "stdev": "2" }, { "name": "WordPicture", "index": "13", "type": "numeric", "distinct": "577", "missing": "0", "min": "1", "max": "16", "mean": "5", "stdev": "2" }, { "name": "SpaceInterval", "index": "14", "type": "numeric", "distinct": "275", "missing": "0", "min": "0", "max": "4", "mean": "1", "stdev": "1" }, { "name": "Motion", "index": "15", "type": "numeric", "distinct": "148", "missing": "0", "min": "0", "max": "2", "mean": "0", "stdev": "0" }, { "name": "PastEvents", "index": "16", "type": "numeric", "distinct": "350", "missing": "0", "min": "0", "max": "6", "mean": "2", "stdev": "1" }, { "name": "TimeInterval", "index": "17", "type": "numeric", "distinct": "216", "missing": "0", "min": "0", "max": "5", "mean": "1", "stdev": "1" }, { "name": "ShiftingEvents", "index": "18", "type": "numeric", "distinct": "151", "missing": "0", "min": "0", "max": "2", "mean": "1", "stdev": "0" }, { "name": "Text_Coverage", "index": "19", "type": "numeric", "distinct": "793", "missing": "0", "min": "13", "max": "45", "mean": "31", "stdev": "5" }, { "name": "Genre", "index": "20", "type": "nominal", "distinct": "15", "missing": "0", "ignore": "1", "distr": [ [ "1", "2", "3", "4", "5", "6", "7", "8", "9", "10", "11", "12", "13", "14", "15" ], [ [ "44", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "44", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "27", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "27", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "17", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "17", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "17", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "17", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "36", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "36", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "48", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "48", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "75", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "75", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "30", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "30", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "80", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "80", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "24", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "24", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "6", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "6", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "29", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "9", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "9" ] ] ] }, { "name": "Counter", "index": "21", "type": "numeric", "distinct": "1000", "missing": "0", "ignore": "1", "min": "1", "max": "1000", "mean": "501", "stdev": "289" }, { "name": "Corpus", "index": "22", "type": "nominal", "distinct": "2", "missing": "0", "ignore": "1", "distr": [ [ "1", "2" ], [ [ "44", "27", "17", "17", "36", "48", "75", "30", "80", "29", "24", "6", "29", "29", "9", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0" ], [ "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "44", "27", "17", "17", "36", "48", "75", "30", "80", "29", "24", "6", "29", "29", "9" ] ] ] } ], "nr_of_issues": 0, "nr_of_downvotes": 0, "nr_of_likes": 0, "nr_of_downloads": 1, "total_downloads": 1, "reach": 1, "reuse": 12, "impact_of_reuse": 0, "reach_of_reuse": 0, "impact": 12 }