{
  "clip_duration_seconds": 2.0,
  "do_normalize": false,
  "feature_extractor_type": "HearCanonFeatureExtractor",
  "image_size": [
    192,
    128
  ],
  "input_channels": 1,
  "num_audio_samples": 32000,
  "num_mel_bins": 128,
  "sampling_rate": 16000
}