Проблема дисбаланса классов — когда общие данные или данные «класса большинства» превосходят редкие данные или данные «класса меньшинства» — является серьезным препятствием для интеллектуального анализа данных. Это особенно очевидно для наборов данных, которые имеют множество функций, известных как многомерные данные, или имеют несколько образцов — оба из которых являются общими для анализа экспрессии генов и клинических данных.
Фен Янг и его коллеги из Института высокопроизводительных вычислений A * STAR использовали нетрадиционный подход к этой проблеме. Они начали с общего метода классификации паттернов, называемого линейным дискриминантным анализом (LDA). Но для того, чтобы сделать выбор признаков управляемым, набор данных нужно было «упорядочить».«После того, как мы проанализировали различные формы регуляризации, — вспоминает Ян, — мы обнаружили, что одним существенным отличием существующих форм регуляризации является классовый акцент».
Существующие методы регуляризации отдают предпочтение классу большинства: «интуитивно, классу большинства следует уделять больше внимания, поскольку у него больше выборок», — признает Ян, — однако наше исследование доказало, что это неверно для многомерных и малых ситуация с классовым дисбалансом ".В самом деле, их исследование показало, что, когда большее внимание уделялось классу меньшинства, улучшались как точность классификации, так и показатели устойчивости.«С точки зрения распределения выборки в подпространстве, акцент на классе меньшинства будет фактически« сжимать »образцы в классе меньшинства, чтобы сформировать компактное« ядро »в подпространстве выбранных функций, которое было бы легче классифицировать», — объясняет Ян .Подход был протестирован экспериментально на пяти наборах данных микрочипов генов, которые страдали классовым дисбалансом — с количеством образцов от 60 до 136 и количеством признаков от 2 000 до 12 600.
Используя инкрементный подход, Ян и его команда смогли значительно снизить вычислительную нагрузку, связанную с выбором функций, с 4215 секунд до 49 секунд.«Из-за некоторых практических ограничений, таких как очень конкретный случай редкого заболевания в клинических данных, многие практические проблемы будут иметь высокую размерность, небольшой размер выборки и несбалансированность классов», — отмечает Ян. «Есть еще вопросы, которые необходимо решить, чтобы справиться с подобными проблемами».
Аффилированные с A * STAR исследователи, участвующие в этом исследовании, представляют Институт высокопроизводительных вычислений.
