
Data Exploration and Machine Learning using R
Choroby układu krążenia są obecnie powszechne w każdej grupie wiekowej pacjentów. Przewidywanie chorób na wczesnym etapie może pomóc w dostosowaniu zdrowego stylu życia, aby uniknąć wysokiego ryzyka zagrożenia życia.
Naukowcy nieustannie znajdują powiązania z istniejącymi źródłami danych, dzięki czemu choroby serca można przewidywać na wczesnych etapach. Istnieją sprawdzone techniki eksploracji danych, takie jak drzewa decyzyjne, maszyna wektorów nośnych, regresja logistyczna przydatne w prognozowaniu chorób serca. Niniejsze badania koncentrują się na przewidywaniu chorób serca przy użyciu maszyny wektorów nośnych i techniki regresji liniowej.
Zbiór danych dotyczących chorób serca w Cleveland jest używany jako przykładowy zbiór danych w celu określenia dokładności tych dwóch wybranych technik. Porównanie pokazuje, że regresja logistyczna daje dokładniejsze wyniki niż maszyna wektorów nośnych na zbiorze danych chorób serca.
Analiza badawcza jest przeprowadzana w skrypcie R, w którym analizowany jest zbiór danych Cleveland Heart Disease i dwa modele (SVM, regresja logistyczna) są implementowane za pomocą R. Projekt koncentruje się na zastosowaniu technik Support Vector Machine i Logistic Regression na wyżej wymienionym zbiorze danych.