conversation_by_x95

bot_external

Nie ma odpowiedzi w kontekście, która bezpośrednio dotyczy poprawy modelu uczenia maszynowego w przypadku nierównej liczebności klas.

student_994_x95

Wyjaśnij - w kilku zdaniach - czym jest Uczenie Maszynowe. Użyj języka zrozumiałego dla laika.

bot_external

Oto streszczenie odpowiedzi na pytanie kursanta:

Uczenie Maszynowe to proces, w którym komputer uczy się na podstawie danych, aby samodzielnie podejmować decyzje lub wykonywać zadania. Aby uczenie maszynowe było możliwe, potrzebne są dane, które są odpowiednio przygotowywane i wybierane. Dane te są używane do trenowania modelu, który może być następnie wykorzystywany do rozwiązywania różnych zadań, takich jak rozpoznawanie mowy, tłumaczenie maszynowe czy generowanie języka naturalnego. Uczenie maszynowe można podzielić na trzy główne podkategorie: uczenie nadzorowane, nienadzorowane i przez wzmacnianie. W niniejszym kursie skupimy się na uczeniu nadzorowanym.

student_994_x95

Czym jest zjawisko overfitting (nadmierne dopasowanie) w tworzeniu modeli uczenia maszynowego?

bot_external

Oto odpowiedź na pytanie kursanta:

Przeuczenie (overfitting) to zjawisko, w którym model statystyczny wydaje się dobrze generalizować do niewidzianych danych, nawet gdy został idealnie dopasowany do zaszumionych danych treningowych (tj. uzyskuje idealną dokładność predykcyjną na zbiorze treningowym). (Cytat z: https://en.wikipedia.org/wiki/Overfitting)

Przeuczenie to "wytworzenie analizy, która odpowiada zbyt ściśle lub dokładnie konkretnemu zestawowi danych, i w związku z tym może nie dopasowywać się do dodatkowych danych lub przewidywać wiarygodnie przyszłe obserwacje". (Cytat z: https://en.wikipedia.org/wiki/Overfitting)

Przeuczenie jest bezpośrednio związane z błędem aproksymacji wybranej klasy funkcji oraz błędem optymalizacji procedury optymalizacyjnej. Klasa funkcji, która jest zbyt duża, w odpowiednim sensie, w stosunku do rozmiaru zbioru danych, jest prawdopodobnie narażona na przeuczenie. (Cytat z: https://en.wikipedia.org/wiki/Overfitting)

student_994_x95

Czym różnią się dane używane do treningu modeli od danych w zbiorze testowym?

bot_external

Oto odpowiedź na pytanie kursanta:

Dane używane do treningu modeli to zbiór uczący (treningowy), który zawiera przykłady, na których model się uczy, znając z góry prawidłową klasyfikację. Zbiór testowy to zbiór przykładów, których model nie wykorzystał w procesie uczenia się, wykorzystywany do przetestowania modelu.

Zbiór uczący (ang. train set) zawiera przykłady, na których, jak sama nazwa wskazuje, model się uczy, znając z góry prawidłową klasyfikację. Na naszym aktualnym przykładzie, będzie to zbiór zdjęć kanarków podpisanych jako kanarki oraz zbiór zdjęć wróbli podpisanych jako wróble.

Zbiór testowy (ang. test set) to zbiór przykładów, których model nie wykorzystał w procesie uczenia się, wykorzystywany, znów zgodnie z nazwą, do przetestowania modelu.

student_994_x95

Określ i uzasadnij, co - w procesie tworzenia modelu klasyfikacji obrazów - jest ważniejsze: absolutna liczba obrazów w zbiorze treningowym, czy ich różnorodność i zróżnicowanie?

bot_external

Oto odpowiedź na pytanie kursanta:

W procesie tworzenia modelu klasyfikacji obrazów ważniejsze jest ich różnorodność i zróżnicowanie, niż absolutna liczba obrazów w zbiorze treningowym.

Dlaczego? Zobaczmy, co pisze w tym zakresie:

"Dlaczego tak się dzieje? Zauważmy, że w danych uczących umieściliśmy tylko pięć nietypowych podobizn kota - bardzo mało w porównaniu do 200 typowych kotów i 200 typowych psów. Widzimy tutaj więc kolejny błąd, jaki można popełnić przy doborze danych - przypadków jednego typu może być po prostu na tyle mało w porównaniu z przypadkami innych typów, że model w pewien sposób po prostu je zignoruje."

To pokazuje, że zbyt mała różnorodność i zróżnicowanie danych treningowych może spowodować, że model zignoruje pewne przypadki, co nie jest pożądane.

Z drugiej strony, jeśli będziemy mieli zbyt małą liczbę danych, to model może nie być w stanie nauczyć się wystarczająco dobrze, co również nie jest pożądane.

Dlatego ważniejsze jest, aby miał on dostęp do różnorodnych i zróżnicowanych danych, niż aby miał ich zbyt dużą liczbę.

student_994_x95

W jaki sposób analiza macierzy pomyłek dostarcza bardziej szczegółowych informacji o działaniu modelu niż pojedyncza metryka, np. Dokładność lub Precyzja?

bot_external

Oto odpowiedź na pytanie kursanta:

Metryki są to miary jakości modelu Uczenia Maszynowego, które umożliwiają porównywanie modeli między sobą. Cztery omawiane przez nas metryki obliczane są na podstawie macierzy (tablicy) pomyłek.

Eduexe Forum

conversation_by_x95