Data Science :Frequently Asked Questions

Frequently Asked Questions

Pytanie 1. Co to jest system polecający?

Odpowiedź: System rekomendacji jest obecnie szeroko stosowany w wielu dziedzinach, takich jak rekomendacje filmów, preferencje muzyczne, tagi społecznościowe, artykuły badawcze, zapytania wyszukiwania i tak dalej. Systemy rekomendujące działają na zasadzie filtrowania opartego na współpracy i treści lub poprzez wdrażanie podejścia opartego na osobowości. Ten typ systemu działa w oparciu o przeszłe zachowanie danej osoby w celu zbudowania modelu na przyszłość. Pozwoli to przewidzieć przyszły zakup produktu, oglądanie filmów lub czytanie książek przez ludzi. Tworzy również podejście filtrujące, wykorzystujące dyskretne cechy elementów, jednocześnie zalecając dodatkowe elementy.

Pytanie 2. Porównanie programowania SAS, R i Python?

Odpowiedź:

SAS: jest to jedno z najczęściej używanych narzędzi analitycznych używanych przez niektóre z największych firm na świecie. Ma jedne z najlepszych funkcji statystycznych, graficzny interfejs użytkownika, ale może mieć swoją cenę i dlatego nie może być łatwo przyjęty przez mniejsze przedsiębiorstwa
R: Najlepsze w R jest to, że jest to narzędzie Open Source i dlatego jest hojnie używane przez środowisko akademickie i społeczność naukową. Jest to solidne narzędzie do obliczeń statystycznych, reprezentacji graficznej i raportowania. Ze względu na swój charakter open source jest zawsze aktualizowany o najnowsze funkcje, a następnie łatwo dostępny dla każdego.
Python: Python to potężny język programowania open source, który jest łatwy do nauczenia, dobrze współpracuje z większością innych narzędzi i technologii. Najlepsze w Pythonie jest to, że ma niezliczone biblioteki i moduły stworzone przez społeczność, co czyni go bardzo niezawodnym. Posiada funkcje do operacji statystycznych, budowania modeli i nie tylko.

Pytanie 3. Wyjaśnij różne zalety języka R?

Odpowiedź: Język programowania R zawiera zestaw oprogramowania, który jest używany do reprezentacji graficznej, obliczeń statystycznych, manipulacji danymi i obliczeń. Oto niektóre z najważniejszych cech środowiska programowania języka R:

• Obszerny zbiór narzędzi do analizy danych
• Operatory do wykonywania obliczeń na macierzy i tablicy
• Technika analizy danych do reprezentacji graficznej
• Wysoce rozwinięty, ale prosty i skuteczny język programowania
• Szeroko obsługuje aplikacje uczenia maszynowego
• Działa jako łącznik między różnymi programami, narzędziami i zbiorami danych
• Twórz wysokiej jakości powtarzalne analizy, które są elastyczne i wydajne
• Zapewnia solidny ekosystem pakietów dla różnych potrzeb
• Jest to przydatne, gdy musisz rozwiązać problem związany z danymi

Pytanie 4. W jaki sposób analitycy danych wykorzystują statystyki?

Odpowiedź: Statystyki pomagają naukowcom zajmującym się danymi analizować dane w poszukiwaniu wzorców, ukrytych spostrzeżeń i przekształcać Big Data w Big Insights. Pomaga lepiej zrozumieć, czego oczekują klienci. Naukowcy zajmujący się danymi mogą dowiedzieć się o zachowaniach konsumentów, zainteresowaniach, zaangażowaniu, utrzymaniu i wreszcie konwersji dzięki wnikliwym statystykom. Pomaga im budować potężne modele danych w celu walidacji pewnych wniosków i prognoz. Wszystko to można przekształcić w potężną propozycję biznesową, dając użytkownikom to, czego chcą, dokładnie wtedy, gdy tego chcą.

Pytanie 5. Co to jest regresja logistyczna?

Odpowiedź: Jest to technika statystyczna lub model służący do analizy zbioru danych i przewidywania wyniku binarnego. Wynik musi być wynikiem binarnym, który wynosi zero lub jeden albo tak lub nie.

Pytanie 6. Dlaczego czyszczenie danych jest ważne w analizie danych?

Odpowiedź: W przypadku danych pochodzących z wielu źródeł ważne jest, aby upewnić się, że są wystarczająco dobre do analizy. Tutaj właśnie czyszczenie danych staje się niezwykle istotne. Oczyszczanie danych szeroko obejmuje proces wykrywania i korygowania zapisów danych, zapewniając, że dane są kompletne i dokładne, a składniki danych, które nie mają znaczenia, są usuwane lub modyfikowane zgodnie z potrzebami. Ten proces można wdrożyć jednocześnie z poprawianiem danych lub przetwarzaniem wsadowym. Po wyczyszczeniu danych potwierdza się to z regułami zbiorów danych w systemie. Czyszczenie danych jest istotną częścią nauki o danych, ponieważ dane mogą być podatne na błędy wynikające między innymi z zaniedbań człowieka, uszkodzenia podczas przesyłania lub przechowywania. Oczyszczanie danych pochłania ogromną ilość czasu i wysiłku naukowca zajmującego się danymi ze względu na wiele źródeł, z których pochodzą dane oraz szybkość, z jaką one pochodzą.

Pytanie 7. Opisz analizę jednowymiarową, dwuwymiarową i wielowymiarową.

Odpowiedź : Jak sugeruje nazwa, są to metodologie analityczne z jedną, podwójną lub wieloma zmiennymi. Tak więc analiza jednoczynnikowa będzie miała jedną zmienną i przez to nie ma żadnych związków, przyczyn. Głównym aspektem analizy jednowymiarowej jest podsumowanie danych i znalezienie w nich wzorców w celu podjęcia decyzji umożliwiających podjęcie działań. Analiza dwuwymiarowa dotyczy relacji między dwoma zestawami danych. Te zestawy sparowanych danych pochodzą z powiązanych źródeł lub próbek. Istnieją różne narzędzia do analizy takich danych, w tym testy chi-kwadrat i testy t, gdy dane mają korelację. Jeśli dane można określić ilościowo, można je przeanalizować za pomocą wykresu lub wykresu rozrzutu. Siła korelacji między dwoma zestawami danych będzie wynosić przetestowane w analizie dwuwymiarowej.

Pytanie 8. W jaki sposób uczenie maszynowe jest wdrażane w rzeczywistych scenariuszach?

Odpowiedź: Oto kilka scenariuszy, w których uczenie maszynowe znajduje aplikacje w świecie rzeczywistym:

E-commerce: zrozumienie odpływu klientów, wdrażanie ukierunkowanych reklam, remarketing.
Wyszukiwarka: ranking stron w zależności od osobistych preferencji osoby wyszukującej
Finanse: ocena możliwości i ryzyka inwestycyjnego, wykrywanie nieuczciwych transakcji
Medicare: projektowanie leków w zależności od historii i potrzeb pacjenta
Robotyka: uczenie maszynowe do obsługi sytuacji, które są poza zwyczajowymi
Media społecznościowe: zrozumienie relacji i rekomendowanie połączeń
Wydobywanie informacji: formułowanie pytań w celu uzyskania odpowiedzi z baz danych w Internecie.

Pytanie 9. Jakie są różne aspekty procesu uczenia maszynowego?

Odpowiedź: Omówię komponenty zaangażowane w rozwiązanie problemu z wykorzystaniem uczenia maszynowego.

Wiedza dziedzinowa: jest to pierwszy krok, w którym musimy zrozumieć, jak wyodrębnić różne cechy z danych i dowiedzieć się więcej o danych, z którymi mamy do czynienia. Ma to więcej wspólnego z rodzajem domeny, z którą mamy do czynienia i zapoznaniem się z systemem, aby dowiedzieć się więcej na jej temat.
Wybór funkcji: ten krok ma więcej wspólnego z funkcją, którą wybieramy z zestawu funkcji, które posiadamy. Czasami zdarza się, że jest wiele funkcji i musimy podjąć inteligentną decyzję dotyczącą rodzaju funkcji, którą chcemy wybrać, aby kontynuować nasze przedsięwzięcie związane z uczeniem maszynowym.
Algorytm: to ważny krok, ponieważ wybrane przez nas algorytmy będą miały bardzo duży wpływ na cały proces uczenia maszynowego. Możesz wybrać między algorytmem liniowym i nieliniowym. Niektóre z używanych algorytmów to maszyny wektorów nośnych, drzewa decyzyjne, naiwne bayesy, grupowanie metodą K-średnich itp.
Szkolenie: jest to najważniejsza część techniki uczenia maszynowego i tutaj różni się od tradycyjnego programowania. Szkolenie odbywa się w oparciu o posiadane przez nas dane i zapewnia bardziej rzeczywiste doświadczenia. Z każdym kolejnym etapem szkolenia maszyna staje się coraz lepsza i inteligentniejsza oraz może podejmować lepsze decyzje.
Ocena: na tym etapie faktycznie oceniamy decyzje podjęte przez maszynę, aby zdecydować, czy jest to zgodne z oceną, czy nie. Istnieją różne wskaźniki, które są zaangażowane w ten proces i musimy zamknąć wdrożenie każdego z nich, aby zdecydować o skuteczności całego przedsięwzięcia uczenia maszynowego.
Optymalizacja: ten proces obejmuje poprawę wydajności procesu uczenia maszynowego przy użyciu różnych technik optymalizacji. Optymalizacja uczenia maszynowego jest jednym z najważniejszych elementów, w którym znacznie poprawia się wydajność algorytmu. Najlepszą częścią technik optymalizacji jest to, że uczenie maszynowe nie tylko jest konsumentem technik optymalizacji, ale także dostarcza nowych pomysłów na optymalizację.
Testowanie: tutaj przeprowadzane są różne testy, a niektóre z nich są niewidocznymi zestawami przypadków testowych. Dane są podzielone na zbiór testowy i uczący. Istnieją różne techniki testowania, takie jak walidacja krzyżowa, aby poradzić sobie z wieloma sytuacjami.

Pytanie 10. Co rozumiesz pod pojęciem "normalna dystrybucja"?

Odpowiedź: Jest to zbiór ciągłych zmiennych rozłożonych na normalnej krzywej lub w kształcie krzywej dzwonowej. Można go traktować jako ciągły rozkład prawdopodobieństwa i jest przydatny w statystyce. Jest to najczęstsza krzywa rozkładu i bardzo przydatne staje się analizowanie zmiennych i ich relacji, gdy mamy krzywą rozkładu normalnego. Krzywa rozkładu normalnego jest symetryczna. Rozkład nienormalny zbliża się do rozkładu normalnego wraz ze wzrostem wielkości próbek. Bardzo łatwo jest również zastosować Centralne Twierdzenie Graniczne. Ta metoda pomaga zrozumieć dane, które są losowe, tworząc porządek i interpretując wyniki za pomocą wykresu w kształcie dzwonu.

Pytanie 11. Co to jest regresja liniowa?

Odpowiedź: Jest to najczęściej stosowana metoda analizy predykcyjnej. Metoda regresji liniowej służy do opisu relacji między zmienną zależną a jedną lub niezależną zmienną. Głównym zadaniem w Regresji liniowej jest metoda dopasowania pojedynczej linii na wykresie punktowym.

Regresja liniowa składa się z trzech następujących metod: Określenie i analiza korelacji i kierunku danych Wdrożenie estymacji modelu Zapewnienie użyteczności i ważności modelu Jest szeroko stosowana w scenariuszach, w których w grę wchodzi model przyczynowo-skutkowy. Na przykład chcesz poznać efekt określonego działania, aby określić różne skutki i zakres wpływu, jaki ma przyczyna na określenie ostatecznego wyniku.

Pytanie 12. Co to jest interpolacja i ekstrapolacja?

Odpowiedź: Terminy interpolacji i ekstrapolacji są niezwykle ważne w każdej analizie statystycznej. Ekstrapolacja to określenie lub oszacowanie przy użyciu znanego zestawu wartości lub faktów poprzez rozszerzenie go i przeniesienie na nieznany obszar lub region. Jest to technika wnioskowania o czymś na podstawie dostępnych danych. Z drugiej strony interpolacja jest metodą określania pewnej wartości, która mieści się między określonym zbiorem wartości lub sekwencją wartości. Jest to szczególnie przydatne, gdy masz dane na dwóch krańcach określonego regionu, ale nie masz wystarczającej liczby punktów danych w określonym punkcie. Dzieje się tak, gdy wdrażasz interpolację w celu określenia potrzebnej wartości.

Pytanie 13. Co to jest analiza mocy?

Odpowiedź: Analiza mocy jest istotną częścią projektu eksperymentu. Jest to związane z procesem określania wielkości próby potrzebnej do wykrycia wpływu danej wielkości z przyczyny z pewnym stopniem pewności. Pozwala wdrożyć określone prawdopodobieństwo w ograniczeniu wielkości próby. Różne techniki statystycznej analizy mocy i szacowania wielkości próby są szeroko stosowane do dokonywania oceny statystycznej, która jest dokładna i ocenia wielkość potrzebną do uzyskania efektów eksperymentalnych w praktyce. Analiza mocy pozwala zrozumieć szacunkową wielkość próbki, tak aby nie były one ani wysokie, ani niskie. W przypadku małej próbki nie będzie uwierzytelniania, które zapewni wiarygodne odpowiedzi, a jeśli będzie duża, nastąpi marnotrawstwo zasobów.

Pytanie 14. Co to jest K-means? Jak wybrać K dla K-means?

Odpowiedź: Grupowanie K-średnich można określić jako podstawowy algorytm uczenia się bez nadzoru. Jest to metoda klasyfikowania danych przy użyciu określonego zestawu klastrów nazywanych klastrami K. Jest stosowany do grupowania danych w celu znalezienia podobieństwa w danych. Obejmuje zdefiniowanie centrów K, po jednym w klastrze. Klastry są definiowane w K grup, przy czym K jest wstępnie zdefiniowane. Punkty K są wybierane losowo jako centra skupień. Obiekty są przypisywane do ich najbliższego centrum klastra. Obiekty w klastrze są jak najbliżej ze sobą spokrewnione i różnią się tak bardzo, jak to możliwe od obiektów w innych skupieniach. Klastrowanie Kmeans działa bardzo dobrze w przypadku dużych zestawów danych.

Pytanie 15. Czym różni się modelowanie danych od projektowania baz danych?

Odpowiedź:
Modelowanie danych: Można to uznać za pierwszy krok w kierunku zaprojektowania bazy danych. Modelowanie danych tworzy model koncepcyjny oparty na relacjach między różnymi modelami danych. Proces obejmuje przejście od etapu koncepcyjnego do modelu logicznego do schematu fizycznego. Obejmuje systematyczną metodę stosowania technik modelowania danych.
Projekt bazy danych: jest to proces projektowania bazy danych. Projekt bazy danych tworzy wynik będący szczegółowym modelem danych bazy danych. Ściśle mówiąc, projekt bazy danych obejmuje szczegółowy model logiczny bazy danych, ale może również obejmować fizyczne wybory projektowe i parametry pamięci masowej.

Pytanie 16. Czym są wektory cech?

Odpowiedź: n-wymiarowy wektor cech numerycznych, które reprezentują jakiś obiekt Częstotliwości występowania terminów, piksele obrazu itp.
Przestrzeń cech: przestrzeń wektorowa związana z tymi wektorami

Pytanie 17. Wyjaśnij kroki w tworzeniu drzewa decyzyjnego.

Odpowiedź: Weź cały zestaw danych jako dane wejściowe. Poszukaj podziału, który maksymalizuje rozdzielenie klas. Podział to dowolny test, który dzieli dane na dwa zestawy. Zastosuj podział do danych wejściowych (krok dzielenia). Ponownie zastosuj kroki od 1 do 2 do podzielonych danych. Zatrzymaj po spełnieniu pewnych kryteriów zatrzymania. Ten krok nazywa się przycinaniem. Wyczyść drzewo, gdy posunąłeś się za daleko, robiąc szpagat.

Pytanie 18. Co to jest analiza przyczyn źródłowych?

Odpowiedź: Analiza przyczyn źródłowych została początkowo opracowana w celu analizy wypadków przemysłowych, ale obecnie jest szeroko stosowana w innych obszarach. Jest to w zasadzie technika rozwiązywania problemów stosowana do wyodrębnienia pierwotnych przyczyn błędów lub problemów. Czynnik nazywany jest przyczyną źródłową, jeśli jego dedukcja z sekwencji problem-błąd zapobiega ponownemu wystąpieniu ostatniego niepożądanego zdarzenia.

Pytanie 19. Wyjaśnij walidację krzyżową

Odpowiedź: Jest to technika walidacji modelu służąca do oceny, w jaki sposób wyniki analizy statystycznej uogólniają się na niezależny zbiór danych. Stosowany głównie w środowiskach, w których celem jest prognoza i chce się oszacować, jak dokładnie model będzie działał w praktyce. Celem walidacji krzyżowej jest określenie zestawu danych w celu przetestowania modelu w fazie uczenia (tj. Zestawu danych walidacyjnych) w celu ograniczenia problemów, takich jak nadmierne dopasowanie, i uzyskania wglądu w to, jak model uogólni się na niezależny zestaw danych .

Pytanie 20. Co to jest filtrowanie oparte na współpracy?

Odpowiedź: Proces filtrowania stosowany przez większość systemów rekomendujących w celu znalezienia wzorców lub informacji poprzez współpracę z perspektywy, liczne źródła danych i kilku agentów.

Pytanie 21. Czy metody opadania gradientu przez cały czas są zbieżne do podobnego punktu?

Odpowiedź: Nie, nie robią tego, ponieważ w niektórych przypadkach osiąga lokalne minima lub lokalny punkt optima. Nie osiągniesz globalnego punktu optymalnego. Zależy to od danych i warunków początkowych.

Pytanie 22. Jaki jest cel testów A / b?

Odpowiedź: Jest to testowanie hipotezy statystycznej dla losowego eksperymentu z dwiema zmiennymi A i B. Celem testów A / B jest wykrycie wszelkich zmian na stronie internetowej, aby zmaksymalizować lub zwiększyć wynik zainteresowania.

Pytanie 23. Jakie są wady modelu liniowego?

Odpowiedź: Niektóre wady modelu liniowego to:

Założenie o liniowości błędów
Nie można go używać do liczenia wyników ani wyników binarnych
Są problemy z nadmiernym dopasowaniem, których nie może rozwiązać

Pytanie 24. Jakie jest prawo dotyczące dużych liczb?

Odpowiedź: Jest to twierdzenie, które opisuje wynik wykonania tego samego eksperymentu wiele razy. To twierdzenie stanowi podstawę myślenia w stylu częstotliwości. Mówi się, że średnia próbki, wariancja próbki i odchylenie standardowe próby są zbieżne z tym, co próbują oszacować.

Pytanie 25. Co to są zmienne zakłócające?

Odpowiedź: Są to obce zmienne w modelu statystycznym, które korelują bezpośrednio lub odwrotnie zarówno ze zmienną zależną, jak i ze zmienną niezależną. Szacunek nie uwzględnia czynnika zakłócającego.

Pytanie 26. Wyjaśnij schemat gwiezdny?

Odpowiedź: Jest to tradycyjny schemat bazy danych z tabelą centralną. Tabele satelitarne odwzorowują ID na nazwę fizyczną lub opis i mogą być połączone z centralną tabelą faktów za pomocą pól ID; tabele te są znane jako tablice przeglądowe i są głównie przydatne w aplikacjach czasu rzeczywistego, ponieważ oszczędzają dużo pamięci. Czasami schematy gwiezdne obejmują kilka warstw podsumowania, aby szybciej odzyskać informacje.

Pytanie 27. Jak regularnie należy aktualizować algorytm?

Odpowiedź:

Chcesz zaktualizować algorytm, gdy:
Chcesz, aby model ewoluował jako strumienie danych przez infrastrukturę
Zmienia się bazowe źródło danych
Jest przypadek niestacjonarności

Pytanie 28. Co to jest wartość własna i wektor własny?

Odpowiedź: Wektory własne służą do zrozumienia przekształceń liniowych. W analizie danych zwykle obliczamy wektory własne dla macierzy korelacji lub kowariancji. Wektory własne to kierunki, w których określone przekształcenie liniowe działa poprzez odwracanie, ściskanie lub rozciąganie.

Pytanie 29. Dlaczego przeprowadza się ponowne próbkowanie?

Odpowiedź: Ponowne próbkowanie jest wykonywane w jednym z następujących przypadków: Oszacowanie dokładności statystyki próby przy użyciu podzbiorów dostępnych danych lub losowanie z zastąpieniem ze zbioru punktów danych.
Zastępowanie etykiet punktami danych podczas wykonywania testów istotności Walidacja modeli przy użyciu losowych podzbiorów (metoda ładowania początkowego, walidacja krzyżowa.

Pytanie 30. Wyjaśnij selektywne nastawienie?

Odpowiedź: Błąd selekcji jest na ogół problematyczną sytuacją, w której wprowadza się błąd z powodu nielosowej próby populacji.

Pytanie 31. Jakie są rodzaje uprzedzeń, które mogą wystąpić w trakcie próbowania?

Odpowiedź:
• Stronniczość wyboru
• Niedobór pokrycia
• Błąd przeżycia

Pytanie 32. Jak pracować w kierunku losowego lasu?

Odpowiedź: Podstawową zasadą tej techniki jest to, że kilku słabo uczących się razem tworzy silnego ucznia. Wymagane kroki to : Zbuduj kilka drzew decyzyjnych na próbkach treningowych typu bootstrapped Na każdym drzewie, za każdym razem, gdy rozważany jest podział, jako kandydatów do podziału wybierana jest losowa próbka predyktorów mm, spośród wszystkich predyktorów pp. = p
Praktyczna zasada: przy każdym podziale m = p?m = p
Prognozy: na zasadzie większości.

Pytanie 33. Python czy R - Który z nich wolisz do analizy tekstu?

Odpowiedź: Najlepszą możliwą odpowiedzią na to byłoby Python, ponieważ zawiera bibliotekę Pandas, która zapewnia łatwe w użyciu struktury danych i narzędzia do analizy danych o wysokiej wydajności.

Pytanie 34. Co to jest regresja logistyczna? Lub podaj przykład, jeśli ostatnio stosowałeś regresję logistyczną.

Odpowiedź : Regresja logistyczna, często nazywana modelem logitowym, jest techniką przewidywania wyniku binarnego na podstawie liniowej kombinacji zmiennych predykcyjnych. Na przykład, jeśli chcesz przewidzieć, czy dany przywódca polityczny wygra wybory, czy nie. W tym przypadku wynik prognozy jest binarny, tj. 0 lub 1 (wygrana / przegrana). Zmiennymi predykcyjnymi w tym przypadku byłaby kwota pieniędzy wydana na kampanię wyborczą określonego kandydata, ilość czasu spędzonego na kampanii itp.

Pytanie 35. Co to są systemy rekomendujące?

Odpowiedź : Podklasa systemów filtrujących informacje, których zadaniem jest przewidywanie preferencji lub ocen, jakie użytkownik nadałby produktowi. Systemy rekomendujące są szeroko stosowane w filmach, wiadomościach, artykułach badawczych, produktach, tagach społecznościowych, muzyce itp.

Pytanie 36. Dlaczego czyszczenie danych odgrywa kluczową rolę w analizie?

Odpowiedź : Czyszczenie danych z wielu źródeł w celu przekształcenia ich w format, z którym mogą pracować analitycy danych lub naukowcy zajmujący się danymi, jest uciążliwym procesem, ponieważ - wraz ze wzrostem liczby źródeł danych, czas potrzebny na wyczyszczenie danych rośnie wykładniczo ze względu na liczbę źródeł i ilość danych wygenerowanych w tych źródłach. Samo wyczyszczenie danych może zająć do 80% czasu, co czyni je krytyczną częścią zadania analitycznego.

Pytanie 37. Rozróżnij jednowymiarowe, dwuwymiarowe i wielowymiarowe analizy

Odpowiedź : Są to opisowe techniki analizy statystycznej, które można rozróżnić na podstawie liczby zmiennych zaangażowanych w danym momencie. Na przykład wykresy kołowe sprzedaży oparte na terytorium obejmują tylko jedną zmienną i można je nazwać analizą jednowymiarową. Jeśli analiza próbuje zrozumieć różnicę między dwiema zmiennymi w czasie, tak jak na wykresie rozrzutu, wówczas mówi się o analizie dwuwymiarowej. Na przykład analizę wielkości sprzedaży i wydatków można uznać za przykład analizy dwuwymiarowej. Analiza, która zajmuje się badaniem więcej niż dwóch zmiennych w celu zrozumienia wpływu zmiennych na odpowiedzi, jest nazywana analizą wielowymiarową.

Pytanie 38. Co rozumiesz pod pojęciem normalnej dystrybucji?

Odpowiedź : Dane są zwykle dystrybuowane na różne sposoby, z odchyleniem w lewo lub w prawo, lub też mogą być pomieszane. Istnieją jednak szanse, że dane są rozproszone wokół wartości centralnej bez żadnego odchylenia w lewo lub w prawo i osiągną rozkład normalny w postaci krzywej w kształcie dzwonu. Zmienne losowe są rozłożone w postaci symetrycznej krzywej w kształcie dzwonu.

Pytanie 39. Co to jest regresja liniowa?

Odpowiedź : Regresja liniowa to technika statystyczna, w której wynik zmiennej Y jest przewidywany na podstawie wyniku drugiej zmiennej X. X jest określany jako zmienna predykcyjna, a Y jako zmienna kryterium.

Pytanie 40. Co to jest interpolacja i ekstrapolacja?

Odpowiedź : Oszacowanie wartości z 2 znanych wartości z listy wartości to interpolacja. Ekstrapolacja to aproksymacja wartości poprzez rozszerzenie znanego zbioru wartości lub faktów.

Pytanie 41. Co to jest analiza mocy?

Odpowiedź : Eksperymentalna technika projektowania służąca do określania wpływu danej wielkości próby.

Pytanie 42. Co to jest K-średnia? Jak wybrać K dla K-średnich?

Pytanie 43. Co to jest filtrowanie zespołowe?

Odpowiedź : Proces filtrowania używany przez większość systemów rekomendujących w celu znalezienia wzorców lub informacji poprzez wspólne punkty widzenia, różne źródła danych i wielu agentów.

Pytanie 44. Jaka jest różnica między próbkowaniem grupowym a systematycznym pobieraniem próbek?

Odpowiedź : Próbkowanie grupowe jest techniką stosowaną, gdy badanie populacji docelowej rozproszonej na dużym obszarze staje się trudne i nie można zastosować prostego losowego pobierania próbek. Próbka skupienia to próbka prawdopodobieństwa, w której każda jednostka próbkowania jest zbiorem lub klastrem elementów. Systematyczne próbkowanie to technika statystyczna, w której elementy są wybierane z uporządkowanego operatu próbkowania. W przypadku systematycznego próbkowania lista jest rozwijana w sposób cykliczny, więc po osiągnięciu końca listy jest ona ponownie przesuwana od góry. Najlepszym przykładem systematycznego pobierania próbek jest metoda równego prawdopodobieństwa.

Pytanie 45. Czy wartość oczekiwana i wartość średnia różnią się?

Odpowiedź :Nie są różne, ale terminy są używane w różnych kontekstach. Średnia jest ogólnie określana, gdy mówimy o rozkładzie prawdopodobieństwa lub populacji próby, podczas gdy wartość oczekiwana jest ogólnie określana w kontekście zmiennej losowej.

Do pobierania danych

Średnia wartość jest jedyną wartością pochodzącą z danych próbkowania. Wartość oczekiwana to średnia wszystkich średnich, tj. Wartość zbudowana z wielu próbek. Oczekiwana wartość to średnia populacji.

W przypadku dystrybucji

Wartość średnia i wartość oczekiwana są takie same niezależnie od rozkładu, pod warunkiem, że rozkład dotyczy tej samej populacji.

Pytanie 46. Co oznacza wartość P w danych statystycznych?

Odpowiedź : Wartość p jest używana do określenia istotności wyników po teście hipotezy w statystyce. Wartość p pomaga czytelnikom wyciągać wnioski i zawsze wynosi od 0 do 1.

• Wartość P> 0,05 oznacza słaby dowód przeciwko hipotezie zerowej, co oznacza, że hipoteza zerowa nie może zostać odrzucona.
• Wartość p <= 0,05 oznacza silny dowód przeciwko hipotezie zerowej, co oznacza, że hipoteza zerowa może zostać odrzucona.
• Wartość P = 0,05 to wartość krańcowa wskazująca, że można iść w obie strony.

Pytanie 47. Czy metody gradientu opadania zawsze zbiegają się do tego samego punktu?

Odpowiedź : Nie, nie osiągają tego, ponieważ w niektórych przypadkach osiąga lokalne minima lub lokalny punkt optima. Nie osiągasz globalnego punktu optymalnego. To zależy od danych i warunków początkowych.

Pytanie 48. Co to są zmienne kategorialne?

Pytanie 49. Test ma prawdziwie pozytywny wskaźnik 100% i fałszywie dodatni wskaźnik 5%. Istnieje populacja, w której wskaźnik ten wynosi 1/1000, a stan ten określa test. Biorąc pod uwagę pozytywny wynik testu, jakie jest prawdopodobieństwo wystąpienia tego stanu?

Odpowiedź : Załóżmy, że jesteś testowany na chorobę, jeśli masz chorobę, test zakończy się stwierdzeniem, że masz chorobę. Jeśli jednak nie masz choroby - w 5% przypadków test zakończy się stwierdzeniem, że masz chorobę, a 95% przypadków da dokładny wynik, że nie masz choroby. Zatem w przypadku braku choroby występuje 5% błąd. Na 1000 osób 1 osoba, która ma tę chorobę, uzyska prawdziwie pozytywny wynik. Z pozostałych 999 osób 5% również uzyska prawdziwie pozytywny wynik. Prawie 50 osób uzyska prawdziwie pozytywny wynik choroby. Oznacza to, że na 1000 osób, 51 osób będzie miało pozytywny wynik testu na chorobę, mimo że tylko jedna osoba choruje. Istnieje tylko 2% prawdopodobieństwa, że zachorujesz, nawet jeśli Twoje raporty mówią, że masz tę chorobę.

Pytanie 50. Jak można przywrócić dane normalne za pomocą transformacji Boxa-Coxa?

Pytanie 51. Jaka jest różnica między uczeniem się nadzorowanym a uczeniem się nienadzorowanym?

Odpowiedź : Jeśli algorytm uczy się czegoś na podstawie danych szkoleniowych, aby tę wiedzę można było zastosować do danych testowych, wówczas nazywa się to uczeniem nadzorowanym. Klasyfikacja jest przykładem nadzorowanego uczenia się. Jeśli algorytm nie uczy się niczego z góry, ponieważ nie ma zmiennej odpowiedzi ani żadnych danych uczących, wówczas mówi się o uczeniu nienadzorowanym. Tworzenie klastrów jest przykładem uczenia się bez nadzoru.

Pytanie 52. Wyjaśnij zastosowanie kombinatoryki w nauce o danych.

Pytanie 53. Dlaczego wektoryzacja jest uważana za skuteczną metodę optymalizacji kodu numerycznego?

Pytanie 54. Jaki jest cel testów A / B?

Odpowiedź : Jest to testowanie hipotez statystycznych dla losowego eksperymentu z dwiema zmiennymi A i B. Celem testów A / B jest identyfikacja wszelkich zmian na stronie internetowej, aby zmaksymalizować lub zwiększyć wynik zainteresowania. Przykładem może być określenie współczynnika klikalności banera reklamowego.

Pytanie 55. Co to jest wartość własna i wektor własny?

Odpowiedź : Wektory własne służą do zrozumienia przekształceń liniowych. W analizie danych zwykle obliczamy wektory własne dla macierzy korelacji lub kowariancji. Wektory własne to kierunki, w których określone przekształcenie liniowe działa poprzez odwracanie, ściskanie lub rozciąganie. Wartość własną można określić jako siłę transformacji w kierunku wektora własnego lub czynnik, za pomocą którego następuje ściskanie.

Pytanie 56. Co to jest Gradient Descent?

Pytanie57. Jak można traktować wartości odstające?

Odpowiedź : Wartości odstające można zidentyfikować za pomocą jednowymiarowej lub dowolnej innej metody analizy graficznej. Jeśli liczba wartości odstających jest niewielka, można je ocenić indywidualnie, ale w przypadku dużej liczby wartości odstających wartości można zastąpić wartościami z 99 lub 1 percentyla. Wszystkie wartości skrajne nie są wartościami odstającymi Najczęstsze sposoby traktowania wartości odstających -

1) Aby zmienić wartość i wprowadzić do zakresu
2) Aby po prostu usunąć wartość.

Pytanie 58. Jak możesz ocenić dobry model logistyczny?

Istnieją różne metody oceny wyników analizy regresji logistycznej:

• Korzystanie z macierzy klasyfikacji, aby przyjrzeć się prawdziwym wynikom negatywnym i fałszywym trafom.
• Zgodność, która pomaga zidentyfikować zdolność modelu logistycznego do rozróżnienia między zdarzeniem, które ma miejsce, a tym, co się nie dzieje.
• Winda pomaga ocenić model logistyczny, porównując go z przypadkowym wyborem.

Pytanie 59. Jakie są różne etapy projektu analitycznego?

• Zrozum problem biznesowy
• Eksploruj dane i zapoznaj się z nimi.
• Przygotuj dane do modelowania, wykrywając wartości odstające, korygując brakujące wartości, przekształcając zmienne itp.
• Po przygotowaniu danych uruchom model, przeanalizuj wynik i dostosuj podejście. Jest to krok iteracyjny prowadzący do osiągnięcia najlepszego możliwego wyniku.
• Sprawdź poprawność modelu przy użyciu nowego zestawu danych.
• Rozpocznij wdrażanie modelu i śledź wyniki, aby przeanalizować wydajność modelu w określonym czasie.

Pytanie 60. Jak możesz iterować listę i jednocześnie pobierać indeksy elementów?

Można to zrobić za pomocą funkcji enumerate, która pobiera każdy element w sekwencji, tak jak na liście i dodaje jego lokalizację tuż przed nim.

Pytanie 61. W jaki sposób traktujesz brakujące wartości podczas analizy?

Odpowiedź : Zakres brakujących wartości jest określany po zidentyfikowaniu zmiennych z brakującymi wartościami. Jeśli zidentyfikowane zostaną jakiekolwiek wzorce, analityk musi się na nich skoncentrować, ponieważ może to prowadzić do interesujących i znaczących spostrzeżeń biznesowych. Jeśli nie zidentyfikowano żadnych wzorców, wówczas brakujące wartości można zastąpić wartościami średnimi lub medianami (imputacja) lub po prostu je zignorować czynniki, które należy wziąć pod uwagę, odpowiadając na to pytanie

-Zrozum stwierdzenie problemu, zrozum dane, a następnie podaj odpowiedź. Przypisanie wartości domyślnej, która może być wartością średnią, minimalną lub maksymalną. Dostanie się do danych jest ważne.
-Jeśli jest to zmienna kategorialna, przypisywana jest wartość domyślna. Brakująca wartość ma przypisaną wartość domyślną.
-Jeśli masz rozkład nadchodzących danych, dla rozkładu normalnego podaj średnią wartość.
- Czy powinniśmy w ogóle traktować brakujące wartości, to kolejny ważny punkt do rozważenia? Jeśli brakuje 80% wartości zmiennej, możesz odpowiedzieć, że pominiesz zmienną zamiast zajmować się brakującymi wartościami.

Pytanie 62. Wyjaśnij transformację skrzynkową coxa w modelach regresji.

Odpowiedź : Z jakiegoś powodu zmienna odpowiedzi dla analizy regresji może nie spełniać jednego lub więcej założeń zwykłej regresji metodą najmniejszych kwadratów. Reszty mogą się zakrzywiać w miarę wzrostu prognozy lub podążać za skośnym rozkładem. W takich scenariuszach konieczne jest przekształcenie zmiennej odpowiedzi, tak aby dane spełniały wymagane założenia. Transformacja Boxa Coxa to technika statystyczna służąca do przekształcania zmiennych niezależnych od mornli w normalny kształt. Jeśli podane dane nie są normalne, większość technik statystycznych zakłada normalność. Zastosowanie transformacji Box Coxa oznacza, że można uruchomić większą liczbę testów.

Pytanie 63. Czy możesz wykorzystać uczenie maszynowe do analizy szeregów czasowych?

Odpowiedź : Tak, można go używać, ale zależy to od aplikacji.

Pytanie 64. Napisz funkcję, która pobiera dwie posortowane listy i wyprowadza posortowaną listę, która jest ich sumą.

Pierwszym rozwiązaniem, które przyjdzie Ci do głowy, jest scalenie dwóch list, a następnie skrócenie ich w Pythonie

return_union(list_a, list_b):
return sorted(list_a + list_b)
R codereturn_
union <- function(list_a, list_b)
{ list_c<-list(c(unlist(list_a),unlist(list_b)))
return(list(list_c[[1]][order(list_c[[1]])]))
}

Ogólnie rzecz biorąc, trudna część pytania polega na tym, aby nie używać żadnej funkcji sortowania ani porządkowania. W takim przypadku będziesz musiał napisać własną logikę, aby odpowiedzieć na pytanie i zaimponować rozmówcy.

Python codedef
return_union(list_a, list_b):
len1 = len(list_a)
len2 = len(list_b)
final_sorted_list = []
j = 0
k = 0
for i in range(len1+len2):
if k == len1:
final_sorted_list.extend(list_b[j:])
break
elif j == len2:
final_sorted_list.extend(list_a[k:])
break
elif list_a[k] < list_b[j]:
final_sorted_list.append(list_a[k])
k += 1
else:
final_sorted_list.append(list_b[j])
j += 1
return final_sorted_list

Podobną funkcję można również zwrócić w języku R, wykonując podobne kroki.

return_union <- function(list_a,list_b)
{
#Initializing length variables
len_a <- length(list_a)
len_b <- length(list_b)
len <- len_a + len_b
#initializing counter variables
j=1
k=1
#Creating an empty list which has length equal to sum of both the lists
list_c <- list(rep(NA,len))
#Here goes our for loop
for(i in 1:len)
{
if(j>len_a) {
list_c[i:len] <- list_b[k:len_b]
break
}
else if(k>len_b)
{
list_c[i:len] <- list_a[j:len_a]
break
}
else if(list_a[[j]] <= list_b[[k]])
{
list_c[[i]] <- list_a[[j]]
j <- j+1
}
else if(list_a[[j]] > list_b[[k]])
{
list_c[[i]] <- list_b[[k]]
k <- k+1
}
}
return(list(unlist(list_c)))
}

Pytanie 65. Jaka jest różnica między oszacowaniem bayesowskim a oszacowaniem maksymalnego prawdopodobieństwa (MLE)?

Odpowiedź : W estymacji bayesowskiej mamy pewną wiedzę na temat danych / problemu (wcześniej). Może istnieć kilka wartości parametrów, które wyjaśniają dane, dlatego możemy szukać wielu parametrów, takich jak 5 gamma i 5 lambd, które to robią. W wyniku oszacowania Bayesa otrzymujemy wiele modeli do tworzenia wielu przewidywań, tj. po jednym dla każdej pary parametrów, ale z tym samym wyprzedzeniem. Tak więc, jeśli trzeba przewidzieć nowy przykład, obliczenie ważonej sumy tych prognoz służy temu celowi. Maksymalne prawdopodobieństwo nie bierze pod uwagę wcześniejszego (ignoruje poprzednie), więc jest to jak bycie bayesowskim podczas korzystania z pewnego rodzaju mieszkania przed.

Pytanie 66. Co to jest regularyzacja i jakie problemy rozwiązuje uregulowanie?

Pytanie 67. Co to jest współliniowość i jak można ją przezwyciężyć?

Pytanie 68. Co jest przekleństwem wymiarowości?

Pytanie 69. Jak decydujesz, czy twój model regresji liniowej pasuje do danych?

Pytanie 70. Jaka jest różnica między błędem kwadratowym a błędem bezwzględnym?

Pytanie 71. Co to jest uczenie maszynowe?

Odpowiedź : Najprościej odpowiedzieć na to pytanie - podajemy dane i równanie do maszyny. Poproś maszynę o przejrzenie danych i zidentyfikowanie wartości współczynników w równaniu. Na przykład dla regresji liniowej y = mx + c podajemy dane dla zmiennej x, y, a maszyna uczy się z tych danych wartości mi c.

Pytanie 72. Jak skonstruowane są przedziały ufności i jak je zinterpretujesz?

Pytanie 73. Jak wyjaśnisz regresję logistyczną ekonomiście, fizykowi i biologowi?

Pytanie 74. Jak możesz pokonać Overfitting?

Pytanie 75. Jak rozróżnić szerokie i wysokie formaty danych?

Pytanie 76. Czy Na?ve Bayes jest zły? Jeśli tak, w jakich aspektach.

Pytanie 77. Jak opracowałbyś model identyfikujący plagiat?

Pytanie 78. Jak zdefiniujesz liczbę klastrów w algorytmie grupowania?

Odpowiedź : Chociaż algorytm grupowania nie został określony, to pytanie będzie najczęściej zadawane w odniesieniu do grupowania metodą K-średnich, gdzie "K" określa liczbę klastrów. Celem klastrowania jest grupowanie podobnych podmiotów w taki sposób, aby podmioty w grupie były do siebie podobne, ale grupy różniły się od siebie. Na przykład poniższy obraz przedstawia trzy różne grupy.

W ramach sumy kwadratów jest zwykle używany do wyjaśnienia jednorodności w klastrze. Jeśli wykreślisz WSS dla zakresu liczby klastrów, otrzymasz wykres pokazany poniżej. Wykres jest ogólnie znany jako krzywa łokcia.

Czerwony zakreślony punkt na powyższym wykresie, tj. Liczba klastrów = 6 to punkt, po którym nie widać żadnego ubytku w WSS. Ten punkt jest znany jako punkt zgięcia i jest przyjmowany jako K w K - średnie. Jest to szeroko stosowane podejście, ale niewielu naukowców zajmujących się danymi używa najpierw grupowania hierarchicznego, aby utworzyć dendogramy i zidentyfikować stamtąd odrębne grupy.

Pytanie 79. Czy lepiej jest mieć zbyt wiele fałszywych wyników negatywnych, czy zbyt wiele fałszywych trafień?

Pytanie 80. Czy można przeprowadzić regresję logistyczną w programie Microsoft Excel?

Odpowiedź : Możliwe jest wykonanie regresji logistycznej za pomocą programu Microsoft Excel. Można to zrobić na dwa sposoby za pomocą programu Excel.

a) Jednym z nich jest korzystanie z Dodatków udostępnianych przez wiele witryn internetowych, z których możemy korzystać.
b) Po drugie, należy wykorzystać podstawy regresji logistycznej i wykorzystać moc obliczeniową programu Excel do zbudowania regresji logistycznej
Ale kiedy zadaje się to pytanie w wywiadzie, ankieter nie szuka nazwy dodatków, a raczej metody wykorzystującej podstawowe funkcje programu Excel. Skorzystajmy z przykładowych danych, aby dowiedzieć się więcej o regresji logistycznej za pomocą programu Excel. (Przykład zakłada, że znasz podstawowe pojęcia regresji logistycznej)

Dane pokazane powyżej składają się z trzech zmiennych, gdzie X1 i X2 to zmienne niezależne, a Y to zmienna klasowa. Zachowaliśmy tylko 2 kategorie na potrzeby binarnego klasyfikatora regresji logistycznej. Następnie musimy stworzyć funkcję logit używając zmiennych niezależnych, tj.

Na razie zachowaliśmy początkowe wartości beta 1, beta 2 na poziomie 0,1 i użyjemy programu Excel Solve do optymalizacji wartości beta, aby zmaksymalizować oszacowanie prawdopodobieństwa dziennika. Zakładając, że znasz podstawy regresji logistycznej, obliczamy wartości prawdopodobieństwa z Logit za pomocą następującego wzoru:

Prawdopodobieństwo = e ^ Logit / (1+ e ^ Logit)

e jest podstawą logarytmu naturalnego, tj. e = 2,71828163. Umieśćmy to w formule programu Excel, aby obliczyć wartości prawdopodobieństwa dla każdej obserwacji.

Prawdopodobieństwo warunkowe to prawdopodobieństwo Przewidywanego Y przy danym zestawie zmiennych niezależnych X. A to p można obliczyć jako-

Następnie musimy wziąć logarytm naturalny powyższej funkcji

Co okazuje się być -

Funkcja logarytmicznego prawdopodobieństwa LL jest sumą powyższego równania dla wszystkich obserwacji

Log prawdopodobieństwa LL będzie sumą kolumny G, którą właśnie obliczyliśmy

Celem jest maksymalizacja logarytmu wiarygodności, czyli komórki H2 w tym przykładzie. Musimy zmaksymalizować H2, optymalizując B0, B1 i B2. W tym samym celu użyjemy dodatku solver do programu Excel. Program Excel jest dostarczany z tym dodatkiem preinstalowanym i musisz go zobaczyć na karcie Dane w programie Excel, jak pokazano poniżej. Jeśli go tam nie widzisz, upewnij się, że został załadowany. Aby załadować dodatek w programie Excel, przejdź do Plik >> Opcje >> Dodatki i sprawdź, czy pole wyboru przed wymaganym dodatkiem jest zaznaczone, czy nie? Pamiętaj, aby to sprawdzić, aby załadować dodatek do programu Excel. Jeśli nie widzisz tam dodatku Solver, przejdź na dół ekranu (Zarządzaj dodatkami) i kliknij OK. Następnie zobaczysz wyskakujące okienko, w którym powinien być obecny dodatek Solver. Zaznacz pole wyboru przed nazwą dodatku. Jeśli go tam również nie widzisz, kliknij przycisk Przeglądaj i skieruj go do wymaganego folderu zawierającego dodatek Solver. Po załadowaniu Solvera kliknij ikonę Solver pod zakładką Dat, a pojawi się nowe okno, takie jak -

Umieść H2 w ustawionym celu, wybierz max i wypełnij komórki od E2 do E4 w następnym polu formularza. W ten sposób nakazaliśmy Solverowi zmaksymalizować H2, zmieniając wartości w komórkach E2 na E4. Teraz kliknij przycisk Rozwiąż u dołu - zobaczysz wyskakujące okienko jak poniżej -

To pokazuje, że Solver znalazł lokalne rozwiązanie maksymalne, ale potrzebujemy Global Maxima Output. Kontynuuj klikanie Kontynuuj, aż pojawi się poniższe wyskakujące okienko

Pokazuje, że Solver był w stanie znaleźć i połączyć rozwiązanie. W przypadku, gdy nie jest w stanie osiągnąć zbieżności, zgłosi błąd. Wybierz "Zachowaj rozwiązanie Solver" i kliknij OK, aby zaakceptować rozwiązanie dostarczone przez Solver. Teraz możesz zobaczyć, że wartość współczynników Beta z B0, B1 B2 uległa zmianie, a nasza funkcja logarytmu wiarygodności została zmaksymalizowana.

Korzystając z tych wartości Betas, można obliczyć prawdopodobieństwo, a tym samym zmienną odpowiedzi, decydując o wartości granicznej prawdopodobieństwa.

Pytanie 81. Co rozumiesz przez łączenie rozmyte? W jakim języku sobie z tym poradzisz?

Pytanie 82. Jaka jest różnica między rozkładem skośnym a równomiernym?

Odpowiedź : Gdy obserwacje w zbiorze danych są równomiernie rozłożone w całym zakresie dystrybucji, wtedy mówi się o rozkładzie równomiernym. W jednolitej dystrybucji nie ma wyraźnych korzyści. Rozkłady, które mają więcej obserwacji po jednej stronie wykresu niż po drugiej, nazywane są rozkładem skośnym. Rozkłady z mniejszą liczbą obserwacji po lewej stronie (w kierunku niższych wartości) są skośne w lewo, a rozkłady z mniejszą liczbą obserwacji po prawej (w kierunku wyższych wartości) wartości) są przekrzywione w prawo.

Pytanie 83. Utworzyłeś model predykcyjny ilościowej zmiennej wyniku przy użyciu wielu regresji. Jakie kroki należy wykonać, aby zweryfikować model?

Odpowiedź : Ponieważ zadane pytanie dotyczy ćwiczenia po zbudowaniu modelu, założymy, że przetestowałeś już hipotezę zerową, współliniowość i błąd standardowy współczynników. Po zbudowaniu modelu należy sprawdzić, czy:

⋅ Globalny test F, aby zobaczyć znaczenie grupy zmiennych niezależnych od zmiennej zależnej
⋅ R ^ 2
⋅ Skorygowano R ^ 2
⋅ RMSE, MAPE

Oprócz wyżej wymienionych wskaźników ilościowych należy również sprawdzić:

⋅ Pozostała działka
⋅ Założenia regresji liniowej

Pytanie 84. Co rozumiesz pod pojęciem hipotezy w treści uczenia maszynowego?

Pytanie 85. Co rozumiesz przez Recall and Precision?

Odpowiedź : Miary przypominające "Ile spośród wszystkich rzeczywistych próbek sklasyfikowaliśmy jako prawdziwe?" Precyzyjne pomiary "Spośród wszystkich próbek, które sklasyfikowaliśmy jako prawdziwe, ile z nich jest rzeczywiście prawdziwych?" Wyjaśnimy to na prostym przykładzie, aby lepiej zrozumieć - Wyobraź sobie, że twoja żona co roku w rocznicę w ciągu ostatnich 12 lat sprawiała ci niespodzianki. Pewnego dnia nagle twoja żona pyta - "Kochanie, czy pamiętasz ode mnie wszystkie niespodzianki z okazji rocznicy?". To proste pytanie zagraża Twojemu życiu. Aby je uratować, musisz przywołać z pamięci wszystkie 12-lecie niespodzianki. Zatem Recall (R) to stosunek liczby zdarzeń, które możesz poprawnie przywołać, do liczby wszystkich poprawnych zdarzeń. Jeśli potrafisz poprawnie przywołać wszystkie 12 niespodzianek, wówczas współczynnik przypominania wynosi 1 (100%), ale jeśli potrafisz poprawnie przywołać tylko 10 niespodzianek z 12, wówczas współczynnik przypomnień wynosi 0,83 (83,3%). Jednak w niektórych przypadkach możesz się mylić. Na przykład, odpowiadasz 15 razy, 10 razy niespodzianki, które Twoim zdaniem są poprawne, a 5 razy błędne. Oznacza to, że współczynnik rozpoznawalności wynosi 100%, ale precyzja wynosi 66,67%. Precyzja to stosunek liczby zdarzeń, które możesz poprawnie przywołać do liczby wszystkich przypomnień, które pamiętasz (połączenie błędnych i poprawnych odwołań).

Pytanie 86. Jak znajdziesz właściwe K dla K-średnich?

Pytanie 87. Dlaczego regularyzacje L1 powodują rzadkość parametrów, a regularyzacja L2 nie?

Odpowiedź : Regularyzacje w statystykach lub w dziedzinie uczenia maszynowego służą do uwzględnienia dodatkowych informacji w celu lepszego rozwiązania problemu. Regulacje L1 i L2 są zwykle używane w celu dodania ograniczeń do problemów optymalizacji.

W powyższym przykładzie H0 jest hipotezą. Jeśli zauważysz, w L1 istnieje duże prawdopodobieństwo trafienia w rogi jako rozwiązania, podczas gdy w L2, tak się nie dzieje. Tak więc zmienne L1 są bardziej karane w porównaniu do L2, co skutkuje rzadkością. Innymi słowy, błędy są podnoszone do kwadratu w L2, więc model widzi większy błąd i stara się zminimalizować ten kwadratowy błąd.

Pytanie 88. Jak radzić sobie z różnymi typami sezonowości w modelowaniu szeregów czasowych?

Odpowiedź : Sezonowość w szeregach czasowych występuje, gdy szeregi czasowe wykazują powtarzający się wzorzec w czasie. Np. Stacjonarne spadki sprzedaży w okresie wakacyjnym, wzrost sprzedaży klimatyzatorów w okresie letnim itp. To tylko kilka przykładów sezonowości w szeregu czasowym. Sezonowość sprawia, że szeregi czasowe są niestacjonarne, ponieważ średnia wartość parametru jest zmienna w różnych okresach czasu. Różnicowanie szeregów czasowych jest ogólnie znane jako najlepsza metoda usuwania sezonowości z szeregów czasowych. Zróżnicowanie sezonowe można zdefiniować jako liczbową różnicę między określoną wartością a wartością z okresowym opóźnieniem (tj. 12, jeśli występuje sezonowość miesięczna)

Pytanie 89. Czy w projekcie eksperymentalnym konieczne jest przeprowadzanie randomizacji? Jeśli tak, dlaczego?

Pytanie 90. Co rozumiesz przez koniugat-przed w odniesieniu do Na?ve Bayes?

Pytanie 91. Czy możesz przytoczyć przykłady, w których fałszywie pozytywny wynik jest ważny niż fałszywie negatywny?

Odpowiedź : Zanim zaczniemy, zrozummy, co to są fałszywe alarmy, a co fałszywe negatywy. Fałszywie dodatnie to przypadki, w których błędnie zaklasyfikowałeś element niebędący zdarzeniem jako zdarzenie zwane błędem typu I. A fałszywe negatywy to przypadki, w których błędnie klasyfikujesz zdarzenia jako niezdarzenia, czyli błąd typu II.

W medycynie przyjmijmy, że pacjentom trzeba podawać chemioterapię. Twoje laboratorium bada pacjentów pod kątem pewnych ważnych informacji i na podstawie tych wyników decyduje się na radioterapię. Załóżmy, że pacjent przychodzi do tego szpitala i ma pozytywny wynik testu na raka (ale nie ma raka) w oparciu o prognozy laboratoryjne. Co się z nim stanie? (Zakładając, że wrażliwość to 1) Jeszcze jeden przykład może pochodzić z marketingu. Powiedzmy, że jest to handel elektroniczny. Firma zdecydowała się przekazać kupon podarunkowy o wartości 1000 USD klientom, którzy zamierzają zakupić przedmioty o wartości co najmniej 5000 USD. Wysyłają darmową pocztę z kuponami bezpośrednio do 100 klientów bez żadnych minimalnych warunków zakupu, ponieważ zakładają, że osiągną co najmniej 20% zysku ze sprzedanych przedmiotów powyżej 5K. A co, jeśli wysłali to do fałszywie pozytywnych przypadków?

Pytanie 92. Czy możesz przytoczyć kilka przykładów, w których fałszywy negatywny jest ważny niż fałszywie pozytywny?

Odpowiedź : Załóżmy, że istnieje port lotniczy "A", który uzyskał wysoki poziom ochrony zagrożenia i na podstawie pewnych cech identyfikują, czy dany pasażer może być zagrożeniem, czy nie. Ze względu na brak personelu zdecydowali się przeskanować przewidywanego pasażera jako potencjalnego ryzyka za pomocą modelu predykcyjnego. Co się stanie, jeśli model lotniska oflaguje klienta będącego prawdziwym zagrożeniem jako niebędący zagrożeniem? Innym przykładem może być wymiar sprawiedliwości. Co się stanie, jeśli ława przysięgłych lub sędzia zdecydują o uwolnieniu przestępcy? A co by było, gdybyś odmówił poślubienia bardzo dobrej osoby w oparciu o swój model predykcyjny, a po kilku latach spotkałeś ją / jego i zdałeś sobie sprawę, że miałeś fałszywie negatywny wynik?

Pytanie 93. Czy możesz przytoczyć kilka przykładów, w których są zarówno fałszywie pozytywne, jak i fałszywie negatywy są równie ważne?

Odpowiedź : W branży bankowej udzielanie pożyczek jest głównym źródłem zarabiania pieniędzy, ale jednocześnie, jeśli stopa spłaty nie jest dobra, nie osiągniesz żadnego zysku, a raczej zaryzykujesz ogromne straty. Banki nie chcą tracić dobrych klientów, a jednocześnie nie chcą pozyskiwać złych klientów. W tym scenariuszu bardzo ważne jest mierzenie zarówno wyników fałszywie dodatnich, jak i fałszywie ujemnych. W dzisiejszych czasach słyszymy wiele przypadków graczy używających sterydów podczas zawodów sportowych. Każdy gracz musi przejść test sterydowy przed rozpoczęciem gry. Fałszywie pozytywny wynik może zrujnować karierę wielkiego sportowca, a fałszywy negatyw może uczynić grę niesprawiedliwą.

Pytanie 94. Czy możesz wyjaśnić różnicę między zestawem testowym a zestawem do walidacji?

Zbiór walidacyjny można traktować jako część zbioru uczącego, ponieważ jest używany do wyboru parametrów i uniknięcia nadmiernego dopasowania budowanego modelu. Z drugiej strony zestaw testowy służy do testowania lub oceny wydajności wytrenowanego modelu opartego na maszynach. Mówiąc prościej, różnice można podsumować jako - Zestaw treningowy ma dopasować parametry, tj. Wagi. Zestaw testowy służy do oceny wydajności modelu, tj. Oceny mocy predykcyjnej i uogólnienia. Zestaw walidacyjny służy do dostrojenia parametrów.

Pytanie 95. Co sprawia, że zbiór danych jest złotym standardem?

Pytanie 96. Co rozumiesz przez statystyczną moc czułości i jak ją obliczasz?

Odpowiedź : Czułość jest powszechnie używana do sprawdzania dokładności klasyfikatora (logistyka, SVM, RF itp.). Czułość to nic innego jak "Przewidywane PRAWDZIWE zdarzenia / Łączna liczba zdarzeń". Prawdziwe wydarzenia są tutaj wydarzeniami, które były prawdziwe, a model również przewidywał je jako prawdziwe. Obliczanie wrażliwości jest dość proste - Senstywność = Prawdziwie pozytywne / pozytywne w rzeczywistej zależnej zmiennej gdzie, prawdziwe pozytywne to zdarzenia pozytywne, które są poprawnie klasyfikowane jako pozytywne.

Pytanie 97. Jakie jest znaczenie skłonności selekcyjnej?

Odpowiedź : Błąd selekcji występuje, gdy nie osiągnięto odpowiedniej randomizacji podczas selekcji osób, grup lub danych do analizy. Błąd selekcji oznacza, że uzyskana próbka nie odzwierciedla dokładnie populacji, która była faktycznie przeznaczona do analizy. , Atrybut i przedział czasu.

Pytanie 98. Podaj sytuacje, w których będziesz używać maszyny SVM zamiast algorytmu uczenia maszynowego RandomForest i odwrotnie.

Odpowiedź : SVM i Random Forest są używane w problemach klasyfikacyjnych.

a) Jeśli jesteś pewien, że Twoje dane są wolne od wartości odstających i czyste, wybierz SVM. Wręcz przeciwnie - jeśli Twoje dane mogą zawierać wartości odstające, wówczas Random forest byłby najlepszym wyborem
b) Ogólnie SVM zużywa więcej mocy obliczeniowej niż Random Forest, więc jeśli jesteś ograniczony pamięcią, wybierz algorytm uczenia maszynowego Random Forest.
c) Random Forest daje bardzo dobre wyobrażenie o zmiennym znaczeniu w twoich danych, więc jeśli chcesz mieć zmienną ważność, wybierz algorytm uczenia maszynowego Random Forest.
d) Algorytmy uczenia maszynowego Random Forest są preferowane w przypadku problemów wieloklasowych.
e) SVM jest preferowany w wielowymiarowym zestawie problemów - jak klasyfikacja tekstu, ale jako dobry analityk danych powinieneś eksperymentować z obiema z nich i testować ich dokładność, lub raczej możesz użyć zestawu wielu technik uczenia maszynowego.

Pytanie 99. Co rozumiesz przez wektory cech?

Pytanie 100. W jaki sposób procedury zarządzania danymi, takie jak obsługa brakujących danych, pogarszają błąd selekcji?

Odpowiedź : Postępowanie z brakami wartości jest jednym z podstawowych zadań, które naukowiec danych powinien wykonać przed rozpoczęciem analizy danych. Istnieje wiele metod leczenia brakujących wartości. Jeśli nie zostanie to wykonane prawidłowo, może potencjalnie skutkować błędem selekcji. Zobaczmy kilka przykładów traktowania brakujących wartości i ich wpływ na selekcję - Pełne rozpatrywanie przypadków: pełne traktowanie przypadków polega na usunięciu całego wiersza w danych, nawet jeśli brakuje jednej wartości. Możesz osiągnąć błąd wyboru, jeśli wartości nie są przypadkowe i mają pewien wzór. Załóżmy, że przeprowadzasz ankietę i niewiele osób nie określiło swojej płci. Czy usunąłbyś tych wszystkich ludzi? Czy nie może opowiedzieć innej historii? Analiza dostępnych przypadków: Powiedzmy, że próbujesz obliczyć macierz korelacji dla danych, aby usunąć brakujące wartości ze zmiennych, które są potrzebne dla tego konkretnego współczynnika korelacji. W takim przypadku twoje wartości nie będą w pełni poprawne, ponieważ pochodzą z zestawów populacji. Podstawienie średniej: w tej metodzie brakujące wartości są zastępowane średnimi z innych dostępnych wartości, co może spowodować odchylenie rozkładu, np. Odchylenie standardowe, korelacja i regresja są w większości zależne od średniej wartości zmiennych. W związku z tym różne procedury zarządzania danymi mogą obejmować błąd wyboru w danych, jeśli nie zostaną wybrane prawidłowo.

Pytanie 101. Wyjaśnij na temat importu danych w języku R?

Odpowiedź: R Commander służy do importowania danych w języku R. Aby uruchomić GUI dowódcy R, użytkownik musi wpisać w konsoli polecenie Rcmdr. Istnieją 3 różne sposoby importowania danych w języku R - Użytkownicy mogą wybrać zestaw danych w oknie dialogowym lub wprowadzić nazwę zestawu danych (jeśli znają). Dane można również wprowadzić bezpośrednio za pomocą edytora R Commander poprzez Data-> New Data Set. Jednak działa to dobrze, gdy zestaw danych nie jest zbyt duży. Dane można również importować z adresu URL lub z pliku tekstowego (ASCII), z dowolnego innego pakietu statystycznego lub ze schowka.

Pytanie 102. W jaki sposób brakujące wartości i niemożliwe wartości są przedstawiane w języku R?

Odpowiedź: NaN (Not a Number) jest używany do reprezentowania niemożliwych wartości, podczas gdy NA (Not Available) jest używany do reprezentowania brakujących wartości. Najlepszym sposobem odpowiedzi na to pytanie byłoby wspomnieć, że usuwanie brakujących wartości nie jest dobrym pomysłem, ponieważ prawdopodobną przyczyną braku wartości może być jakiś problem z gromadzeniem danych, programowaniem lub zapytaniem. Dobrze jest znaleźć podstawową przyczynę brakujących wartości, a następnie podjąć niezbędne kroki w celu ich rozwiązania.

Pytanie 103. Język R ma kilka pakietów do rozwiązania określonego problemu. Jak podjąć decyzję, który z nich jest najlepszy w użyciu?

Odpowiedź: Ekosystem pakietów CRAN ma ponad 6000 pakietów. Najlepszym sposobem dla początkujących na odpowiedź na to pytanie jest wspomnienie, że szukaliby pakietu zgodnego z zasadami dobrego tworzenia oprogramowania. Następną rzeczą byłoby wyszukanie recenzji użytkowników i sprawdzenie, czy inni naukowcy lub analitycy danych byli w stanie rozwiązać podobny problem.

Pytanie 104. Która funkcja w języku R służy do ustalenia, czy środki 2 grup są sobie równe, czy nie?

Odpowiedź: t.tests ()

Pytanie 105. Jaki jest najlepszy sposób przekazywania wyników analizy danych w języku R?

Odpowiedź: Najlepszym możliwym sposobem na to jest połączenie danych, kodu i wyników analizy w jednym dokumencie przy użyciu narzędzia Knitr do powtarzalnych badań. Pomaga to innym zweryfikować wyniki, uzupełniać je i angażować się w dyskusje. Powtarzalne badania ułatwiają powtórzenie eksperymentów poprzez wprowadzenie nowych danych i zastosowanie ich do innego problemu.

Pytanie 106. Ile struktur danych ma język R?

Odpowiedź: Język R ma jednorodne i heterogeniczne struktury danych. Jednorodne struktury danych mają ten sam typ obiektów - wektor, macierz i tablicę. Heterogeniczne struktury danych mają różne typy obiektów - ramki danych i listy.

Pytanie 107. Jaki jest proces tworzenia tabeli w języku R bez korzystania z plików zewnętrznych?

Odpowiedź:

MyTable = data.frame ()
edit (MyTable)

Powyższy kod otworzy arkusz kalkulacyjny Excel do wprowadzania danych do MyTable. Naucz się Data Science w R Programming, aby zdobyć czołową pozycję jako Enterprise Data Scientist!

Pytanie 108. Wyjaśnij znaczenie transpozycji w języku R?

Odpowiedź: Transpose t () jest najłatwiejszą metodą przekształcenia danych przed analizą.

Pytanie 109. Do czego służą funkcje () i By ()?

Odpowiedź: Funkcja With () służy do stosowania wyrażenia dla danego zbioru danych, a funkcja BY () służy do stosowania funkcji na każdym poziomie czynników.

Pytanie 110. Pakiet Dplyr jest używany do przyspieszenia kodu zarządzania ramkami danych. Który pakiet można zintegrować z Dplyr do dużych, szybkich tablic?

Odpowiedź: data.table

Pytanie 111. W podstawowym systemie graficznym, która funkcja służy do dodawania elementów do wykresu?

Odpowiedź: boxplot () lub text ()

Pytanie 112. Jakie są różne typy algorytmów sortowania dostępnych w języku R?

Odpowiedź:

Sortowanie w wiadrze
Sortowanie przez wybór
Szybkie sortowanie
Sortowanie bąbelkowe
Sortuj przez scalanie

Pytanie 113. Jakie polecenie służy do przechowywania obiektów R w pliku?

Odpowiedź: zapisz (x, plik = "x.Rdata")

Pytanie 114. Jaki jest najlepszy sposób wspólnego wykorzystania Hadoop i R do analizy?

Odpowiedź: HDFS może służyć do długoterminowego przechowywania danych. Zadania MapReduce przesłane z Oozie, Pig lub Hive mogą być używane do kodowania, ulepszania i próbkowania zestawów danych z HDFS do R. Pomaga to wykorzystać złożone zadania analityczne na podzbiorze danych przygotowanych w R.

Pytanie 115. Jaki będzie wynik dziennika (-5,8) po wykonaniu na konsoli R?

Odpowiedź: Wykonanie powyższego na konsoli R spowoduje wyświetlenie znaku ostrzegawczego, że zostanie wygenerowany NaN (Not a Number), ponieważ nie jest możliwe wykonanie dziennika liczby ujemnej.

Pytanie 116. W jaki sposób obiekt danych jest wewnętrznie reprezentowany w języku R?

Odpowiedź: unclass (as Date ("2016-10-05 ?"))

Pytanie 117. Który pakiet w R obsługuje eksploracyjną analizę danych genomowych?

Odpowiedź: Adegenet.

Pytanie 118. Jaka jest różnica między ramką danych a macierzą w języku R?

Odpowiedź: Ramka danych może zawierać heterogeniczne dane wejściowe, podczas gdy macierz nie może. W macierzy mogą być przechowywane tylko podobne typy danych, podczas gdy w ramce danych mogą być różne typy danych, takie jak znaki, liczby całkowite lub inne ramki danych.

Pytanie 119. Jak dodać zbiory danych do języka R?

Odpowiedź: można użyć funkcji rbind () dodawania zestawów danych w języku R pod warunkiem, że kolumny w zestawach danych powinny być takie same.

Pytanie 120. Jakie są zmienne czynnikowe w języku R?

Odpowiedź: Zmienne czynnikowe to zmienne kategorialne, które przechowują wartości łańcuchowe lub liczbowe. Zmienne czynnikowe są używane w różnych typach grafik, a zwłaszcza w modelowaniu statystycznym, gdzie przypisana jest im odpowiednia liczba stopni swobody.

Pytanie 121. Jaki jest limit pamięci w R?

Odpowiedź: 8 TB to limit pamięci dla 64-bitowej pamięci systemowej, a 3 GB to limit dla 32-bitowej pamięci systemowej.

122. Jakie są typy danych w R, na których operatory binarne można zastosować?

Odpowiedź: Skalary, macierze reklamowe wektory.

Pytanie 123. Jak tworzyć modele liniowe dziennika w języku R?

Odpowiedź: Użycie funkcji loglm ()

Pytanie 124. Jaka będzie klasa otrzymanego wektora, jeśli połączysz liczbę i Na?

Odpowiedź: numer

Pytanie 125. Co oznacza K-najbliższego sąsiada?

Odpowiedź: K-Nearest Neighbor to jeden z najprostszych algorytmów klasyfikacyjnych uczenia maszynowego, który jest podzbiorem nadzorowanego uczenia się opartego na leniwym uczeniu się. W tym algorytmie funkcja jest aproksymowana lokalnie, a wszelkie obliczenia są odkładane do klasyfikacji.

Pytanie 126. Jaka będzie klasa otrzymanego wektora, jeśli łączysz liczby i znaki?

Odpowiedź: znak

Pytanie 127. Jeśli chcesz poznać wszystkie wartości w C (1, 3, 5, 7, 10), których nie ma w C (1, 5, 10, 12, 14). Której funkcji wbudowanej w R można użyć do tego? Ponadto, jak można to osiągnąć bez użycia wbudowanej funkcji?

Odpowiedź: Korzystanie z funkcji wbudowanej - setdiff (c (1, 3, 5, 7, 10), c (1, 5, 10, 11, 13)) Bez użycia funkcji wbudowanej - c (1, 3, 5 , 7, 10) [! c (1, 3, 5, 7, 10)% w% c (1, 5, 10, 11, 13).

Pytanie 128. Jak debugować i przetestować kod programowania R?

Odpowiedź: Kod R można przetestować za pomocą pakietu testowego Hadleya.

Pytanie 129. Jaka będzie klasa otrzymanego wektora, jeśli połączysz liczbę i logikę?

Odpowiedź: Liczba.

Pytanie 130. Napisz funkcję w języku R, aby zastąpić brakującą wartość w wektorze średnią tego wektora?

Odpowiedź: średnia impute <- function (x) {x [is.na (x)] <- mean (x, na.rm = TRUE); x}

Pytanie 131. Co się stanie, jeśli obiekt aplikacji nie będzie w stanie obsłużyć zdarzenia?

Odpowiedź: Zdarzenie jest wysyłane do delegata w celu przetworzenia.

Pytanie 132. Rozróżnić Lapply i Sapply?

Odpowiedź: Jeśli programiści chcą, aby wyjście było ramką danych lub wektorem, wówczas używana jest funkcja sapply, podczas gdy jeśli programista chce, aby wyjście było listą, używana jest lapply. Jest jeszcze jedna funkcja znana jako vapply, która jest preferowana w stosunku do sapply, ponieważ vapply pozwala programiście określić typ wyjścia. Wadą korzystania z vapply jest to, że jest trudny do zaimplementowania i bardziej szczegółowy.

Pytanie 133. Rozróżnić Seq (6) i Seq_along (6)?

Odpowiedź: Seq_along (6) wyprodukuje wektor o długości 6, podczas gdy seq (6) da sekwencyjny wektor od 1 do 6 c ((1,2,3,4,5,6)).

Pytanie 134. Jak będziesz czytać plik .csv w języku R?

Odpowiedź: funkcja read.csv () służy do odczytu pliku .csv w języku R.

Poniżej znajduje się prosty przykład -

filcontent
print (zawartość pliku)

Pytanie 135. Jak pisać polecenia R?

Odpowiedź: Linia kodu w języku R powinna zaczynać się od symbolu krzyżyka (#).

Pytanie 136. Jak sprawdzić, czy dany obiekt "x" jest matrycznym obiektem danych?

Odpowiedź: Jeśli wywołanie funkcji is.matrix (X) zwraca TRUE, to X można określić jako obiekt danych macierzy.

Pytanie 137. Co rozumiesz pod pojęciem recyklingu pierwiastków w R?

Odpowiedź: Jeśli dwa wektory o różnych długościach wykonują operację - elementy krótszego wektora zostaną ponownie wykorzystane do zakończenia operacji. Nazywa się to recyklingiem pierwiastków.

Przykład - Wektor A <-c (1,2,0,4) i Wektor B <- (3,6), wtedy wynikiem A * B będzie (3,12,0,24). Tutaj 3 i 6 wektora B są powtarzane podczas obliczania wyniku.

Pytanie 138. Jak sprawdzić, czy dany obiekt "x" jest obiektem danych macierzy?

Odpowiedź: Jeśli wywołanie funkcji is.matrix (X) zwraca prawdę, to X można uznać za obiekt danych macierzy, w przeciwnym razie.

Pytanie 139. Jak zmierzysz prawdopodobieństwo wystąpienia zmiennej odpowiedzi binarnej w języku R

Odpowiedź: W tym celu można użyć regresji logistycznej, a funkcja glm () w języku R zapewnia taką funkcjonalność.

Pytanie 140. Jakie jest zastosowanie funkcji próbkowania i podzbioru w języku programowania R?

Odpowiedź: Funkcji Sample () można użyć do wybrania losowej próbki o rozmiarze "n" z ogromnego zbioru danych. Funkcja Subset () służy do wybierania zmiennych i obserwacji z danego zbioru danych.

Pytanie 141. Jak można ponownie próbkować testy statystyczne w języku R?

Odpowiedź: Pakiet monet w R zapewnia różne opcje ponownej randomizacji i permutacji w oparciu o testy statystyczne. Jeśli nie można spełnić założeń testowych, pakiet ten stanowi najlepszą alternatywę dla metod klasycznych, ponieważ nie zakłada losowego pobierania próbek z dobrze zdefiniowanych populacji.

Pytanie 142. Jaki jest cel użycia następnej instrukcji w języku R?

Odpowiedź: Jeśli programista chce pominąć bieżącą iterację pętli w kodzie bez jej przerywania, może użyć następnej instrukcji. Za każdym razem, gdy parser R napotka następną instrukcję w kodzie, pomija dalsze przetwarzanie pętli i przeskakuje do następnej iteracji pętli.

Pytanie 143. Jak utworzysz macierze wykresów punktowych w języku R?

Odpowiedź: Macierz wykresów punktowych można utworzyć przy użyciu par. Funkcja par przyjmuje różne parametry, takie jak formuła, dane, podzbiór, etykiety itp. Dwa kluczowe parametry wymagane do zbudowania macierzy wykresów punktowych to - wzór - wzór w zasadzie podobny do ~ a + b + c. Każdy termin daje osobną zmienną na wykresach par, gdzie wyrazy powinny być wektorami numerycznymi. Zasadniczo reprezentuje szereg zmiennych używanych w parach. dane - w zasadzie reprezentuje zbiór danych, z którego muszą zostać pobrane zmienne do zbudowania wykresu rozrzutu.

Pytanie 144. Jak sprawdzisz, czy element 25 jest obecny w wektorze?

Odpowiedź: Można to zrobić na różne sposoby-
Można to zrobić za pomocą funkcji match (), funkcja match () zwraca pierwszy wygląd określonego elementu.
Drugim jest użycie% w%, które zwraca wartość logiczną true lub fałszywe.
Funkcja Is.element () zwraca również wartość logiczną true lub false w zależności od tego, czy jest obecna w wektorze, czy nie.

Pytanie 145. Jaka jest różnica między funkcjami Library() a Require() w języku R? Odpowiedź: Nie ma prawdziwej różnicy między nimi, jeśli pakiety nie są ładowane wewnątrz funkcji. Funkcja require () jest zwykle używana wewnątrz funkcji i generuje ostrzeżenie za każdym razem, gdy nie zostanie znaleziony określony pakiet. Z drugiej strony funkcja library () wyświetla komunikat o błędzie, jeśli nie można załadować żądanego pakietu.

Pytanie 146. Jakie są zasady definiowania nazwy zmiennej w języku programowania R?

Odpowiedź: Nazwa zmiennej w języku programowania R może zawierać cyfry i litery oraz znaki specjalne, takie jak kropka (.) I podkreślenie (-). Nazwy zmiennych w języku R mogą zaczynać się od alfabetu lub kropki. Jeśli jednak nazwa zmiennej zaczyna się od symbolu kropki, nie należy poprzedzać litery a, po której następuje cyfra.

Pytanie 147. Co rozumiesz pod pojęciem obszaru roboczego w języku programowania R?

Odpowiedź: Bieżące środowisko robocze R użytkownika, który ma zdefiniowane przez użytkownika obiekty, takie jak listy, wektory itp., Jest określane jako obszar roboczy w języku R.

Pytanie 148. Która funkcja pomaga w sortowaniu w języku R?

Odpowiedź: order()

Pytanie 149. W jaki sposób sporządzisz listę wszystkich zestawów danych dostępnych we wszystkich pakietach R?

Odpowiedź: Używając poniższego wiersza kodu
data (pakiet = .packages (all.available = TRUE))

Pytanie 150. Która funkcja jest używana do tworzenia wizualizacji histogramu w języku programowania R?

Odpowiedź: hist()

Pytanie 151. Napisz składnię, aby ustawić ścieżkę do bieżącego katalogu roboczego w środowisku R?

Odpowiedź: Setwd ("dir_path")

Pytanie 152. Jaki będzie wynik Runif (7)?

Odpowiedź: Wygeneruje 7 liczb losowych od 0 do 1.

Pytanie 153. Jaka jest różnica między funkcjami Rnorm i Runif?

Odpowiedź: funkcja rnorm generuje "n" normalnych liczb losowych na podstawie argumentów średniej i odchylenia standardowego przekazanych do funkcji.

Składnia funkcji rnorm -
rnorm (n, średnia =, sd =)
Funkcja runif generuje "n" unformowanych liczb losowych w przedziale wartości minimalnych i maksymalnych przekazywanych do funkcji.
Składnia funkcji Runif -
runif (n, min =, max =)

Pytanie 154. Jaki będzie wynik po wykonaniu następującego kodu programowania R?

Odpowiedź: mat <-matrix (rep (c (TRUE, FALSE), 8), nrow = 4)

sum(mat)
8

Pytanie 155. Jak połączysz wiele różnych ciągów, takich jak "data", "nauka", "in", "r", "programowanie" jako pojedynczy ciąg "data_science_in_r_programmming"?

Odpowiedź: wklej ("Dane", "Nauka", "w", "R", "Programowanie", sep = "_")

Pytanie 156. Napisz funkcję wyodrębniającą imię z ciągu "mr.Tom White"?

Odpowiedź: substr ("Pan Tom White", start = 5, stop = 7)

Pytanie 157. Czy możesz stwierdzić, czy podane poniżej równanie jest liniowe, czy nie?

Odpowiedź: Emp_sal = 2000 + 2,5 (emp_age) 2
Tak, jest to równanie liniowe, ponieważ współczynniki są liniowe.

Pytanie 158. Co to jest pakiet podstawowy R?

Odpowiedź: Pakiet podstawowy R to pakiet, który jest ładowany domyślnie za każdym razem, gdy ładowane jest środowisko programowania R. Pakiet podstawowy R zapewnia podstawowe funkcje w środowisku R, takie jak obliczenia arytmetyczne, wejście / wyjście.

Pytanie 159. Jak scalisz dwie ramki danych w języku programowania R?

Odpowiedź: Funkcja Merge () służy do łączenia dwóch ramek danych i identyfikuje wspólne wiersze lub kolumny między dwoma ramkami danych. Funkcja Merge () w zasadzie znajduje przecięcie między dwoma różnymi zestawami danych. Funkcja Merge () w języku R pobiera długą listę argumentów w następujący sposób -
Składnia do używania funkcji Merge w języku R -
merge (x, y, by.x, by.y, all.x lub all.y lub all)
X reprezentuje pierwszą ramkę danych.
Y reprezentuje drugą ramkę danych.
by.X - nazwa zmiennej w ramce danych X, często występująca w Y.
by.Y - nazwa zmiennej w ramce danych Y, która jest powszechna w X.
all.x - Jest to wartość logiczna określająca typ scalenia. all.X powinno mieć wartość true, jeśli chcemy uzyskać wszystkie obserwacje z ramki danych X. Powoduje to Left Join.
all.y - jest to wartość logiczna określająca typ scalenia. all.y powinno mieć wartość true, jeśli chcemy, aby wszystkie obserwacje z ramki danych Y. Skutkuje to Prawym połączeniem.
all - domyślną wartością jest FALSE, co oznacza, że zwracane są tylko pasujące wiersze, co skutkuje złączeniem wewnętrznym. Powinno to być ustawione na true, jeśli chcesz, aby wszystkie obserwacje z ramek danych X i Y skutkowały złączeniem zewnętrznym.

Pytanie 160. Jaki będzie wynik pomnożenia dwóch wektorów w R o różnych długościach?

Odpowiedź: Mnożenie dwóch wektorów zostanie wykonane, a na wyjściu zostanie wyświetlony komunikat ostrzegawczy, taki jak - "Dłuższa długość obiektu nie jest wielokrotnością mniejszej długości obiektu". Załóżmy, że istnieje wektor a <-c (1, 2, 3) i wektor b <- (2, 3), a następnie mnożenie wektorów a * b da wynik jako 2 6 6 z komunikatem ostrzegawczym. Mnożenie jest wykonywane sekwencyjnie, ale ponieważ długość nie jest taka sama, pierwszy element mniejszego wektora b zostanie pomnożony przez ostatni element większego wektora a.

Pytanie 161. Język programowania R ma kilka pakietów do nauki o danych, które mają na celu rozwiązanie konkretnego problemu. Jak zdecydować, którego użyć?

Odpowiedź: Repozytorium pakietów CRAN w R ma ponad 6000 pakietów, więc analityk danych musi postępować zgodnie z dobrze zdefiniowanym procesem i kryteriami, aby wybrać właściwy dla określonego zadania. Szukając pakietu w repozytorium CRAN, analityk danych powinien wymienić wszystkie wymagania i problemy, aby idealny pakiet R mógł zaspokoić wszystkie te potrzeby i problemy. Najlepszym sposobem odpowiedzi na to pytanie jest poszukanie pakietu R, który jest zgodny z dobrymi zasadami i praktykami tworzenia oprogramowania. Na przykład możesz chcieć przyjrzeć się dokumentacji dotyczącej jakości i testom jednostkowym. Następnym krokiem jest sprawdzenie, w jaki sposób używany jest konkretny pakiet R i przeczytanie recenzji opublikowanych przez innych użytkowników pakietu R. Ważne jest, aby wiedzieć, czy inni naukowcy lub analitycy danych byli w stanie rozwiązać podobny problem jak twój. Gdy masz wątpliwości co do wyboru konkretnego pakietu R, zawsze proszę o opinię członków społeczności R lub innych współpracowników, aby upewnić się, że dokonuję właściwego wyboru.

Pytanie 162. Jak połączyć dwie ramki danych w języku R?

Odpowiedź: Ramki danych w języku R można łączyć ręcznie za pomocą funkcji cbind () lub funkcji merge () we wspólnych wierszach lub kolumnach.

Pytanie 163. Wyjaśnij użycie funkcji which() w języku R?

Odpowiedź: która funkcja () określa położenie elementów w wektorze logicznym, które są PRAWDZIWE. W poniższym przykładzie znajdujemy numer wiersza, w którym zapisana jest maksymalna wartość zmiennej v1.

mydata = data.frame (v1 = c (2,4,12,3,6))
which (mydata $ v1 == max (mydata $ v1))

Zwraca 3, ponieważ 12 to wartość maksymalna i znajduje się w trzecim wierszu zmiennej x = v1.

Pytanie 164. Jak przekonwertować zmienną czynnikową na liczbową w języku R?
Odpowiedź: Zmienna czynnik może zostać przekonwertowana na numeryczną za pomocą funkcji as.numeric () w języku R. Jednak zmienna musi najpierw zostać przekonwertowana na znak, zanim zostanie przekonwertowana na numeryczną, ponieważ funkcja as.numeric () w R nie zwraca oryginalnych wartości, ale zwraca wektor poziomów zmiennej czynnika.

X <- współczynnik (c (4, 5, 6, 6, 4))
X1 = as.numeric (as.character (X))

Pytanie 165. Jaka jest różnica między uczeniem maszynowym nadzorowanym i nienadzorowanym?

Odpowiedź :Nadzorowane uczenie maszynowe:
Nadzorowane uczenie maszynowe wymaga szkolenia oznaczonych danych.
Uczenie maszynowe bez nadzoru:
Uczenie maszynowe bez nadzoru nie wymaga oznaczonych danych.

Pytanie 166. Co to jest odchylenie, kompromis wariancji?

Odpowiedź :Odchylenie: "Odchylenie to błąd wprowadzony do modelu z powodu nadmiernego uproszczenia algorytmu uczenia maszynowego". Może to prowadzić do niedopasowania. Kiedy trenujesz swój model w tym czasie, model przyjmuje uproszczone założenia, aby ułatwić zrozumienie funkcji docelowej. Algorytmy uczenia maszynowego z niskim odchyleniem - Drzewa decyzyjne, algorytmy uczenia maszynowego k-NN i SVM Hight bias - regresja Lieara, regresja logistyczna

Wariancja: "Wariancja to błąd wprowadzony do modelu z powodu złożonego algorytmu uczenia maszynowego, model uczy się szumu również z zestawu danych szkoleniowych i działa źle na zestawie danych testowych" Może to prowadzić do wysokiej wrażliwości i nadmiernego dopasowania. Zwykle, gdy zwiększasz złożoność modelu, zobaczysz zmniejszenie błędu z powodu mniejszego odchylenia w modelu. Jednak dzieje się to tylko do określonego momentu. W miarę dalszego tworzenia bardziej złożonego modelu kończy się nadmiernym dopasowaniem modelu, przez co model zacznie cierpieć z powodu dużej wariancji.

Odchylenie, kompromis wariancji:

Celem każdego nadzorowanego algorytmu uczenia maszynowego jest posiadanie niskiego odchylenia i małej wariancji, aby uzyskać dobrą wydajność przewidywania.

1. Algorytm k-najbliższych sąsiadów ma niskie odchylenie i dużą wariancję, ale kompromis można zmienić, zwiększając wartość k, co zwiększa liczbę sąsiadów biorących udział w prognozowaniu, a z kolei zwiększa odchylenie modelu.
2. Algorytm maszyny wektorów nośnych ma niskie odchylenie i dużą wariancję, ale kompromis można zmienić, zwiększając parametr C, który wpływa na liczbę naruszeń marginesu dozwolonego w danych uczących, co zwiększa odchylenie, ale zmniejsza wariancję. Nie da się uciec od związku między uprzedzeniem a wariancją w uczeniu maszynowym. Zwiększenie odchylenia zmniejszy wariancję. Zwiększenie wariancji zmniejszy odchylenie.

Pytanie 167. Co to jest eksplodujące gradienty?

Odpowiedź : "Eksplodujące gradienty to problem, w którym duże gradienty błędów kumulują się i powodują bardzo duże aktualizacje wag modelu sieci neuronowej podczas uczenia". W skrajnych przypadkach wartości wag mogą stać się tak duże, że mogą się przepełnić i skutkować wartościami NaN. W rezultacie model jest niestabilny i nie może uczyć się na podstawie danych treningowych. Teraz zrozumiemy, czym jest gradient.

Gradient: Gradient to kierunek i wielkość obliczona podczas uczenia sieci neuronowej, która jest używana do aktualizacji wag sieci we właściwym kierunku i o odpowiednią wielkość.

Pytanie 168. Co to jest macierz pomyłki?

Odpowiedź : Macierz zamieszania to tabela 2X2 zawierająca 4 wyjścia dostarczane przez klasyfikator binarny. Na jego podstawie wyprowadzane są różne miary, takie jak współczynnik błędów, dokładność, swoistość, czułość, precyzja i dokładność. Macierz zamieszania

Zbiór danych używany do oceny wydajności nazywany jest testowym zestawem danych. Powinien zawierać prawidłowe etykiety i przewidywane etykiety.

Przewidywane etykiety będą dokładnie takie same, jeśli wydajność klasyfikatora binarnego będzie doskonała.

Przewidywane etykiety zwykle pasują do części zaobserwowanych etykiet w rzeczywistych scenariuszach.

Klasyfikator binarny przewiduje, że wszystkie wystąpienia danych testowego zestawu danych są dodatnie lub ujemne. Daje to cztery wyniki:

1. Prawdziwie pozytywne (TP) - Prawidłowa pozytywna prognoza
2. Fałszywie dodatni (FP) - niepoprawne pozytywne przewidywanie
3. Prawdziwie ujemne (TN) - Prawidłowe przewidywanie negatywne
4. Fałszywie negatywny (FN) - nieprawidłowa negatywna prognoza

Podstawowe miary wyprowadzone z macierzy nieporozumień
1. Współczynnik błędu = (FP + FN) / (P + N)
2. Dokładność = (TP + TN) / (P + N)
3. Czułość (przywołanie lub prawdziwie dodatnia szybkość) = TP / P
4. Specyficzność (prawdziwie ujemny współczynnik) = TN / N
5. Precyzja (dodatnia wartość przewidywana) = TP / (TP + FP)
6. F-Score (średnia harmoniczna precyzji i zapamiętania) = (1 + b)
(PREC.REC) / (b ^ 2PREC + REC), gdzie b jest zwykle 0,5, 1, 2.

Pytanie 169. Wyjaśnij, jak działa krzywa ROC?

Odpowiedź : Krzywa ROC jest graficzną reprezentacją kontrastu między wskaźnikami prawdziwie dodatnimi i fałszywie dodatnimi przy różnych progach. Jest często używany jako wskaźnik zastępczy dla kompromisu między czułością (wskaźnikiem prawdziwie dodatnich) a odsetkiem fałszywie dodatnich.

Pytanie 170. Co to jest odchylenie selekcji?

Odpowiedź : Błąd selekcji występuje, gdy uzyskana próbka nie jest reprezentatywna dla populacji, która ma być analizowana.

Pytanie 171. Wyjaśnij szczegółowo algorytm uczenia maszynowego SVM.

Odpowiedź : SVM oznacza maszynę wektorów wsparcia, jest to nadzorowany algorytm uczenia maszynowego, który może być używany zarówno do regresji, jak i klasyfikacji. Jeśli masz n funkcji w swoim zbiorze danych szkoleniowych, SVM próbuje wykreślić to w przestrzeni n-wymiarowej, przy czym wartość każdej cechy jest wartością określonej współrzędnej. SVM używa hiperpłaszczyzn do oddzielenia różnych klas w oparciu o dostarczoną funkcję jądra.

Pytanie 171. Co to są wektory pomocnicze w SVM.

Odpowiedź : Na powyższym diagramie widzimy, że cieńsze linie oznaczają odległość od klasyfikatora do najbliższych punktów danych zwanych wektorami pomocniczymi (zaciemnione punkty danych). Odległość między dwiema cienkimi liniami nazywana jest marginesem.

Pytanie 172. Jakie są różne funkcje jądra w SVM?

Odpowiedź : W SVM są cztery typy jąder.

1. Jądro liniowe
2. Jądro wielomianowe
3. Jądro bazowe radialne
4. Jądro sygmoidalne

Pytanie 173. Wyjaśnij szczegółowo algorytm drzewa decyzyjnego.

Odpowiedź : Drzewo decyzyjne to nadzorowany algorytm uczenia maszynowego używany głównie do regresji i klasyfikacji, który dzieli zbiór danych na coraz mniejsze podzbiory, jednocześnie przyrostowo rozwijane jest powiązane drzewo decyzyjne. Końcowym wynikiem jest drzewo z węzłami decyzyjnymi i liśćmi. Drzewo decyzyjne może obsługiwać zarówno dane jakościowe, jak i liczbowe.

Pytanie 174. Czym jest entropia i zysk informacyjny w algorytmie drzewa decyzyjnego?

Odpowiedź : Podstawowy algorytm budowania drzewa decyzyjnego nosi nazwę ID3. ID3 używa Enteropy i Information Gain do konstruowania drzewa decyzyjnego.
Entropia
Drzewo decyzyjne jest budowane odgórnie z węzła głównego i obejmuje podział danych na jednorodne podzbiory. ID3 używa enteropii do sprawdzenia jednorodności próbki. Jeśli próbka jest całkowicie jednorodna, to entropia wynosi zero, a jeśli próbka jest równo podzielona, ma entropię równą jeden.

Zdobywanie informacji
Zysk informacji jest oparty na spadku entropii po podziale zbioru danych na atrybut. Konstruowanie drzewa decyzyjnego polega na znalezieniu atrybutów, które dają największy zysk z informacji.

Pytanie 174. Co to jest przycinanie w drzewie decyzyjnym?

Odpowiedź : Kiedy usuwamy pod-węzły węzła decyzyjnego, ten proces nazywa się przycinaniem lub odwrotnym procesem dzielenia.

Pytanie 175. Co to jest nauka zespołowa?

Odpowiedź :Ensemble to sztuka łączenia różnych grup uczniów (modele indywidualne) w celu improwizacji na temat stabilności i predykcyjnej mocy modelu. Nauka zespołowa ma wiele typów, ale poniżej wymieniono dwie bardziej popularne techniki uczenia się zespołowego.

Pakowanie

Pakowanie próbuje zaimplementować podobnych uczniów na małych próbkach populacji, a następnie przyjmuje średnią ze wszystkich prognoz. W uogólnionym gromadzeniu danych można wykorzystać różnych uczniów w różnych populacjach. Jak można się spodziewać, pomaga nam to zmniejszyć błąd wariancji.

Wzmocnienie

Wzmocnienie to technika iteracyjna, która dostosowuje wagę obserwacji na podstawie ostatniej klasyfikacji. Jeśli obserwacja została niepoprawnie sklasyfikowana, próbuje zwiększyć wagę tej obserwacji i odwrotnie. Zwiększanie generalnie zmniejsza błąd odchylenia i buduje silne modele predykcyjne. Jednak mogą one nadmiernie dopasować się do danych szkoleniowych.

Pytanie 176. Co to jest losowy las? Jak to działa ?

Odpowiedź : Random forest to wszechstronna metoda uczenia maszynowego, która może wykonywać zarówno zadania regresji, jak i klasyfikacji. Służy również do redukcji wymiarowości, traktuje wartości brakujące, wartości odstające. Jest to rodzaj metody uczenia się zespołowego, w której grupa słabych modeli łączy się, tworząc potężny model. W Random Forest hodujemy wiele drzew, a nie jedno drzewo. Aby sklasyfikować nowy obiekt na podstawie atrybutów, każde drzewo podaje klasyfikację. Las wybiera klasyfikację, która ma najwięcej głosów (ze wszystkich drzew w lesie), aw przypadku regresji przyjmuje średnią wyników z różnych drzew.

Pytanie 177. Jakiej techniki walidacji krzyżowej użyłbyś na zestawie danych szeregów czasowych?

Zamiast korzystać z k-krotnego sprawdzania poprawności krzyżowej, należy mieć świadomość, że szereg czasowy nie jest danymi rozłożonymi losowo - jest z natury uporządkowany w porządku chronologicznym. W przypadku danych szeregów czasowych powinieneś użyć technik takich jak łączenie w przód - w przypadku gdy będziesz modelować na danych z przeszłości, a następnie spójrz na dane skierowane do przodu.

krotnie 1: szkolenie [1], test [2]
krotnie 1: szkolenie [1 2], test [3]
krotnie 1: szkolenie [1 2 3], test [4]
krotnie 1: szkolenie [1 2 3 4], test [5]

Pytanie 178. Co to jest regresja logistyczna? Lub Podaj przykład, kiedy ostatnio korzystałeś z regresji logistycznej.

Regresja logistyczna, często nazywana modelem logitowym, jest techniką przewidywania wyniku binarnego na podstawie liniowej kombinacji zmiennych predykcyjnych. Na przykład, jeśli chcesz przewidzieć, czy dany przywódca polityczny wygra wybory, czy nie. W tym przypadku wynik prognozy jest binarny, tj. 0 lub 1 (wygrana / przegrana). Zmiennymi predykcyjnymi w tym przypadku byłaby kwota pieniędzy wydana na kampanię wyborczą określonego kandydata, ilość czasu spędzonego na kampanii itp.

179. Co rozumiesz przez termin "rozkład normalny"?

Odpowiedź : Dane są zwykle dystrybuowane na różne sposoby, z odchyleniem w lewo lub w prawo, lub też mogą być pomieszane. Istnieją jednak szanse, że dane są rozproszone wokół wartości centralnej bez żadnego odchylenia w lewo lub w prawo i osiągną rozkład normalny w postaci krzywej w kształcie dzwonu. Zmienne losowe są rozłożone w postaci symetrycznej krzywej w kształcie dzwonu.

Pytanie 180. Co to jest transformacja Boxa Coxa?

Zmienna zależna do analizy regresji może nie spełniać jednego lub więcej założeń zwykłej regresji metodą najmniejszych kwadratów. Reszty mogą się zakrzywiać w miarę wzrostu prognozy lub podążać za skośnym rozkładem. W takich scenariuszach konieczne jest przekształcenie zmiennej odpowiedzi, tak aby dane spełniały wymagane założenia. Transformacja Boxa Coxa jest techniką statystyczną służącą do przekształcania nienormalnych zmiennych zależnych w normalny kształt. Jeśli podane dane nie są normalne, większość technik statystycznych zakłada normalność. Zastosowanie transformacji Box Coxa oznacza, że można uruchomić większą liczbę testów.

Transformacja Boxa Coxa to sposób na przekształcenie nienormalnych zmiennych zależnych w normalny kształt. Normalność jest ważnym założeniem dla wielu technik statystycznych, jeśli twoje dane nie są normalne, zastosowanie Box-Cox oznacza, że jesteś w stanie przeprowadzić większą liczbę testów. Transformacja Box Cox została nazwana na cześć statystyk George′a Boxa i Sir Davida Roxbee Coxa, którzy współpracowali przy artykule z 1964 roku i opracowali technikę.

Pytanie 181. Jak zdefiniujesz liczbę klastrów w algorytmie grupowania?

Chociaż algorytm grupowania nie został określony, to pytanie będzie najczęściej zadawane w odniesieniu do grupowania metodą K-średnich, gdzie "K" określa liczbę klastrów. Na przykład poniższy obraz przedstawia trzy różne grupy.

W ramach sumy kwadratów jest zwykle używany do wyjaśnienia jednorodności w klastrze. Jeśli wykreślisz WSS dla zakresu liczby klastrów, otrzymasz wykres pokazany poniżej. Wykres jest ogólnie znany jako krzywa łokcia.

Czerwony zakreślony punkt na powyższym wykresie, tj. Liczba klastrów = 6 to punkt, po którym nie widać żadnego ubytku w WSS. Ten punkt jest znany jako punkt zgięcia i jest przyjmowany jako K w K - średnie.Jest to szeroko stosowane podejście, ale niewielu naukowców zajmujących się danymi stosuje również hierarchiczne grupowanie jako pierwsze, aby utworzyć dendogramy i zidentyfikować stamtąd różne grupy.

Pytanie 182. Co to jest uczenie głębokie?

Odpowiedź :Uczenie głębokie to poddziedzina uczenia maszynowego inspirowana strukturą i funkcją mózgu, nazywana sztuczną siecią neuronową. Mamy wiele algorytmów w ramach uczenia maszynowego, takich jak regresja liniowa, SVM, sieci neuronowe itp., A głębokie uczenie się jest tylko rozszerzeniem sieci neuronowych. W sieciach neuronowych rozważamy niewielką liczbę ukrytych warstw, ale jeśli chodzi o algorytmy głębokiego uczenia, bierzemy pod uwagę ogromną liczbę ukrytych latyrów, aby lepiej zrozumieć zależność wejścia-wyjścia.

Pytanie 183. Co to są rekurencyjne sieci neuronowe (RNN)?

Sieci rekurencyjne to rodzaj sztucznych sieci neuronowych zaprojektowanych do rozpoznawania wzorców z sekwencji danych, takich jak szeregi czasowe, agencja giełdowa i rządowa itp. Aby zrozumieć sieci powtarzające się, należy najpierw zrozumieć podstawy sieci z wyprzedzeniem. Obie te sieci RNN i z wyprzedzeniem nazwane tak od sposobu, w jaki przekazują informacje za pomocą szeregu matematycznych operacji wykonywanyh w węzłach sieci. Jeden przekazuje informacje prosto (nigdy nie dotykając dwukrotnie tego samego węzła), podczas gdy drugi cyklicznie przechodzi przez pętlę, a ten drugi nazywa się cyklicznym.

Z drugiej strony powtarzające się sieci biorą za swój wkład nie tylko bieżący przykład danych wejściowych, które widzą, ale także to, co dostrzegły wcześniej w czasie. BTSXPE na dole rysunku reprezentuje przykład wejścia w bieżącym momencie, a CONTEXT UNIT reprezentuje wyjście z poprzedniego momentu. Decyzja, jaką powtarzająca się sieć neuronowa osiągnęła w czasie t-1, wpływa na decyzję, że osiągnie ona chwilę później w czasie t. Tak więc powtarzające się sieci mają dwa źródła danych wejściowych, teraźniejszość i niedawną przeszłość, które razem określają sposób, w jaki reagują na nowe dane, podobnie jak robimy to w życiu. Wygenerowany przez nich błąd powróci za pośrednictwem wstecznej propagacji i zostanie użyty do dostosowania ich wag, dopóki błąd nie będzie już mniejszy. Pamiętaj, że celem sieci rekurencyjnych jest dokładne sklasyfikowanie sekwencyjnych danych wejściowych. Aby to zrobić, polegamy na wstecznej propagacji błędu i spadku gradientu. Propagacja wsteczna w sieciach ze sprzężeniem zwrotnym przenosi się wstecz od błędu końcowego przez dane wyjściowe, wagi i dane wejściowe każdej ukrytej warstwy, przypisując tym wagom odpowiedzialność za część błędu poprzez obliczenie ich pochodnych cząstkowych - ?E / ?w lub relacji między ich współczynnikami zmian. Te pochodne są następnie używane przez naszą regułę uczenia się, opadanie gradientu, aby wyregulować wagi w górę lub w dół, w zależności od tego, który kierunek zmniejsza błąd. Sieci rekurencyjne opierają się na rozszerzeniu wstecznej propagacji zwanym propagacją wsteczną w czasie lub BPTT. Czas w tym przypadku jest po prostu wyrażony przez dobrze zdefiniowaną, uporządkowaną serię obliczeń łączących jeden krok czasowy z następnym, czyli cała wsteczna propagacja musi działać.

Pytanie 184. Jaka jest różnica między uczeniem maszynowym a uczeniem głębokim?

Uczenie maszynowe: Uczenie maszynowe to dziedzina informatyki, która daje komputerom możliwość uczenia się bez konieczności bezpośredniego programowania. Uczenie maszynowe można podzielić na trzy kategorie.

1. Nadzorowane uczenie maszynowe,
2. Uczenie maszynowe bez nadzoru,
3. Uczenie się ze wzmocnieniem
Uczenie głębokie: Uczenie głębokie to poddziedzina uczenia maszynowego związana z algorytmami inspirowanymi strukturą i funkcją mózgu zwaną sztucznymi sieciami neuronowymi.

Pytanie 185. Co to jest uczenie się przez wzmacnianie?

Odpowiedź : Uczenie się ze wzmocnieniem

Uczenie się ze wzmocnieniem polega na uczeniu się, co robić i jak przypisywać sytuacje do działań. Końcowym rezultatem jest maksymalizacja numerycznego sygnału nagrody. Uczeń nie jest informowany, jakie działanie ma podjąć, ale zamiast tego musi odkryć, które działanie przyniesie maksymalną nagrodę. Uczenie się ze wzmocnieniem jest inspirowane uczeniem się ludzi, opiera się na mechanizmie nagrody / panelu.

185. Co to jest błąd selekcji?

Wybór stronniczości

Błąd selekcji to błąd wynikający z selekcji osób, grup lub danych do analizy w taki sposób, że nie osiągnięto właściwej randomizacji, co zapewnia, że uzyskana próba nie jest reprezentatywna dla populacji, która ma być analizowana. Czasami nazywa się to efektem selekcji. Sformułowanie "błąd selekcji" najczęściej odnosi się do zniekształcenia analizy statystycznej, wynikającego ze sposobu zbierania próbek. Jeśli nie weźmie się pod uwagę błędu selekcji, niektóre wnioski z badania mogą nie być dokładne.

Pytanie 186. Wyjaśnij, czym jest regularyzacja i dlaczego jest przydatna.

Odpowiedź : Regularyzacja

Regularyzacja to proces dodawania parametru strojenia do modelu w celu wywołania gładkości i zapobiegania nadmiernemu dopasowaniu. Najczęściej robi się to przez dodanie stałej wielokrotności do istniejącego wektora wagi. Ta stała to często L1 (Lasso) lub L2 (grzbiet). Prognozy modelu powinny następnie zminimalizować funkcję straty obliczoną na uregulowanym zbiorze uczącym.

Pytanie 187. Co to jest wektoryzacja TF / IDF?

Odpowiedź : tf - idf jest skrótem od terminu odwrotna częstotliwość dokumentu, jest to statystyka numeryczna, która ma na celu odzwierciedlenie, jak ważne jest słowo dla dokumentu w zbiorze lub korpusie. Jest często używany jako czynnik ważący w wyszukiwaniu informacji i eksploracji tekstu. Wartość tf-idf rośnie proporcjonalnie do tego, ile razy słowo pojawia się w dokumencie, ale jest kompensowane przez częstotliwość słowa w korpusie, co pomaga dostosować się do faktu, że niektóre słowa pojawiają się ogólnie częściej.

Pytanie 188. Co to są systemy rekomendujące?

Odpowiedź : Podklasa systemów filtrujących informacje, których zadaniem jest przewidywanie preferencji lub ocen, jakie użytkownik nadałby produktowi. Systemy rekomendujące są szeroko stosowane w filmach, wiadomościach, artykułach badawczych, produktach, tagach społecznościowych, muzyce itp.

Pytanie 189. Jaka jest różnica między technikami regresji i klasyfikacji ML.

Odpowiedź : Zarówno techniki uczenia maszynowego regresji, jak i klasyfikacji podlegają nadzorowanym algorytmom uczenia maszynowego. W nadzorowanym algorytmie uczenia maszynowego musimy trenować model przy użyciu oznaczonego zestawu danych, podczas gdy ucząc musimy jawnie podać prawidłowe etykiety, a algorytm próbuje nauczyć się wzorca od wejścia do wyjścia. Jeśli nasze etykiety są wartościami dyskretnymi, będzie to problem z klasyfikacją, np. A, B itp., Ale jeśli nasze etykiety są wartościami ciągłymi, będzie to problem regresji, np. 1,23, 1,333 itp.

Pytanie 190. Jeśli masz 4 GB pamięci RAM w swojej maszynie i chcesz wytrenować swój model na zestawie danych 10 GB. Jak byś rozwiązał ten problem. Czy kiedykolwiek spotkałeś się z tego rodzaju problemem w swoich doświadczeniach z uczeniem maszynowym / nauką danych?

Odpowiedź : Przede wszystkim musisz zapytać, który model ML chcesz trenować.
Dla sieci neuronowych: rozmiar wsadu z tablicą Numpy będzie działać.
Kroki:

1. Załaduj całe dane do tablicy Numpy. Tablica Numpy ma właściwość do tworzenia mapowania całego zestawu danych, nie ładuje pełnego zestawu danych do pamięci.
2. Możesz przekazać indeks do tablicy Numpy, aby uzyskać wymagane dane.
3. Użyj tych danych, aby przekazać je do sieci neuronowej.
4. Miej mały rozmiar partii.

W przypadku SVM: Częściowe dopasowanie będzie działać

Kroki:

1. Podzielić jeden duży zbiór danych na małe zbiory danych.
2. Użyj metody częściowego dopasowania SVM, wymaga podzbioru pełnego zbioru danych.
3. Powtórz krok 2 dla innych podzbiorów.

Pytanie 191 Co to jest wartość p?

Odpowiedź : Kiedy przeprowadzasz test hipotezy w statystykach, wartość p może pomóc ci określić siłę twoich wyników. Wartość p to liczba z przedziału od 0 do 1. W oparciu o wartość będzie oznaczać siłę wyników. Twierdzenie, które jest rozpatrywane, nazywa się hipotezą zerową. Niska wartość p (? 0,05) wskazuje na siłę przeciw hipotezie zerowej, co oznacza, że możemy odrzucić hipotezę zerową. Wysoka wartość p (? 0,05) wskazuje na siłę hipotezy zerowej, co oznacza, że możemy zaakceptować zerową wartość p Hipotezy wynoszącą 0,05 wskazuje, że hipoteza może pójść w obie strony. Innymi słowy, wysokie wartości P: Twoje dane mają prawdopodobnie prawdziwą wartość null. Niskie wartości P: Twoje dane są mało prawdopodobne przy prawdziwej wartości zerowej.

Pytanie 192. Czym jest "naiwny" w naiwnym Bayesie?

Odpowiedź : Naiwny algorytm Bayesa oparty jest na teorii Bayesa. Teoria Bayesa opisuje prawdopodobieństwo wystąpienia zdarzenia w oparciu o wcześniejszą wiedzę o warunkach, które mogą być związane ze zdarzeniem.

Pytanie 193. Co to jest nauka o danych? Wypisz także różnice między uczeniem nadzorowanym i nienadzorowanym.

Odpowiedź : Data Science to połączenie różnych narzędzi, algorytmów i zasad uczenia maszynowego, których celem jest odkrywanie ukrytych wzorców z surowych danych. Czym się to różni od tego, co statystycy robili od lat? Odpowiedź tkwi w różnicy między wyjaśnianiem a przewidywaniem.

Pytanie 194. Jakie ważne umiejętności należy posiadać w Pythonie w odniesieniu do analizy danych?

Odpowiedź : Poniżej przedstawiono niektóre z ważnych umiejętności, które przydadzą się podczas wykonywania analizy danych w języku Python.

• Dobra znajomość wbudowanych typów danych, zwłaszcza list, słowników, krotek i zestawów.
• Mistrzostwo N-wymiarowych tablic NumPy.
• Mistrzostwo ramek danych Pandas.
• Możliwość wykonywania elementarnych operacji na wektorach i macierzach na tablicach NumPy.
• Wiedząc, że powinieneś używać dystrybucji Anaconda i menedżera pakietów Conda.
• Znajomość Scikit-learn. ** Ściągawka Scikit-Learn **
• Możliwość pisania wydajnych list składanych zamiast tradycyjnych pętli for.
• Możliwość pisania małych, czystych funkcji (ważne dla każdego programisty), najlepiej czystych funkcji, które nie zmieniają obiektów.
• Wiedza, jak profilować wydajność skryptu w Pythonie i jak optymalizować wąskie gardła.

Poniższe informacje pomogą rozwiązać każdy problem związany z analizą danych i uczeniem maszynowym.

Pytanie 195. Co to jest stronniczość wyboru?

Odpowiedź : Błąd selekcji to rodzaj błędu, który pojawia się, gdy badacz decyduje, kto będzie badany. Zwykle wiąże się to z badaniami, w których dobór uczestników nie jest przypadkowy. Czasami nazywa się to efektem selekcji. Jest to zniekształcenie analizy statystycznej, wynikające ze sposobu pobierania próbek. Jeśli nie weźmie się pod uwagę błędu selekcji, niektóre wnioski z badania mogą nie być dokładne. Rodzaje stronniczości wyboru obejmują:

1. Błąd systematyczny w doborze próby: jest to błąd systematyczny wynikający z nielosowej próby populacji, która powoduje, że niektórzy członkowie populacji są mniej prawdopodobni niż inni, co skutkuje tendencyjną próbą.
2. Przedział czasowy: badanie może zostać zakończone przed czasem ze względu na ekstremalną wartość (często ze względów etycznych), ale najprawdopodobniej będzie to osiągnięta przez zmienną o największej wariancji, nawet jeśli wszystkie zmienne mają podobną średnią.
3. Dane: gdy wybrane podzbiory danych są wybierane w celu poparcia wniosku lub odrzucenia złych danych na arbitralnych podstawach, zamiast zgodnie z wcześniej określonymi lub ogólnie uzgodnionymi kryteriami.
4. Wyczerpanie: Błąd związany z wyczerpaniem jest rodzajem błędu selekcji spowodowanego wyczerpaniem (utratą uczestników), zdyskontowanym z przedmiotów próbnych / testów, które nie zostały ukończone.

Pytanie 196 . Jaka jest różnica między danymi w "długim" a "szerokim" formacie?

Odpowiedź : W szerokim formacie powtarzane odpowiedzi podmiotu będą znajdować się w jednym wierszu, a każda odpowiedź w osobnej kolumnie. W długim formacie każdy wiersz jest jednorazowym punktem na temat. Dane w szerokim formacie można rozpoznać po tym, że kolumny zazwyczaj reprezentują grupy.

Pytanie 197. Co rozumiesz przez termin "rozkład normalny"?

Odpowiedź : Dane są zwykle dystrybuowane na różne sposoby, z odchyleniem w lewo lub w prawo, lub też mogą być pomieszane. Istnieją jednak szanse, że dane są rozproszone wokół wartości centralnej bez żadnego odchylenia w lewo lub w prawo i osiągną rozkład normalny w postaci krzywej w kształcie dzwonu. Zmienne losowe są rozłożone w postaci symetrycznej krzywej dzwonowej.

Właściwości rozkładu północnego:

1. Tryb jednomodalny
2. Symetryczna-lewa i prawa połowa są odbiciami lustrzanymi
3. Dzwony -maksymalna wysokość (mod) przy średniej
4. Średnia, Tryb i Mediana znajdują się w środku
5. Asymptotyczny

Pytanie 198. Jaki jest cel testów A / B?

Odpowiedź : Jest to testowanie hipotez statystycznych dla losowego eksperymentu z dwiema zmiennymi A i B. Celem testów A / B jest zidentyfikowanie wszelkich zmian na stronie internetowej, aby zmaksymalizować lub zwiększyć wynik zainteresowania. Testy A / B to fantastyczna metoda ustalania najlepszych strategii promocyjnych i marketingowych dla Twojej firmy. Można go używać do testowania wszystkiego, od kopii witryny, e-maili sprzedażowych po reklamy w wyszukiwarce. Przykładem może być określenie współczynnika klikalności banera reklamowego.

Pytanie 199. Co rozumiesz przez statystyczną moc czułości i jak ją obliczasz?

Odpowiedź : Czułość jest powszechnie używana do weryfikacji dokładności klasyfikatora (logistyka, SVM, Random Forest itp.). Wrażliwość to nic innego jak "Przewidywane prawdziwe zdarzenia / Łączna liczba zdarzeń". Prawdziwe wydarzenia są tutaj wydarzeniami, które były prawdziwe, a model również przewidywał je jako prawdziwe. Obliczanie sezonowości jest dość proste.

Sezonowość = (prawdziwie dodatnie) / (dodatnie w rzeczywistej zależnej zmiennej)
* gdzie prawdziwie pozytywne zdarzenia są pozytywnymi zdarzeniami, które są prawidłowo klasyfikowane jako pozytywne.

Pytanie 200. Jakie są różnice między nadmiernym a niedostatecznym dopasowaniem?
Odpowiedź : W statystykach i uczeniu maszynowym jednym z najczęstszych zadań jest dopasowanie modelu do zestawu danych szkoleniowych, tak aby móc sporządzać wiarygodne prognozy dotyczące ogólnych nieprzeszkolonych danych. W przypadku nadmiernego dopasowania model statystyczny opisuje przypadkowy błąd lub szum zamiast podstawowej zależności. Nadmierne dopasowanie występuje, gdy model jest nadmiernie złożony, na przykład ma zbyt wiele parametrów w stosunku do liczby obserwacji. Model, który został nadmiernie dopasowany, ma słabą wydajność predykcyjną, ponieważ nadmiernie reaguje na drobne fluktuacje danych szkoleniowych.

Pytanie 201. Python czy R - Który z nich wolisz do analizy tekstu?

Odpowiedź : Będziemy preferować Pythona z następujących powodów: Python byłby najlepszą opcją, ponieważ zawiera bibliotekę Pandas, która zapewnia łatwe w użyciu struktury danych i wydajne narzędzia do analizy danych. R jest bardziej odpowiedni do uczenia maszynowego niż tylko analizy tekstu. Python działa szybciej we wszystkich typach analizy tekstu.

Pytanie 202 W jaki sposób czyszczenie danych odgrywa kluczową rolę w analizie?

Czyszczenie danych może pomóc w analizie, ponieważ:

• Czyszczenie danych z wielu źródeł pomaga przekształcić je w format, z którym mogą pracować analitycy danych lub naukowcy zajmujący się danymi.
• Czyszczenie danych pomaga zwiększyć dokładność modelu w uczeniu maszynowym.
• Jest to uciążliwy proces, ponieważ wraz ze wzrostem liczby źródeł danych czas potrzebny na wyczyszczenie danych rośnie wykładniczo ze względu na liczbę źródeł i ilość danych generowanych przez te źródła.
• Czyszczenie danych może zająć do 80% czasu, co czyni je krytyczną częścią zadania analitycznego.

Pytanie 203. Rozróżnij analizę jednowymiarową, dwuwymiarową i wielowymiarową.

Odpowiedź : Analizy jednowymiarowe to opisowe techniki analizy statystycznej, które można rozróżnić na podstawie liczby zmiennych w danym momencie. Na przykład wykresy kołowe sprzedaży oparte na terytorium obejmują tylko jedną zmienną i można je nazwać analizą jednowymiarową. Analiza dwuwymiarowa próbuje zrozumieć różnicę między dwiema zmiennymi naraz, jak na wykresie rozrzutu. Na przykład analizę wielkości sprzedaży i wydatków można uznać za przykład analizy dwuwymiarowej. Analiza wielowymiarowa zajmuje się badaniem więcej niż dwóch zmiennych w celu zrozumienia wpływu zmiennych na odpowiedzi.

Pytanie 204. Co to jest próbkowanie klastrów?

Odpowiedź : Próbkowanie grupowe jest techniką stosowaną, gdy badanie populacji docelowej rozproszonej na dużym obszarze staje się trudne i nie można zastosować prostego losowego pobierania próbek. Próbka skupienia to próbka prawdopodobieństwa, w której każda jednostka próbkowania jest zbiorem lub klastrem elementów. Na przykład, badacz chce zbadać wyniki w nauce uczniów szkół średnich w Japonii. Potrafi podzielić całą populację Japonii na różne klastry (miasta). Następnie badacz dokonuje wyboru kilku skupień w zależności od swoich badań poprzez proste lub systematyczne losowanie próby. Kontynuujmy nasz blog z pytaniami do wywiadów z zakresu nauki o danych, podając więcej pytań dotyczących statystyk.

Pytanie 206. Co to jest systematyczne pobieranie próbek?

Odpowiedź : Systematyczne próbkowanie to technika statystyczna, w której elementy są wybierane z uporządkowanego operatu próbkowania. W przypadku systematycznego próbkowania lista jest rozwijana w sposób cykliczny, więc po osiągnięciu końca listy jest ona ponownie przesuwana od góry. Najlepszym przykładem systematycznego pobierania próbek jest metoda równego prawdopodobieństwa.

Pytanie 207. Co to są wektory i wartości własne?

Odpowiedź : Wektory własne służą do zrozumienia przekształceń liniowych. W analizie danych zwykle obliczamy wektory własne dla macierzy korelacji lub kowariancji. Wektory własne to kierunki, w których określone przekształcenie liniowe działa poprzez odwracanie, ściskanie lub rozciąganie.

Pytanie 208. Czy możesz przytoczyć przykłady, w których fałszywie pozytywny jest ważny niż fałszywie negatywny?

Odpowiedź : Najpierw zrozumiemy, czym są fałszywe alarmy i fałszywe negatywy.

• Fałszywie dodatnie to przypadki, w których błędnie zaklasyfikowałeś element niebędący zdarzeniem jako zdarzenie zwane błędem typu I.
• Fałszywe negatywy to przypadki, w których błędnie klasyfikujesz zdarzenia jako niezdarzenia, czyli błąd typu II.
Przykład 1: W medycynie załóżmy, że musisz podawać pacjentom chemioterapię. Załóżmy, że pacjent przychodzi do tego szpitala i ma pozytywny wynik testu na raka, na podstawie prognoz laboratoryjnych, ale tak naprawdę nie ma raka. To jest przypadek fałszywie pozytywnego wyniku. W tym przypadku niezwykle niebezpieczne jest rozpoczęcie chemioterapii u tego pacjenta, gdy faktycznie nie ma on raka. W przypadku braku komórek rakowych chemioterapia spowoduje pewne uszkodzenie jego normalnych zdrowych komórek i może prowadzić do poważnych chorób, nawet raka.
Przykład 2: Załóżmy, że firma zajmująca się handlem elektronicznym zdecydowała się przekazać kupon podarunkowy o wartości 1000 USD klientom, którzy zamierzają kupić przedmioty o wartości co najmniej 10 000 USD. Wysyłają bezpłatną pocztę z kuponami bezpośrednio do 100 klientów bez żadnych minimalnych warunków zakupu, ponieważ zakładają, że osiągną co najmniej 20% zysku ze sprzedanych przedmiotów powyżej 10 000 USD. Problem polega na tym, że wyślemy bony upominkowe o wartości 1000 USD klientom, którzy w rzeczywistości niczego nie kupili, ale są oznaczeni jako dokonujący zakupu o wartości 10 000 USD.

Pytanie 209. Czy możesz przytoczyć kilka przykładów, w których fałszywy negatywny jest ważny niż fałszywie pozytywny?

Odpowiedź : Przykład 1: Załóżmy, że istnieje port lotniczy "A", który spotkał się z zagrożeniami o wysokim stopniu ochrony i na podstawie pewnych cech identyfikuje, czy dany pasażer może stanowić zagrożenie, czy nie. Ze względu na niedobór personelu decydują się na skanowanie pasażerów, których model predykcyjny przewiduje jako pozytywne. Co się stanie, jeśli model lotniska oflaguje klienta będącego prawdziwym zagrożeniem jako niebędący zagrożeniem?
Przykład 2: Co się stanie, jeśli ława przysięgłych lub sędzia zdecyduje o uwolnieniu przestępcy?
Przykład 3: A co jeśli odmówiłeś zawarcia związku małżeńskiego z bardzo dobrą osobą w oparciu o swój model predykcyjny, a po kilku latach spotkasz ją / ją i zdasz sobie sprawę, że masz fałszywie negatywny wynik?

Pytanie 210. Czy możesz przytoczyć przykłady, w których zarówno wyniki fałszywie pozytywne, jak i fałszywie negatywne są równie ważne?

Odpowiedź : W branży bankowej udzielanie pożyczek jest głównym źródłem zarabiania pieniędzy, ale jednocześnie, jeśli stopa spłaty nie jest dobra, nie osiągniesz żadnego zysku, a raczej zaryzykujesz ogromne straty. Banki nie chcą tracić dobrych klientów, a jednocześnie nie chcą pozyskiwać złych klientów. W tym scenariuszu pomiar zarówno fałszywie pozytywnych, jak i fałszywie negatywnych wyników staje się bardzo ważny.

Pytanie 211. Czy możesz wyjaśnić różnicę między zbiorem walidacyjnym a zestawem testowym?

Odpowiedź : Zestaw walidacyjny można traktować jako część zestawu uczącego, ponieważ jest używany do wyboru parametrów i uniknięcia nadmiernego dopasowania budowanego modelu. Z drugiej strony zestaw testów służy do testowania lub oceniania wydajności wytrenowanego modelu uczenia maszynowego. W prostych słowach różnice można podsumować jako; zbiór uczący ma dopasować parametry tj. wagi, a zbiór testowy ma na celu ocenę wydajności modelu, czyli ocenę mocy predykcyjnej i uogólnienia.

Pytanie 212. Wyjaśnij walidację krzyżową.

Odpowiedź : Walidacja krzyżowa to technika walidacji modelu służąca do oceny sposobu, w jaki wyniki analizy statystycznej uogólniają się na niezależny zbiór danych. Stosowany głównie w środowiskach, w których celem jest prognoza i chce się oszacować, jak dokładnie model będzie działał w praktyce. Celem walidacji krzyżowej jest określenie zestawu danych w celu przetestowania modelu w fazie uczenia (tj. Zbioru danych walidacyjnych) w celu ograniczenia problemów, takich jak nadmierne dopasowanie i uzyskanie wglądu w sposób uogólnienia modelu do niezależnego zestawu danych.

Pytanie 213. Co to jest uczenie maszynowe?

Uczenie maszynowe bada badanie i konstruowanie algorytmów, które mogą uczyć się na podstawie danych i prognozować na ich podstawie. Ściśle związane ze statystyką obliczeniową. Służy do opracowywania złożonych modeli i algorytmów, które nadają się do przewidywania, które w zastosowaniu komercyjnym jest znane jako analityka predykcyjna.

Pytanie 214. Co to jest nadzorowane uczenie się?

Odpowiedź : Uczenie nadzorowane to zadanie uczenia maszynowego polegające na wywnioskowaniu z funkcji z oznaczonych danych treningowych. Dane szkoleniowe składają się z zestawu przykładów szkoleniowych. Algorytmy: maszyny wektorów nośnych, regresja, naiwne bayesy, drzewa decyzyjne, algorytm K-najbliższego sąsiada i sieci neuronowe. Na przykład. Jeśli zbudowałeś klasyfikator owoców, etykiety będą brzmiały "to jest pomarańcza, to jest jabłko, a to jest banan", w oparciu o przykłady klasyfikatorów jabłek, pomarańczy i bananów.

Pytanie 215. Co to jest uczenie się bez nadzoru?

Odpowiedź : Uczenie się nienadzorowane to rodzaj algorytmu uczenia maszynowego używanego do wyciągania wniosków ze zbiorów danych składających się z danych wejściowych bez oznaczonych odpowiedzi. Algorytmy: klastrowanie, wykrywanie anomalii, sieci neuronowe i utajone modele zmiennych. Na przykład. W tym samym przykładzie skupisko owoców będzie klasyfikowane jako "owoce o miękkiej skórce i wielu dołeczkach", "owoce o błyszczącej, twardej skórce" i "wydłużone żółte owoce".

Pytanie 216. Co to jest regresja logistyczna? Podaj przykład, kiedy ostatnio korzystałeś z regresji logistycznej.

Odpowiedź : Regresja logistyczna, często nazywana modelem logitowym, jest techniką przewidywania wyniku binarnego na podstawie liniowej kombinacji zmiennych predykcyjnych. Na przykład, jeśli chcesz przewidzieć, czy dany przywódca polityczny wygra wybory, czy nie. W tym przypadku wynik prognozy jest binarny, tj. 0 lub 1 (wygrana / przegrana). Zmiennymi predykcyjnymi w tym przypadku byłaby kwota pieniędzy wydana na kampanię wyborczą określonego kandydata, ilość czasu spędzonego na kampanii itp.

Pytanie 217. Co to są systemy rekomendujące?

Systemy rekomendujące to podklasa systemów filtrujących informacje, których zadaniem jest przewidywanie preferencji lub ocen, jakie użytkownik nadałby produktowi. Systemy rekomendujące są szeroko stosowane w filmach, wiadomościach, artykułach badawczych, produktach, tagach społecznościowych, muzyce itp. Przykładami mogą być osoby polecające filmy w IMDB, Netflix i BookMyShow, osoby polecające produkty w witrynach handlu elektronicznego, takich jak Amazon, eBay i Flipkart, rekomendacje dotyczące filmów z YouTube i zalecenia dotyczące gier na Xbox.

Pytanie 218. Co to jest regresja liniowa?

Odpowiedź : Regresja liniowa to technika statystyczna, w której wynik zmiennej Y jest przewidywany na podstawie wyniku drugiej zmiennej X. X jest określany jako zmienna predykcyjna, a Y jako zmienna kryterium.

Pytanie 219. Co to jest filtrowanie zespołowe?

Proces filtrowania używany przez większość systemów rekomendujących w celu znalezienia wzorców lub informacji poprzez wspólne punkty widzenia, różne źródła danych i wielu agentów. Przykładem filtrowania zespołowego może być przewidywanie oceny konkretnego użytkownika na podstawie jego ocen dla innych filmów i ocen innych filmów dla wszystkich filmów. Ta koncepcja jest szeroko stosowana w rekomendowaniu filmów w IMDB, Netflix i BookMyShow, rekomendacjach produktów w witrynach e-commerce, takich jak Amazon, eBay i Flipkart, rekomendacjach wideo YouTube i rekomendacjach gier na Xbox.

Pytanie 220. Jak można traktować wartości odstające?

Odpowiedź : Wartości odstające można zidentyfikować za pomocą jednej zmiennej lub dowolnej innej metoda analizy graficznej. Jeśli liczba wartości odstających jest niewielka, można je ocenić indywidualnie, ale w przypadku dużej liczby wartości odstających wartości można zastąpić wartościami 99. lub 1. percentyla. Wszystkie wartości ekstremalne nie są wartościami odstającymi. Najczęstsze sposoby traktowania wartości odstających

1. Aby zmienić wartość i wprowadzić do zakresu.
2. Aby po prostu usunąć wartość.

Pytanie 221. Jakie są różne etapy projektu analitycznego?

Odpowiedź : Poniżej przedstawiono różne etapy projektu analitycznego:

1. Zrozum problem biznesowy
2. Zbadaj dane i zapoznaj się z nimi.
3. Przygotuj dane do modelowania, wykrywając wartości odstające, korygując brakujące wartości, przekształcając zmienne itp.
4. Po przygotowaniu danych uruchom model, przeanalizuj wynik i dostosuj podejście. Jest to krok iteracyjny, aż do osiągnięcia najlepszego możliwego wyniku.
5. Sprawdź poprawność modelu przy użyciu nowego zestawu danych.
6. Rozpocznij wdrażanie modelu i śledź wynik, aby przeanalizować wydajność modelu w okresie.

Pytanie 222. W jaki sposób traktujesz brakujące wartości podczas analizy?

Odpowiedź : Zakres brakujących wartości jest określany po zidentyfikowaniu zmiennych z brakującymi wartościami. Jeśli zidentyfikowane zostaną jakiekolwiek wzorce, analityk musi się na nich skoncentrować, ponieważ może to prowadzić do interesujących i znaczących spostrzeżeń biznesowych. Jeśli nie zidentyfikowano żadnych wzorców, wówczas brakujące wartości można zastąpić wartościami średnimi lub medianami (imputacja) lub po prostu zignorować. Przypisanie wartości domyślnej, która może być wartością średnią, minimalną lub maksymalną. Dostanie się do danych jest ważne. Jeśli jest to zmienna kategorialna, przypisywana jest wartość domyślna. Brakująca wartość ma przypisaną wartość domyślną. Jeśli masz rozkład nadchodzących danych, dla rozkładu normalnego podaj średnią wartość. Jeśli brakuje 80% wartości zmiennej, możesz odpowiedzieć, że pominiesz zmienną zamiast zajmować się brakującymi wartościami.

Pytanie 223. Jak zdefiniujesz liczbę klastrów w algorytmie grupowania?

Chociaż algorytm grupowania nie został określony, to pytanie odnosi się głównie do grupowania metodą K-średnich, gdzie "K" określa liczbę klastrów. Celem klastrowania jest grupowanie podobnych podmiotów w taki sposób, aby podmioty w grupie były do siebie podobne, ale grupy różniły się od siebie. Na przykład poniższy obraz przedstawia trzy różne grupy.

W ramach sumy kwadratów jest zwykle używany do wyjaśnienia jednorodności w klastrze. Jeśli wykreślisz WSS dla zakresu liczby klastrów, otrzymasz wykres pokazany poniżej.

• Wykres jest ogólnie znany jako krzywa łokcia.
• Czerwony zakreślony punkt na powyższym wykresie, tj. Liczba klastrów = 6 to punkt, po którym nie widać żadnego ubytku w WSS.
• Ten punkt jest znany jako punkt zgięcia i jest przyjmowany jako K w K - średnie.

Jest to szeroko stosowane podejście, ale niewielu naukowców zajmujących się danymi używa najpierw klastrów hierarchicznych do tworzenia dendrogramów i identyfikowania stamtąd odrębnych grup. Po zapoznaniu się z pytaniami dotyczącymi systemów uczących się, kontynuujmy nasz blog z pytaniami do wywiadów z zakresu nauki o danych, zawierającym kilka pytań dotyczących prawdopodobieństwa.

Pytanie 224. W każdym 15-minutowym odstępie istnieje 20% prawdopodobieństwo, że zobaczysz co najmniej jedną spadającą gwiazdę. Jakie jest prawdopodobieństwo, że zobaczysz co najmniej jedną spadającą gwiazdę w ciągu godziny?

Odpowiedź : Prawdopodobieństwo nie zobaczenia spadającej gwiazdy w ciągu 15 minut wynosi
= 1 - P (zobaczenie jednej spadającej gwiazdy)
= 1 - 0,2 = 0,8

Prawdopodobieństwo nie zobaczenia spadającej gwiazdy w ciągu jednej godziny = (0,8) ^ 4 = 0,4096
Prawdopodobieństwo zobaczenia co najmniej jednej spadającej gwiazdy w ciągu godziny
= 1 - P (nie widać żadnej gwiazdy)
= 1 - 0,4096 = 0,5904

Pytanie 225. W jaki sposób można wygenerować liczbę losową od 1 do 7 za pomocą samej kości?

Odpowiedź : Każda kość ma sześć boków od 1 do 6. Nie ma możliwości uzyskania siedmiu równych wyników z jednego rzutu kostką. Jeśli rzucimy kostką dwa razy i rozważymy zdarzenie dwóch rzutów, mamy teraz 36 różnych wyników. Aby otrzymać nasze 7 równych wyników, musimy zredukować to 36 do liczby podzielna przez 7. Możemy zatem wziąć pod uwagę tylko 35 wyników, a wykluczyć drugi. Prostym scenariuszem może być wykluczenie kombinacji (6,6), tj. Ponowne rzucenie kością, jeśli 6 pojawi się dwukrotnie. Wszystkie pozostałe kombinacje od (1,1) do (6,5) można podzielić na 7 części po 5. W ten sposób wszystkie siedem zestawów wyników jest jednakowo prawdopodobne.

Pytanie 225. Pewna para mówi ci, że ma dwoje dzieci, z których przynajmniej jedno jest dziewczynką. Jakie jest prawdopodobieństwo, że mają dwie dziewczyny?

Odpowiedź : W przypadku dwojga dzieci są 4 równie prawdopodobne możliwości BB, BG, GB i GG; gdzie B = chłopiec, a G = dziewczynka, a pierwsza litera oznacza pierwsze dziecko. Z pytania możemy wykluczyć pierwszy przypadek BB. Zatem z pozostałych 3 możliwości BG, GB i BB musimy znaleźć prawdopodobieństwo przypadku z dwiema dziewczynami. Zatem P (posiadanie dwóch dziewczynek, jednej dziewczynki) = 1/3

Pytanie 226. Słoik zawiera 1000 monet, z których 999 jest uczciwych, a 1 jest dwureszkowy. Wybierz losowo monetę i rzuć nią 10 razy. Biorąc pod uwagę, że widzisz 10 orłów, jakie jest prawdopodobieństwo, że następny rzut monetą będzie również orłem?

Odpowiedź : Istnieją dwa sposoby wyboru monety. Jednym z nich jest wybranie uczciwej monety, a drugim wybranie tej z dwiema reszkami.
Prawdopodobieństwo wybrania uczciwej monety = 999/1000 = 0,999
Prawdopodobieństwo wybrania nieuczciwej monety = 1/1000 = 0,001
Wybieranie 10 orłów z rzędu = Wybieranie uczciwej monety * Zdobycie 10 orłów + Wybieranie nieuczciwej monety
P (A) = 0,999 * (1/2) ^ 5 = 0,999 * (1/1024) = 0,000976
P (B) = 0,001 * 1 = 0,001
P (A / A + B) = 0,000976 / (0,000976 + 0,001) = 0,4939
P (B / A + B) = 0,001 / 0,001976 = 0,5061
Prawdopodobieństwo wyboru innej reszki= P (A / A + B) * 0,5 + P (B / A + B) * 1 = 0,4939 * 0,5 + 0,5061 = 0,7531

Pytanie 227. Co rozumiesz przez głębokie uczenie się i dlaczego stało się teraz popularne?

Deep Learning to nic innego jak paradygmat uczenia maszynowego, który w ostatnich latach okazał się niesamowicie obiecujący. Wynika to z faktu, że Deep Learning wykazuje świetną analogię z funkcjonowaniem ludzkiego mózgu. Teraz, chociaż Deep Learning istnieje od wielu lat, główne przełomy w tych technikach nastąpiły dopiero w ostatnich latach. Dzieje się tak z dwóch głównych powodów:

• Wzrost ilości danych generowanych z różnych źródeł
• Wzrost zasobów sprzętowych wymaganych do uruchomienia tych modeli

Procesory graficzne są wielokrotnie szybsze i pomagają nam budować większe i głębsze modele uczenia głębokiego w stosunkowo krótszym czasie niż wymagaliśmy wcześniej

Pytanie 228. Co to są sztuczne sieci neuronowe?

Odpowiedź : Sztuczne sieci neuronowe to określony zestaw algorytmów, które zrewolucjonizowały uczenie maszynowe. Inspirują ich biologiczne sieci neuronowe. Sieci neuronowe mogą dostosowywać się do zmieniających się danych wejściowych, dzięki czemu sieć generuje najlepsze możliwe wyniki bez konieczności przeprojektowywania kryteriów wyjściowych.

Pytanie 229. Opisać strukturę sztucznych sieci neuronowych?

Sztuczne sieci neuronowe działają na tej samej zasadzie co biologiczna sieć neuronowa. Składa się z danych wejściowych, które są przetwarzane z ważonymi sumami i odchyleniami za pomocą funkcji aktywacji.

Pytanie 230. Wyjaśnij Gradient Descent.

Aby zrozumieć spadek gradientu, najpierw zastanówmy się, czym jest gradient. Gradient mierzy, jak bardzo zmienia się wynik funkcji, jeśli zmienisz trochę dane wejściowe. Po prostu mierzy zmianę wszystkich wag w odniesieniu do zmiany błędu. Możesz również myśleć o gradiencie jako nachyleniu funkcji. Gradient Descent można wyobrazić sobie jako zejście na dno doliny zamiast wspinania się na wzgórze. Dzieje się tak, ponieważ jest to algorytm minimalizacji, który minimalizuje daną funkcję (Funkcja aktywacji).

Pytanie 231. Co to jest propagacja wsteczna i wyjaśnij, że działa.

Odpowiedź: Propagacja wsteczna jest algorytmem trenującym używanym w wielowarstwowych sieciach neuronowych. W tej metodzie przenosimy błąd z końca sieci do wszystkich wag wewnątrz sieci, umożliwiając w ten sposób wydajne obliczenie gradientu. Zawiera następujące kroki:

* Forward Propagation of Training Data
* Instrumenty pochodne są obliczane na podstawie wyniku i celu
* Back Propagate do obliczania pochodnej aktywacji wyjścia błędu wrt
* Korzystanie z wcześniej obliczonych pochodnych do produkcji
* Zaktualizuj wagi

Pytanie 232. Jakie są warianty Back Propagation?

Odpowiedź : Stochastic Gradient Descent: Używamy tylko jednego przykładu szkoleniowego do obliczania gradientu i aktualizacji parametrów.
Batch Gradient Descent: Obliczamy gradient dla całego zestawu danych i wykonujemy aktualizację w każdej iteracji.
Mini-wsadowe zejście gradientowe: jest to jeden z najpopularniejszych algorytmów optymalizacji. Jest to wariant Stochastycznego Zejścia Gradientu i zamiast pojedynczego przykładu uczącego jest używany mini-partia próbek.

Pytanie 233. Jakie są różne ramy Deep Learning?

* Pytorch
* TensorFlow
* Microsoft Cognitive Toolkit
* Keras
* Caffe
* Chainer

234. Jaka jest rola Funkcji Aktywacji?

Odpowiedź : Funkcja aktywacji służy do wprowadzenia nieliniowości do sieci neuronowej, pomagając jej w nauce bardziej złożonych funkcji. Bez której sieć neuronowa byłaby w stanie nauczyć się tylko funkcji liniowej, która jest liniową kombinacją jej danych wejściowych. Funkcja aktywacji to funkcja w sztucznym neuronie, która dostarcza dane wyjściowe na podstawie danych wejściowych

Pytanie 235. Co to jest automatyczny koder?

Odpowiedź : Autokodery to proste sieci uczące się, których celem jest przekształcenie danych wejściowych w dane wyjściowe przy jak najmniejszym możliwym błędzie. Oznacza to, że chcemy, aby dane wyjściowe były jak najbliżej danych wejściowych. Dodajemy kilka warstw między wejściem a wyjściem, a rozmiary tych warstw są mniejsze niż warstwa wejściowa. Autoenkoder odbiera nieoznaczone dane wejściowe, które są następnie kodowane w celu rekonstrukcji wejścia.

Pytanie 236. Co to jest maszyna Boltzmanna?

Odpowiedź : Maszyny Boltzmanna mają prosty algorytm uczenia się, który pozwala im odkrywać interesujące cechy, które reprezentują złożone prawidłowości w danych szkoleniowych. Zasadniczo maszyna Boltzmanna służy do optymalizacji wagi i ilości dla danego problemu. Algorytm uczenia się działa bardzo wolno w sieciach z wieloma warstwami detektorów cech. Algorytm "Restricted Boltzmann Machines" ma pojedynczą warstwę detektorów cech, co czyni go szybszym niż pozostałe.

Pytanie 237 . Które z tych mierników są używane do analizy głównej tendencji danych?

A) Dystrybucja średnia i normalna
B) Średnia, mediana i tryb
C) Tryb, alfa i zakres
D) Odchylenie standardowe, zakres i średnia
E) Mediana, zakres i rozkład normalny
Rozwiązanie: (B)
Średnia, mediana, mod to trzy miary statystyczne, które pomagają nam analizować centralną tendencję danych. Używamy tych miar, aby znaleźć centralną wartość danych, aby podsumować cały zestaw danych.

Pytanie 238. Podano pięć liczb: (5, 10, 15, 5, 15). Jaka byłaby suma odchyleń poszczególnych punktów danych od ich średniej?

A) 10
B) 25
C) 50
D) 0
E) Żadne z powyższych
Rozwiązanie: (D)
Suma odchyleń jednostki zawsze będzie wynosić 0.

Pytanie 239. Test przeprowadza się raz w roku. Test ma średni wynik 150 i odchylenie standardowe 20. Jeśli wynik z Raviego wynosi 1,50, jaki był jego wynik w teście?

A) 180
B) 130
C) 30
D) 150
E) Żadne z powyższych
Rozwiązanie: (A)

X = μ + Zσ, gdzie μ to średnia, σ to odchylenie standardowe, a X to wynik, który obliczamy. Dlatego X = 150 + 20 * 1,5 = 180

Pytanie 240. Która z poniższych miar tendencji centralnej zawsze się zmieni, jeśli zmieni się jedna wartość w danych?

A) Średnia
B) Mediana
C) Tryb
D) Wszystkie te
Rozwiązanie: (A)
Średnia ze zbioru danych zawsze by się zmieniała, jeśli zmienimy jakąkolwiek wartość zbioru danych. Ponieważ sumujemy wszystkie wartości razem, aby je uzyskać, każda wartość zestawu danych ma wpływ na jego wartość. Mediana i tryb mogą, ale nie muszą, zmieniać się wraz ze zmianą pojedynczej wartości w zbiorze danych.

Pytanie 241. Poniżej przedstawiliśmy sześć punktów danych na skali, gdzie pionowe linie na skali reprezentują jednostkę.

Odpowiedź : Która z poniższych linii przedstawia średnią z podanych punktów danych, gdzie skala jest podzielona na te same jednostki?

A) A
B) B.
C) C
D) D

Rozwiązanie: (C)

Wizualizacja tego, patrząc tylko na dane, jest trochę trudna. Aby zrozumieć średnią, możemy po prostu podstawić wartości. Niech A będzie 1, B będzie 2, C będzie 3 i tak dalej. Wartości danych, jak pokazano, staną się {1,1,1,4,5,6}, co będzie miało średnią 18/6 = 3, tj. C.

Pytanie 242. Jeśli dodatnio skośny rozkład ma medianę 50, które z poniższych stwierdzeń jest prawdziwe?

A) Średnia jest większa niż 50
B) Średnia jest mniejsza niż 50
C) Tryb jest mniejszy niż 50
D) Tryb jest większy niż 50
E) Zarówno A, jak i C.
F) Zarówno B, jak i D.
Rozwiązanie: (E)
Poniżej znajdują się rozkłady dla ujemnych, dodatnich i bez wypaczonych krzywych.

Jak widać dla dodatnio skośnej krzywej, Tryb
Pytanie 243. Która z poniższych wartości jest możliwą wartością mediany poniższego rozkładu?

A) 32
B) 26
C) 17
D) 40
Rozwiązanie: (B)

Aby odpowiedzieć na to pytanie, musimy przejść do podstawowej definicji mediany. Mediana to wartość, która ma mniej więcej połowę wartości przed nią i połowę wartości po. Liczba wartości mniejszych niż 25 to (36 + 54 + 69 = 159), a liczba wartości większych niż 30 to (55 + 43 + 25 + 22 + 17 = 162). Zatem mediana powinna leżeć gdzieś pomiędzy 25 a 30. Stąd 26 jest możliwą wartością mediany.

Pytanie 244. Które z poniższych stwierdzeń dotyczących poprawki Besselsa są prawdziwe podczas obliczania przykładowego odchylenia standardowego?

Odpowiedź : 1. Korekta Besselsa jest zawsze wykonywana, gdy wykonujemy jakąkolwiek operację na próbnych danych.
2. Poprawka Besselsa jest stosowana, gdy próbujemy oszacować odchylenie standardowe populacji z próby.
3. Odchylenie standardowe skorygowane przez Besselsa jest mniej stronnicze.

A) Tylko 2
B) Tylko 3
C) Zarówno 2, jak i 3
D) Zarówno 1, jak i 3
Rozwiązanie: (C)

Wbrew powszechnemu przekonaniu, korekty Bessela nie zawsze należy robić. Zasadniczo dzieje się tak, gdy próbujemy oszacować odchylenie standardowe populacji przy użyciu odchylenia standardowego próbki. Odchylenie jest zdecydowanie zmniejszone, ponieważ odchylenie standardowe będzie teraz (po korekcie) przedstawiać bardziej rozproszenie populacji niż próbki.

Pytanie 245. Jeśli wariancja zbioru danych jest poprawnie obliczona za pomocą wzoru z (n - 1) w mianowniku, która z poniższych opcji jest prawdziwa?

A) Zbiór danych to próbka
B) Zbiór danych to populacja
C) Zbiór danych może być próbką lub populacją
D) Zbiór danych pochodzi ze spisu powszechnego
E) Żadne z powyższych
Rozwiązanie: (A)

Jeśli wariancja ma n-1 we wzorze, oznacza to, że zbiór jest próbką. Próbujemy oszacować wariancję populacji, dzieląc sumę kwadratów różnicy przez średnią z n-1. Kiedy mamy rzeczywiste dane dotyczące populacji, możemy bezpośrednio podzielić sumę kwadratów różnic przez n zamiast n-1.

Pytanie 246. Prawda lub fałsz] Odchylenie standardowe może być ujemne.

A) PRAWDA
B) FAŁSZ
Rozwiązanie: (B)

Poniżej znajduje się wzór na odchylenie standardowe

Ponieważ różnice są podnoszone do kwadratu, dodawane, a następnie zakorzenione, ujemne odchylenia standardowe nie są możliwe.

Pytanie 247. Odchylenie standardowe jest odporne na wartości odstające?

A) Prawda
B) Fałsz
Rozwiązanie: (B)

Jeśli spojrzysz na powyższy wzór na odchylenie standardowe, bardzo wysoka lub bardzo niska wartość zwiększyłaby odchylenie standardowe, ponieważ bardzo różniłaby się od średniej. Stąd wartości odstające wpłyną na odchylenie standardowe.

Pytanie 247. W przypadku poniższego rozkładu normalnego, która z poniższych opcji jest prawdziwa?

Odpowiedź : σ1, σ2 i σ3 reprezentują odchylenia standardowe odpowiednio dla krzywych 1, 2 i 3.

Ponieważ różnice są podnoszone do kwadratu, dodawane, a następnie zakorzenione, ujemne odchylenia standardowe nie są możliwe.

Pytanie 248. Odchylenie standardowe jest odporne na wartości odstające?

A) Prawda
B) Fałsz
Rozwiązanie: (B)

Jeśli spojrzysz na powyższy wzór na odchylenie standardowe, bardzo wysoka lub bardzo niska wartość zwiększyłaby odchylenie standardowe, ponieważ bardzo różniłaby się od średniej. Stąd wartości odstające wpłyną na odchylenie standardowe.

Pytanie 249. W przypadku poniższego rozkładu normalnego, która z poniższych opcji jest prawdziwa?

Odpowiedź : σ1, σ2 i σreprezentują odchylenia standardowe odpowiednio dla krzywych 1, 2 i 3.

A) σ1 > σ2 > σ
B) σ1 < σ2 < σ
C) σ= σ2 = σ
D) Brak
Rozwiązanie: (B)

Z definicji rozkładu normalnego wiemy, że obszar pod krzywą wynosi 1 dla wszystkich 3 kształtów. Krzywa 3 jest bardziej rozłożona, a zatem bardziej rozproszona (większość wartości mieści się w przedziale 40-160). Dlatego będzie miał najwyższe odchylenie standardowe. Podobnie krzywa 1 ma bardzo niski zakres, a wszystkie wartości mieszczą się w małym zakresie 80-120. Stąd krzywa 1 ma najmniejsze odchylenie standardowe.

Pytanie 250. Jakie byłyby krytyczne wartości Z dla 98% przedziału ufności dla testu dwustronnego?

A) +/- 2,33
B) +/- 1,96
C) +/- 1,64
D) +/- 2,55
Rozwiązanie: (A)

Musimy spojrzeć na tabelę z, aby odpowiedzieć na to pytanie. W przypadku testu 2-stronnego i 98% przedziału ufności powinniśmy sprawdzić obszar przed wartością z jako 0,99, ponieważ 1% będzie po lewej stronie średniej, a 1% po prawej stronie. Dlatego powinniśmy sprawdzić wartość z dla obszaru> 0,99. Wartość wyniesie +/- 2,33

Pytanie 251. [Prawda czy fałsz] Standardowa krzywa normalna jest symetryczna około 0, a całkowity obszar pod nią wynosi 1.

A) PRAWDA
B) FAŁSZ
Rozwiązanie: (A)

Z definicji krzywej normalnej pole pod nią wynosi 1 i jest symetryczne w przybliżeniu do zera. Średnia, mediana i mod są równe i równe 0. Obszar po lewej stronie średniej jest równy obszarowi po prawej stronie średniej. Dlatego jest symetryczny. Badania pokazują, że słuchanie muzyki podczas nauki może poprawić pamięć. Aby to zademonstrować, badacz pobiera próbkę 36 studentów i wykonuje standardowy test pamięci podczas słuchania muzyki w tle. W normalnych warunkach (bez muzyki) średni wynik to 25, a odchylenie standardowe 6. Średni wynik dla próbki po eksperymencie (tj. Z muzyką) wynosi 28.

Pytanie 252. Jaka jest hipoteza zerowa w tym przypadku?

A) Słuchanie muzyki podczas nauki nie wpływa na pamięć.
B) Słuchanie muzyki podczas nauki może pogorszyć pamięć.
C) Słuchanie muzyki podczas nauki może poprawić pamięć.
D) Słuchanie muzyki podczas nauki nie poprawi pamięci, ale może ją pogorszyć.
Rozwiązanie: (D)

Za hipotezę zerową przyjmuje się na ogół stwierdzenie, że nie ma związku w mierzonych zjawiskach. Tutaj hipoteza zerowa głosi, że nie ma związku między słuchaniem muzyki a poprawą pamięci.

Pytanie 253. Jaki byłby błąd typu I?

A) Podsumowując, że słuchanie muzyki podczas nauki poprawia pamięć i to jest słuszne.
B) Wniosek, że słuchanie muzyki podczas nauki poprawia pamięć, podczas gdy w rzeczywistości nie.
C) Stwierdzenie, że słuchanie muzyki podczas nauki nie poprawia pamięci, ale tak.
Rozwiązanie: (B)

Błąd typu 1 oznacza, że odrzucamy hipotezę zerową, gdy jest ona faktycznie prawdziwa. Tutaj hipoteza zerowa głosi, że muzyka nie poprawia pamięci. Błąd typu 1 polegałby na odrzuceniu go i stwierdzeniu, że muzyka poprawia pamięć, podczas gdy w rzeczywistości nie.

Pytanie 254. Po wykonaniu testu Z, co możemy wywnioskować ____?

A) Słuchanie muzyki nie poprawia pamięci.
B) Słuchanie muzyki znacznie poprawia pamięć na s
C) Informacje są niewystarczające do wyciągnięcia jakichkolwiek wniosków.
D) Żadne z powyższych
Rozwiązanie: (B)

Przeprowadźmy test Z w danym przypadku. Wiemy, że hipoteza zerowa głosi, że słuchanie muzyki nie poprawia pamięci. Alternatywna hipoteza głosi, że słuchanie muzyki poprawia pamięć. W tym przypadku błąd standardowy, tj.

Wynik Z dla średniej próby 28 z tej populacji wynosi

Wartość krytyczna Z dla α = 0,05 (jednostronna) wynosiłaby 1,65, jak widać z tabeli z. Dlatego, ponieważ obserwowana wartość Z jest większa niż wartość krytyczna Z, możemy odrzucić hipotezę zerową i powiedzieć, że słuchanie muzyki poprawia pamięć z 95% pewnością.

Pytanie 255. Badacz wnioskuje ze swojej analizy, że placebo leczy AIDS. Jaki rodzaj błędu popełnia?

A) Błąd typu 1
B) Błąd typu 2
C) Żadne z tych. Badacz nie popełnia błędu.
D) Nie można określić
Rozwiązanie: (D)

Z definicji, błąd typu 1 odrzuca hipotezę zerową, gdy jest faktycznie prawdziwa, a błąd typu 2 akceptuje hipotezę zerową, gdy jest ona faktycznie fałszywa. W tym przypadku, aby zdefiniować błąd, musimy najpierw zdefiniować hipotezę zerową i alternatywną.

Pytanie 256. Co dzieje się z przedziałem ufności, gdy wprowadzamy do danych pewne wartości odstające?

A) Przedział ufności jest odporny na wartości odstające
B) Przedział ufności wzrośnie wraz z wprowadzeniem wartości odstających.
C) Przedział ufności zmniejszy się wraz z wprowadzeniem wartości odstających.
D) W tym przypadku nie możemy określić przedziału ufności.
Rozwiązanie: (B)

Wiemy, że przedział ufności zależy od odchylenia standardowego danych. Jeśli wprowadzimy do danych wartości odstające, odchylenie standardowe wzrasta, a tym samym zwiększa się również przedział ufności. Lekarz chce obniżyć poziom cukru we krwi wszystkich swoich pacjentów poprzez zmianę ich diety. Stwierdza, że średni poziom cukru u wszystkich pacjentów wynosi 180 przy odchyleniu standardowym 18. Dziewięciu z jego pacjentów rozpoczyna dietę, a średnia w próbce wynosi 175. Teraz rozważa zalecenie wszystkim swoim pacjentom podjęcia dieta. Uwaga: oblicza 99% przedział ufności.

257. Jaki jest błąd standardowy średniej?

A) 9
B) 6
C) 7.5
D) 18
Rozwiązanie: (B)
Błąd standardowy średniej to odchylenie standardowe przez pierwiastek kwadratowy z liczby wartości. to znaczy
Błąd standardowy 18/√9 = 6

Pytanie 258. Jakie jest prawdopodobieństwo uzyskania średnio 175 lub mniej po rozpoczęciu diety przez wszystkich pacjentów?

A) 20%
B) 25%
C) 15%
D) 12%
Rozwiązanie: (A)

To właściwie chce, żebyśmy obliczyli prawdopodobieństwo, że średnia populacja będzie 175 po interwencji. Możemy obliczyć wartość Z dla podanej średniej.

Jeśli spojrzymy na tabelę z, odpowiadająca jej wartość dla z = -0,833 ~ 0,2033. Dlatego istnieje około 20% prawdopodobieństwo, że jeśli wszyscy zaczną odchudzać się, średnia populacji wyniesie 175.

Pytanie 259. Które z poniższych stwierdzeń jest poprawne?

A) Lekarz ma ważne dowody na to, że dieta obniża poziom cukru we krwi.
B) Lekarz nie ma wystarczających dowodów na to, że dieta obniża poziom cukru we krwi.
C) Jeżeli lekarz dokona analogicznej diety dla wszystkich przyszłych pacjentów, średnie ciśnienie krwi spadnie poniżej 160.
Rozwiązanie: (B)

Musimy sprawdzić, czy mamy wystarczające dowody, aby odrzucić wartość zerową. Hipoteza zerowa głosi, że dieta nie ma wpływu na poziom cukru we krwi. To jest test dwustronny. Wartość krytyczna z dla testu 2-stronnego wynosiłaby ± 2,58. Obliczona przez nas wartość z wynosi -0,833. Ponieważ wartość Z
Alfa = 0,05, dwustronny.
Średni wynik testu dla grupy 1 = 10
Średni wynik testu dla grupy 2 = 7
Błąd standardowy = 0,94

Pytanie 260. Jaka jest wartość statystyki t?

A) 3.191
B) 3,395
C) Nie można określić.
D) Żadne z powyższych
Rozwiązanie: (A)

Statystyka t danej grupy to nic innego jak różnica między średnimi grupowymi według błędu standardowego.
= (10-7) / 0,94 = 3,191

Pytanie 261. Czy istnieje znacząca różnica w wynikach obu grup?

A) Tak
B) Nie
Rozwiązanie: (A)

Hipoteza zerowa w tym przypadku byłaby taka, że nie ma różnicy między grupami, podczas gdy hipoteza alternatywna byłaby taka, że grupy są znacząco różne. Wartość krytyczna t dla testu dwustronnego przy ? = 0,05 wynosi ą 2,101. Uzyskana statystyka t wynosi 3,191. Ponieważ statystyka t jest czymś więcej niż krytyczną wartością t, możemy odrzucić hipotezę zerową i powiedzieć, że dwie grupy są znacząco różne z 95% pewnością.

Pytanie 262. Jaki procent zmienności wyników tłumaczy metoda nauczania?

A) 36,13
B) 45,21
C) 40,33
D) 32,97
Rozwiązanie: (A)

% Zmienności w punktacji jest określana przez wartość R2. Wzór na R2 podany przez

Stopnie swobody w tym przypadku wyniosłyby 10 + 10 -2, ponieważ istnieją dwie grupy o rozmiarze 10 każda. Stopień swobody to 18.

Pytanie 263. [Prawda czy fałsz] Statystyka F nie może być ujemna.

A) PRAWDA
B) FAŁSZ

Rozwiązanie: (A)

Statystyka F to wartość, którą otrzymujemy, gdy przeprowadzamy test ANOVA na różnych grupach, aby zrozumieć różnice między nimi. Statystyka F jest określana jako stosunek zmienności między grupami do zmienności wewnątrz grupy. Poniżej znajduje się wzór na statystykę f.

Ponieważ zarówno licznik, jak i mianownik mają wyrażenia kwadratowe, statystyka F nie może być ujemna.

Pytanie 264. Który z poniższych wykresów ma bardzo silną dodatnią korelację?

Rozwiązanie: (B)

Silna dodatnia korelacja wystąpiłaby, gdy spełniony jest następujący warunek. Jeśli x rośnie, y również powinno wzrosnąć, jeśli x maleje, y również powinno maleć. Nachylenie linii byłoby w tym przypadku dodatnie, a punkty danych będą wykazywać wyraźną zależność liniową. Opcja B pokazuje silny pozytywny związek.

265. Korelacja między dwiema zmiennymi (Var1 i Var2) wynosi 0,65. Teraz, po dodaniu liczby 2 do wszystkich wartości Var1, współczynnik korelacji wyniesie_______?

A) Zwiększ
B) Zmniejsz
C) Żadne z powyższych
Rozwiązanie: (C)

Jeśli wartość stała zostanie dodana lub odjęta od jednej ze zmiennych, współczynnik korelacji pozostanie niezmieniony. Łatwo to zrozumieć, jeśli spojrzymy na wzór do obliczenia korelacji.

Jeśli dodamy stałą wartość do wszystkich wartości x, xi i zmieni się o tę samą liczbę, a różnice pozostaną takie same. W związku z tym nie ma zmiany współczynnika korelacji.

Pytanie 266. Zaobserwowano, że istnieje bardzo wysoka korelacja między wynikami testów matematycznych a ilością ćwiczeń fizycznych wykonanych przez ucznia w dniu testu. Co możesz z tego wywnioskować?

1. Wysoka korelacja oznacza, że po ćwiczeniach wyniki testu są wysokie.
2. Korelacja nie oznacza związku przyczynowego.
3. Korelacja mierzy siłę liniowej zależności między ilością ćwiczeń a wynikami testów.
A) Tylko 1
B) 1 i 3
C) 2 i 3
D) Wszystkie stwierdzenia są prawdziwe
Rozwiązanie: (C)

Chociaż czasami związek przyczynowy może być intuicyjny z wysokiej korelacji, ale w rzeczywistości korelacja nie implikuje żadnego wnioskowania przyczynowego. Po prostu mówi nam o sile związku między dwiema zmiennymi. Jeśli obie zmienne poruszają się razem, istnieje między nimi wysoka korelacja.

Pytanie 267. Jeśli współczynnik korelacji (r) między wynikami z testu matematycznego a ilością ćwiczeń fizycznych ucznia wynosi 0,86, jaki procent zmienności w teście z matematyki można wyjaśnić ilością ćwiczeń?

A) 86%
B) 74%
C) 14%
D) 26%
Rozwiązanie: (B)

% Zmienności określa r2, kwadrat współczynnika korelacji. Wartość ta reprezentuje ułamek zmienności jednej zmiennej, którą można wyjaśnić inną zmienną. Dlatego% wyjaśnionej zmienności wyniósłby 0,862.

Pytanie 268. Które z poniższych stwierdzeń dotyczących poniższego histogramu jest prawdziwe?

A) Powyższy histogram jest jednomodalny
B) Powyższy histogram jest bimodalny
C) Podany powyżej nie jest histogramem
D) Żadne z powyższych
Rozwiązanie: (B)

Powyższy histogram jest bimodalny. Jak widać, istnieją dwie wartości, dla których na histogramach możemy zobaczyć piki wskazujące na wysokie częstotliwości dla tych wartości. Dlatego histogram jest bimodalny.

Pytanie 269. Rozważmy linię regresji y = ax + b, gdzie a to nachylenie, a b to punkt przecięcia z osią. Jeśli znamy wartość nachylenia, to za pomocą której opcji zawsze możemy znaleźć wartość punktu przecięcia z osią?

A) Umieść wartość (0,0) na linii regresji Prawda
B) Wpisz dowolną wartość z punktów użytych do dopasowania linii regresji i oblicz wartość b Fałsz
C) Umieść średnie wartości x i y w równaniu wraz z wartością a, aby uzyskać b Fałsz
D) Żadne z powyższych nie może być użyte Fałsz
Rozwiązanie: (C)

W przypadku zwykłej regresji metodą najmniejszych kwadratów, linia zawsze przechodziłaby przez średnie wartości x i y. Jeśli znamy jeden punkt na prostej i wartość nachylenia, możemy łatwo znaleźć punkt przecięcia z osią.

Pytanie 270, Co się stanie, gdy wprowadzimy więcej zmiennych do modelu regresji liniowej?

A) Wartość r do kwadratu może wzrosnąć lub pozostać stała, a skorygowana wartość r do kwadratu może wzrosnąć lub zmniejszyć.
B) Wartość r do kwadratu może się zwiększyć lub zmniejszyć, podczas gdy skorygowane r do kwadratu zawsze rośnie.
C) Zarówno r kwadrat, jak i skorygowany r kwadrat zawsze rosną wraz z wprowadzeniem nowych zmiennych do modelu.
D) Oba mogą wzrosnąć lub spaść w zależności od wprowadzonych zmiennych.
Rozwiązanie: (A)

R kwadrat zawsze rośnie lub przynajmniej pozostaje niezmienny, ponieważ w przypadku zwykłych najmniejszych kwadratów suma błędu kwadratowego nigdy nie wzrasta przez dodanie większej liczby zmiennych do modelu. Stąd R do kwadratu nie maleje. Skorygowane Rsquared to zmodyfikowana wersja R-kwadrat, która została dostosowana do liczby predyktorów w modelu. Skorygowany R-kwadrat zwiększa się tylko wtedy, gdy nowy termin ulepsza model bardziej, niż można by oczekiwać przez przypadek. Zmniejsza się, gdy predyktor ulepsza model o mniej niż oczekiwano przez przypadek.

Pytanie 271. Na wykresie punktowym pionowa odległość punktu powyżej lub poniżej linii regresji jest znana jako ____?

A) Pozostała
B) Błąd prognozy
C) Przewidywanie
D) Zarówno A, jak i B.
E) Żadne z powyższych
Rozwiązanie: (D)

Linie, które widzimy na powyższym wykresie, są pionową odległością punktów od linii regresji. Są one znane jako reszty lub błąd przewidywania.

Pytanie 272. W jednowymiarowej liniowej regresji najmniejszych kwadratów związek między współczynnikiem korelacji a współczynnikiem determinacji wynosi ______?

A) Obie nie są ze sobą powiązane Fałsz
B) Współczynnik determinacji jest współczynnikiem korelacji do kwadratu Prawda
C) Współczynnik determinacji jest pierwiastkiem kwadratowym współczynnika korelacji Fałsz
D) Oba są takie same F
Rozwiązanie: (B)

Współczynnik determinacji jest wartością R do kwadratu i mówi nam o wielkości zmienności zmiennej zależnej wyjaśnianej przez zmienną niezależną. To nic innego jak kwadrat współczynnika korelacji. W przypadku regresji wieloczynnikowej wartość r do kwadratu reprezentuje stosunek sumy wyjaśnionej wariancji do sumy wariancji całkowitej.

Pytanie 273. Jaka jest zależność między poziomem istotności a poziomem ufności?

A) Poziom istotności = poziom ufności
B) Poziom istotności = 1- Poziom ufności
C) Poziom istotności = 1 / Poziom ufności
D) Poziom istotności = sqrt (1 - Poziom ufności)
Rozwiązanie: (B)

Poziom istotności to 1 przedział ufności. Jeśli poziom istotności wynosi 0,05, odpowiedni przedział ufności wynosi 95% lub 0,95. Poziom istotności to prawdopodobieństwo uzyskania wyniku tak skrajnego lub bardziej ekstremalnego niż wynik faktycznie uzyskany, gdy hipoteza zerowa jest prawdziwa. Przedział ufności to zakres prawdopodobnych wartości parametru populacji, takiego jak średnia populacji. Na przykład, jeśli obliczysz 95% przedział ufności dla średniej ceny lodów, możesz mieć 95% pewność, że przedział ten zawiera prawdziwy średni koszt wszystkich lodów. Poziom istotności i poziom ufności to uzupełniające się części w rozkładzie normalnym.

Pytanie 274. [Prawda czy fałsz] Załóżmy, że otrzymałeś zmienną V wraz z jej średnią i medianą. Na podstawie tych wartości można sprawdzić, czy zmienna "V" jest skośna w lewo czy w prawo dla warunku średnia (V)> mediana (V)

A) Prawda
B) Fałsz
Rozwiązanie: (B)

Ponieważ nie ma tam wzmianki o rozkładzie typów zmiennej V, nie możemy na pewno powiedzieć, czy jest skośna w lewo czy w prawo.

Pytanie 275. Linia opisana równaniem regresji liniowej (OLS) próbuje ____?

A) Przejedź przez jak najwięcej punktów.
B) Przejedź przez jak najmniej punktów
C) Zminimalizuj liczbę punktów, których dotyka
D) Zminimalizuj kwadratową odległość od punktów
Rozwiązanie: (D)

Linia regresji próbuje zminimalizować kwadratową odległość między punktami i linią regresji. Z definicji zwykła regresja metodą najmniejszych kwadratów stara się uzyskać minimalną sumę kwadratów błędów. Oznacza to, że należy zminimalizować sumę kwadratów reszt. Można to osiągnąć lub nie, przechodząc przez maksymalną liczbę punktów w danych. Najczęstszym przypadkiem nie przechodzenia przez wszystkie punkty i zmniejszania błędu jest sytuacja, gdy dane mają wiele wartości odstających lub nie są bardzo silnie liniowe.

276. Mamy równanie regresji liniowej (Y = 5X +40) dla poniższej tabeli.

Które z poniższych jest MAE (średni błąd bezwzględny) dla tego modelu j liniowego?

A) 8.4
B) 10,29
C) 42,5
D) Żadne z powyższych
Rozwiązanie: (A)

Aby obliczyć średni błąd bezwzględny dla tego przypadku, powinniśmy najpierw obliczyć wartości y za pomocą podanego równania, a następnie obliczyć błąd bezwzględny w odniesieniu do rzeczywistych wartości y. Wtedy średnia wartość tego błędu bezwzględnego byłaby średnim błędem bezwzględnym. Poniższa tabela podsumowuje te wartości.

Pytanie 277. Analiza regresji między wagą (y) a wzrostem (x) dała następującą linię najmniejszych kwadratów: y = 120 + 5x. Oznacza to, że jeśli wysokość wzrośnie o 1 cal, oczekuje się, że waga wzrośnie

A) zwiększyć o 1 funt
B) zwiększyć o 5 funtów
C) zwiększyć o 125 funtów
D) Żadne z powyższych
Rozwiązanie: (B)

Patrząc na równanie podane y = 120 + 5x. Jeśli wzrost zostanie zwiększony o 1 jednostkę, waga wzrośnie o 5 funtów. Ponieważ 120 będzie takie samo w obu przypadkach i wyłączy się w różnicy.

Pytanie 278. [Prawda czy fałsz] Pearson rejestruje, jak liniowo zależne są dwie zmienne, podczas gdy Spearman rejestruje monotoniczne zachowanie relacji między zmiennymi.

A) PRAWDA
B) FAŁSZ
Rozwiązanie: (A)

To stwierdzenie jest prawdziwe. Korelacja Pearsona oceniała liniową zależność między dwiema zmiennymi ciągłymi. Zależność jest liniowa, gdy zmiana jednej zmiennej jest związana z proporcjonalną zmianą drugiej zmiennej. Włócznik ocenia monotoniczną zależność. Relacja monotoniczna to taka, w której zmienne zmieniają się razem, ale niekoniecznie w stałym tempie.

Pytanie 279. Co rozumiesz przez długie i szerokie formaty danych?

280. Co rozumiesz przez wartości odstające i odbiegające? Co byś zrobił, gdybyś znalazł je w swoim zbiorze danych?

281. Napisz program w Pythonie, który przyjmuje dane wejściowe jako średnicę monety i wagę monety, a na wyjściu podaje wartość pieniężną monety.

282. Jakie są podstawowe założenia regresji liniowej?

Odpowiedź : Normalność rozkładu błędów, statystyczna niezależność błędów, liniowość i addytywność.

283. Czy potrafisz napisać wzór na obliczenie R-kwadrat?

Odpowiedź : Kwadrat R można obliczyć za pomocą poniższego wzoru - 1 - (Resztkowa suma kwadratów / Całkowita suma kwadratów)

Pytanie 284. Jaka jest zaleta wykonania redukcji wymiarowości przed dopasowaniem SVM?

Odpowiedź : Algorytm wspomagania wektorowego uczenia maszynowego działa lepiej w ograniczonej przestrzeni. Korzystne jest wykonanie redukcji wymiarowości przed dopasowaniem SVM, jeśli liczba cech jest duża w porównaniu z liczbą obserwacji.

Pytanie 285. Jak oceniasz znaczenie statystyczne wglądu, czy jest to wgląd rzeczywisty, czy przypadek?

Odpowiedź : Statystyczne znaczenie wglądu można sprawdzić za pomocą testowania hipotez.

Pytanie 286. Jak utworzyłbyś taksonomię, aby zidentyfikować kluczowe trendy wśród klientów w nieustrukturyzowanych danych?

Odpowiedź : Najlepszym sposobem podejścia do tego pytania jest wspomnienie, że przed skategoryzowaniem danych dobrze jest skonsultować się z właścicielem firmy i zrozumieć jego cele. Po wykonaniu tej czynności zawsze dobrze jest zastosować podejście iteracyjne, pobierając nowe próbki danych i odpowiednio ulepszając model, sprawdzając go pod kątem dokładności, prosząc o informacje zwrotne od interesariuszy firmy. Pomaga to upewnić się, że model generuje przydatne wyniki i poprawia się z upływem czasu.

287. Jak znajdziesz korelację między zmienną kategorialną a zmienną ciągłą?

Odpowiedź : Możesz użyć techniki analizy kowariancji, aby znaleźć korelację między zmienną kategorialną a zmienną ciągłą.

Pytanie 288. Jakie są różne metody pobierania próbek?

Próbkowanie losowe
Systematyczne pobieranie próbek
Próbkowanie warstwowe
Próbkowanie kwot

Pytanie 289. Typowe problemy z jakością danych

Brakujące wartości
Szum w zbiorze danych
Wartości odstające
Mieszanka różnych języków (np. Angielski i chiński)
Ograniczenia zakresu

Pytanie 290. Jaka jest różnica między uczeniem się nadzorowanym a uczeniem się nienadzorowanym?

Uczenie nadzorowane: zmienna docelowa jest dostępna, a algorytm uczy się dla danych ciągu. Dotyczy to również danych testowych (dane niewidoczne).
Uczenie się nienadzorowane: zmienna docelowa jest niedostępna, a algorytm nie musi się uczyć cokolwiek wcześniej.

Pytanie 291 . Co to jest niezrównoważony zbiór danych i jak sobie z nimi radzić? Wymień kilka przykładów?

Wykrywanie oszustw
Badania przesiewowe w kierunku choroby
Niezrównoważony zbiór danych oznacza, że populacja jednej klasy jest wyjątkowo duża niż drugiej (np. Oszustwa - 99% i brak oszustw - 1%)
Niezbalansowany zestaw danych może być obsługiwany przez algorytm oversampling, undersampling i algorytm uczenia maszynowego podlegający sankcjom.

Pytanie 292. Jeśli masz do czynienia z danymi 10M, wybierzesz uczenie się maszynowe (lub) algorytm głębokiego uczenia?

Odpowiedź : Algorytm uczenia maszynowego dobrze sprawdza się w przypadku małych danych, a przygotowanie dużych danych może zająć dużo czasu. Podczas gdy algorytm uczenia głębokiego zajmuje mniej danych do trenowania dzięki pomocy GPU (przetwarzanie równoległe).

Pytanie 293. Przykłady algorytmu nadzorowanego uczenia się?

Regresja liniowa i regresja logistyczna
Drzewa decyzyjne i losowy las
SVM
Na?ve Bayes
XGBoost

Pytanie 294. W przypadku regresji logistycznej, jeśli chcesz poznać najlepsze funkcje w swoim zbiorze danych, co byś zrobił?

Odpowiedź : Zastosuj funkcję krokową, która oblicza AIC dla różnych permutacji i kombinacji cech i zapewnia najlepsze cechy dla zbioru danych.

Pytanie 295. Co to jest inżynieria funkcji? Wyjaśnij na przykładzie?

Odpowiedź : Inżynieria funkcji to proces wykorzystywania wiedzy dziedzinowej o danych do tworzenia funkcji do działania algorytmu uczenia maszynowego Dodawanie kolejnych kolumn (lub) usuwanie kolumn z istniejącej kolumny

Wykrywanie wartości odstających
Normalizacja itp

Pytanie 296. Jak wybrać ważne cechy w danym zbiorze danych?

W regresji logistycznej możemy użyć step (), który daje wynik AIC zestawu cech. W drzewie decyzyjnym możemy wykorzystać zdobywanie informacji (które wewnętrznie wykorzystuje entropia)
W Random Forest możemy użyć varImpPlot

Pytanie 297. Kiedy pojawia się problem współliniowości i jak sobie z nim radzić?

Odpowiedź : Występuje, gdy 2 lub więcej predyktorów jest ze sobą silnie skorelowanych.
Przykład: W zbiorze danych, jeśli masz stopnie drugiego PUC i oceny drugiego PUC, wtedy oba dają ten sam trend do przechwycenia, co może wewnętrznie utrudniać prędkość i czas. Więc musimy sprawdzić, czy istnieje wieloliniowość za pomocą VIF (współczynnik inflacji wariancji). Uwaga: jeśli współczynnik inflacji wariancji jest większy niż 4, wówczas wielokrotna kolinearność istnieje problem.

Pytanie 298. Co to są czynniki inflacji wariancji (VIF)

Odpowiedź : Zmierz, o ile wariancja oszacowanych współczynników regresji jest zawyżona w porównaniu z sytuacją, gdy zmienne predykcyjne nie są liniowo powiązane.

Pytanie 299 . Przykłady algorytmu parametrycznego uczenia maszynowego i nieparametrycznego algorytmu uczenia maszynowego

Algorytm parametrycznego uczenia maszynowego - regresja liniowa, logistyka, regresja
Algorytm nieparametrycznego uczenia maszynowego - drzewa decyzyjne, SVM, sieć neuronowa

Pytanie 300. Co to jest parametryczne i nieparametryczne uczenie maszynowe algorytm? I ich znaczenie

Algorytm, który nie przyjmuje mocnych założeń, jest algorytmem nieparametrycznym i można go swobodnie uczyć na podstawie danych szkoleniowych. Algorytm, który przyjmuje silne założenia, jest parametryczny i obejmuje

1. wybierz formularz funkcji i
2. nauczyć się współczynników funkcji z danych treningowych.

Pytanie 301.Kiedy, ogólnie rzecz biorąc, regresja liniowa i logistyczna działa lepiej?

Odpowiedź :Działa lepiej, gdy usuniemy atrybuty, które nie są powiązane ze zmienną wyjściową i zmienną silnie powiązaną ze sobą.

Pytanie 302. Dlaczego nazywasz naiwe bayes jako "naiwne"?

Odpowiedź :Powód: zakłada, że zmienna wejściowa jest niezależna, ale w rzeczywistości jest to nierealne, ponieważ wszystkie cechy byłyby od siebie zależne.

Pytanie 303. Podaj przykład dla fałszywie pozytywnych, fałszywie negatywnych, prawdziwie pozytywnych, prawdziwie negatywnych

Wynik fałszywie pozytywny - wynik testu przesiewowego w kierunku raka jest pozytywny, ale nie masz raka
Fałszywie negatywny - wynik testu przesiewowego w kierunku raka jest ujemny, ale masz raka
Wynik prawdziwie pozytywny - wynik testu przesiewowego w kierunku raka jest pozytywny i masz raka
Prawdziwie negatywny - wynik testu przesiewowego na raka jest ujemny i nie masz raka

Pytanie 304. Co to jest czułość i specyficzność?

Odpowiedź : Wrażliwość oznacza "odsetek rzeczywistych wyników pozytywnych, które są prawidłowo sklasyfikowane", innymi słowy "prawdziwie pozytywne"
Specyficzność oznacza "odsetek rzeczywistych negatywów, które zostały poprawnie sklasyfikowane" "Prawdziwie negatywne"

Pytanie 305. Kiedy stosować regresję logistyczną, a kiedy regresję liniową?

Odpowiedź : Jeśli masz do czynienia z problemem klasyfikacji, takim jak (Tak / Nie, Oszustwo / Brak oszustw, Sport / Muzyka / Taniec), użyj regresji logistycznej.
Jeśli masz do czynienia z wartościami ciągłymi / dyskretnymi, wybierz regresję liniową.

Pytanie 306. Jakie są dostępne różne algorytmy imputacji?

Odpowiedź : Algorytm imputacji oznacza "zastąpienie" pustych wartości pewnymi wartościami)
Średnia imputacja
Mediana imputacji
MICE
tęsknię za lasem
Amelia

Pytanie 307. Co to jest AIC (kryteria informacyjne Akaike)

Odpowiedź : Analogiczną miarą skorygowanego R? w regresji logistycznej jest AIC. AIC jest miarą dopasowania, która penalizuje model za liczbę współczynników modelu. Dlatego zawsze preferujemy model z minimalną wartością AIC.

Pytanie 308. Załóżmy, że masz 10 próbek, z których 8 jest pozytywnych, a 2 są negatywnie, jak obliczyć entropię (ważne, aby wiedzieć)

E (S) = 8/10 dziennika (8/10) - 2/10 dziennika (2/10)
Uwaga: dziennik jest o podstawie 2

Pytanie 309. Co to jest perceptron w pochylaniu maszyn?

W uczeniu maszynowym. Perceptron to algorytm nadzorowanej klasyfikacji wejścia na jedno z kilku możliwych wyjść niebinarnych

Pytanie 310. Jak upewnić się, że nie przesadzamy z modelem?

Odpowiedź : Zachowaj atrybuty / kolumny, które są naprawdę ważne Stosuj techniki weryfikacji krzyżowej K-Fold Wykorzystaj upuszczanie w przypadku sieci neuronowej

Pytanie 311. Jak przewiduje się węzeł główny w algorytmie drzewa decyzyjnego?

Odpowiedź : Wzór matematyczny "Entropia" jest używany do przewidywania węzła głównego drzewa.

Pytanie 312. Jakie są różne procesy zaplecza dostępne w Keras?

TensorFlow
Theano
CNTK

Pytanie 313 . Wymień kilka algorytmów uczenia głębokiego

TensorFlow
Theano
Lazania
mxnet
Bloki
Keras
CNTK
TFLearn

Pytanie 314. Jak podzielić dane na równy zestaw klas zarówno w danych treningowych, jak i testowych?

Odpowiedź :Korzystanie z pakietu Stratified Shuffle

Pytanie 315. Co masz na myśli, podając "epoka = 1" w sieci neuronowej?

Odpowiedź : Oznacza to, że "jednokrotne przechodzenie przez zbiór danych"

Pytanie 316. Co masz na myśli mówiąc "Ensemble Model"? Kiedy użyć?

Odpowiedź : Model zespołowy to połączenie różnych modeli w celu prawidłowego i dokładnego przewidywania. Uczenie zespołowe jest używane podczas tworzenia klasyfikatorów komponentów, które są dokładniejsze i niezależne od siebie.

Pytanie 317. Kiedy będziesz używać SVM, a kiedy Random Forest?

Odpowiedź : SVM może być używany, jeśli dane są wolne od wartości odstających, podczas gdy Na?ve Bayes może być używany, nawet jeśli ma wartości odstające (ponieważ ma wbudowany pakiet, aby zachować ostrożność).
SVM najlepiej pasuje do modelu klasyfikacji tekstu i garniturów Random Forest dla Problemu klasyfikacji dwumianowej / wielomianowej.
Random Forest rozwiązuje problem zbytniego dopasowania przy pomocy przycinania drzew

Pytanie 318. Zastosowania uczenia maszynowego?

Samojezdne samochody
Klasyfikacja obrazu
Klasyfikacja tekstu
Wyszukiwarka
Bankowość, opieka zdrowotna

Pytanie 318. Jeśli otrzymasz przypadek użycia - "Przewiduj, czy transakcja jest oszustwem (czy) nie jest oszustwem", który algorytm byś wybrał?

Odpowiedź : Regresja logistyczna

Pytanie 319 . Jeśli otrzymałeś przypadek użycia - "Przewiduj przedział cen domu w nadchodzących latach", który algorytm byś wybrał?

Odpowiedź : Regresja liniowa

Pytanie 320. Jaka jest podstawowa wiedza matematyczna stojąca za Na?ve Bayes?

Odpowiedź : Twierdzenie Bayesa

Pytanie 321. Kiedy używać Random Forest, a kiedy XGBoost?

Odpowiedź : Jeśli chcesz, aby wszystkie podstawowe procesory w systemie były wykorzystywane, wybierz XGBoost (ponieważ obsługuje przetwarzanie równoległe), a jeśli twoje dane są małe, wybierz losowy las.

Pytanie 322. Jeśli trenujesz model daje 90% dokładności, a testowy model daje 60% dokładności? Więc z jakim problemem masz do czynienia?

Odpowiedź : Przebudowanie. Nadmierne dopasowanie i można je zmniejszyć wieloma metodami, takimi jak (przycinanie drzewa, usuwanie szczegółowych informacji zawartych w zestawie danych).

Pytanie 323. W Google, jeśli wpiszesz "Jak się masz", otrzymasz zalecenie jako "Jak się masz" / "Jak się masz", to jest oparte na czym?

Odpowiedź : Ten rodzaj silnika rekomendacji pochodzi ze wspólnego filtrowania.

Pytanie 324 . Co to jest margines, jądra, regularyzacja w SVM?

Odpowiedź : Margines - odległość między hiperpłaszczyzną a najbliższymi punktami danych jest określana jako "margines"
Jądra - istnieją trzy typy jądra, które określają typ danych, z którymi masz do czynienia i) liniowe, ii) promieniowe, iii) wielomian
Regularyzacja - parametr regularyzacja (często określany jako parametr C w bibliotece sklearn języka Python) informuje optymalizację SVM, o ile chcesz uniknąć błędnej klasyfikacji każdego przykładu szkoleniowego

Pytanie 325. Co to jest Boosting? Wyjaśnij, jak działa Boosting?

Odpowiedź : Boosting to technika Ensemble, która próbuje stworzyć silny klasyfikator z wielu słabych klasyfikatorów.
Po utworzeniu pierwszego drzewa wydajność drzewa na każdej instancji szkoleniowej jest wykorzystywana do określania, ile uwagi następne tworzone drzewo powinno zwracać uwagę na każdą instancję szkoleniową, przypisując więcej wag do błędnie sklasyfikowanej instancji.
Modele są tworzone jeden po drugim, a każdy z nich aktualizuje wagi w instancji szkoleniowej

Pytanie 326. Co to jest odchylenie zerowe i odchylenie resztkowe (koncepcja regresji logistycznej?)

Odpowiedź : Odchylenie zerowe wskazuje odpowiedź przewidywaną przez model z tylko punktem przecięcia
Odchylenie resztkowe wskazuje odpowiedź przewidywaną przez model po dodaniu zmiennych niezależnych
Uwaga: im niższa wartość, tym lepszy model

Pytanie 327. Jakie są różne metody podziału drzewa w drzewie decyzyjnym?

Odpowiedź : Zysk informacji i indeks Giniego

Pytanie 328. Jaka jest słabość algorytmu drzewa decyzyjnego?

Odpowiedź : Nie nadaje się do zmiennych ciągłych / dyskretnych
Słabo działa na małych danych

Pytanie 329 . Dlaczego używamy PCA (analiza głównych komponentów)?

Odpowiedź : Są to ważne techniki wyodrębniania cech wykorzystywane do redukcji wymiarowości.

Pytanie 330. Czy podczas niezrównoważonego zbioru danych obliczysz tylko dokładność? (lub) Osobno Precyzja, Przypomnienie, Wynik F1

Odpowiedź : Musimy obliczyć precyzję, przywołaj osobno

Pytanie 331. Jak upewnić się, że nie przesadzamy z modelem?

Odpowiedź :Zachowaj atrybuty / kolumny, które są naprawdę ważne
Użyj technik weryfikacji krzyżowej K-Fold aby korzystać z drop-put w przypadku sieci neuronowej

Pytanie 332. Kroki związane z drzewem decyzyjnym i znajdowaniem węzła głównego dla drzewa

Odpowiedź :Krok 1: - Jak znaleźć węzeł główny . Użyj opcji Zdobywanie informacji, aby zrozumieć każdą zmienną docelową informacji o atrybucie w.r.t i umieść atrybut z najwyższym zyskiem informacji jako węzeł główny.
Krok 2: - Jak znaleźć zysk z informacji Zastosuj entropię (wzory matematyczne), aby obliczyć zysk z informacji. Wzmocnienie (T, X) = Entropia (T) - Entropia (T, X) reprezentuje tutaj zmienną docelową, a X reprezentuje cechy.
Krok 3: Identyfikacja węzła terminala. W oparciu o wartość wzmocnienia informacji uzyskaną w powyższych krokach, zidentyfikuj drugi co do wielkości przyrost informacji i umieść go jako węzeł końcowy.
Krok 4: Przewidywane wyniki. Rekurencyjnie iteruj step4, aż otrzymamy węzeł liścia, który byłby naszą przewidywaną zmienną docelową.
Krok 5: Przycinanie i optymalizacja drzew w celu uzyskania dobrych wyników Pomaga zmniejszyć rozmiar drzew decyzyjnych poprzez usunięcie części drzewa w celu unikania nadmiernego dopasowania.

Pytanie 333. Co to jest Hyper Plane w SVM?

Jest to linia, która dzieli przestrzeń zmiennych wejściowych i jest wybierana tak, aby najlepiej oddzielać punkty w przestrzeni zmiennych wejściowych według ich klasy (0/1, tak / nie).

Pytanie 334. Wyjaśnij Bigram na przykładzie?

Odpowiedź : Np .: Kocham naukę o danych
Bigram - (I Love) (Love Data) (Data Science)

Pytanie 335. Jakie są różne funkcje aktywacji w sieci neuronowej?

Odpowiedź : Relu, Leaky Relu, Softmax, Sigmoid

Pytanie 336. Który algorytm pasuje do problemu z klasyfikacją tekstu?

Odpowiedź : SVM, Na?ve Bayes, Keras, Theano, CNTK, TFLearn (Tensorflow)

Pytanie 337. Otrzymujesz zestaw danych pociągu zawierający wiele kolumn i wierszy. Jak zmniejszyć rozmiar tych danych?

Odpowiedź : Pomogłaby nam tutaj analiza głównych składowych (PCA), która może wyjaśnić maksymalną wariancję w zbiorze danych.
Możemy również sprawdzić współzależność dla danych liczbowych i usunąć problem wielokoliniowości (jeśli istnieje) oraz usunąć niektóre kolumny, które mogą nie mieć wpływu na model.
Możemy tworzyć wiele zbiorów danych i wykonywać je partiami.

Pytanie 338. Otrzymujesz zestaw danych dotyczących wykrywania oszustw. Model klasyfikacyjny osiągnął dokładność 95%. Czy to dobrze?

Dokładność 96% jest dobra. Ale być może będziemy musieli sprawdzić następujące elementy: jaki był zbiór danych dla problemu klasyfikacji
Czy czułość i swoistość są dopuszczalne jeśli jest tylko mniej negatywnych przypadków, a wszystkie negatywne przypadki nie są poprawnie sklasyfikowane, może to stanowić problem
Ponadto jest to związane z wykrywaniem oszustw, dlatego należy tutaj zachować ostrożność w prognozowaniu (tj. Nie przewidywać błędnie oszustwa jako pacjenta, który nie jest oszustem.

Pytanie 339. Jakie jest wcześniejsze prawdopodobieństwo i prawdopodobieństwo?

Wcześniejsze prawdopodobieństwo:
Udział zmiennej zależnej w zbiorze danych.
Prawdopodobieństwo:
Jest to prawdopodobieństwo sklasyfikowania danej obserwacji jako "1" w obecności innej zmiennej.

Pytanie 340. Skąd możemy wiedzieć, czy Twoje dane są narażone na niskie odchylenie i dużą wariancję?

Odpowiedź : Algorytm losowego lasu może być użyty do rozwiązania problemu dużej wariancji. W przypadkach niskiego odchylenia i dużej wariancji regularyzacja L1, L2 może pomóc.

Pytanie 341. Czym różni się kNN od klastrowania kmeans?

Kmeans dzieli zbiór danych na klastry, które są jednorodne, a punkty w klastrze są blisko siebie. Natomiast KNN próbuje sklasyfikować obserwacje nieoznakowane w oparciu o K sąsiadujących z nią sąsiadów.

Pytanie 342. Random Forest ma 1000 drzew, błąd treningu: 0,0, a błąd walidacji to 20,00. Na czym polega problem?

Odpowiedź : To klasyczny przykład nadmiernego dopasowania. Nie działa dobrze na niewidocznych danych. Być może będziemy musieli dostroić nasz model za pomocą walidacji krzyżowej i innych technik, aby przezwyciężyć nadmierne dopasowanie

Pytanie 343. Zbiór danych zawierający zmienne, w których brakuje więcej niż 30% wartości? Jak sobie z nimi poradzisz?

Odpowiedź :Możemy je usunąć, jeśli nie ma to wpływu na nasz model
Możemy zastosować techniki imputacji (takie jak MICE, MISSFOREST, AMELIA), aby uniknąć brakujących wartości

Pytanie 345. Co rozumiesz przez błąd typu I w porównaniu z błędem typu II?

Odpowiedź : Błąd typu I występuje, gdy - "klasyfikujemy wartość jako dodatnią, gdy rzeczywista wartość jest ujemna"
(Fałszywie dodatni) Błąd typu II występuje, gdy - "klasyfikujemy wartość jako ujemną, gdy rzeczywista wartość jest dodatnia"
(Fałszywie negatywny)

Pytanie 346. Na podstawie zbioru danych skąd będziesz wiedzieć, który algorytm zastosować?

Odpowiedź: Jeśli jest to problem związany z klasyfikacją, możemy użyć logistyki, drzew decyzyjnych itp.
Jeśli jest to problem związany z regresją, możemy użyć regresji liniowej.
Jeśli jest oparty na klastrach, możemy użyć KNN.
Możemy również zastosować XGB, RF dla lepszej dokładności.

Pytanie 347. Dlaczego normalizacja jest ważna?

Odpowiedź:Zbiór danych może mieć jedną kolumnę w zakresie (10 000/20 000), a inna kolumna może zawierać dane z zakresu (1, 2, 3). Oczywiście te dwie kolumny należą do innego zakresu i nie mogą dokładnie przeanalizować trendu. Możemy więc zastosować tutaj normalizację, używając normalizacji min-max (tj. Przekonwertować ją na skalę 0-1).

Pytanie 348. Co to jest nauka o danych?

Odpowiedź :Formalnie jest to sposób na kwantyfikację intuicji.
Technicznie rzecz biorąc, nauka o danych to połączenie uczenia maszynowego, głębokiego uczenia się i sztucznej inteligencji. Gdzie Deep Learning jest podzbiorem sztucznej inteligencji.

Pytanie 349. Co to jest uczenie maszynowe?

Odpowiedź:Uczenie maszynowe to proces generowania mocy predykcyjnej na podstawie danych z przeszłości (pamięci). Jest to jednorazowy proces, w którym prognozy mogą się nie powieść w przyszłości (jeśli zmieni się dystrybucja danych).

Pytanie 350. Co to jest uczenie głębokie?

Odpowiedź:Deep Learning to proces dodawania jeszcze jednej logiki do uczenia maszynowego, w którym iteruje się z nowymi danymi i nie zawiedzie w przyszłości, nawet jeśli dystrybucja danych ulegnie zmianie. Im im więcej iteruje, tym bardziej działa lepiej.

Pytanie 351. Gdzie używać R & Python?

Odpowiedź : R może być używany, gdy dane są uporządkowane. Python wydajnie radzi sobie z danymi nieustrukturyzowanymi. R nie radzi sobie z dużymi ilościami danych. Backend Pythona współpracujący z Theano / tensor ułatwił wykonanie tego tak szybko, jak w R.

Pytanie 352. Które algorytmy są używane do klasyfikacji binarnej?

Odpowiedź :Regresja logistyczna, KNN, Random Forest, CART, C50 to kilka algorytmów, które mogą wykonywać klasyfikację binarną.

Pytanie 353. Które algorytmy są używane do klasyfikacji wielomianowej?

Odpowiedź : Na?ve Bayes, Random Forest są szeroko stosowane w klasyfikacji wielomianowej.

Pytanie 354. Co to jest funkcja LOGIT?

Odpowiedź : Funkcja LOGIT jest logowaniem współczynnika ODDS. Wskaźnik ODDS można określić jako prawdopodobieństwo sukcesu podzielone przez prawdopodobieństwo niepowodzenia. Jaka jest ostateczna wartość prawdopodobieństwa Twojej klasyfikacji binarnej, gdzie używamy krzywej ROC, aby uzyskać wartość odcięcia prawdopodobieństwa.

Pytanie 355. Jakie są wszystkie etapy wstępnego przetwarzania, które są wysoce zalecane?

• Analiza strukturalna
• Analiza wartości odstających
• Leczenie brakujących wartości

• Inżynieria cech

Pytanie 356. Co to jest rozkład normalny?

Odpowiedź : Ilekroć dane definiują się z wartością Średnia = Mediana = Tryb, wówczas dane są wywoływane jako dane o rozkładzie normalnym.

Pytanie 357. Co to jest reguła empiryczna?

Odpowiedź : Reguła empiryczna mówi, że ilekroć dane są normalnie dystrybuowane, dane powinny mieć dystrybucję w sposób, 68 procent rozrzutu danych mieści się w zakresie odchylenia standardowego plus lub minus 1 95 procent rozrzutu danych mieści się w zakresie odchylenia standardowego plus lub minus 2 99,7 procent rozrzutu danych mieści się w zakresie odchylenia standardowego plus lub minus 3

Pytanie 358. Co to jest metoda bayesowska?

Odpowiedź: Bayesiści warunkują dane faktycznie obserwowane i uwzględniają rozkład prawdopodobieństwa na hipotezach.

Pytanie 359. Co to jest Frequentist?

Odpowiedź: Frequentists opierają się na hipotezie z wyboru i rozważają rozkład prawdopodobieństwa danych, niezależnie od tego, czy są obserwowane, czy nie.

Pytanie 360. Jakie jest prawdopodobieństwo?

Odpowiedź: Prawdopodobieństwo niektórych zaobserwowanych wyników przy danym zestawie wartości parametrów jest traktowane jako prawdopodobieństwo zbioru wartości parametrów przy obserwowanych wynikach.

Pytanie 361. Co to jest wartość P?

Odpowiedź: W testowaniu istotności statystycznej wartość p to prawdopodobieństwo uzyskania statystyki testowej co najmniej tak skrajnej, jak ta, która została faktycznie zaobserwowana, przy założeniu, że hipoteza zerowa jest prawdziwa. Jeśli wartość p jest mniejsza niż 0,05 lub 0,01, odpowiednio do 5% lub 1% szans na odrzucenie hipotezy zerowej, jeśli jest prawdziwa.

Pytanie 362. Podaj przykład wartości P?

Odpowiedź: Załóżmy, że wyniki eksperymentalne pokazują, że moneta obraca orłem 14 razy na 20 wszystkich rzutów
hipoteza zerowa (H0): uczciwa moneta;
obserwacja O: 14 głów na 20 rzutów; i
Wartość p obserwacji O przy danych H0 = Prob (? 14 orłów lub ? 14 ogonów) = 0,115.
Obliczona wartość p przekracza 0,05, więc obserwacja jest zgodna z hipotezą zerową - że obserwowany wynik 14 resz na 20 rzutów można przypisać wyłącznie przypadkowi - gdyż mieści się w przedziale 95% w rzeczywistości tak się stało. W naszym przykładzie nie możemy odrzucić hipotezy zerowej na poziomie 5%. Chociaż moneta nie spadła równomiernie, odchylenie od oczekiwanego wyniku jest na tyle małe, że można je zgłosić jako "nieistotne statystycznie na poziomie 5%".

Pytanie 363. Co to jest pobieranie próbek?

Odpowiedź: Próbkowanie to ta część praktyki statystycznej, która dotyczy wyboru nieobciążonego lub losowego podzbioru indywidualnych obserwacji w populacji osób, która ma na celu dostarczenie pewnej wiedzy na temat populacji, której dotyczy problem.

Pytanie 364. Jakie są metody pobierania próbek?

Odpowiedź: Istnieją cztery metody pobierania próbek:

Simple Random (czysto losowy),
Systematyczne (każdy k-ty członek populacji),
Klaster (populacja podzielona na grupy lub klastry)
Stratyfikowane (podzielone na wyłączne grupy lub warstwy, próbka z każdej grupy) pobieranie próbek.

Pytanie 365. Co to jest tryb?

Odpowiedź: Elementem, który występuje najczęściej w kolekcji, jest tryb próbki danych.
x = [1 2 3 3 3 4 4]
mode (x)% return 3, zdarzają się najczęściej.

Pytanie 366. Co to jest mediana?

Odpowiedź: Mediana jest opisana jako wartość liczbowa oddzielająca wyższą połowę próby, populację lub rozkład prawdopodobieństwa od dolnej połowy. Medianę skończonej listy liczb można znaleźć, porządkując wszystkie obserwacje od wartości najniższej do najwyższej i wybierając środkową medianę (x)% zwrotu 3.

Pytanie 367. Co to jest kwartyl?

Odpowiedź:

drugi kwartyl (50. percentyl).
trzeci kwartyl (75. centyl).
k-ty percentyl.
prctile (x, 25)% 25. percentyl, zwrot 2,25.
prctile (x, 50)% 50. percentyl, zwrot 3, czyli mediana.

Pytanie 368. Co to jest skośność?

Odpowiedź: Skośność jest miarą asymetrii danych wokół średniej próbki. Jeśli skośność jest ujemna, dane są rozłożone bardziej na lewo od średniej niż na prawo. Jeśli skośność jest dodatnia, dane są rozłożone bardziej w prawo.

Skośność (x)% zwrotu - 0,5954

Pytanie 369. Co to jest wariancja?

Odpowiedź: wariancja opisuje, jak daleko znajdują się wartości od średniej.

var (x)% zwrot 1,1429

Pytanie 370. Co to jest kurtoza?

Odpowiedź: Kurtoza jest miarą tego, jak skrajny jest rozkład.

kurtosis (x)% zwrot 2,3594

Pytanie 371. Co to jest moment?

Odpowiedź: Ilościowa miara kształtu zbioru punktów.

moment (x, 2); % zwrotu w drugiej chwili

Pytanie 372. Co to jest kowariancja?

Odpowiedź: Miara tego, jak bardzo dwie zmienne zmieniają się razem.

y2 = [1 3 4 5 6 7 8]
cov (x, y2)% macierz zwrotu 2 * 2, przekątna reprezentuje wariancję.

Pytanie 373. Co to jest test T dla jednej próbki?

Odpowiedź: Test t to dowolny test hipotezy statystycznej, w którym statystyka testowa jest zgodna z rozkładem t-Studenta, jeśli hipoteza zerowa jest obsługiwana.

[h, p, ci] = ttest (y2,0)% zwrotu 1 0,0018 ci = 2,6280 7,0863

Pytanie 374. Co to jest hipoteza alternatywna?

Odpowiedź: Hipoteza alternatywna (oznaczona przez H1) to stwierdzenie, które musi być prawdziwe, jeśli hipoteza zerowa jest fałszywa.

Pytanie 375. Jaki jest poziom istotności?

Odpowiedź: Prawdopodobieństwo odrzucenia hipotezy zerowej, gdy nazywa się ją poziomem istotności ?, a bardzo częstymi wyborami są ? = 0,05 i ? = 0,01.

Pytanie 376. Podaj przykład centralnego twierdzenia granicznego?

Odpowiedź: Biorąc pod uwagę, że populacja mężczyzn ma rozkład normalny wag, ze średnią 173 funtów i odchyleniem standardowym 30 funtów, znajdź prawdopodobieństwo, że

a. jeśli 1 mężczyzna zostanie wybrany losowo, jego waga jest większa niż 180 funtów.
b. jeśli 36 różnych mężczyzn zostanie wybranych losowo, ich średnia waga jest większa niż 180 funtów.

Rozwiązanie: a) z = (x - μ) / σ = (180-173) / 30 = 0,23
Dla rozkładu normalnego P (Z> 0,23) = 0,4090
b) σ x? = σ / √n = 20 / √ 36 = 5
z = (180-173) / 5 = 1,40
P (Z > 1,4) = 0,0808

Pytanie 377. Co to jest wzór na prawdopodobieństwo dwumianowe?

Odpowiedź:
P (x) = p x q n-x n! / [(N-x)! X!]
gdzie n = liczba prób.
x = liczba sukcesów wśród n prób.
p = prawdopodobieństwo sukcesu w jednej próbie.
q = 1 -p.

Pytanie 378. Czy wiesz, co to jest wyszukiwanie binarne?

Odpowiedź: W przypadku wyszukiwania binarnego tablica powinna być ułożona w porządku rosnącym lub malejącym. Na każdym kroku algorytm porównuje wartość klucza wyszukiwania z wartością klucza środkowego elementu tablicy. Jeśli klucze są zgodne, to został znaleziony pasujący element i zwracany jest jego indeks lub pozycja. W przeciwnym razie, jeśli klucz wyszukiwania jest mniejszy niż klucz elementu środkowego, algorytm powtarza swoje działanie na tablicy podrzędnej po lewej stronie elementu środkowego lub, jeśli klucz wyszukiwania jest większy, na tablicy podrzędnej po prawej stronie.

Pytanie 379. Wyjaśnij tabelę skrótów?

Odpowiedź: Tablica skrótów to struktura danych używana do implementacji tablicy asocjacyjnej, struktury, która może odwzorowywać klucze na wartości. Tablica mieszająca używa funkcji skrótu do obliczenia indeksu w tablicy segmentów lub przedziałów, z których można znaleźć poprawną wartość.

Pytanie 380. Wyjaśnij centralne twierdzenie graniczne?

Odpowiedź: Wraz ze wzrostem wielkości próby rozkład próby średnich z próby zbliża się do rozkładu normalnego. Jeżeli wszystkie możliwe losowe próbki o rozmiarze n są wybrane z populacji o średniej ? i odchyleniu standardowym ?, to średnia z średniej próby jest oznaczona przez

μ x?, więc
μ x? = μ
odchylenie standardowe średnich z próby wynosi:
σ x? = σ?√ n

Pytanie 381. Co to jest hipoteza zerowa?

Odpowiedź: Hipoteza zerowa (oznaczona przez H0) jest stwierdzeniem o wartości parametru populacji (np. Średniej) i musi zawierać warunek równości i musi być zapisana symbolem =, ≤lub ≥.

Pytanie 382. Co to jest regresja liniowa?

Odpowiedź: Modelowanie związku między zmienną skalarną y a jedną lub większą liczbą zmiennych oznaczonych X. W regresji liniowej modele nieznanych parametrów są szacowane na podstawie danych przy użyciu funkcji liniowych.

polyfit (x, y2,1)% return 2,1667 -1,3333, czyli 2,1667x-1,33333

Pytanie 383. Kiedy tworzysz model statystyczny, jak zapobiegasz nadmiernemu dopasowaniu?

Odpowiedź: Nadmiernemu dopasowaniu można zapobiec poprzez weryfikację krzyżową.

Pytanie 384. Co to są statystyki opisowe?

Odpowiedź: W statystyce opisowej badamy metody porządkowania, wyświetlania i opisywania danych.

385. Co to jest próbka?

Odpowiedź: Kiedy dane są gromadzone w badaniu statystycznym tylko dla części lub podzbioru wszystkich interesujących nas elementów, używamy próbki.

Pytanie 386. Podaj przykład statystyk wnioskowych?

Odpowiedź:
Przykład statystyki wnioskowania:
Zapytałeś pięciu kolegów z klasy o ich wzrost. Na podstawie tych informacji stwierdziłeś, że średni wzrost wszystkich studentów na Twojej uczelni wynosi 67 cali.

Pytanie 387. Do którego z testów statystycznych potrzebny jest normalny rozkład populacji:

Odpowiedź:
estymacja wariancji.
standardowy błąd średniej.
Test t-Studenta.

Pytanie 388. (Biorąc pod uwagę zestaw danych) Przeanalizuj ten zestaw danych i daj mi model, który może przewidzieć tę zmienną odpowiedzi.

Odpowiedź : Zacznij od dopasowania prostego modelu (regresja wieloczynnikowa, regresja logistyczna), wykonaj odpowiednio inżynierię cech, a następnie wypróbuj skomplikowane modele. Zawsze dziel zestaw danych na pociąg, walidację, testowy zestaw danych i używaj walidacji krzyżowej, aby sprawdzić ich wydajność. Określ, czy problemem jest klasyfikacja, czy regresja. Preferuj proste modele, które działają szybko i które można łatwo wyjaśnić. Wspomnij o walidacji krzyżowej jako sposobie oceny modelu. Rysuj i wizualizuj dane.

Pytanie 389. Jakie mogą być problemy, jeśli dystrybucja danych testowych znacznie różni się od dystrybucji danych uczących?

Odpowiedź : Model o wysokiej dokładności treningu może mieć niską dokładność testu. Bez dalszej wiedzy trudno jest stwierdzić, który zbiór danych reprezentuje dane dotyczące populacji, a zatem trudno jest zmierzyć możliwość uogólnienia algorytmu. Należy to złagodzić poprzez wielokrotne dzielenie zestawu danych pociągu względem zestawu danych testowych (jak w przypadku walidacji krzyżowej). Kiedy następuje zmiana w dystrybucji danych, nazywa się to przesunięciem zbioru danych. Jeśli pociąg i dane testowe mają inny rozkład, wówczas klasyfikator prawdopodobnie byłby nadmiernie dopasowany do danych o pociągu. Ten problem można rozwiązać, stosując bardziej ogólną metodę uczenia się. Może się to zdarzyć, gdy:

P (y | x) są takie same, ale P (x) są różne. (przesunięcie współzmienne)
P (y | x) są różne. (zmiana koncepcji)

Przyczynami mogą być:

Próbki szkoleniowe są uzyskiwane w sposób tendencyjny. (błąd wyboru próbki) Pociąg różni się od testu z powodu czasowych, przestrzennych zmian. (środowiska niestacjonarne)
Rozwiązanie do zmiany współzmiennej cv ważone według ważności

390. W jaki sposób mogę uczynić mój model bardziej odpornym na wartości odstające?

Odpowiedź : Możemy mieć regularyzację, taką jak L1 lub L2, aby zmniejszyć wariancję (zwiększyć odchylenie). Zmiany w algorytmie:
Użyj metod opartych na drzewach zamiast metod regresji, ponieważ są one bardziej odporne na wartości odstające. W przypadku testów statystycznych należy używać testów nieparametrycznych zamiast testów parametrycznych. Używaj niezawodnych metryk błędów, takich jak MAE lub Huber Loss zamiast MSE. Zmiany danych:

Wygrywanie danych
Przekształcanie danych (np. Log)
Usuń je tylko wtedy, gdy masz pewność, że są to anomalie, których nie warto przewidywać

Pytanie 391. Jakich różnic można się spodziewać w modelu, który minimalizuje błąd kwadratowy, w porównaniu z modelem, który minimalizuje błąd bezwzględny? W jakich przypadkach każda miara błędu byłaby odpowiednia?

Odpowiedź : MSE bardziej rygorystycznie określa wartości odstające. MAE jest bardziej wytrzymały w tym sensie, ale trudniej jest dopasować model, ponieważ nie można go zoptymalizować numerycznie. Tak więc, gdy istnieje mniejsza zmienność w modelu i model jest obliczeniowo łatwy do dopasowania, powinniśmy użyć MAE, a jeśli tak nie jest, powinniśmy użyć MSE. MSE: łatwiejsze do obliczenia gradientu, MAE: programowanie liniowe potrzebne do obliczenia gradientu MAE bardziej odporne na wartości odstające. Jeśli konsekwencje dużych błędów są duże, użycie MSE MSE odpowiada maksymalizacji prawdopodobieństwa zmiennych losowych Gaussa

Pytanie 392. Jakiej metryki błędu użyłbyś do oceny, jak dobry jest klasyfikator binarny? A co, jeśli klasy są niezrównoważone? A jeśli jest więcej niż 2 grupy?

Odpowiedź : Dokładność: odsetek wystąpień, które przewidujesz poprawnie. Zalety: intuicyjny, łatwy do wyjaśnienia, Wady: działa słabo, gdy etykiety klas są niezrównoważone, a sygnał z danych jest słaby
AUROC: wykreśl fpr na osi x i tpr na osi y dla różnych progów. Biorąc pod uwagę losowy przypadek pozytywny i losowy przypadek negatywny, AUC to prawdopodobieństwo, że możesz zidentyfikować, kto jest kim. Zalety: działa dobrze podczas testowania zdolności rozróżniania dwóch klas, Wady: nie można interpretować prognoz jako prawdopodobieństw (ponieważ AUC jest określane przez rankingi), więc nie można wyjaśnić niepewności modelu utraty / odchylenia logicznego: Zalety: miernik błędu oparte na prawdopodobieństwach, Wady: bardzo wrażliwe na fałszywe alarmy, negatywy Gdy jest więcej niż 2 grupy, możemy mieć k klasyfikacji binarnych i dodać je do utraty logarytmu. Niektóre wskaźniki, takie jak AUC, mają zastosowanie tylko w przypadku binarnym.

Pytanie 393. Jakie są różne sposoby przewidywania binarnej zmiennej odpowiedzi? Czy możesz porównać dwa z nich i powiedzieć, kiedy jeden byłby bardziej odpowiedni? Jaka jest różnica między nimi? (SVM, regresja logistyczna, naiwne Bayes, drzewo decyzyjne, itp.) Rzeczy, na które należy zwrócić uwagę: N, P, liniowe rozdzielanie ?, funkcje niezależne ?, prawdopodobnie nadmierne ?, szybkość, wydajność, użycie pamięci

Odpowiedź: Regresja logistyczna:
cechy z grubsza liniowe, problem z grubsza liniowo rozdzielalny odporny na szum, użyj regularyzacji l1, l2 do wyboru modelu, unikaj nadmiernego dopasowania wyjścia, ponieważ prawdopodobieństwa są wydajne, a obliczenia mogą być rozłożone mogą być używane jako podstawa dla innych algorytmów (-) nie radzą sobie z trudem cechy kategoryczne

SVM:
z nieliniowym jądrem może radzić sobie z problemami, których nie można rozdzielić liniowo (-) wolno trenować, dla większości zastosowań na skalę przemysłową, niezbyt wydajne

Naiwny Bayes:
wydajne obliczeniowo, gdy P jest duże, poprzez złagodzenie przekleństwa wymiarowość działa zaskakująco dobrze w niektórych przypadkach, nawet jeśli warunek nie dotyczy częstości słów jako cech, założenie o niezależności można uznać za rozsądne. Tak więc algorytm może być używany do kategoryzacji tekstu (-) należy spełnić warunkową niezależność każdej innej cechy

Zespoły drzew:
dobre dla dużego N i dużego P, radzi sobie z cechami kategorycznymi bardzo dobrze nieparametryczne, więc nie trzeba się martwić o wartości odstające GBT działa lepiej, ale parametry są trudniejsze do dostrojenia RF działa po wyjęciu z pudełka, ale zwykle działa gorzej niż GBT

Głęboka nauka:
działa dobrze w przypadku niektórych zadań klasyfikacyjnych (np. obrazu) używanych do wyciśnięcia czegoś z problemu

Pytanie 394. Co to jest regularyzacja i gdzie może być pomocna? Jaki jest przykład zastosowania regularyzacji w modelu?

Odpowiedź : Regularyzacja jest przydatna do zmniejszania wariancji w modelu, co oznacza unikanie nadmiernego dopasowania. Na przykład, możemy użyć regularyzacji L1 w regresji Lassa, aby ukarać duże współczynniki.

Pytanie 395. Dlaczego warto uwzględnić mniej predyktorów w porównaniu z wieloma?

Odpowiedź :Dodanie nieistotnych funkcji zwiększa skłonność modelu do nadmiernego dopasowania, ponieważ te funkcje wprowadzają więcej szumu. Gdy dwie zmienne są skorelowane, mogą być trudniejsze do zinterpretowania w przypadku regresji itp. Przekleństwo wymiarowości dodanie losowego szumu sprawia, że model jest bardziej skomplikowany, ale bezużyteczny koszt obliczeniowy.

Pytanie 396. Biorąc pod uwagę dane treningowe dotyczące tweetów i ich retweetów, w jaki sposób można przewidzieć liczbę retweetów danego tweeta po 7 dniach po obserwacji danych z zaledwie 2 dni?

Odpowiedź : Zbuduj model szeregów czasowych z danymi treningowymi z siedmiodniowym cyklem, a następnie użyj go do nowych danych z danymi tylko z 2 dni. Zbuduj funkcję regresji, aby oszacować liczbę retweetów jako funkcję czasu t, aby określić, czy można zbudować jedną funkcję regresji, sprawdź, czy istnieją klastry pod względem trendów w liczbie retweetów, jeśli nie, musimy dodać funkcje do funkcja regresji funkcje + liczba retweetów pierwszego i drugiego dnia -> przewidywanie siódmego dnia : https://en.wikipedia.org/wiki/Dynamic_time_warping

Pytanie 397. Jak możesz zbierać i analizować dane, aby używać mediów społecznościowych do prognozowania pogody?

Odpowiedź : Możemy zbierać dane z mediów społecznościowych za pomocą API Twittera, Facebooka i Instagrama. Wtedy np. Dla twittera możemy konstruować cechy z każdego tweeta, np. data tweetów, liczba ulubionych, retweetów i oczywiście funkcje utworzone na podstawie samej treści tweetów. Następnie użyj modelu szeregów czasowych o wielu odmianach, aby przewidzieć pogodę.

Pytanie 398. Jak skonstruowałbyś kanał, aby wyświetlać odpowiednią treść dla witryny, która obejmuje interakcje użytkowników z produktami?

Odpowiedź : Możemy to zrobić, budując silnik rekomendacji. Najłatwiejsze, co możemy zrobić, to pokazać treści popularne wśród innych użytkowników, co jest nadal ważną strategią, jeśli na przykład treści są artykułami z wiadomościami. Aby być dokładniejszym, możemy zbudować filtrowanie oparte na treści lub filtrowanie zespołowe. Jeśli jest wystarczająco dużo danych o użytkowaniu użytkowników, możemy wypróbować wspólne filtrowanie i polecić treści, które przeglądali inni podobni użytkownicy. Jeśli tak nie jest, możemy polecić podobne elementy na podstawie wektoryzacji elementów (filtrowanie na podstawie treści).

Pytanie 399. Jak zaprojektowałbyś funkcję osób, które możesz znać, na LinkedIn lub Facebooku?

Odpowiedź : Znajdź silne, niepowiązane osoby na wykresie ważonego połączenia Zdefiniuj podobieństwo jako mocne połączenie dwóch osób Biorąc pod uwagę pewną cechę, możemy obliczyć podobieństwo na podstawie znajomości (sąsiedzi) Osoby meldujące się przebywają cały czas w tym samym miejscu. ta sama uczelnia, miejsce pracy Losowo upuszczone wykresy testują działanie algorytmu.

Wskaźnik podobieństwa: jak blisko są twórcy treści i użytkownicy
Waga: waga dla typu krawędzi (komentarz, polubienie, tag itp.). Nacisk na funkcje, które firma chce promować
Rozkład czasu: im starszy, tym mniej ważny

Pytanie 400. Jak przewidziałbyś, do kogo ktoś może chcieć wysłać Snapchata lub Gmaila?

Każdemu użytkownikowi przypisz ocenę tego, jak prawdopodobne jest, że ktoś wyśle wiadomość e-mail do reszty, ponieważ inżynieria funkcji: liczba przeszłych e-maili, liczba odpowiedzi, ostatni raz wymieniony e-mail, czy ostatni e-mail kończy się znakiem zapytania, funkcje o innych użytkownikach itp. Osoby, do których ktoś wysyłał najwięcej e-maili w przeszłości, warunkując upływ czasu.

Pytanie 401. Jak zasugerowałbyś franczyzie, gdzie otworzyć nowy sklep?

Odpowiedź : Zbuduj główny zestaw danych z lokalnymi informacjami demograficznymi dostępnymi dla każdej lokalizacji. Lokalne poziomy dochodów, bliskość ruchu, pogoda, gęstość zaludnienia, bliskość innych przedsiębiorstw - zbiór danych referencyjnych dotyczących lokalnych, regionalnych i krajowych warunków makroekonomicznych (np. bezrobocie, inflacja, podstawowa stopa procentowa itp.) wszelkie dane dotyczące lokalnych właścicieli franczyz-operatorów, w stopniu, w jakim menedżer określi zestaw wskaźników KPI akceptowalnych przez kierownictwo, które zażądało analizy najbardziej pożądanych czynników otaczających franczyzę kwartalny zysk operacyjny, ROI, EVA, wskaźnik wypłat itp. uruchamiają modele ekonometryczne w celu zrozumienia względnego znaczenia każdej zmiennej uruchamiającej algorytmy uczenia maszynowego w celu przewidywania wydajności każdego kandydata do lokalizacji

Pytanie 402. W wyszukiwarce, biorąc pod uwagę częściowe dane o tym, co wpisał użytkownik, jak można przewidzieć ostateczne zapytanie użytkownika?

Odpowiedź : Opierając się na przeszłych częstotliwościach pojawiania się słów przy danej sekwencji słów, możemy skonstruować warunkowe prawdopodobieństwa zbioru następnych sekwencji słów, które mogą się pojawić (n-gram). Sekwencje o najwyższym prawdopodobieństwie warunkowym mogą pojawić się jako najlepsi kandydaci. Aby jeszcze bardziej ulepszyć ten algorytm, możemy położyć większą wagę na przeszłe sekwencje, które pojawiły się później i w pobliżu Twojej lokalizacji, aby uwzględnić trendy, pokazać ostatnie wyszukiwania z danymi częściowymi

Pytanie 403. Biorąc pod uwagę bazę danych wszystkich poprzednich darowizn absolwentów na rzecz Twojej uczelni, jak możesz przewidzieć, którzy z ostatnich absolwentów najprawdopodobniej przekażą darowiznę?

Odpowiedź : Opierając się na częstotliwości i ilości darowizn, roku ukończenia szkoły, specjalizacji itp., Skonstruuj nadzorowany algorytm regresji (lub klasyfikacji binarnej).

Pytanie 404. Jesteś Uberem i chcesz zaprojektować mapę popularności, aby polecić kierowcom, gdzie czekać na pasażera. Jak byś do tego podejść?

Odpowiedź : Na podstawie lokalizacji odbioru pasażerów w przeszłości o tej samej porze dnia, w dniu tygodnia (miesiąc, rok), skonstruuj. Na podstawie liczby wcześniejszych odbiorów uwzględnij okresowość (sezonowe, miesięczne, tygodniowe, dzienne, godzinowe) wydarzenia specjalne (koncerty, festiwale itp.) Z tweetów

Pytanie 405. Jak zbudowałbyś model przewidujący przedział March Madness?

Odpowiedź : Po jednym wektorze dla zespołu A i B. Weź różnicę dwóch wektorów i użyj jej jako danych wejściowych do przewidzenia prawdopodobieństwa, że zespół .A wygra, trenując model. Wytrenuj modele, korzystając z danych z poprzednich turniejów i wykonaj prognozę dla nowego turnieju, uruchamiając wytrenowany model dla każdej rundy turnieju. Niektóre rozszerzenia: Eksperymentuj z różnymi sposobami konsolidacji dwóch wektorów zespołowych w jeden (np. Koncentracja, uśrednianie itp.). Rozważ użycie modelu typu RNN, który sprawdza dane szeregów czasowych.

Pytanie 406. Chcesz przeprowadzić regresję, aby przewidzieć prawdopodobieństwo opóźnienia lotu, ale są loty z opóźnieniami do 12 godzin, które naprawdę psują Twój model. Jak możesz sobie z tym poradzić?

Odpowiedź : Jest to równoważne uczynieniu modelu bardziej odpornym na wartości odstające.

Pytanie 407. Ameba Bobo ma 25%, 25% i 50% szans na wytworzenie odpowiednio 0, 1 lub 2 o wiosny. Każdy z potomków Bobo również ma takie same prawdopodobieństwa. Jakie jest prawdopodobieństwo wymarcia rodu Bobo?

p = 1/4 + 1 / 4p + 1 / 2p ^ 2 => p = 1/2

Pytanie 408. W każdym 15-minutowym odstępie istnieje 20% prawdopodobieństwo, że zobaczysz co najmniej jedną spadającą gwiazdę. Jakie jest prawdopodobieństwo, że w ciągu godziny zobaczysz przynajmniej jedną spadającą gwiazdę?

1- (0,8) ^ 4. Lub możemy użyć procesów Poissona

Q409. Jak możesz uzyskać uczciwy rzut monetą, jeśli ktoś wręczy Ci monetę, która jest ważona częściej niż reszka?

Odpowiedź : Odwróć dwa razy, a jeśli HT, to H, TH, a następnie T.

Pytanie Q410. Masz mieszaninę 50-50 dwóch rozkładów normalnych z tym samym odchyleniem standardowym. Jak daleko od siebie muszą być środki, aby ta dystrybucja była bimodalna?

Odpowiedź Więcej niż dwa odchylenia standardowe

Pytanie 411. Biorąc pod uwagę rysunki z rozkładu normalnego ze znanymi parametrami, jak można symulować rysunki z rozkładu jednorodnego?

Odpowiedź : Podłącz wartość do CDF tej samej zmiennej losowej

Pytanie 412. Pewna para mówi ci, że ma dwoje dzieci, z których przynajmniej jedno jest dziewczynką. Jakie jest prawdopodobieństwo, że mają dwie dziewczyny?

Odpowiedź : 1/3

Pytanie 413. Masz grupę par, które decydują się na posiadanie dzieci, dopóki nie mają pierwszej córki, po czym przestają mieć dzieci. Jaki jest przewidywany stosunek płci urodzonych dzieci? Jaka jest przewidywana liczba dzieci, które każda para będzie miała?

Odpowiedź: stosunek płci wynosi 1: 1. Oczekiwana liczba dzieci to 2. niech X będzie liczbą dzieci do momentu otrzymania kobiety (zdarza się z prawdopodobieństwem 1/2). wynika to z rozkładu geometrycznego z prawdopodobieństwem 1/2

Pytanie 414 . Na ile sposobów można podzielić 12 osób na 3 zespoły po 4 osoby?

Odpowiedź :wynik jest zgodny z rozkładem wielomianowym z n = 12 i k = 3. ale klasy są nie do odróżnienia

Pytanie 415. Twoja funkcja skrótu przypisuje każdemu obiektowi liczbę od 1:10, każdy z równym prawdopodobieństwem. Jakie jest prawdopodobieństwo kolizji z 10 obiektami? Jaka jest oczekiwana liczba kolizji z hashami? Jaka jest oczekiwana liczba nieużywanych skrótów?

prawdopodobieństwo kolizji skrótu: 1- (10! / 10 ^ 10)
oczekiwana liczba kolizji z skrótami: 1-10 * (9/10) ^ 10
oczekiwana liczba nieużywanych skrótów: 10 * (9/10) ^ 10

Pytanie 416. Dzwonisz do 2 UberX i 3 Lyftów. Jeśli czas potrzebny każdemu na dotarcie do Ciebie to IID, jaka jest prawdop o to, że wszystkie Lyfy przybywają jako pierwsze? Jakie jest prawdopodobieństwo, że wszystkie UberX pojawią się jako pierwsze?

Odpowiedź : Lyfty przybywają jako pierwsze: 2! * 3! / 5!
Ubers przyjeżdża pierwszy: to samo

Pytanie 417. Piszę program, który powinien wypisać wszystkie liczby od 1 do 300, ale zamiast tego wypisuje Fizz, jeśli liczba jest podzielna przez 3, Buzz zamiast tego, jeśli liczba jest podzielna przez 5, i FizzBuzz, jeśli liczba jest podzielna przez 3 i 5. Jaka jest całkowita liczba liczb, które są Fizzed, Buzzed lub FizzBuzzed?

Odpowiedź : 100 + 60-20 = 140

Pytanie 418. W serwisie randkowym użytkownicy mogą wybrać 5 z 24 przymiotników, aby opisać siebie. Zgodność jest deklarowana między dwoma użytkownikami, jeśli pasują do co najmniej 4 przymiotników. Jeśli Alicja i Bob losowo wybiorą przymiotniki, jakie jest prawdopodobieństwo, że będą do siebie pasować?

24C5 * (1 + 5 (24-5)) / 24C5 * 24C5 = 4/1771

Pytanie 419. Leniwy licealista pisze aplikacje i koperty do n różnych uczelni, ale umieszcza je losowo w kopertach. Jaka jest przewidywana liczba podań, które trafiły do właściwej uczelni?

Odpowiedź : 1

Pytanie 420 . Powiedzmy, że masz bardzo wysokiego ojca. Średnio, jakiego wzrostu spodziewałbyś się jego syna? Wyższy, równy czy niższy? A co by było, gdybyś miał bardzo niskiego ojca?

Odpowiedź : Krótszy. Regresja do średniej

Pytanie 421. Jaka jest oczekiwana liczba rzutów monetą, zanim zdobędziesz dwie reszki z rzędu?

Odpowiedź : oczekiwana liczba rzutów monetą, aż uzyskasz dwa reszki z rzędu.

Pytanie 422. Powiedzmy, że gramy w grę, w której rzucam monetą, aż dostanę reszkę. Jeśli za pierwszym razem dostanę orła na n-tej monecie, zapłacę ci 2n-1 dolara. Ile byś mi zapłacił za tę grę?

Odpowiedź : mniej niż 3 dolary

Pytanie 423. Masz dwie monety, z których jedna jest uczciwa i wychodzi reszka z prawdopodobieństwem 1/2, a druga jest tendencyjna i wychodzi reszka z prawdopodobieństwem 3/4. Losowo wybierasz monetę i rzucasz nią dwa razy, a za każdym razem dostajesz orła. Jakie jest prawdopodobieństwo, że wybrałeś uczciwą monetę?

Odpowiedź : 4/13

Pytanie 424 . Załóżmy, że tworzysz zalecany silnik muzyczny w Spotify, aby polecać ludziom muzykę na podstawie słuchanej historii. Jak podejmiesz ten problem?

Odpowiedź : wspólne filtrowanie

Pytanie 425 . Co to jest R2? Jakie inne wskaźniki mogą być lepsze niż R2 i dlaczego?

Odpowiedź : dobroć dopasowania miary. wariancja wyjaśniona przez regresję / całkowitą wariancję, im więcej predyktorów dodasz, tym wyższe staje się R ^ 2. dlatego użyj skorygowanego R ^ 2, który dostosowuje się do stopni swobody lub metryk błędów ciągu

Pytanie 426. Jaka jest klątwa wymiarowości?

Wysoka wymiarowość utrudnia tworzenie klastrów, ponieważ posiadanie wielu wymiarów oznacza, że wszystko jest "daleko" od siebie. Na przykład, aby objąć ułamek objętości danych, musimy uchwycić bardzo szeroki zakres dla każdej zmiennej w miarę wzrostu liczby zmiennych. Wszystkie próbki znajdują się blisko krawędzi próbki. A to zła wiadomość, ponieważ przewidywanie jest znacznie trudniejsze w pobliżu krawędzi próbki treningowej. Gęstość próbkowania spada wykładniczo wraz ze wzrostem p, a zatem dane stają się znacznie rzadsze bez znacznie większej ilości danych. Powinniśmy przeprowadzić PCA, aby zmniejszyć wymiarowość

Pytanie 427. Czy więcej danych jest zawsze lepsze?

Odpowiedź : Statystycznie zależy to od jakości danych, na przykład jeśli dane są tendencyjne, samo uzyskanie większej ilości danych nie pomoże. To zależy od twojego modelu. Jeśli model jest obciążony dużym odchyleniem, uzyskanie większej ilości danych nie poprawi wyników testu poza punkt. Trzeba by było dodać więcej funkcji itp. Praktycznie rzecz biorąc, istnieje również kompromis między posiadaniem większej ilości danych a dodatkową pamięcią masową, mocą obliczeniową i pamięcią. Dlatego zawsze myśl o koszcie posiadania większej ilości danych.

Pytanie 428 . Jakie są zalety wykreślania danych przed wykonaniem analizy?

Odpowiedź : Zestawy danych zawierają błędy. Nie znajdziesz ich wszystkich, ale możesz znaleźć kilka. Ten 212-letni mężczyzna. Ta wysoka na 9 stóp kobieta. Zmienne mogą mieć skośność, wartości odstające itp. Wtedy średnia arytmetyczna może nie być użyteczna. Co oznacza, że odchylenie standardowe nie jest przydatne. Zmienne mogą być multimodalne! Jeśli zmienna jest multimodalna, podejrzane będzie wszystko oparte na jej średniej lub medianie.

Pytanie 429. Jak możesz się upewnić, że nie analizujesz czegoś, co kończy się bez znaczenia?

Odpowiedź : Właściwa eksploracyjna analiza danych. W każdym zadaniu analizy danych jest faza eksploracyjna, w której po prostu tworzysz wykresy, testujesz rzeczy na małych zestawach danych, podsumowujesz proste statystyki i uzyskujesz przybliżone wyobrażenia o hipotezach, które możesz chcieć dalej rozwijać. Następnie jest faza eksploatacji, w której zagłębiasz się w zestaw hipotez. Faza eksploracyjna wygeneruje wiele możliwych hipotez, a faza eksploatacji pozwoli ci naprawdę zrozumieć kilka z nich. Zrównoważyć te dwie rzeczy, a unikniesz marnowania czasu na wiele rzeczy, które okazują się bez znaczenia, chociaż nie wszystkie.

Pytanie 430. Jaka jest rola prób i błędów w analizie danych? Jaka jest rola postawienia hipotezy przed nurkowaniem?

Odpowiedź : analiza danych jest powtórzeniem stawiania nowej hipotezy i próbą obalenia hipotezy zerowej. Metoda naukowa jest wybitnie indukcyjna: tworzymy hipotezę, testujemy ją i obalamy lub nie. W rezultacie tworzymy nowe hipotezy, które z kolei są testowane i tak dalej. Jest to proces powtarzalny, jak zawsze jest nauka.

Pytanie 431 . Jak możesz określić, które cechy są najważniejsze w Twoim modelu?

Odpowiedź : uruchamiaj funkcje przez Gradient Boosting Machine lub Random Forest, aby generować wykresy o względnym znaczeniu i uzyskiwaniu informacji dla każdej funkcji w zespołach. Spójrz na zmienne dodane w wyborze zmiennych do przodu

Pytanie 432. Jak radzisz sobie z brakiem niektórych predyktorów?

Odpowiedź : Usuń wiersze z brakującymi wartościami - działa to dobrze, jeśli 1) losowo brakuje wartości (więcej informacji na ten temat zawiera odpowiedź Vinaya Prabhu) 2), jeśli po wykonaniu tej czynności nie stracisz zbyt dużej części zbioru danych. Zbuduj inny model predykcyjny, aby przewidzieć brakujące wartości - może to być cały projekt sam w sobie, dlatego zwykle stosuje się tutaj proste techniki. Użyj modelu, który może uwzględniać brakujące dane - na przykład losowy las lub dowolna metoda oparta na drzewie.

Pytanie 433. Masz kilka zmiennych, które są dodatnio skorelowane z twoją odpowiedzią, i myślisz, że połączenie wszystkich zmiennych może dać dobre przewidywanie twojej odpowiedzi. Jednak widzisz, że w wielokrotnej regresji liniowej jedna z wag predyktorów jest ujemna. Co może być problemem?

Odpowiedź : Współliniowość odnosi się do sytuacji, w której co najmniej dwie zmienne objaśniające w modelu regresji wielorakiej są wysoce liniowo powiązane. Pozostaw model bez zmian, pomimo współliniowości. Obecność współliniowości nie wpływa na skuteczność ekstrapolacji dopasowanego modelu do nowych danych, pod warunkiem, że zmienne predykcyjne mają taki sam wzorzec współliniowości w nowych danych, jak w danych, na których oparty jest model regresji.

Pytanie 434. Załóżmy, że otrzymujesz niewykonalną liczbę predyktorów w zadaniu modelowania predykcyjnego. Jakie są sposoby, aby przewidywanie było bardziej wykonalne?

Pytanie 435. Teraz masz wykonalną liczbę predyktorów, ale masz całkowitą pewność, że nie potrzebujesz ich wszystkich. Jak dokonałbyś wyboru funkcji w zbiorze danych?

Odpowiedź : regresja grzbietu / lasso / elastycznej siatki
Wybór funkcji dla jednej zmiennej, w którym test statystyczny jest stosowany do każdej funkcji z osobna. Zachowujesz tylko najlepsze cechy zgodnie z wynikami testu
"Rekurencyjna eliminacja funkcji":

Najpierw wytrenuj model ze wszystkimi cechami i oceń jego wydajność na podstawie posiadanych danych.
Następnie upuść, powiedzmy o 10% najsłabszych cech (np. Cecha o najmniejszych współczynnikach bezwzględnych w modelu liniowym) i przećwicz ponownie pozostałe cechy.
Powtarzaj, aż zaobserwujesz gwałtowny spadek predykcyjnej dokładności modelu.

Pytanie 436. Twoja regresja liniowa nie została uruchomiona i informuje, że istnieje nieskończona liczba najlepszych oszacowań współczynników regresji. Co może być nie tak?

Odpowiedź : p > n.
Gdyby niektóre zmienne objaśniające były doskonale skorelowane (dodatnio lub ujemnie), wówczas współczynniki nie byłyby unikalne.

Pytanie 437. Przeprowadzasz regresję na różnych podzbiorach danych i że w każdym podzbiorze wartość beta dla określonej zmiennej jest bardzo różna. Jaki może być problem?

Odpowiedź : Zbiór danych może być niejednorodny. W takim przypadku zaleca się mądre grupowanie zbiorów danych w różne podzbiory, a następnie rysowanie różnych modeli dla różnych podzbiorów. Lub użyj modeli, takich jak modele nieparametryczne (drzewa), które całkiem dobrze radzą sobie z heterogenicznością. Jaka jest główna idea uczenia się zespołowego? Gdybym miał wiele różnych modeli, które przewidywały tę samą zmienną odpowiedzi, co mógłbym chcieć zrobić, aby uwzględnić wszystkie modele? Czy spodziewałbyś się, że będzie to działać lepiej niż pojedynczy model, czy gorzej? Zakłada się, że grupę słabych uczniów można połączyć w silnego ucznia. W związku z tym oczekuje się, że połączony model będzie działał lepiej niż model indywidualny.

Założenia:

uśrednić uprzedzenia
zmniejszyć wariancję

Pakowanie działa, ponieważ niektóre podstawowe algorytmy uczenia się są niestabilne: nieco inne dane wejściowe prowadzą do bardzo różnych wyników. Jeśli możesz skorzystać z tej niestabilności, uruchamiając wiele instancji, można wykazać, że zmniejszona niestabilność prowadzi do mniejszego błędu. Jeśli chcesz zrozumieć, dlaczego, oryginalny papier do pakowania (http://www.springerlink.com/cont) zawiera sekcję "Dlaczego działa pakowanie"

Boosting działa ze względu na skupienie się na lepszym określeniu "krawędzi decyzyjnej". Ponowne ważenie przykładów w pobliżu marginesu (przykłady pozytywne i negatywne) zmniejsza błąd (patrz http://citeseerx.ist.psu.edu/vie ...)

Użyj danych wyjściowych swoich modeli jako danych wejściowych do meta-modelu.

Na przykład, jeśli wykonujesz klasyfikację binarną, możesz użyć wszystkich wyników prawdopodobieństwa z indywidualnych modeli jako danych wejściowych do końcowej regresji logistycznej (lub naprawdę dowolnego modelu), który może łączyć oszacowania prawdopodobieństwa. Bardzo ważnym punktem jest upewnienie się, że wyniki modeli są prognozami spoza próby. Oznacza to, że przewidywana wartość dla dowolnego wiersza w ramce danych NIE powinna zależeć od rzeczywistej wartości tego wiersza.

Pytanie 438. Biorąc pod uwagę, że masz dane wi w swoim biurze, w jaki sposób określiłbyś, które pokoje i obszary są niewykorzystywane lub nadmiernie wykorzystywane?

Odpowiedź : Jeśli dane są częściej używane w jednym pomieszczeniu, to ten jest nadmiernie wykorzystywany! Może weź pod uwagę pojemność pomieszczenia i znormalizuj dane.

Pytanie 439. Jak oszacowałbyś wpływ użytkownika Twittera?

Odpowiedź : podobnie jak ranking strony z każdym użytkownikiem odpowiadającym stronom internetowym i linkującym do strony równoważnej następującemu.

Pytanie 440. Masz 100 matematyków i 100 zadań matematycznych. Każdy matematyk ma do wyboru 10 zadań do rozwiązania. Biorąc pod uwagę dane o tym, kto poprawił dany problem, jak uszeregowałbyś problemy pod względem trudności?

Odpowiedź : Jednym ze sposobów na to jest zapisanie "poziomu umiejętności" dla każdego użytkownika i "poziomu trudności" dla każdego problemu. Zakładamy, że prawdopodobieństwo, że użytkownik rozwiąże problem, zależy tylko od umiejętności użytkownika i stopnia trudności problemu. * Następnie maksymalizujemy prawdopodobieństwo znalezienia ukrytych umiejętności i poziomów trudności na podstawie danych. Model Rascha dla danych dychotomicznych ma postać:

{\ Displaystyle \ Pr \ {X_ {ni} = 1 \} = {\ Frac {\ exp ({\ beta _ {n}} - {\ delta _ {i}})}
{1+ \ exp ({\ beta _ {n}} - {\ delta _ {i}})}},}

gdzie jest zdolność osoby i trudność przedmiotu}.

Pytanie 441. Masz 5000 ludzi, którzy mają 10 sushis pod względem braku soli. Jak zagregowałbyś te dane, aby oszacować prawdziwą pozycję słoności w każdym sushi?

Odpowiedź :Niektórzy ludzie przyjęliby średnią rangę każdego sushi. Gdybym chciał czegoś prostego, użyłbym mediany, ponieważ rangi są (ściśle rzecz biorąc) porządkowe, a nie interwałowe, więc dodawanie ich jest nieco ryzykowne (ale ludzie robią to cały czas i prawdopodobnie nie będziesz się bardzo mylić).

Pytanie 442. Biorąc pod uwagę dane o ustawach kongresowych oraz o tym, który kongres przedstawiciele współsonsorowali ustawy, w jaki sposób ustalilibyście, którzy inni przedstawiciele są najbardziej podobni do Pana w zachowaniu podczas głosowania? Jak oceniasz, kto jest najbardziej liberalny? Najbardziej republikański? Najbardziej dwupartyjni?

Odpowiedź : wspólne filtrowanie. masz swoje głosy i możemy obliczyć podobieństwo dla każdego przedstawiciela i wybrać najbardziej podobnego przedstawiciela partii liberalnej i republikańskiej, znaleźć wektor średni i znaleźć przedstawiciela najbliżej punktu środkowego

Pytanie 443. Jak wymyśliłbyś algorytm do wykrywania plagiatu w treściach online?

Odpowiedź : zredukuj tekst do bardziej zwartej formy (np. odciski palców, zbiór słów), a następnie porównaj je z innymi tekstami, obliczając podobieństwo

Pytanie 444. Masz dane o wszystkich zakupach klientów w sklepie spożywczym. Opisz mi, jak zaprogramowałbyś algorytm, który grupowałby klientów w grupy. Jak określiłbyś odpowiednią liczbę klastrów?

KNN wybiera małą wartość k, która nadal ma niskie SSE (metoda łokcia) https://bl.ocks.org/rpgove/0060ff3b656618e9136b

Wnioskowanie statystyczne

Pytanie 445. W teście A / B, jak sprawdzić, czy przypisanie do różnych segmentów było naprawdę losowe?

Odpowiedź : Wykreśl rozkłady wielu obiektów zarówno dla A, jak i B i upewnij się, że mają ten sam kształt. Bardziej rygorystycznie możemy przeprowadzić test permutacji, aby sprawdzić, czy rozkłady są takie same.

MANOVA do porównywania różnych środków

Pytanie 446. Jakie mogą być korzyści z przeprowadzenia testu A / A, w którym masz dwie grupy, które są narażone na dokładnie ten sam produkt?

Odpowiedź : Sprawdź, czy algorytm próbkowania jest losowy.

Pytanie 447. Jakie byłyby zagrożenia, gdyby użytkownicy mogli rzucić okiem na drugie wiadro w teście A / B?

Odpowiedź : Użytkownik mógłby nie zachowywać się tak samo, gdyby nie widział drugiego wiadra. Zasadniczo dodajesz dodatkowe zmienne określające, czy użytkownik zajrzał do drugiego zasobnika, które nie są losowe w grupach.

Pytanie 448. Jakie byłyby problemy, gdyby blogi zdecydowały się na pokrycie jednej z twoich eksperymentalnych grup?

Odpowiedź : To samo, co w poprzednim pytaniu. Powyższy problem może się zdarzyć w większej skali.

Pytanie 449. Jak przeprowadziłbyś test A / B funkcji opt-in?

Pytanie 450. Jak przeprowadziłbyś test A / B dla wielu wariantów, powiedzmy 20 lub więcej?

Odpowiedź : jedna kontrola, 20 zabiegów, jeśli wielkość próby dla każdej grupy jest wystarczająco duża. Sposoby podjęcia próby naprawienia tego obejmują zmianę poziomu pewności siebie (np. Korekta Bonferroniego) lub przeprowadzenie testów obejmujących całą rodzinę, zanim zanurkujesz do indywidualnych wskaźników (np. Chronione LSD Fishera).

Pytanie 451. Jak przeprowadzić test A / B, jeśli obserwacje są skrajnie prawostronne?

Odpowiedź : zmniejszyć zmienność, modyfikując KPI
wartości limitów
wskaźniki centylowe
log transformacji
https://www.quora.com/How-would-you-run-an-A-B-test-if-the-observationsare-extremely-right-skewed

Pytanie 452. Mam dwa różne eksperymenty, które zmieniają przycisk rejestracji w mojej witrynie. Chcę je przetestować w tym samym czasie. O jakich rzeczach należy pamiętać?

Odpowiedź : exlusive -> ok

Pytanie 453. Co to jest wartość p? Jaka jest różnica między błędem typu 1 a błędem typu 2?

błąd typu 1: odrzucenie Ho, gdy Ho jest prawdą
błąd typu 2: nie odrzucanie Ho, gdy Ha jest prawdziwe
[toggle_content title = Pytanie 49. Jesteś AirBnB i chcesz przetestować hipotezę, że większa liczba zdjęć zwiększa szanse, że kupujący wybierze ofertę. Jak byś przetestował tę hipotezę? W przypadku losowo wybranych aukcji zawierających więcej niż 1 zdjęcia ukryj 1 losowe zdjęcie dla grupy A i pokaż wszystkie dla grupy B. Porównaj stawki rezerwacji dla dwóch grup.

Pytanie 454. Jak zaplanowałbyś eksperyment, aby określić wpływ opóźnienia na zaangażowanie użytkowników?>

Odpowiedź : Najlepszym znanym mi sposobem ilościowego określenia wpływu wydajności jest wyodrębnienie tylko tego czynnika za pomocą eksperymentu zwalniania, tj. Dodanie opóźnienia w teście A / B.

Pytanie 455. Co to jest oszacowanie maksymalnego prawdopodobieństwa? Czy może być jakikolwiek przypadek, w którym nie istnieje?

Odpowiedź : Metoda optymalizacji parametrów (dopasowanie modelu). Parametry dobieramy tak, aby zmaksymalizować funkcję wiarygodności (prawdopodobieństwo, że wynik będzie miał miejsce przy aktualnych danych i naszym modelu).
estymacja największej wiarygodności (MLE) to metoda szacowania parametrów modelu statystycznego danych obserwacji, poprzez znajdowanie wartości parametrów, które maksymalizują prawdopodobieństwo wykonania obserwacji przy danych parametrach. MLE można postrzegać jako szczególny przypadek maksymalnego oszacowania a posteriori (MAP), który zakłada jednolity wcześniejszy rozkład parametrów, lub jako wariant MAP, który ignoruje poprzednie, a zatem jest nieuregulowany. dla mieszanin Gaussa, modeli nieparametrycznych, nie istnieje

Pytanie 456. Jaka jest różnica między estymatorem MAP, MOM, MLE? W jakich przypadkach chciałbyś użyć każdego z nich?

Odpowiedź : MAP szacuje późniejszy rozkład, biorąc pod uwagę poprzedni rozkład i dane, które maksymalizują funkcję wiarygodności. MLE to szczególny przypadek MAP, w którym poprzednikiem jest nieinformacyjna, jednolita dystrybucja. MOM ustawia wartości momentu i rozwiązuje parametry. MOM nie używało już zbyt wiele, ponieważ estymatory maksymalnego prawdopodobieństwa mają większe prawdopodobieństwo, że są zbliżone do wielkości, które mają być oszacowane, i są często bardziej bezstronne.

Pytanie 457. Co to jest przedział ufności i jak go interpretujesz?

Odpowiedź : Na przykład 95-procentowy przedział ufności to przedział, który skonstruowany dla zestawu próbek, z których każda została pobrana w ten sam sposób, zawierała prawdziwą średnią w 95% przypadków. jeżeli przedziały ufności są konstruowane przy użyciu danego poziomu ufności w nieskończonej liczbie niezależnych eksperymentów, proporcja tych przedziałów, które zawierają prawdziwą wartość parametru, będzie odpowiadać poziomowi ufności.

Pytanie 458. Czym jest bezstronność jako właściwość estymatora? Czy jest to zawsze pożądana właściwość podczas wnioskowania? A co z analizą danych lub modelowaniem predykcyjnym?

Odpowiedź : Bezstronność oznacza, że oczekiwanie estymatora jest równe szacowanej wartości populacji. Jest to pożądane w wnioskowaniu, ponieważ celem jest jak najdokładniejsze wyjaśnienie zbioru danych. Jednak nie zawsze jest to pożądane w przypadku analizy danych lub modelowania predykcyjnego, ponieważ istnieje kompromis między odchyleniami. Czasami chcemy nadać priorytet możliwości uogólniania i uniknąć nadmiernego dopasowania, zmniejszając wariancję, a tym samym zwiększając odchylenie.

Pytanie 459. Jaka jest różnica między populacją a próbą w danych?

Odpowiedź : Próbka to zbiór osób, które uczestniczyły w twoim badaniu, podczas gdy populacja to zbiór osób, do których chcesz uogólnić wyniki. Na przykład - jeśli chcesz zbadać otyłość wśród dzieci w Indiach i zbadasz 1000 dzieci, to te 1000 stało się próbą, podczas gdy wszystkie dzieci w kraju to populacja. Próbka to podzbiór populacji.

Pytanie 460. Jaka jest różnica próbka i ramka próbki?

Odpowiedź : Ramka próbki to liczba osób, które chciały się uczyć, podczas gdy próbka to rzeczywista liczba osób, które wzięły udział w badaniu. Np. - jeśli wysłałeś e-mailem link do ankiety marketingowej do 300 osób i tylko 100 wzięło udział w ankiecie, to 300 to badanie próbne, a 100 to próba. Próbka jest podzbiorem klatki próbki. Zarówno próbka, jak i ramka próby są podzbiorem populacji.

Pytanie 461. Jaka jest różnica między analizą jednowymiarową, dwuwymiarową i wielowymiarową?

Odpowiedź : Analiza jednowymiarowa jest przeprowadzana na jednej zmiennej, dwuwymiarowa na dwóch zmiennych, a analiza wielowymiarowa na dwóch lub więcej zmiennych

Pytanie 461. Jaka jest różnica między interpolacją a ekstrapolacją?

Odpowiedź : Ekstrapolacja to oszacowanie przyszłych wartości na podstawie obserwowanego trendu w przeszłości. Interpolacja to oszacowanie brakujących przeszłych wartości w ramach dwóch wartości w sekwencji wartości

Pytanie 462 Co to jest precyzja i pamięć?

Odpowiedź: Precyzja to procent poprawnych prognoz, które wykonałeś, a przywołanie to procent prognoz, które faktycznie się sprawdziły

Pytanie 463. Co to jest matryca zamieszania?

Odpowiedź : Macierz nieporozumień to tabela zawierająca informacje o przewidywanych wartościach i rzeczywistych wartościach w modelu klasyfikacyjnym. Składa się z czterech części: prawdziwie dodatnich, prawdziwie ujemnych, fałszywie dodatnich i fałszywie ujemnych.

Pytanie 464. Co to jest testowanie hipotez?

Odpowiedź : Podczas przeprowadzania eksperymentu testowanie hipotez służy do analizy różnych czynników, co do których zakłada się, że mają wpływ na wynik eksperymentu. Hipoteza jest pewnego rodzaju założeniem, a testowanie hipotez służy do określenia, czy podana hipoteza jest prawdziwa, czy nie. Początkowe założenie nazywa się hipotezą zerową, a przeciwną hipotezą alternatywną

Pytanie 465. Jaka jest wartość p w statystykach?

Odpowiedź : W testowaniu hipotez wartość p pomaga dojść do wniosku. Gdy wartość p jest zbyt mała, hipoteza zerowa jest odrzucana, a alternatywa jest akceptowana. Gdy wartość p jest duża, przyjmuje się hipotezę zerową.

Pytanie 466. Jaka jest różnica między błędem typu I a błędem typu II w programie testowania hipotez?

Odpowiedź : Błąd typu I polega na tym, że odrzucamy hipotezę zerową, która miała zostać zaakceptowana. Reprezentuje fałszywie pozytywny wynik
Błąd typu II oznacza, że akceptujemy hipotezę zerową, która miała zostać odrzucona. Reprezentuje fałszywie negatywny.

Pytanie 467. PJakie są różne rodzaje leczenia braków wartości?

Usunięcie wartości
Zgadnij wartość
Średnia zmiana
Zastępowanie oparte na regresji
Wielokrotna imputacja

Pytanie 467. Co to jest opadanie gradientu?

Odpowiedź : Podczas budowania modelu statystycznego celem jest zmniejszenie wartości funkcji kosztu, która jest powiązana z modelem. Zejście gradientowe jest iteracyjną techniką optymalizacji używaną do określenia minimów funkcji kosztu

Pytanie 468. Jaka jest różnica między algorytmami uczenia nadzorowanego i nienadzorowanego?

Odpowiedź : Uczenie nadzorowane to klasa algorytmów, w których model jest trenowany poprzez jawne oznaczanie wyniku. Dawny. Regresja, klasyfikacja Uczenie nienadzorowane nie jest podawane, a algorytm jest zmuszony do nauczenia się implikacji wyników Ex. Stowarzyszenie, klastrowanie

Pytanie 469. Jaka jest potrzeba regularyzacji w budowaniu modeli?

Odpowiedź : Regularyzacja służy do karania modelu, gdy jest on nadmiernie dopasowany do modelu. Przede wszystkim pomaga w rozwiązaniu problemu nadmiernego dopasowania.

Pytanie 470. Różnica między odchyleniem a kompromisem wariancji?

Wysokie odchylenie jest podstawowym błędem, błędnym założeniem, które sprawia, że model jest niedopasowany. Wysoka wariancja w modelu oznacza, że szum w danych został zbyt poważnie potraktowany przez model, co spowoduje nadmierne dopasowanie. Zazwyczaj chcielibyśmy mieć model z niskim odchyleniem i niską wariancją

Pytanie 471. Jak rozwiązać problem nadmiernego dopasowania?

Odpowiedź : Wprowadź regularyzację
Przeprowadź weryfikację krzyżową
Zmniejsz liczbę funkcji
Zwiększ liczbę wpisów
Zespół

Pytanie 472. Jak wykryjesz obecność nadmiernego dopasowania?

Odpowiedź : Kiedy budujesz model, który ma bardzo wysoką dokładność modelu w zestawie danych pociągu i bardzo małą dokładność prognozowania w zestawie danych testowych, jest to wskaźnik nadmiernego dopasowania

Pytanie 473 : . Jak określić liczbę klastrów w klastrach k-średnich?

Odpowiedź : Metoda łokcia (wykreślenie procentu wariancji wyjaśnionej w.r.t do liczby skupień)
Statystyka luk
Metoda sylwetki

Pytanie 474. Jaka jest różnica między przyczynowością a korelacją?

Korelacja to miara, która pomaga nam zrozumieć związek między dwiema lub więcej zmiennymi Przyczyna reprezentuje ten związek przyczynowy między dwoma zdarzeniami. Wiadomo również, że reprezentuje przyczynę i skutek. Przyczyna oznacza, że istnieje korelacja, ale korelacja niekoniecznie oznacza przyczynowość

Pytanie 475. Wyjaśnij rozkład normalny?

Odpowiedź : Rozkład normalny to krzywa w kształcie dzwonu, która przedstawia rozkład danych wokół średniej. Każdy normalny proces miałby przebieg normalny. Większość punktów danych koncentruje się wokół średniej. Jeśli punkt znajduje się dalej od średniej, prawdopodobieństwo pojawienia się jest mniejsze

Pytanie 476. Jakie są różne sposoby wykonywania agregacji w Pythonie przy użyciu pand?

Odpowiedź : Grupuj według funkcji
Funkcja Pivot
Funkcja agregująca

Pytanie 477. Co to jest scalanie dwóch list i uzyskiwanie tylko unikatowych wartości?

Lista a = [1,2,3,4] Lista b = [1,2,5,6] A = lista (zbiór (a + b))

Pytanie 478. Jak zapisywać i pobierać obiekty modelu w Pythonie?

Odpowiedź ; Korzystając z biblioteki o nazwie pickle, możesz wytrenować dowolny model i przechowywać obiekt w pliku pickle. Gdy zajdzie taka potrzeba w przyszłości, możesz pobrać obiekt i użyć modelu do prognozowania.

[toggle_content title = Q96. Co to jest anomalia i czym różni się od wartości odstających?

Wykrywanie anomalii to identyfikacja elementów lub zdarzeń, które nie pasowały do dokładnego wzorca lub innych elementów w zbiorze danych. Wartości odstające to prawidłowe punkty danych, które są poza normą, podczas gdy anomalia to nieprawidłowe punkty danych, które są tworzone przez proces inny niż proces, który utworzył inne punkty danych

Pytanie 479. Co to jest uczenie się zespołu?

Uczenie się zespołowe to sztuka łączenia więcej niż jednego modelu w celu przewidzenia końcowego wyniku eksperymentu. Powszechnie stosowane techniki zespołowe: pakowanie, wzmacnianie i układanie w stosy

Pytanie 480. Wymień kilka bibliotek używanych w Pythonie do analizy danych?

Numpy
Scipy
Pandas
Scikit learn
Matplotlib \ seaborn

Pytanie 481. Jakie są rodzaje danych?

Dane są ogólnie podzielone na dwa typy: 1) Liczbowe 2) Kategorialne
Zmienne numeryczne są dalej klasyfikowane jako dane dyskretne i ciągłe
Zmienne kategorialne
Systematyczne pobieranie próbek
Próbkowanie warstwowe
Próbkowanie kwot jest dalej klasyfikowane jako dane binarne, nominalne i porządkowe

Pytanie 482. Co to jest funkcja lambda w Pythonie?

Funkcje lambda służą do tworzenia małych, jednorazowych funkcji anonimowych w Pythonie. Umożliwia programiście tworzenie funkcji bez nazwy i prawie natychmiast

[]