Тесты на тему "Математика для анализа данных"

Ответы на тест по теме: «Математика для анализа данных»
Синергия, направление 09.04.03 Прикладная информатика.
Сдача - в январе 2024 года. Экзаменационный тест состоит из 30 вопросов.
Для вашего удобства работа представлена в Word-файле табличного варианта.
Ответы выделены жирным курсивом и цветным маркером.
Результат сдачи – 100 баллов (из 100). Скриншот прилагаю.

Описание работы

Обратите внимание, что в файле представлены ответы только на указанные вопросы, которые входят в экзаменационный тест. Тест сдавался с нескольких попыток. В файле в первом ряду отображены ответы, которые фигурировали в тесте (с отметкой верно), далее - остальные, 2 из которых - неверные. Большая часть вопросов дублируется в тестах, что гарантирует высокий результат.

Контрольные вопросы представлены ниже.
1. Data Mining — это процесс обнаружения в сырых данных…
* ранее сформулированных гипотез
* неочевидных закономерностей
* практических закономерностей
* объективных закономерностей
* большого количества закономерностей

2. R2 –это
* коэффициент множественной корреляции
* коэффициент множественной детерминации
* частным коэффициентом корреляции

3. Алгоритм k-средних предназначен для решения задачи:
* Классификации
* Кластеризации
* Прогнозирования
* Снижения размерности

4. Большие данные – это:
* Данные объемом более 10Тб
* Данные объемом более 100Тб
* Данные объемом более 150Тб
* Нет ограничений на минимальный объем

5. Большинство методов Data mining были разработаны в рамках …
* классического анализа данных
* теории баз данных
* теории искусственного интеллекта

6. В какой гистограмме прямоугольники, изображающие числовые данные, располагаются друг над другом:
* В гистограмме с группировкой
* В нормированной гистограмме
* В гистограмме с накоплением

7. В каком типе гистограмм прямоугольники, которые отображают данные, располагаются друг над другом:
*В гистограммах с группировкой
* В гистограммах с накоплением
*В объёмных гистограммах

8. В каком типе гистограмм прямоугольники, являющиеся графическими изображениями числовых данных из разных наборов, располагаются друг с другом:
* В объёмных гистограммах
* В гистограммах с группировкой
* В гистограммах с накоплением

9. В процессе работы Data Mining программы пользователь может получить:
* некоторый процент недостоверных результатов
* только верные результаты, ложные выводы исключены
* только статистически достоверные результаты

10. В ходе эксперимента получена реализация двумерной выборки. Известно, что первое наблюдение (5;3), а второе (3;1). Можно сказать, что эти пары
* согласованы
* несогласованы
* коррелированны
* некоррелированны

11. Выбор в электронной таблице данных, соответствующих определенным условиям:
* Сортировка
* Анализ
* Фильтрация

12. Графическое представление числовых данных, позволяющее быстро оценить соотношение нескольких величин:
* Диаграмма
* Статистика
* Инфографика

13. Деревья решений относятся к группам … (несколько вариантов)
* статистических методов
* кибернетических методов
* логических методов
* методов кросс-табуляции

14. Для какой шкалы применимы только такие операции как равно и не равно?
* номинальная шкала
* порядковая шкала
* интервальная шкала

15. Доверительный интервал это-
* интервал от минимального до максимального значения признака
* среднеквадратическое отклонение
* интервал, содержаний оцениваемый параметр генеральной совокупности
* стандартная ошибка среднего

16. Значение коэффициента корреляции расположены в диапазоне
* от -1 до +1
* от 0 до +1
* от 0 до -1
* от -2 до +2

17. Значимость множественной корреляции оценивается по
* критерий Пирсона
* критерий Фишера
* критерий Лапласа
* критерий Романовского

18. Известно, что коэффициент корреляции случайных величин и равен нулю. Это означает, что
* линейная связь между случайными величинами и отсутствует
* случайные величины и линейно зависимы
* случайные величины и зависимы
* случайные величины и независимы
* если случайный вектор является гауссовским, то случайные величины и независимы

19. Интервальная шкала – это шкала…
* содержащая категории, которые могут упорядочиваться, однако разности не имеют смысла
* разности между значениями которой могут быть вычислены, однако их отношения не имеет смысла
* содержащая только категории, которые не могут упорядочиваться

20. К какому типу диаграмм относятся плоские и объёмные круговые диаграммы:
* К круговым диаграммам
* К циклопическим диаграммам
* К спектральным диаграммам

21. К технологиям, используемым для сбора и обработки Больших Данных, можно отнести:
* программное обеспечение
* оборудование
* социальные сети
* сервисные услуги
* СУБДД

22. Как называется гистограмма, в которой вертикальная ось имеет шкалу в процентах:
* Гистограмма с накоплением
* Гистограмма с группировкой
* Нормированная гистограмма с накоплением

23. Как называется тип диаграмм, в котором геометрические фигуры располагаются горизонтально:
* Пропорциональная диаграмма
* Линейчатая диаграмма
* Гистограмма

24. Как называется тип представления данных, который позволяет оценивать соотношение нескольких величин:
* Диаграмма
* График
* Таблица

25. Какая функция в R возвращает количество знаков в строке x?
* format(x)
* paste(…)
* tolower(x)
* nchar(x)

26. Какая функция в R используется для конвертации векторов в текстовые переменные и объединяет их в одно текстовое выражение?
* format(x)
* paste(…)
* tolower(x)
* nchar(x)

27. Какая функция в R приводит строку к нижнему регистру?
* format(x)
* paste(…)
* tolower(x)
* nchar(x)

28. Какая функция в R форматирует объект так, чтобы он красиво выглядел на экране?
* format(x)
* paste(…)
* tolower(x)
* nchar(x)

29. Какие диаграммы аналогичны гистограммам:
* Линейчатые
* Лепестковые
* Круговые

30. Какие диаграммы можно использовать для построения графиков функций:
* Точечные
* Лепестковые
* Поверхностные

31. Какие диаграммы с гладкими кривыми можно использовать для построения графиков функций:
* Линейчатые диаграммы
* Нормированные гистограммы с накоплением
* Точечные диаграммы

32. Какие диаграммы теряют наглядность при большом количестве элементов данных и позволяют отобразить только один ряд данных:
* Круговые диаграммы
* Линейчатые диаграммы
* Гистограммы с накоплением

33. Какие коэффициенты находят путем возведения в квадрат частных коэффициентов корреляции:
* множественные коэффициенты детерминации
* коэффициенты множественной корреляции
* частные коэффициенты детерминации

34. Какие типы данных используются в R:
* logical
* numeric
* integer
* attributive
* complex
* character

35. Какой вид диаграмм можно использовать при большом количестве данных, необходимости отображения динамики изменения данных во времени:
* Циклическая гистограмма
* Круговая диаграмма
* График

36. Какой вид связи изображен на рис 1..
* обратно пропорциональная связь
* связь отсутствует
* прямо пропорциональная связь
* связь нелинейная

37. Какой пакет позволяет загружать данные из листа Excel файла?
* readxl
* excelreadr
* googlesheets
* vroom
* sheets_read

38. Классификация относится к стратегии:
* обучения с учителем
* обучения без учителя
* обучения с подкреплением

39. Кластер можно охарактеризовать как …
* группу объектов, имеющих общие свойства
* один объект, изолированный от других
* группу объектов, имеющую внутреннюю однородность

40. Корреляционное отношение изменяется в пределах
* от -1 до +1
* от 0 до +1
* от 0 до -1 *от -2 до +2 42.

41. Коэффициент вариации определяется по формуле:
* 1
* 2
* 3
* 4

42. Кто создал первую модель искусственных нейронных сетей?
* Фрэнк Розенблатт
* Уоррен Мак-Каллок и Уолтер Питтс
* Ян Лекун
* Дэвид И. Румельхарт, Дж. Е. Хинтон и Рональд Дж. Вильямс

43. Метод наименьших квадратов может применяться в случае
* только парной регрессии
* только множественной регрессии
* нелинейной и линейной множественной регрессии
* коллинеарной регрессии

44. На какой вкладке размещены инструменты сортировки в Microsoft Excel:
* Вставка
* Вид
* Данные

45. Найдите соответствие между функцией в R и еe описанием:
A. str(оbject) - F. Общая информация об объекте
B. summаry(оbject) - E. Внутренняя структура объекта
C. hеad(x) - G. Посмотреть начальные строки объекта
D. tаil(x) - H. Посмотреть последние строки объекта

46. Найдите соответствие между функцией в R и еe описанием:
A. с(…) - E. Объединяет аргументы в вектор
B. sеq(from, to, by=) - F. Генерирует последовательность чисел с шагом
C. list(…) - G. Создает список объектов
D. сbind(…) - H. Объединяет объекты по столбцам

47. Не верно утверждение о том, что:
* Большие объёмы данных приводят к слабой их структуризации, поэтому появляется такое разнообразие данных
* Увеличившаяся производительность телекоммуникационных каналов привела к росту объёмов передаваемой информации
* Удешевление систем хранения на единицу информации привело к росту рынка больших данных
* Большое разнообразие источников данных

48. Не верно утверждение о том, что:
* Большие данные это данные объёма свыше 1 Тб.
* Проблема больших данных это проблема, когда при существующих технологиях хранения и обработки сущностная обработка данных затруднена или невозможна.
* Большие данные - это тренд в области ИТ, подогреваемый маркетинговыми кампаниями крупных вендоров.
* Большие данные как правило не структурированы.

49. Не верно, что Variety в контексте характеристик Big Data означает:
* Высокая скорость генерирования данных
* Разные типы данных в колонках таблиц реляционных СУБД
* Разнообразие отраслей, являющихся источниками данных
* Разнообразие типов данных, включающих в себя структурированные, полуструктурированные и неструктурированные

50. Не верно, что закономерности, определенные с использованием технологии Data Mining должны обладать такими свойствами:
* быть очевидными
* быть неочевидными
* быть практически полезными
* быть объективными

51. Не верно, что технология Web Mining применяет Data Mining для анализа:
* Неоднородной информации
* Неструктурированной информации
* Структурированной информации
* Распределенной и значительной по объему информации

52. Некоррелированность случайных величин означает
* отсутствие любой связи между ними
* отсутствие линейной связи между ними
* их независимость

53. Объём накопленных человечеством цифровых данных на 2023 год измеряется:
* Петабайтами
* Зеттабайтами
* Экзабайтами
* Йоттабайтами

54. Один из объектов любой диаграммы:
* Границы диаграммы
* Область диаграммы
* Очертания диаграммы

55. Один из объектов любой диаграммы:
* Сущность диаграммы
* Вид диаграммы
* Название диаграммы

56. Один из объектов любой диаграммы:
* Ось периодичности
* Ось категорий
* Ось постоянства

57. Один из объектов любой диаграммы:
* Ось движений
* Ось значений
* Ось понятий

58. Определите правильную последовательность термина «Big Data»:
1 цифровой информации
2 быстро поступающей
3 неоднородной
4 огромные объемы
5 которые
6 традиционными
7 невозможно
8 обработать
9 инструментами

59. Отметьте значимые события, повлиявшие на формирование тренда больших данных:
* разработка Hadoop;
* изобретение принципа MapReduce;
* разработка языка Pyhton;
* победа Deepblue в матче с Г.Каспаровым.

60. Переменная измерена в номинальной шкале, а переменная - в количественной шкале. Требуется выяснить, являются ли эти переменные независимыми. Для того чтобы решить эту задачу, можно
* преобразовать переменную в номинальную переменную и применить критерий хи-квадрат
* преобразовать переменную в количественную переменную и применить критерий для проверки
* независимости количественных переменных
* применить критерий Колмогорова-Смирнова

61. При проверки гипотезы о виде распределения используется
* критерий Пирсона
* критерий Фишера
* критерий Лапласа
* критерий Романовского

62. Признаки и измерены в количественной шкале. Требуется выяснить, являются ли эти переменные независимыми. Для того чтобы решить эту задачу, можно
* преобразовать обе переменные в номинальные переменные и применить критерий хи-квадрат
* преобразовать обе переменные в порядковые переменные и применить ранговый критерий Спирмена
* применить критерий Колмогорова-Смирнова

63. Признаки и измерены в номинальной шкале. Какой критерий можно применить для проверки гипотезы о независимости этих признаков?
* ранговый критерий Спирмена
* ранговый критерий Кендэла
* критерий хи-квадрат Фишера-Пирсона
* критерий, основанный на выборочном коэффициенте корреляции

64. Регрессионный и дискриминантный анализ относятся…
* к статистическим методам Data mining
* к кибернетическим методам Data mining
* не являются методами Data mining

65. Сколько наблюдений во фрейме данных, если он содержит 42 строки и 4 колонки?
* 168
* 4
* 42
* 126

66. Сколько Петабайт в Зеттабайте?

67. Сто (100) студентов прошли тестирование по математическому анализу и по физике. Пусть переменная Х- рейтинг студентов по математическому анализу, а переменная Y- рейтинг по физике. Коэффициент корреляции Спирмена для переменных и оказался равным 0.6. Эта информация
* позволяет на уровне значимости 0.05 сделать вывод о том, что между показателями и существует монотонная положительная связь
* позволяет на уровне значимости 0.05 сделать вывод о том, что между показателями и существует монотонная отрицательная связь
* позволяет сделать вывод о том, что на уровне значимости 0.05 нет оснований для отклонения гипотезы о независимости показателей
* не позволяет сделать вывод о зависимости или независимости показателей

68. Табличные процессоры позволяют строить:
* Теоретические гистограммы
* Гистограммы
* Практические гистограммы

69. Табличные процессоры позволяют строить:
* Графики
* Планы
* Перспективные диаграммы

70. Табличные процессоры позволяют строить:
* Линейные диаграммы
* Линейчатые диаграммы
* Частичные диаграммы

71. Такие данные как температура воздуха относятся к …
* атрибутивным данным
* непрерывным данным
* дискретным данным
* альтернативным данным

72. Укажите фактор(ы), способствовавший появлению тренда больших данных:
* маркетинговые кампании крупных корпораций
* снижение издержек на хранение данных
* появление новых технологий обработки потоковых данных
* выпуск баз данных с обработкой данных в памяти

73. Услуги по построению архитектуры системы базы данных, обустройству и оптимизации инфраструктуры, и обеспечению безопасности хранения данных относятся к …

74. Установите соответствие между функциями и их определениями:
A. mutate_at - D. изменяет определенные переменные по имени
B. transmute - F. добавляет новые переменные во фрейм данных, сохраняя существующие переменные
C. mutate - E. добавляет новые переменные во фрейм данных и удаляет существующие переменные

75. Целесообразно использовать диаграммы типа график:
* Когда количество данных в наборе достаточно большое
* Когда нужно показать изменения данных с течением времени
* Когда нужно отобразить части одного целого

76. Что целесообразно создавать при необходимости сравнения значений нескольких наборов данных:
* Поверхностную диаграмму
* Графики
* Гистограммы

77. Установите соответствие целей инфраструктуры Hadoop и их определений:
A. Надежность - E. достигается посредством создания нескольких копий данных и повторного применения логики обработки в случае сбоя
B. Отказоустойчивость - G. данные и их обработка распределяются в кластерах
C. Масштабируемость - F. обнаружение сбоев и их автоматическое и применение автоматического восстановления
D. Портируемость - H. возможность установки на всех видах устройств и операционных систем

78. Найдите соответствие между понятием и его описанием
A. Data lake - F. Дисциплина, изучающая проблемы анализа, обработки и представления информации в цифровой форме.
B. Data science - E. Хранилище больших данных в необработанном виде.
C. Data mining - G. Интеллектуальный анализ данных с целью выявления закономерностей.
D. Machine learning - H. Теория и практика разработки самообучающихся программ, большая область искусственного интеллекта.

79. Определите правильную последовательность модели распределенных вычислений MapReduce:
1 Reduce; 4 выбирает; 7 Map; 2 предварительные; 6 агрегирует; 3 данные; 5 их

НЕ НАШЛИ, ЧТО ИСКАЛИ? МОЖЕМ ПОМОЧЬ.

СТАТЬ ЗАКАЗЧИКОМ