Тесты на тему "Введение в анализ больших данных | Синергия | Ответы на итоговый + компетентностный тесты [ID 27202]"

AlenaST

16780 5.0 154 277

116

Продать готовую работу Создать заказ

Эта работа представлена в следующих категориях:

Базы данных Университет МФПУ Синергия Год сдачи: 2024

Ответы представлены на итоговый и компетентностный тесты.

Перед покупкой сверьте список вопросов и убедитесь, что вам нужны ответы именно на эти вопросы!

С вопросами и вы можете ознакомиться ДО покупки.

Для быстрого поиска вопроса используйте Ctrl+F.

Демо работы

Описание работы

В реляционной модели представленные данные для пользователя передаются в виде …
• таблиц
• списков
• графа типа дерева
• произвольного графа
• файлов

В числовом ряду 3, 5, 8, 12, 2, 9, 6, 10, 11, 14 медиана (с точностью до 0,1) равна …

В языке программирования R используются такие типы данных, как … (укажите 5 вариантов ответа)
• numeric
• integer
• quantitative
• attributive
• logical
• complex
• character

В языке программирования R тип данных «строка» – это …

Вектор частных производных функции потерь по весам нейронной сети, который указывает на направление наибольшего роста этой функции, – это …

Вычислительная единица в искусственных нейронных сетях, которая получает информацию, производит над ней простые вычисления и передает ее дальше, – это …
• перцептрон
• градиент
• нейрон
• протон

Группа элементов, обладающих каким-то общим свойством и находящихся на небольшом расстоянии другу от друга, – это …

Данные являются структурированными в … (укажите 2 варианта ответа)
• отчете о продажах, составленном в MS Excel
• таблице с ежедневными показаниями температуры помещения за год в файле формата CSV
• файлах Google Sheets
• фильмах, представленных в формате mpeg на одном жестком диске

Деревья классификации относятся к стратегии …
• обучения с учителем
• обучения без учителя
• обучения с подкреплением
• ленивого обучения

Если все значения признака увеличить в 16 раз, дисперсия увеличится в … раз

Интеграция – это …
• сбор данных из нескольких источников в единое место хранения
• объединение данных из различных источников для получения их согласованного представления
• привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
• область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия

Консолидация – это …
• сбор данных из нескольких источников в единое место хранения
• объединение данных из различных источников для получения их согласованного
• представления привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
• область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия

Краудсорсинг – это …
• сбор данных из нескольких источников в единое место хранения
• объединение данных из различных источников для получения их согласованного представления
• привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
• область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия

Машинное обучение – это …
• сбор данных из нескольких источников в единое место хранения
• объединение данных из различных источников для получения их согласованного представления
• привлечение к решению инновационных задач широкого круга лиц по типу субподрядной работы на добровольных началах
• область исследования, занимающаяся созданием компьютерных алгоритмов для преобразования данных в обоснованные действия

Метод Data Mining, который относит объекты к одному из заранее известных классов, – это …

Метод, используемый для предотвращения дублирования данных в реляционных базах данных, – …

Минимальная единица измерения информации – это …

Нажатие клавиши «…» предложит возможные варианты продолжения текста кода, включая выбор параметров и переменных в аргументах набираемых команд

Нажатием сочетания клавиш «…» и «–» можно написать оператор присваивания "

Название на английском языке системы или репозитория данных, хранящихся в необработанном формате, – …

Неверно, что MapReduce …
• это интерфейс для массово-параллельной обработки данных, где вычисления производятся на узлах
• это две операции: распределения и сборки данных
• был придуман разработчиками Hadoop
• был анонсирован разработчиками Google

Неверно, что Variety в контексте характеристик Big Data означает … (укажите 3 варианта ответа)
• высокую скорость генерирования данных
• разные типы данных в колонках таблиц реляционных систем управления базами данных (СУБД)
• разнообразие отраслей, являющихся источниками данных
• разнообразие типов данных, включающих в себя структурированные, полуструктурированные и неструктурированные

Определите правильную последовательность этапов распределенных вычислений MapReduce:
1. Input
2. Splitting
3. Mapping
4. Shuffling
5. Reducing

Первые большие наборы данных начали использовать …
• в 1990-х гг.
• в 1960–70-х гг.
• в 1980-х гг.
• после 2012 г.

Причина создания баз данных NoSQL – …
• высокая стоимость горизонтальной масштабируемости RDBMS при сохранении требования высокой доступности
• недостаточная гибкость языка запросов SQL
• невозможность хранения больших объемов информации в базе данных
• дороговизна лицензий RDBMS

Простейший вид нейронной сети, который представляет собой алгоритм для выполнения двоичной классификации, – это …

Процесс преобразования данных в код, который можно распознать только с помощью определенного ключа или пароля, – это …

Разветвляющийся алгоритм – это …
• присутствие в алгоритме хотя бы одного условия
• набор команд, которые выполняются последовательно друг за другом
• многократное выполнение одних и тех же действий
• алгоритм, использующий подпрограммы

Расположите в правильной последовательности этапы дивизимного метода кластерного анализа:
1. все объекты помещаются в один кластер С1
2. выбирается объект, у которого среднее значение расстояния до других объектов в этом кластере наибольшее
3. выбранный объект удаляется из кластера С1 и формирует первый элемент второго кластера С2
4. объект в кластере С1, для которого разность между средним расстоянием до объектов, находящихся в С2, и средним расстоянием до объектов, остающихся в С1, наибольшая, переносится в С2
5. каждый последующий уровень применяет процедуру разделения к одному из кластеров, полученных на предыдущем уровне

Расположите в правильной последовательности этапы кластерного анализа методом k-средних:
1. выбирается k произвольных исходных центров кластеров – обычно выбираются k объектов
2. все объекты разбиваются на k групп, наиболее близких к одному из центров
3. вычисляются новые центры кластеров
4. проводится новое разбиение всех объектов на основании близости к новым центрам

Сокращенное английское название семейства нереляционных баз данных – …

Укажите правильную последовательность шагов алгоритма машинного обучения (ML):
1. сбор данных
2. исследование и подготовка данных
3. обучение модели
4. оценка модели
5. улучшение модели

Укажите правильную последовательность этапов анализа данных в языке программирования R:
1. сбор данных
2. импорт данных из источника в программную среду r
3. разведочный анализ
4. очистка и трансформация данных
5. моделирование
6. презентация результатов Вопрос: 41 - й

Установите правильный порядок действий при проектировании баз данных (БД):
1. анализ предметной области с учетом требования конечных пользователей
2. обобщенное описание БД с использованием естественного языка, математических формул, графиков и других средств
3. формализация представления данных в БД
4. решение проблемы передачи данных

Установите соответствие баз данных и их характеристик:

Установите соответствие видов искусственных нейронных сетей и их характеристик:

Установите соответствие между аргументами функции leaflet() и их содержанием:

Установите соответствие между метриками расстояния между объектами и формулами расчета:

Установите соответствие между понятием и его содержанием:

Установите соответствие функций, применяемых для расчета ошибок выходного сигнала нейронной сети, и формул для их вычисления:

Установите соответствие целей инфраструктуры Hadoop и их характеристик:

Фамилия британского ученого, который разработал эмпирический тест, призванный определить способность компьютера мыслить как человек, – …

Целое четырехзначное число, отражающее количество зеттабайт в йоттабайте, – …

Циклический алгоритм используется при вычислении … (укажите 2 варианта ответа)
• суммы всех чисел от 1 до 100
• площади трапеции
• корня квадратного уравнения
• суммы двух чисел, введенных с клавиатуры
• среднего арифметического всех двухзначных чисел

Чтобы получить помощь в программной среде R, можно … (укажите 3 варианта ответа)
• поставить курсор на название функции и нажать F1
• перед названием функции напечатать знак вопроса
• воспользоваться функцией help()
• поставить курсор на название функции и нажать ALT + F1
• поставить курсор перед названием функции и нажать F1

Язык программирования R является потомком языка …
• JavaScript
• S
• Python
• С++

… – это группа файлов стандартной структуры, служащих для хранения данных и организованных таким образом, чтобы обеспечить легкий доступ к ним, эффективное управление и обновление

… – это процесс преобразования данных в выводы, на основе которых будут приниматься решения и строиться действия с помощью людей, процессов и технологий

… является шириной коробки в диаграмме «ящик с усами»
• Диапазон
• Интерквартильный размах
• Стандартное отклонение
• Нижний квартиль
• Медиана

Data Mining – это процесс обнаружения в сырых данных … (укажите 3 варианта ответа)
• ранее сформулированных гипотез
• неочевидных закономерностей
• практических закономерностей
• объективных закономерностей
• большого количества закономерностей

SQL – это …
• реляционная база данных
• язык неструктурированных запросов
• язык структурированных запросов
• средство для создания пайплайнов

Velocity в контексте характеристик Big Data означает …
• высокую скорость генерирования данных
• разные типы данных в колонках таблиц реляционных систем управления базами данных (СУБД)
• разнообразие отраслей, являющихся источниками данных
• разнообразие типов данных, включающих структурированные, полуструктурированные и неструктурированные

Web Mining применяет технологию Data Mining для анализа … (укажите 4 варианта ответа)
• неструктурированной информации
• структурированной информации
• неоднородной информации
• однородной информации
• распределенной и значительной по объему информации
• информации, содержащейся на веб-узлах

В вашей компании необходимо организовать сбор, хранение и обработку больших данных. На что в первую очередь должно обратить внимание руководство при организации хранения и обработки данных?
• Обеспечить управление доступом, которое должно защищать данные.
• Оценить уровень риска и отменить контрмеры.
• Обеспечить необходимый уровень доступности, целостности и конфиденциальности данных.
• Обеспечить удобство использования данных при анализе.

Вам необходимо импортировать в программную среду RStudio текстовый файл с разделителем. Какую функцию вы будете использовать?
• read.text()
• read.table()
• read_text()
• read_table():

Вам необходимо организовать потоковую обработку событий в режиме реального времени. Какую технологию необходимо использовать?
• Spark Streaming
• Apache Kafka
• Apache Hadoop
• MapReduce

Вам необходимо предсказать значения непрерывной числовой величины для входных данных. Какой метод вам в этом поможет?
• Переобучение.
• Регрессия.
• Кластеризация.
• Классификация

Вам нужно рассчитать необходимые параметры для создания обшивки самолета. Какая из областей машинного обучения вам в этом поможет?
• Компьютерное зрение.
• Латентная модель.
• Обучение ранжированию.
• Предсказательное моделирование

Ваша компания использует различные технологии для сбора и хранения данных. Приведите пример данных, когда эффективнее использовать технологию Hadoop.
• Поминутное сохранение данных транзакций торговых точек.
• Построение графика ежегодной выручки.
• Анализ 10 Гб данных.
• Сравнение цен с конкурентами.

Вашей компании необходимо закупить новый вид сырья. Вам необходимо узнать, насколько может упасть стоимость этого сырья в ближайшем будущем и когда это может произойти. Какой метод Data Mining вы будете использовать?
• Прогнозирование.
• Кластеризация.
• Классификация
• Поиск ассоциативных правил.

Вашей компании необходимо определить структуру клиентов по их вкладу в доходы компании. Какой метод Data Mining вы будете использовать?
• Прогнозирование.
• Кластеризация.
• Классификация.
• Поиск ассоциативных правил

Выполнены следующие строки кода в программной среде RStudio: vec
• 2
• 5
• 10
• 2,5

Разным группам пользователей с различным уровнем доступа требуется доступ к одной и той же информации. Что следует предпринять руководству?
• Снизить уровень классификации этой информации.
• Улучшить контроль за безопасностью этой информации.
• Требовать подписания специального разрешения каждый раз, когда человеку требуется доступ к этой информации.
• Открыть временный доступ к информации по запросу пользователей.