Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Программирование Новый топик    Ответить
Топик располагается на нескольких страницах: 1 2      [все]
 Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
Моя задача сравнить данные из двух источников.
Источники - разные системы, и как следствие и модели представления данных не идентичны и по формату не идентичны. Но обе системы экспортируют в CSV. Мне нужно найти где данные отличаются.
Я загружаю данные в эксел (некоторые не влязет, тут вобше засада), и начинается возня со связываен таблиц,
сравнением ключевых полей, сравнеий сумм, наличия тех-же ключей, ит.д.

Процесс проходится повторять когда приходят новые данные.
Хочется автоматизма и кнопочек.
Определить источники данных, view для данных и т.д. и просто по команде перезапускать.
И всё это на лету, без базы данных (окромя embedded), для одного пользователя.
Подскажите, какй инструмент мне нужен.
И есть такой бесплатный.
20 май 19, 18:10    [21889107]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных.  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
Непонятно что за автоматизм требуется. Типа мышкой перетащил файлы 1.csv, 2.csv.
И получил сразу отчот по различиям?
20 май 19, 18:31    [21889121]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных.  [new]
exp98
Member

Откуда:
Сообщений: 1674
mikron, где эксэл,там и винда. Условно бесплатный ТоталКоммандер (но и цена копеечная). Встроенная ф-ция построчного/бинарного сравнения. Есть полностью б/платный, что-то вроде kdiff, он кроссплатформенный вроде. Реализует аналогичную ф-цию сравнения.

А дальше, уж извините, приводите модели и форматы в соответствие с шаблоном и сами решайте: одно ли и то же "20-05-2019", "20190520" или 43605. Или сами по какм-либо эмпирическим наблюдениям выбирайте показометр и формат.
20 май 19, 18:52    [21889133]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
Dima T
Member

Откуда:
Сообщений: 13915
Visual FoxPro ?
20 май 19, 18:54    [21889134]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных.  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
mayton
Непонятно что за автоматизм требуется. Типа мышкой перетащил файлы 1.csv, 2.csv.
И получил сразу отчот по различиям?

для начала визуализация. Типа экселя с фильтром и с vlookup.
Потом что бы созданное представление можно было записать
и использовать дальше для просмотра и анализа. Типа viev.
Ну а в завершении получится такой агрегированный view
со списком того что я наковырял.
Своего рода интерактивный data meaning.
В последсвии всё это сохранить и по мере поступления свежих данных пересчитывать.
20 май 19, 19:03    [21889142]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
Dima T
Visual FoxPro ?

Понятия не имею.
Что то среднее между эксель и базой данных на внешних данных
но без ручных sql и загрузки/ обновления базы по команде.
Чего нибуть с гуем.
20 май 19, 19:08    [21889147]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
OpenRefine пока нагуглил но вроде не совсем то.
20 май 19, 19:13    [21889150]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
Критик
Member

Откуда: Москва / Калуга
Сообщений: 32129
Блог
mikron,

любая бесплатная версия СУБД
20 май 19, 19:19    [21889154]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
mikron, смотри. Задачку сравнения двух сsv файлов программисты решают просто.
Они открывают оба файла в среде. Например через Ctrl+D и смотряд difference.
Будут подсвечены те строки которые различаются.

На этом задача - решена. Какие визуализации и автоматизации тебе еще к этому надо?
Это решение - копеешное. Ноль баксов.

А то что ты ищешь возможно стоит денег. Или тебе надо еще сильнее нам всем объяснять
(желательно в картинках) чего ты ожидаешь на выходе. От этого цена решения будет
колебаться в порядках. Тоетсь плюс-минус 10,100, 1000 баксов.
20 май 19, 19:24    [21889156]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
Я в первом посте написал «модели представления данных не идентичны»
Надеюсь понятно что это значит?
На пальцах обясню: в одном записано, 2019-05-20.
В другом записано понедельник 21 недели 2019 года.
Это если совсем просто.
20 май 19, 19:33    [21889169]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
Смета только что подросла на порядок. А эти варианты дат будут перечислены нам? Или надо
будет вводить какой-то искусственный интеллект? Даже такой пустяк как отличить месяц от дня
может выливаться в дилемму если мало данных.
20 май 19, 19:41    [21889175]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
exp98
Member

Откуда:
Сообщений: 1674
Хорошо бы ещё не тексты в разных кодировках, причём не указано в каких и каждый раз в разных.
Какая хоть стабильность в форматах и моделях имеется?
20 май 19, 20:01    [21889186]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
mayton
Смета только что подросла на порядок. А эти варианты дат будут перечислены нам? Или надо
будет вводить какой-то искусственный интеллект? Даже такой пустяк как отличить месяц от дня
может выливаться в дилемму если мало данных.

С датами проблемы нету, это только
как пример разного представления одних и тех же данных.
Главное понять - одни и теже данные могут иметь разное представление.
Тачка на плоскости может быть представлена как в полярных так и декартовых коорданатах, и во многих других системах / моделях. Но точка одна.
20 май 19, 20:20    [21889198]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
Roman Mejtes
Member

Откуда: г. Пермь
Сообщений: 3429
как я понял, автору нужно получить diff двух csv файлов
оптимальным решением будет делать скрипт или консольную программу, как мне кажется.
если нужно именно сравнение, то можно прочитать csv файлы, загружать нужно не все данные, а только необходимый минимум для сравнения и идентификации записи (то есть по сути identity поля), позиция строки в файле с трансформациями, если нужно.
Так большие файлы данных можно будет сравнить без больших объемов, а саму строку в итоге всегда можно найти в файле через Seek.
Все эти ключевые для сравнения данные приведенные к 1 значению. Так можно будет найти какая именно запись и где различается.
20 май 19, 20:33    [21889206]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
Roman Mejtes
как я понял, автору нужно получить diff двух csv файлов


if all you have is a hammer, everything looks like a nail
20 май 19, 20:54    [21889220]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
mikron,

Можешь приаттачить образец твоих файлов?
20 май 19, 21:24    [21889232]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
wst
Member

Откуда:
Сообщений: 203
Если совсем особых требований нет, то связка python+jupyter+pandas покрывает заметную часть перечисленного.
20 май 19, 22:49    [21889259]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
mayton
mikron,

Можешь приаттачить образец твоих файлов?

Тут конкретный формат или модель не так важны. Задача на другом уровне абстракции.
Нужен инструмент для решения подобного рода задач.
Похоже для моей задачи нашлось имя нашлось имя
21 май 19, 01:42    [21889312]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
mikron
mayton
mikron,

Можешь приаттачить образец твоих файлов?

Тут конкретный формат или модель не так важны. Задача на другом уровне абстракции.
Нужен инструмент для решения подобного рода задач.
Похоже для моей задачи нашлось имя нашлось имя

Data Wrangling - это относится больше к технологиям bigdata. Это скорее подготовка маппера перед свёрткой.

Но в твоей первоначальной постановке (comparison) не было даже намёка на это.
21 май 19, 09:35    [21889423]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
mayton
Data Wrangling - это относится больше к технологиям bigdata.

с чего ты это взял? Там есть описани инструмента - как раз то что я написал: накликать мышкой, интерактивно и в реалном времени проверить результат, сохранит как скипт и проиграть по надобности. Такое на BigData не работает - очень сложно в реалном времени проворачивать. Да и не нужно.
21 май 19, 10:00    [21889444]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
Вот господин восточной внешности с помощью Python + Pandas показывает как "выпасать" данные.



В моё время когда я был DBA этот процесс назывался ETL. В части первых двух букв (Extract+Transform).
21 май 19, 10:26    [21889471]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
exp98
Member

Откуда:
Сообщений: 1674
mikron, а что в Германии не учат самостоятельно прорабатывать постановку задачи? и совет спросить там не у кого?
21 май 19, 10:55    [21889509]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
Для мышко-кликательной аналитики мы в своё время покупали QlikView и разрабатывали витрину данных.
Интересный продукт кстати. Посмотри может поможет.

https://www.qlik.com/us/products/qlikview
21 май 19, 11:25    [21889536]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
alex55555
Member

Откуда:
Сообщений: 2129
mayton
В моё время когда я был DBA этот процесс назывался ETL. В части первых двух букв (Extract+Transform).

Он и сейчас так называется. Автору надо про букву T читать, ну и инструменты для ETL с уклоном на букву T искать.
21 май 19, 11:47    [21889557]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
mayton,
Qlik хороший продукт, и платный :)
21 май 19, 12:09    [21889595]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mayton
Member

Откуда: loopback
Сообщений: 41808
mikron
mayton,
Qlik хороший продукт, и платный :)

Ну и что с того.

Тебе 30-дневного периода хватит чтобы решить задачу 1 раз. А потом и решить нужно его покупать или нет.
21 май 19, 12:11    [21889600]     Ответить | Цитировать Сообщить модератору
 Re: Поиск инструмента для ковыряния в данных  [new]
mikron
Member

Откуда: Germany / Stuttgart
Сообщений: 802
alex55555,
ETL и ELT похоже только на первый взгляд.
Разница в подходах.
21 май 19, 12:26    [21889616]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: 1 2      [все]
Все форумы / Программирование Ответить