Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Java Новый топик    Ответить
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
 Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Наиболее быстрый маппинг между XML(FB2) форматом электронной книги. Как?

Сама спецификация описана здесь http://www.fictionbook.org/index.php/Документы

Образец книжки я - приаттачиваю.

Из того что я разработал нет пока что нифига. Только вот такой кусок.
@XmlRootElement(name = "FictionBook")
public class FictionBook {

    private Description description;

    private Body body;

}

Дальнейшее - под вопросом.

Давно я этим XML не занимался. Последний раз использовал Apache Digester и Stax ( в сыром виде. Тоесть в виде
хендлера событий. Оба способа кажутся мне не очень удобными с точки зрения внесения изменений.
Некто Баелдунг предлагает аж 8(!) способов замапить XML на объекты.
https://www.baeldung.com/java-xml
Сомнительно что я успею опробовать все.

Ищу нечто очень быстрое наподобие SAX/Stax но более удобное в разработке.
Есть надежда что JAXB мне подойдет. Но очень не хотелось-бы иметь под капотом XMLDocument.

К сообщению приложен файл (79797.zip - 21Kb) cкачать
29 апр 19, 21:02    [21874887]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
chpasha
Member

Откуда:
Сообщений: 8046
mayton
Наиболее быстрый маппинг

по какому критерию? временя выполнения, расход памяти или ...уяк-...уяк и в продакшн :)

mayton
Некто Баелдунг предлагает аж 8

бери любое из того, что больше нравится/подходит. так-то на github и готовые парсеры есть, но качество под вопросом.
29 апр 19, 21:15    [21874903]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
chpasha
mayton
Наиболее быстрый маппинг

по какому критерию? временя выполнения, расход памяти или ...уяк-...уяк и в продакшн :)

По времени выполнения.

Продакшена нет. Это - песочница. Но если она будет грузить документы 3 суток - нахер-нахер
29 апр 19, 21:18    [21874907]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
chpasha
mayton
Некто Баелдунг предлагает аж 8

бери любое из того, что больше нравится/подходит. так-то на github и готовые парсеры есть, но качество под вопросом.

Взял JAXB пока. Напрягает то что в ебуках встречаются namespaces. С ними - вечно какие-то неоднозначности.
<?xml version="1.0" encoding="utf-8"?>
<FictionBook xmlns:l="http://www.w3.org/1999/xlink" xmlns="http://www.gribuser.ru/xml/fictionbook/2.0">
    <description>
        <title-info>
            <genre>sf</genre>
            <author>
                <first-name>Александр</first-name>
                <middle-name>Николаевич</middle-name>
                <last-name>Громов</last-name>
                <id>e55c8f77-2a80-102a-9ae1-2dfe723fe7c7</id>
            </author>
29 апр 19, 21:20    [21874912]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Почитал про XStream http://x-stream.github.io/index.html

В целом понравилось. Быстрая.

Повисли вопросы? Маппинг в специфичные имена тегов? Как?

"title-info", "document-info"
30 апр 19, 00:36    [21875057]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
Partisan M
Member

Откуда:
Сообщений: 1359
mayton
Продакшена нет. Это - песочница. Но если она будет грузить документы 3 суток - нахер-нахер


Поскольку размер любого файла FB2 не превышает нескольких МБ, то при любом способе будет загружаться не более чем за секунды и расходовать не более десятков мегабайт памяти.
30 апр 19, 09:36    [21875219]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
Partisan M
Member

Откуда:
Сообщений: 1359
mayton,
там есть достаточная документация.
30 апр 19, 09:37    [21875222]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Partisan M
mayton
Продакшена нет. Это - песочница. Но если она будет грузить документы 3 суток - нахер-нахер


Поскольку размер любого файла FB2 не превышает нескольких МБ, то при любом способе будет загружаться не более чем за секунды и расходовать не более десятков мегабайт памяти.

Да мне не жалко памяти. 270 Гигов zip-архивов.
Просто хочется чтоб процессинг прошёл быстрее. Возможно будут читать в несколько потоков.

За вчерашний день я нарисовал для себя шпаргалку по 8 XML-технологиям. Опробовал 4 штуки.
Пока в фаворе остается Stax. Возможно на нем и будут всё делать. В простейшем случае
буду игнорировать неизвестные теги. Индексировать собственно есть интерес только такие
поля как Автор, Название, и собственно тело текста.
30 апр 19, 10:27    [21875279]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
Partisan M
Member

Откуда:
Сообщений: 1359
Если кратко, то для разбора XML используются библиотеки, работающие с DOM, или с потоком данных (stream parser) или вызов XSLT скрипта. Для крупного XML файла, состоящего из большого количества записей простой структуры, больше подходят stream parser-ы,которые делятся на StAX и SAX (спецификации). StAX несколько проще в использовании.

Можно рассмотреть библиотеку FasterXML Jackson, поддерживающую разные методы работы с XML (и JSON), в том числе работу как StAX-parser (которая реализована дополнительной библиотекой Woodstox, к которой обращается Jackson).
30 апр 19, 10:48    [21875308]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Partisan M, нет нет. С DOM я не хочу связываться. Я с ним имел дело еще в 2000х.
Это овер-проектирование для меня.

FasterXML Jackson

Вот это хорошая тема. Почитаю.
30 апр 19, 10:50    [21875313]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
Partisan M
Member

Откуда:
Сообщений: 1359
mayton,

XFire тоже подойдёт.
30 апр 19, 10:50    [21875315]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
alex55555
Member

Откуда:
Сообщений: 2129
mayton
Наиболее быстрый маппинг между XML(FB2) форматом электронной книги. Как?

Перебирая мапперы.

То есть когда хочется точно взять инфу из xml, то возникают нюансы, которые разные мапперы по разному обходят. Ну и надо выбрать, что там больше нравится в плане точности отображения.
30 апр 19, 11:26    [21875354]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Чтоб быть честным я попробую реализовать хотя-бы 2 streamable маппера за фасадом своего приложения.
И сделаю минимум 2 бенчмарка. Будет StaxFb2Mapper + еще один неизвестный из серии таких-же быстрых.
30 апр 19, 12:09    [21875398]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
Озверин
Member

Откуда: Ростов-на-Дону
Сообщений: 5183
mayton
Чтоб быть честным я попробую реализовать хотя-бы 2 streamable маппера за фасадом своего приложения.
И сделаю минимум 2 бенчмарка. Будет StaxFb2Mapper + еще один неизвестный из серии таких-же быстрых.


сделай фасад, выложи проект, расшарь его нам) мы допишем, перехватим твою идею и продадим!
30 апр 19, 12:13    [21875405]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Это будет прелестно. Я не против.
30 апр 19, 12:21    [21875417]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Хм... мне еще и быстрый JSon конвертер понадобится. Обычно я юзал гугловый GSon и какой-то fasterxml.jackson.
Но быстрые он или нет - хрен ево знает. Поищу бенчмарки.
30 апр 19, 16:18    [21875678]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
chpasha
Member

Откуда:
Сообщений: 8046
mayton
Но быстрые он или нет - хрен ево знает

там примерно такая же ситуация. чем более низкоуровнево, тем быстрее. чем более удобно и декларативно, тем медленнее.
30 апр 19, 17:29    [21875790]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Вот буквально 5 минут назад запилил. На Джаксоне.

+
package mayton.elastic;

import com.fasterxml.jackson.core.JsonGenerator;
import com.fasterxml.jackson.databind.SerializerProvider;
import com.fasterxml.jackson.databind.ser.std.StdSerializer;
import java.io.IOException;

public class Fb2Serializer extends StdSerializer<Fb2Document> {

    protected Fb2Serializer(Class<Fb2Document> t) {
        super(t);
    }

    @Override
    public void serialize(Fb2Document fb2Document, JsonGenerator jsonGenerator, SerializerProvider serializerProvider) throws IOException {
        jsonGenerator.writeStartObject();
        // TODO: Generalize constants
        jsonGenerator.writeStringField("author", fb2Document.getAuthor());
        jsonGenerator.writeStringField("title", fb2Document.getTitle());
        jsonGenerator.writeStringField("body", fb2Document.getBody());
        jsonGenerator.writeEndObject();
    }
}


В Кибану должный пойти put-реквесты в таком формате HTTP. Там соотв. формат полей - произвольный.

PUT movies/Epic/2 
{
    "author" : "S.Lukyanenko",
    "title" : "Dozor",
    "body" : "....."
}


Вот эта штука movies - это по идее название текстового индекса. Его я должен по протоколу сначала создать отдельной
командой Кибаны. Еще не придумал как это всё завязать в последовательность действий.
30 апр 19, 17:47    [21875806]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Ну там не мувис понятное дело а books.
30 апр 19, 18:00    [21875823]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
Kachalov
Member

Откуда: Москва
Сообщений: 5642
mayton
270 Гигов zip-архивов

- если не сложно, поделитесь ссылочкой)
30 апр 19, 18:33    [21875860]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Рутрекер. В поиске: Флибуста.
30 апр 19, 18:44    [21875874]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Кажется вот этот линк https://rutracker.org/forum/viewtopic.php?t=5462398
1 май 19, 00:07    [21876045]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
alex55555
Member

Откуда:
Сообщений: 2129
mayton
Вот буквально 5 минут назад запилил. На Джаксоне.

+
package mayton.elastic;

import com.fasterxml.jackson.core.JsonGenerator;
import com.fasterxml.jackson.databind.SerializerProvider;
import com.fasterxml.jackson.databind.ser.std.StdSerializer;
import java.io.IOException;

public class Fb2Serializer extends StdSerializer<Fb2Document> {

    protected Fb2Serializer(Class<Fb2Document> t) {
        super(t);
    }

    @Override
    public void serialize(Fb2Document fb2Document, JsonGenerator jsonGenerator, SerializerProvider serializerProvider) throws IOException {
        jsonGenerator.writeStartObject();
        // TODO: Generalize constants
        jsonGenerator.writeStringField("author", fb2Document.getAuthor());
        jsonGenerator.writeStringField("title", fb2Document.getTitle());
        jsonGenerator.writeStringField("body", fb2Document.getBody());
        jsonGenerator.writeEndObject();
    }
}



Криво.

В смысле нормальная последовательность такая:

FB2 -> XmlToJava -> POJO -> JavaToJson

И обратно через тот же POJO можно.

То есть один дата-объект и две конвертации, обе заточены (замаплены) на один набор классов.
1 май 19, 13:29    [21876294]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
mayton
Member

Откуда: loopback
Сообщений: 41377
Да. Промежуточная фаза Java-object мне 100% нужна. Возможно надо будет втолкнуть объект Книга
не в Elastic-endpoint а в какую-нибудь SQLite.
1 май 19, 13:31    [21876298]     Ответить | Цитировать Сообщить модератору
 Re: Быстрый маппинг FB2=>JavaObject  [new]
lleming
Member

Откуда:
Сообщений: 1606
не проще взять xml schema fb2 формат и через мавен/gradle плагин нагенерить по ней модельки ?

или могут быть нестандартные теги ?
1 май 19, 13:36    [21876304]     Ответить | Цитировать Сообщить модератору
Топик располагается на нескольких страницах: [1] 2   вперед  Ctrl      все
Все форумы / Java Ответить