🔥 🐛 🔥

2023-08-10 21:13:14 +03:00 · 2017-06-18 13:05:37 -07:00
parent 1467621453
commit 8215a8864d
42 changed files with 699 additions and 497 deletions
--- a/examples/darknet.c
+++ b/examples/darknet.c
@@ -112,6 +112,26 @@ void operations(char *cfgfile)
            ops += 2l * l.n * l.size*l.size*l.c * l.out_h*l.out_w;
        } else if(l.type == CONNECTED){
            ops += 2l * l.inputs * l.outputs;
+        } else if (l.type == RNN){
+            ops += 2l * l.input_layer->inputs * l.input_layer->outputs;
+            ops += 2l * l.self_layer->inputs * l.self_layer->outputs;
+            ops += 2l * l.output_layer->inputs * l.output_layer->outputs;
+        } else if (l.type == GRU){
+            ops += 2l * l.uz->inputs * l.uz->outputs;
+            ops += 2l * l.uh->inputs * l.uh->outputs;
+            ops += 2l * l.ur->inputs * l.ur->outputs;
+            ops += 2l * l.wz->inputs * l.wz->outputs;
+            ops += 2l * l.wh->inputs * l.wh->outputs;
+            ops += 2l * l.wr->inputs * l.wr->outputs;
+        } else if (l.type == LSTM){
+            ops += 2l * l.uf->inputs * l.uf->outputs;
+            ops += 2l * l.ui->inputs * l.ui->outputs;
+            ops += 2l * l.ug->inputs * l.ug->outputs;
+            ops += 2l * l.uo->inputs * l.uo->outputs;
+            ops += 2l * l.wf->inputs * l.wf->outputs;
+            ops += 2l * l.wi->inputs * l.wi->outputs;
+            ops += 2l * l.wg->inputs * l.wg->outputs;
+            ops += 2l * l.wo->inputs * l.wo->outputs;
        }
    }
    printf("Floating Point Operations: %ld\n", ops);
--- a/examples/lsd.c
+++ b/examples/lsd.c
@@ -64,7 +64,7 @@ void train_lsd3(char *fcfg, char *fweight, char *gcfg, char *gweight, char *acfg

    int ax_size = anet.inputs*anet.batch;
    int ay_size = anet.truths*anet.batch;
-    fill_ongpu(ay_size, .9, anet.truth_gpu, 1);
+    fill_gpu(ay_size, .9, anet.truth_gpu, 1);
    anet.delta_gpu = cuda_make_array(0, ax_size);
    anet.train = 1;

@@ -102,36 +102,36 @@ void train_lsd3(char *fcfg, char *fweight, char *gcfg, char *gweight, char *acfg

            forward_network_gpu(fnet, fstate);
            float *feats = fnet.layers[fnet.n - 2].output_gpu;
-            copy_ongpu(y_size, feats, 1, fstate.truth, 1);
+            copy_gpu(y_size, feats, 1, fstate.truth, 1);

            forward_network_gpu(gnet, gstate);
            float *gen = gnet.layers[gnet.n-1].output_gpu;
-            copy_ongpu(x_size, gen, 1, fstate.input, 1);
+            copy_gpu(x_size, gen, 1, fstate.input, 1);

-            fill_ongpu(x_size, 0, fstate.delta, 1);
+            fill_gpu(x_size, 0, fstate.delta, 1);
            forward_network_gpu(fnet, fstate);
            backward_network_gpu(fnet, fstate);
            //HERE

            astate.input = gen;
-            fill_ongpu(ax_size, 0, astate.delta, 1);
+            fill_gpu(ax_size, 0, astate.delta, 1);
            forward_network_gpu(anet, astate);
            backward_network_gpu(anet, astate);

            float *delta = imlayer.delta_gpu;
-            fill_ongpu(x_size, 0, delta, 1);
-            scal_ongpu(x_size, 100, astate.delta, 1);
-            scal_ongpu(x_size, .001, fstate.delta, 1);
-            axpy_ongpu(x_size, 1, fstate.delta, 1, delta, 1);
-            axpy_ongpu(x_size, 1, astate.delta, 1, delta, 1);
+            fill_gpu(x_size, 0, delta, 1);
+            scal_gpu(x_size, 100, astate.delta, 1);
+            scal_gpu(x_size, .001, fstate.delta, 1);
+            axpy_gpu(x_size, 1, fstate.delta, 1, delta, 1);
+            axpy_gpu(x_size, 1, astate.delta, 1, delta, 1);

-            //fill_ongpu(x_size, 0, delta, 1);
+            //fill_gpu(x_size, 0, delta, 1);
            //cuda_push_array(delta, X, x_size);
-            //axpy_ongpu(x_size, -1, imlayer.output_gpu, 1, delta, 1);
+            //axpy_gpu(x_size, -1, imlayer.output_gpu, 1, delta, 1);
            //printf("pix error: %f\n", cuda_mag_array(delta, x_size));
            printf("fea error: %f\n", cuda_mag_array(fstate.delta, x_size));
            printf("adv error: %f\n", cuda_mag_array(astate.delta, x_size));
-            //axpy_ongpu(x_size, 1, astate.delta, 1, delta, 1);
+            //axpy_gpu(x_size, 1, astate.delta, 1, delta, 1);

            backward_network_gpu(gnet, gstate);

@@ -273,7 +273,7 @@ void train_pix2pix(char *cfg, char *weight, char *acfg, char *aweight, int clear

    float *imerror = cuda_make_array(0, imlayer.outputs);
    float *ones_gpu = cuda_make_array(0, ay_size);
-    fill_ongpu(ay_size, .9, ones_gpu, 1);
+    fill_gpu(ay_size, .9, ones_gpu, 1);

    float aloss_avg = -1;
    float gloss_avg = -1;
@@ -318,23 +318,23 @@ void train_pix2pix(char *cfg, char *weight, char *acfg, char *aweight, int clear
            *net.seen += net.batch;
            forward_network_gpu(net, gstate);

-            fill_ongpu(imlayer.outputs, 0, imerror, 1);
+            fill_gpu(imlayer.outputs, 0, imerror, 1);
            astate.input = imlayer.output_gpu;
            astate.delta = imerror;
            astate.truth = ones_gpu;
            forward_network_gpu(anet, astate);
            backward_network_gpu(anet, astate);

-            scal_ongpu(imlayer.outputs, .1, net.layers[net.n-1].delta_gpu, 1);
+            scal_gpu(imlayer.outputs, .1, net.layers[net.n-1].delta_gpu, 1);

            backward_network_gpu(net, gstate);

-            scal_ongpu(imlayer.outputs, 1000, imerror, 1);
+            scal_gpu(imlayer.outputs, 1000, imerror, 1);

            printf("realness %f\n", cuda_mag_array(imerror, imlayer.outputs));
            printf("features %f\n", cuda_mag_array(net.layers[net.n-1].delta_gpu, imlayer.outputs));

-            axpy_ongpu(imlayer.outputs, 1, imerror, 1, imlayer.delta_gpu, 1);
+            axpy_gpu(imlayer.outputs, 1, imerror, 1, imlayer.delta_gpu, 1);

            gloss += get_network_cost(net) /(net.subdivisions*net.batch);

@@ -533,9 +533,9 @@ void train_dcgan(char *cfg, char *weight, char *acfg, char *aweight, int clear,
            *gnet.seen += gnet.batch;
            forward_network_gpu(gnet);

-            fill_ongpu(imlayer.outputs*imlayer.batch, 0, imerror, 1);
-            fill_ongpu(anet.truths*anet.batch, .95, anet.truth_gpu, 1);
-            copy_ongpu(anet.inputs*anet.batch, imlayer.output_gpu, 1, anet.input_gpu, 1);
+            fill_gpu(imlayer.outputs*imlayer.batch, 0, imerror, 1);
+            fill_gpu(anet.truths*anet.batch, .95, anet.truth_gpu, 1);
+            copy_gpu(anet.inputs*anet.batch, imlayer.output_gpu, 1, anet.input_gpu, 1);
            anet.delta_gpu = imerror;
            forward_network_gpu(anet);
            backward_network_gpu(anet);
@@ -543,13 +543,13 @@ void train_dcgan(char *cfg, char *weight, char *acfg, char *aweight, int clear,
            float genaloss = *anet.cost / anet.batch;
            printf("%f\n", genaloss);

-            scal_ongpu(imlayer.outputs*imlayer.batch, 1, imerror, 1);
-            scal_ongpu(imlayer.outputs*imlayer.batch, .00, gnet.layers[gnet.n-1].delta_gpu, 1);
+            scal_gpu(imlayer.outputs*imlayer.batch, 1, imerror, 1);
+            scal_gpu(imlayer.outputs*imlayer.batch, .00, gnet.layers[gnet.n-1].delta_gpu, 1);

            printf("realness %f\n", cuda_mag_array(imerror, imlayer.outputs*imlayer.batch));
            printf("features %f\n", cuda_mag_array(gnet.layers[gnet.n-1].delta_gpu, imlayer.outputs*imlayer.batch));

-            axpy_ongpu(imlayer.outputs*imlayer.batch, 1, imerror, 1, gnet.layers[gnet.n-1].delta_gpu, 1);
+            axpy_gpu(imlayer.outputs*imlayer.batch, 1, imerror, 1, gnet.layers[gnet.n-1].delta_gpu, 1);

            backward_network_gpu(gnet);

@@ -716,21 +716,21 @@ void train_colorizer(char *cfg, char *weight, char *acfg, char *aweight, int cle
            *net.seen += net.batch;
            forward_network_gpu(net);

-            fill_ongpu(imlayer.outputs*imlayer.batch, 0, imerror, 1);
-            copy_ongpu(anet.inputs*anet.batch, imlayer.output_gpu, 1, anet.input_gpu, 1);
-            fill_ongpu(anet.inputs*anet.batch, .95, anet.truth_gpu, 1);
+            fill_gpu(imlayer.outputs*imlayer.batch, 0, imerror, 1);
+            copy_gpu(anet.inputs*anet.batch, imlayer.output_gpu, 1, anet.input_gpu, 1);
+            fill_gpu(anet.inputs*anet.batch, .95, anet.truth_gpu, 1);
            anet.delta_gpu = imerror;
            forward_network_gpu(anet);
            backward_network_gpu(anet);

-            scal_ongpu(imlayer.outputs*imlayer.batch, 1./100., net.layers[net.n-1].delta_gpu, 1);
+            scal_gpu(imlayer.outputs*imlayer.batch, 1./100., net.layers[net.n-1].delta_gpu, 1);

-            scal_ongpu(imlayer.outputs*imlayer.batch, 1, imerror, 1);
+            scal_gpu(imlayer.outputs*imlayer.batch, 1, imerror, 1);

            printf("realness %f\n", cuda_mag_array(imerror, imlayer.outputs*imlayer.batch));
            printf("features %f\n", cuda_mag_array(net.layers[net.n-1].delta_gpu, imlayer.outputs*imlayer.batch));

-            axpy_ongpu(imlayer.outputs*imlayer.batch, 1, imerror, 1, net.layers[net.n-1].delta_gpu, 1);
+            axpy_gpu(imlayer.outputs*imlayer.batch, 1, imerror, 1, net.layers[net.n-1].delta_gpu, 1);

            backward_network_gpu(net);

@@ -876,7 +876,7 @@ void train_lsd2(char *cfgfile, char *weightfile, char *acfgfile, char *aweightfi

    float *imerror = cuda_make_array(0, imlayer.outputs);
    float *ones_gpu = cuda_make_array(0, ay_size);
-    fill_ongpu(ay_size, 1, ones_gpu, 1);
+    fill_gpu(ay_size, 1, ones_gpu, 1);

    float aloss_avg = -1;
    float gloss_avg = -1;
@@ -902,15 +902,15 @@ void train_lsd2(char *cfgfile, char *weightfile, char *acfgfile, char *aweightfi
            *net.seen += net.batch;
            forward_network_gpu(net, gstate);

-            fill_ongpu(imlayer.outputs, 0, imerror, 1);
+            fill_gpu(imlayer.outputs, 0, imerror, 1);
            astate.input = imlayer.output_gpu;
            astate.delta = imerror;
            astate.truth = ones_gpu;
            forward_network_gpu(anet, astate);
            backward_network_gpu(anet, astate);

-            scal_ongpu(imlayer.outputs, 1, imerror, 1);
-            axpy_ongpu(imlayer.outputs, 1, imerror, 1, imlayer.delta_gpu, 1);
+            scal_gpu(imlayer.outputs, 1, imerror, 1);
+            axpy_gpu(imlayer.outputs, 1, imerror, 1, imlayer.delta_gpu, 1);

            backward_network_gpu(net, gstate);

--- a/examples/nightmare.c
+++ b/examples/nightmare.c
@@ -50,7 +50,7 @@ void optimize_picture(network *net, image orig, int max_layer, float scale, floa
    cuda_push_array(net->input_gpu, im.data, net->inputs);

    forward_network_gpu(*net);
-    copy_ongpu(last.outputs, last.output_gpu, 1, last.delta_gpu, 1);
+    copy_gpu(last.outputs, last.output_gpu, 1, last.delta_gpu, 1);

    cuda_pull_array(last.delta_gpu, last.delta, last.outputs);
    calculate_loss(last.delta, last.delta, last.outputs, thresh);
@@ -141,7 +141,7 @@ void reconstruct_picture(network net, float *features, image recon, image update

        forward_network_gpu(net);
        cuda_push_array(l.delta_gpu, features, l.outputs);
-        axpy_ongpu(l.outputs, -1, l.output_gpu, 1, l.delta_gpu, 1);
+        axpy_gpu(l.outputs, -1, l.output_gpu, 1, l.delta_gpu, 1);
        backward_network_gpu(net);

        cuda_pull_array(net.delta_gpu, delta.data, delta.w*delta.h*delta.c);
--- a/examples/rnn.c
+++ b/examples/rnn.c
@@ -114,7 +114,10 @@ void reset_rnn_state(network net, int b)
        #ifdef GPU
        layer l = net.layers[i];
        if(l.state_gpu){
-            fill_ongpu(l.outputs, 0, l.state_gpu + l.outputs*b, 1);
+            fill_gpu(l.outputs, 0, l.state_gpu + l.outputs*b, 1);
+        }
+        if(l.h_gpu){
+            fill_gpu(l.outputs, 0, l.h_gpu + l.outputs*b, 1);
        }
        #endif
    }
--- a/examples/segmenter.c
+++ b/examples/segmenter.c
@@ -27,6 +27,11 @@ void train_segmenter(char *datacfg, char *cfgfile, char *weightfile, int *gpus,
    }
    srand(time(0));
    network net = nets[0];
+    image pred = get_network_image(net);
+
+    int div = net.w/pred.w;
+    assert(pred.w * div == net.w);
+    assert(pred.h * div == net.h);

    int imgs = net.batch * net.subdivisions * ngpus;

@@ -46,6 +51,7 @@ void train_segmenter(char *datacfg, char *cfgfile, char *weightfile, int *gpus,
    args.w = net.w;
    args.h = net.h;
    args.threads = 32;
+    args.scale = div;

    args.min = net.min_crop;
    args.max = net.max_crop;
@@ -75,15 +81,6 @@ void train_segmenter(char *datacfg, char *cfgfile, char *weightfile, int *gpus,
        pthread_join(load_thread, 0);
        train = buffer;
        load_thread = load_data(args);
-        image tr = float_to_image(net.w, net.h, 81, train.y.vals[0]);
-        image im = float_to_image(net.w, net.h, net.c, train.X.vals[0]);
-        image mask = mask_to_rgb(tr);
-        show_image(im, "input");
-        show_image(mask, "truth");
-#ifdef OPENCV
-        cvWaitKey(100);
-#endif
-        free_image(mask);

        printf("Loaded: %lf seconds\n", sec(clock()-time));
        time=clock();
@@ -98,6 +95,20 @@ void train_segmenter(char *datacfg, char *cfgfile, char *weightfile, int *gpus,
 #else
        loss = train_network(net, train);
 #endif
+        if(1){
+            image tr = float_to_image(net.w/div, net.h/div, 80, train.y.vals[net.batch]);
+            image im = float_to_image(net.w, net.h, net.c, train.X.vals[net.batch]);
+            image mask = mask_to_rgb(tr);
+            image prmask = mask_to_rgb(pred);
+            show_image(im, "input");
+            show_image(prmask, "pred");
+            show_image(mask, "truth");
+#ifdef OPENCV
+            cvWaitKey(100);
+#endif
+            free_image(mask);
+            free_image(prmask);
+        }
        if(avg_loss == -1) avg_loss = loss;
        avg_loss = avg_loss*.9 + loss*.1;
        printf("%ld, %.3f: %f, %f avg, %f rate, %lf seconds, %ld images\n", get_current_batch(net), (float)(*net.seen)/N, loss, avg_loss, get_current_rate(net), sec(clock()-time), *net.seen);