src/gpu-compute/wavefront.hh

11308Santhony.gutierrez@amd.com/*
11308Santhony.gutierrez@amd.com * Copyright (c) 2011-2015 Advanced Micro Devices, Inc.
11308Santhony.gutierrez@amd.com * All rights reserved.
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * For use for simulation and test purposes only
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * Redistribution and use in source and binary forms, with or without
11308Santhony.gutierrez@amd.com * modification, are permitted provided that the following conditions are met:
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * 1. Redistributions of source code must retain the above copyright notice,
11308Santhony.gutierrez@amd.com * this list of conditions and the following disclaimer.
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * 2. Redistributions in binary form must reproduce the above copyright notice,
11308Santhony.gutierrez@amd.com * this list of conditions and the following disclaimer in the documentation
11308Santhony.gutierrez@amd.com * and/or other materials provided with the distribution.
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * 3. Neither the name of the copyright holder nor the names of its contributors
11308Santhony.gutierrez@amd.com * may be used to endorse or promote products derived from this software
11308Santhony.gutierrez@amd.com * without specific prior written permission.
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
11308Santhony.gutierrez@amd.com * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
11308Santhony.gutierrez@amd.com * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
11308Santhony.gutierrez@amd.com * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE
11308Santhony.gutierrez@amd.com * LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
11308Santhony.gutierrez@amd.com * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
11308Santhony.gutierrez@amd.com * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
11308Santhony.gutierrez@amd.com * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
11308Santhony.gutierrez@amd.com * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
11308Santhony.gutierrez@amd.com * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
11308Santhony.gutierrez@amd.com * POSSIBILITY OF SUCH DAMAGE.
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * Author: Lisa Hsu
11308Santhony.gutierrez@amd.com */
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com#ifndef __WAVEFRONT_HH__
11308Santhony.gutierrez@amd.com#define __WAVEFRONT_HH__
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com#include <cassert>
11308Santhony.gutierrez@amd.com#include <deque>
11308Santhony.gutierrez@amd.com#include <memory>
11308Santhony.gutierrez@amd.com#include <stack>
11308Santhony.gutierrez@amd.com#include <vector>
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com#include "base/misc.hh"
11308Santhony.gutierrez@amd.com#include "base/types.hh"
11308Santhony.gutierrez@amd.com#include "gpu-compute/condition_register_state.hh"
11308Santhony.gutierrez@amd.com#include "gpu-compute/lds_state.hh"
11308Santhony.gutierrez@amd.com#include "gpu-compute/misc.hh"
11308Santhony.gutierrez@amd.com#include "params/Wavefront.hh"
11308Santhony.gutierrez@amd.com#include "sim/sim_object.hh"
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.comstatic const int MAX_NUM_INSTS_PER_WF = 12;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com/*
11308Santhony.gutierrez@amd.com * Arguments for the hsail opcode call, are user defined and variable length.
11308Santhony.gutierrez@amd.com * The hardware/finalizer can support arguments in hardware or use memory to
11308Santhony.gutierrez@amd.com * pass arguments. For now, let's assume that an unlimited number of arguments
11308Santhony.gutierrez@amd.com * are supported in hardware (the compiler inlines functions whenver it can
11308Santhony.gutierrez@amd.com * anyways, so unless someone is interested in the implications of linking/
11308Santhony.gutierrez@amd.com * library functions, I think this is a reasonable assumption given the typical
11308Santhony.gutierrez@amd.com * size of an OpenCL kernel).
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * Note that call args are different than kernel arguments:
11308Santhony.gutierrez@amd.com *   * All work-items in a kernel refer the same set of kernel arguments
11308Santhony.gutierrez@amd.com *   * Each work-item has it's on set of call args. So a call argument at
11308Santhony.gutierrez@amd.com *     address 0x4 is different for work-item 0 and work-item 1.
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * Ok, the table below shows an example of how we organize the call arguments in
11308Santhony.gutierrez@amd.com * the CallArgMem class.
11308Santhony.gutierrez@amd.com *
11308Santhony.gutierrez@amd.com * int foo(int arg1, double arg2)
11308Santhony.gutierrez@amd.com *  ___________________________________________________
11308Santhony.gutierrez@amd.com * | 0: return.0 | 4: return.1 | ... | 252: return.63  |
11308Santhony.gutierrez@amd.com * |---------------------------------------------------|
11308Santhony.gutierrez@amd.com * | 256: arg1.0 | 260: arg1.1 | ... | 508: arg1.63    |
11308Santhony.gutierrez@amd.com * |---------------------------------------------------|
11308Santhony.gutierrez@amd.com * | 512: arg2.0 | 520: arg2.1 | ... | 1016: arg2.63   |
11308Santhony.gutierrez@amd.com *  ___________________________________________________
11308Santhony.gutierrez@amd.com */
11308Santhony.gutierrez@amd.comclass CallArgMem
11308Santhony.gutierrez@amd.com{
11308Santhony.gutierrez@amd.com  public:
11308Santhony.gutierrez@amd.com    // pointer to buffer for storing function arguments
11308Santhony.gutierrez@amd.com    uint8_t *mem;
11534Sjohn.kalamatianos@amd.com    int wfSize;
11308Santhony.gutierrez@amd.com    // size of function args
11308Santhony.gutierrez@amd.com    int funcArgsSizePerItem;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    template<typename CType>
11308Santhony.gutierrez@amd.com    int
11308Santhony.gutierrez@amd.com    getLaneOffset(int lane, int addr)
11308Santhony.gutierrez@amd.com    {
11534Sjohn.kalamatianos@amd.com        return addr * wfSize + sizeof(CType) * lane;
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com
11534Sjohn.kalamatianos@amd.com    CallArgMem(int func_args_size_per_item, int wf_size)
11534Sjohn.kalamatianos@amd.com        : wfSize(wf_size), funcArgsSizePerItem(func_args_size_per_item)
11308Santhony.gutierrez@amd.com    {
11534Sjohn.kalamatianos@amd.com        mem = (uint8_t*)malloc(funcArgsSizePerItem * wfSize);
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    ~CallArgMem()
11308Santhony.gutierrez@amd.com    {
11308Santhony.gutierrez@amd.com        free(mem);
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    template<typename CType>
11308Santhony.gutierrez@amd.com    uint8_t*
11308Santhony.gutierrez@amd.com    getLaneAddr(int lane, int addr)
11308Santhony.gutierrez@amd.com    {
11308Santhony.gutierrez@amd.com        return mem + getLaneOffset<CType>(lane, addr);
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    template<typename CType>
11308Santhony.gutierrez@amd.com    void
11308Santhony.gutierrez@amd.com    setLaneAddr(int lane, int addr, CType val)
11308Santhony.gutierrez@amd.com    {
11308Santhony.gutierrez@amd.com        *((CType*)(mem + getLaneOffset<CType>(lane, addr))) = val;
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com};
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com/**
11308Santhony.gutierrez@amd.com * A reconvergence stack entry conveys the necessary state to implement
11308Santhony.gutierrez@amd.com * control flow divergence.
11308Santhony.gutierrez@amd.com */
11308Santhony.gutierrez@amd.comclass ReconvergenceStackEntry {
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com  public:
11308Santhony.gutierrez@amd.com    ReconvergenceStackEntry(uint32_t new_pc, uint32_t new_rpc,
11308Santhony.gutierrez@amd.com                            VectorMask new_mask) : pc(new_pc), rpc(new_rpc),
11308Santhony.gutierrez@amd.com                            execMask(new_mask) {
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    /**
11308Santhony.gutierrez@amd.com     * PC of current instruction.
11308Santhony.gutierrez@amd.com     */
11308Santhony.gutierrez@amd.com    uint32_t pc;
11308Santhony.gutierrez@amd.com    /**
11308Santhony.gutierrez@amd.com     * PC of the immediate post-dominator instruction, i.e., the value of
11308Santhony.gutierrez@amd.com     * @a pc for the first instruction that will be executed by the wavefront
11308Santhony.gutierrez@amd.com     * when a reconvergence point is reached.
11308Santhony.gutierrez@amd.com     */
11308Santhony.gutierrez@amd.com    uint32_t rpc;
11308Santhony.gutierrez@amd.com    /**
11308Santhony.gutierrez@amd.com     * Execution mask.
11308Santhony.gutierrez@amd.com     */
11308Santhony.gutierrez@amd.com    VectorMask execMask;
11308Santhony.gutierrez@amd.com};
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.comclass Wavefront : public SimObject
11308Santhony.gutierrez@amd.com{
11308Santhony.gutierrez@amd.com  public:
11308Santhony.gutierrez@amd.com    enum itype_e {I_ALU,I_GLOBAL,I_SHARED,I_FLAT,I_PRIVATE};
11308Santhony.gutierrez@amd.com    enum status_e {S_STOPPED,S_RETURNING,S_RUNNING};
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // Base pointer for array of instruction pointers
11308Santhony.gutierrez@amd.com    uint64_t base_ptr;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    uint32_t old_barrier_cnt;
11308Santhony.gutierrez@amd.com    uint32_t barrier_cnt;
11308Santhony.gutierrez@amd.com    uint32_t barrier_id;
11308Santhony.gutierrez@amd.com    uint32_t barrier_slots;
11308Santhony.gutierrez@amd.com    status_e status;
11308Santhony.gutierrez@amd.com    // HW slot id where the WF is mapped to inside a SIMD unit
11308Santhony.gutierrez@amd.com    int wfSlotId;
11308Santhony.gutierrez@amd.com    int kern_id;
11308Santhony.gutierrez@amd.com    // SIMD unit where the WV has been scheduled
11308Santhony.gutierrez@amd.com    int simdId;
11308Santhony.gutierrez@amd.com    // pointer to parent CU
11308Santhony.gutierrez@amd.com    ComputeUnit *computeUnit;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    std::deque<GPUDynInstPtr> instructionBuffer;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    bool pendingFetch;
11308Santhony.gutierrez@amd.com    bool dropFetch;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // Condition Register State (for HSAIL simulations only)
11308Santhony.gutierrez@amd.com    class ConditionRegisterState *condRegState;
11308Santhony.gutierrez@amd.com    // number of single precision VGPRs required by WF
11308Santhony.gutierrez@amd.com    uint32_t maxSpVgprs;
11308Santhony.gutierrez@amd.com    // number of double precision VGPRs required by WF
11308Santhony.gutierrez@amd.com    uint32_t maxDpVgprs;
11308Santhony.gutierrez@amd.com    // map virtual to physical vector register
11308Santhony.gutierrez@amd.com    uint32_t remap(uint32_t vgprIndex, uint32_t size, uint8_t mode=0);
11308Santhony.gutierrez@amd.com    void resizeRegFiles(int num_cregs, int num_sregs, int num_dregs);
11308Santhony.gutierrez@amd.com    bool isGmInstruction(GPUDynInstPtr ii);
11308Santhony.gutierrez@amd.com    bool isLmInstruction(GPUDynInstPtr ii);
11308Santhony.gutierrez@amd.com    bool isOldestInstGMem();
11308Santhony.gutierrez@amd.com    bool isOldestInstLMem();
11308Santhony.gutierrez@amd.com    bool isOldestInstPrivMem();
11308Santhony.gutierrez@amd.com    bool isOldestInstFlatMem();
11308Santhony.gutierrez@amd.com    bool isOldestInstALU();
11308Santhony.gutierrez@amd.com    bool isOldestInstBarrier();
11308Santhony.gutierrez@amd.com    // used for passing spill address to DDInstGPU
11534Sjohn.kalamatianos@amd.com    std::vector<Addr> last_addr;
11534Sjohn.kalamatianos@amd.com    std::vector<uint32_t> workitemid[3];
11534Sjohn.kalamatianos@amd.com    std::vector<uint32_t> workitemFlatId;
11308Santhony.gutierrez@amd.com    uint32_t workgroupid[3];
11308Santhony.gutierrez@amd.com    uint32_t workgroupsz[3];
11308Santhony.gutierrez@amd.com    uint32_t gridsz[3];
11308Santhony.gutierrez@amd.com    uint32_t wg_id;
11308Santhony.gutierrez@amd.com    uint32_t wg_sz;
11308Santhony.gutierrez@amd.com    uint32_t dynwaveid;
11308Santhony.gutierrez@amd.com    uint32_t maxdynwaveid;
11308Santhony.gutierrez@amd.com    uint32_t dispatchid;
11308Santhony.gutierrez@amd.com    // outstanding global+local memory requests
11308Santhony.gutierrez@amd.com    uint32_t outstanding_reqs;
11308Santhony.gutierrez@amd.com    // memory requests between scoreboard
11308Santhony.gutierrez@amd.com    // and execute stage not yet executed
11308Santhony.gutierrez@amd.com    uint32_t mem_reqs_in_pipe;
11308Santhony.gutierrez@amd.com    // outstanding global memory write requests
11308Santhony.gutierrez@amd.com    uint32_t outstanding_reqs_wr_gm;
11308Santhony.gutierrez@amd.com    // outstanding local memory write requests
11308Santhony.gutierrez@amd.com    uint32_t outstanding_reqs_wr_lm;
11308Santhony.gutierrez@amd.com    // outstanding global memory read requests
11308Santhony.gutierrez@amd.com    uint32_t outstanding_reqs_rd_gm;
11308Santhony.gutierrez@amd.com    // outstanding local memory read requests
11308Santhony.gutierrez@amd.com    uint32_t outstanding_reqs_rd_lm;
11308Santhony.gutierrez@amd.com    uint32_t rd_lm_reqs_in_pipe;
11308Santhony.gutierrez@amd.com    uint32_t rd_gm_reqs_in_pipe;
11308Santhony.gutierrez@amd.com    uint32_t wr_lm_reqs_in_pipe;
11308Santhony.gutierrez@amd.com    uint32_t wr_gm_reqs_in_pipe;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    int mem_trace_busy;
11308Santhony.gutierrez@amd.com    uint64_t last_trace;
11308Santhony.gutierrez@amd.com    // number of vector registers reserved by WF
11308Santhony.gutierrez@amd.com    int reservedVectorRegs;
11308Santhony.gutierrez@amd.com    // Index into the Vector Register File's namespace where the WF's registers
11308Santhony.gutierrez@amd.com    // will live while the WF is executed
11308Santhony.gutierrez@amd.com    uint32_t startVgprIndex;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // Old value of destination gpr (for trace)
11534Sjohn.kalamatianos@amd.com    std::vector<uint32_t> old_vgpr;
11308Santhony.gutierrez@amd.com    // Id of destination gpr (for trace)
11308Santhony.gutierrez@amd.com    uint32_t old_vgpr_id;
11308Santhony.gutierrez@amd.com    // Tick count of last old_vgpr copy
11308Santhony.gutierrez@amd.com    uint64_t old_vgpr_tcnt;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // Old value of destination gpr (for trace)
11534Sjohn.kalamatianos@amd.com    std::vector<uint64_t> old_dgpr;
11308Santhony.gutierrez@amd.com    // Id of destination gpr (for trace)
11308Santhony.gutierrez@amd.com    uint32_t old_dgpr_id;
11308Santhony.gutierrez@amd.com    // Tick count of last old_vgpr copy
11308Santhony.gutierrez@amd.com    uint64_t old_dgpr_tcnt;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // Execution mask at wavefront start
11308Santhony.gutierrez@amd.com    VectorMask init_mask;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // number of barriers this WF has joined
11534Sjohn.kalamatianos@amd.com    std::vector<int> bar_cnt;
11308Santhony.gutierrez@amd.com    int max_bar_cnt;
11308Santhony.gutierrez@amd.com    // Flag to stall a wave on barrier
11308Santhony.gutierrez@amd.com    bool stalledAtBarrier;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // a pointer to the fraction of the LDS allocated
11308Santhony.gutierrez@amd.com    // to this workgroup (thus this wavefront)
11308Santhony.gutierrez@amd.com    LdsChunk *ldsChunk;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // A pointer to the spill area
11308Santhony.gutierrez@amd.com    Addr spillBase;
11308Santhony.gutierrez@amd.com    // The size of the spill area
11308Santhony.gutierrez@amd.com    uint32_t spillSizePerItem;
11308Santhony.gutierrez@amd.com    // The vector width of the spill area
11308Santhony.gutierrez@amd.com    uint32_t spillWidth;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // A pointer to the private memory area
11308Santhony.gutierrez@amd.com    Addr privBase;
11308Santhony.gutierrez@amd.com    // The size of the private memory area
11308Santhony.gutierrez@amd.com    uint32_t privSizePerItem;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // A pointer ot the read-only memory area
11308Santhony.gutierrez@amd.com    Addr roBase;
11308Santhony.gutierrez@amd.com    // size of the read-only memory area
11308Santhony.gutierrez@amd.com    uint32_t roSize;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // pointer to buffer for storing kernel arguments
11308Santhony.gutierrez@amd.com    uint8_t *kernelArgs;
11308Santhony.gutierrez@amd.com    // unique WF id over all WFs executed across all CUs
11308Santhony.gutierrez@amd.com    uint64_t wfDynId;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // number of times instruction issue for this wavefront is blocked
11308Santhony.gutierrez@amd.com    // due to VRF port availability
11308Santhony.gutierrez@amd.com    Stats::Scalar numTimesBlockedDueVrfPortAvail;
11308Santhony.gutierrez@amd.com    // number of times an instruction of a WF is blocked from being issued
11308Santhony.gutierrez@amd.com    // due to WAR and WAW dependencies
11308Santhony.gutierrez@amd.com    Stats::Scalar numTimesBlockedDueWAXDependencies;
11308Santhony.gutierrez@amd.com    // number of times an instruction of a WF is blocked from being issued
11308Santhony.gutierrez@amd.com    // due to WAR and WAW dependencies
11308Santhony.gutierrez@amd.com    Stats::Scalar numTimesBlockedDueRAWDependencies;
11308Santhony.gutierrez@amd.com    // distribution of executed instructions based on their register
11308Santhony.gutierrez@amd.com    // operands; this is used to highlight the load on the VRF
11308Santhony.gutierrez@amd.com    Stats::Distribution srcRegOpDist;
11308Santhony.gutierrez@amd.com    Stats::Distribution dstRegOpDist;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    // Functions to operate on call argument memory
11308Santhony.gutierrez@amd.com    // argument memory for hsail call instruction
11308Santhony.gutierrez@amd.com    CallArgMem *callArgMem;
11308Santhony.gutierrez@amd.com    void
11534Sjohn.kalamatianos@amd.com    initCallArgMem(int func_args_size_per_item, int wf_size)
11308Santhony.gutierrez@amd.com    {
11534Sjohn.kalamatianos@amd.com        callArgMem = new CallArgMem(func_args_size_per_item, wf_size);
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    template<typename CType>
11308Santhony.gutierrez@amd.com    CType
11308Santhony.gutierrez@amd.com    readCallArgMem(int lane, int addr)
11308Santhony.gutierrez@amd.com    {
11308Santhony.gutierrez@amd.com        return *((CType*)(callArgMem->getLaneAddr<CType>(lane, addr)));
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    template<typename CType>
11308Santhony.gutierrez@amd.com    void
11308Santhony.gutierrez@amd.com    writeCallArgMem(int lane, int addr, CType val)
11308Santhony.gutierrez@amd.com    {
11308Santhony.gutierrez@amd.com        callArgMem->setLaneAddr<CType>(lane, addr, val);
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    typedef WavefrontParams Params;
11308Santhony.gutierrez@amd.com    Wavefront(const Params *p);
11308Santhony.gutierrez@amd.com    ~Wavefront();
11308Santhony.gutierrez@amd.com    virtual void init();
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    void
11308Santhony.gutierrez@amd.com    setParent(ComputeUnit *cu)
11308Santhony.gutierrez@amd.com    {
11308Santhony.gutierrez@amd.com        computeUnit = cu;
11308Santhony.gutierrez@amd.com    }
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    void start(uint64_t _wfDynId, uint64_t _base_ptr);
11308Santhony.gutierrez@amd.com    void exec();
11308Santhony.gutierrez@amd.com    void updateResources();
11308Santhony.gutierrez@amd.com    int ready(itype_e type);
11308Santhony.gutierrez@amd.com    bool instructionBufferHasBranch();
11308Santhony.gutierrez@amd.com    void regStats();
11308Santhony.gutierrez@amd.com    VectorMask get_pred() { return execMask() & init_mask; }
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    bool waitingAtBarrier(int lane);
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    void pushToReconvergenceStack(uint32_t pc, uint32_t rpc,
11308Santhony.gutierrez@amd.com                                  const VectorMask& exec_mask);
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    void popFromReconvergenceStack();
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    uint32_t pc() const;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    uint32_t rpc() const;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    VectorMask execMask() const;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    bool execMask(int lane) const;
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    void pc(uint32_t new_pc);
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com    void discardFetch();
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com  private:
11308Santhony.gutierrez@amd.com    /**
11308Santhony.gutierrez@amd.com     * Stack containing Control Flow Graph nodes (i.e., kernel instructions)
11308Santhony.gutierrez@amd.com     * to be visited by the wavefront, and the associated execution masks. The
11308Santhony.gutierrez@amd.com     * reconvergence stack grows every time the wavefront reaches a divergence
11308Santhony.gutierrez@amd.com     * point (branch instruction), and shrinks every time the wavefront
11308Santhony.gutierrez@amd.com     * reaches a reconvergence point (immediate post-dominator instruction).
11308Santhony.gutierrez@amd.com     */
11308Santhony.gutierrez@amd.com    std::stack<std::unique_ptr<ReconvergenceStackEntry>> reconvergenceStack;
11308Santhony.gutierrez@amd.com};
11308Santhony.gutierrez@amd.com
11308Santhony.gutierrez@amd.com#endif // __WAVEFRONT_HH__