haiku.git

/*-
 *   BSD LICENSE
 *
 *   Copyright (c) Intel Corporation. All rights reserved.
 *   Copyright (c) 2017, Western Digital Corporation or its affiliates.
 *
 *   Redistribution and use in source and binary forms, with or without
 *   modification, are permitted provided that the following conditions
 *   are met:
 *
 *     * Redistributions of source code must retain the above copyright
 *       notice, this list of conditions and the following disclaimer.
 *     * Redistributions in binary form must reproduce the above copyright
 *       notice, this list of conditions and the following disclaimer in
 *       the documentation and/or other materials provided with the
 *       distribution.
 *     * Neither the name of Intel Corporation nor the names of its
 *       contributors may be used to endorse or promote products derived
 *       from this software without specific prior written permission.
 *
 *   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
 *   "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
 *   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
 *   A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
 *   OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
 *   SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
 *   LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
 *   DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
 *   THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
 *   (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 *   OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 */

#include "nvme_internal.h"

struct nvme_qpair_string {
	uint16_t	value;
	const char 	*str;
};

static const struct nvme_qpair_string admin_opcode[] = {
	{ NVME_OPC_DELETE_IO_SQ,	"DELETE IO SQ" },
	{ NVME_OPC_CREATE_IO_SQ,	"CREATE IO SQ" },
	{ NVME_OPC_GET_LOG_PAGE,	"GET LOG PAGE" },
	{ NVME_OPC_DELETE_IO_CQ,	"DELETE IO CQ" },
	{ NVME_OPC_CREATE_IO_CQ,	"CREATE IO CQ" },
	{ NVME_OPC_IDENTIFY, 		"IDENTIFY" },
	{ NVME_OPC_ABORT,		"ABORT" },
	{ NVME_OPC_SET_FEATURES,	"SET FEATURES" },
	{ NVME_OPC_GET_FEATURES,	"GET FEATURES" },
	{ NVME_OPC_ASYNC_EVENT_REQUEST, "ASYNC EVENT REQUEST" },
	{ NVME_OPC_NS_MANAGEMENT,	"NAMESPACE MANAGEMENT" },
	{ NVME_OPC_FIRMWARE_COMMIT,	"FIRMWARE COMMIT" },
	{ NVME_OPC_FIRMWARE_IMAGE_DOWNLOAD, "FIRMWARE IMAGE DOWNLOAD" },
	{ NVME_OPC_NS_ATTACHMENT,	"NAMESPACE ATTACHMENT" },
	{ NVME_OPC_FORMAT_NVM,		"FORMAT NVM" },
	{ NVME_OPC_SECURITY_SEND,	"SECURITY SEND" },
	{ NVME_OPC_SECURITY_RECEIVE,	"SECURITY RECEIVE" },
	{ 0xFFFF,			"ADMIN COMMAND" }
};

static const struct nvme_qpair_string io_opcode[] = {
	{ NVME_OPC_FLUSH,		"FLUSH" },
	{ NVME_OPC_WRITE,		"WRITE" },
	{ NVME_OPC_READ,		"READ" },
	{ NVME_OPC_WRITE_UNCORRECTABLE, "WRITE UNCORRECTABLE" },
	{ NVME_OPC_COMPARE,		"COMPARE" },
	{ NVME_OPC_WRITE_ZEROES,	"WRITE ZEROES" },
	{ NVME_OPC_DATASET_MANAGEMENT,	"DATASET MANAGEMENT" },
	{ NVME_OPC_RESERVATION_REGISTER, "RESERVATION REGISTER" },
	{ NVME_OPC_RESERVATION_REPORT,	"RESERVATION REPORT" },
	{ NVME_OPC_RESERVATION_ACQUIRE, "RESERVATION ACQUIRE" },
	{ NVME_OPC_RESERVATION_RELEASE, "RESERVATION RELEASE" },
	{ 0xFFFF,			"IO COMMAND" }
};

static const struct nvme_qpair_string generic_status[] = {
	{ NVME_SC_SUCCESS,			"SUCCESS" },
	{ NVME_SC_INVALID_OPCODE,		"INVALID OPCODE" },
	{ NVME_SC_INVALID_FIELD,		"INVALID FIELD" },
	{ NVME_SC_COMMAND_ID_CONFLICT,		"COMMAND ID CONFLICT" },
	{ NVME_SC_DATA_TRANSFER_ERROR,		"DATA TRANSFER ERROR" },
	{ NVME_SC_ABORTED_POWER_LOSS,		"ABORTED - POWER LOSS" },
	{ NVME_SC_INTERNAL_DEVICE_ERROR,	"INTERNAL DEVICE ERROR" },
	{ NVME_SC_ABORTED_BY_REQUEST,		"ABORTED - BY REQUEST" },
	{ NVME_SC_ABORTED_SQ_DELETION,		"ABORTED - SQ DELETION" },
	{ NVME_SC_ABORTED_FAILED_FUSED,		"ABORTED - FAILED FUSED" },
	{ NVME_SC_ABORTED_MISSING_FUSED,	"ABORTED - MISSING FUSED" },
	{ NVME_SC_INVALID_NAMESPACE_OR_FORMAT,	"INVALID NAMESPACE OR FORMAT" },
	{ NVME_SC_COMMAND_SEQUENCE_ERROR,	"COMMAND SEQUENCE ERROR" },
	{ NVME_SC_INVALID_SGL_SEG_DESCRIPTOR,	"INVALID SGL SEGMENT DESCRIPTOR" },
	{ NVME_SC_INVALID_NUM_SGL_DESCIRPTORS,	"INVALID NUMBER OF SGL DESCRIPTORS" },
	{ NVME_SC_DATA_SGL_LENGTH_INVALID,	"DATA SGL LENGTH INVALID" },
	{ NVME_SC_METADATA_SGL_LENGTH_INVALID,	"METADATA SGL LENGTH INVALID" },
	{ NVME_SC_SGL_DESCRIPTOR_TYPE_INVALID,	"SGL DESCRIPTOR TYPE INVALID" },
	{ NVME_SC_INVALID_CONTROLLER_MEM_BUF,	"INVALID CONTROLLER MEMORY BUFFER" },
	{ NVME_SC_INVALID_PRP_OFFSET,		"INVALID PRP OFFSET" },
	{ NVME_SC_ATOMIC_WRITE_UNIT_EXCEEDED,	"ATOMIC WRITE UNIT EXCEEDED" },
	{ NVME_SC_LBA_OUT_OF_RANGE,		"LBA OUT OF RANGE" },
	{ NVME_SC_CAPACITY_EXCEEDED,		"CAPACITY EXCEEDED" },
	{ NVME_SC_NAMESPACE_NOT_READY,		"NAMESPACE NOT READY" },
	{ NVME_SC_RESERVATION_CONFLICT,		"RESERVATION CONFLICT" },
	{ NVME_SC_FORMAT_IN_PROGRESS,		"FORMAT IN PROGRESS" },
	{ 0xFFFF,				"GENERIC" }
};

static const struct nvme_qpair_string command_specific_status[] = {
	{ NVME_SC_COMPLETION_QUEUE_INVALID,	"INVALID COMPLETION QUEUE" },
	{ NVME_SC_INVALID_QUEUE_IDENTIFIER,	"INVALID QUEUE IDENTIFIER" },
	{ NVME_SC_MAXIMUM_QUEUE_SIZE_EXCEEDED,	"MAX QUEUE SIZE EXCEEDED" },
	{ NVME_SC_ABORT_COMMAND_LIMIT_EXCEEDED,	"ABORT CMD LIMIT EXCEEDED" },
	{ NVME_SC_ASYNC_EVENT_REQUEST_LIMIT_EXCEEDED,"ASYNC LIMIT EXCEEDED" },
	{ NVME_SC_INVALID_FIRMWARE_SLOT,	"INVALID FIRMWARE SLOT" },
	{ NVME_SC_INVALID_FIRMWARE_IMAGE,	"INVALID FIRMWARE IMAGE" },
	{ NVME_SC_INVALID_INTERRUPT_VECTOR,	"INVALID INTERRUPT VECTOR" },
	{ NVME_SC_INVALID_LOG_PAGE,		"INVALID LOG PAGE" },
	{ NVME_SC_INVALID_FORMAT,		"INVALID FORMAT" },
	{ NVME_SC_FIRMWARE_REQ_CONVENTIONAL_RESET,"FIRMWARE REQUIRES CONVENTIONAL RESET" },
	{ NVME_SC_INVALID_QUEUE_DELETION,	"INVALID QUEUE DELETION" },
	{ NVME_SC_FEATURE_ID_NOT_SAVEABLE,	"FEATURE ID NOT SAVEABLE" },
	{ NVME_SC_FEATURE_NOT_CHANGEABLE,	"FEATURE NOT CHANGEABLE" },
	{ NVME_SC_FEATURE_NOT_NAMESPACE_SPECIFIC,"FEATURE NOT NAMESPACE SPECIFIC" },
	{ NVME_SC_FIRMWARE_REQ_NVM_RESET,	"FIRMWARE REQUIRES NVM RESET" },
	{ NVME_SC_FIRMWARE_REQ_RESET,		"FIRMWARE REQUIRES RESET" },
	{ NVME_SC_FIRMWARE_REQ_MAX_TIME_VIOLATION,"FIRMWARE REQUIRES MAX TIME VIOLATION" },
	{ NVME_SC_FIRMWARE_ACTIVATION_PROHIBITED,"FIRMWARE ACTIVATION PROHIBITED" },
	{ NVME_SC_OVERLAPPING_RANGE,		"OVERLAPPING RANGE" },
	{ NVME_SC_NAMESPACE_INSUFFICIENT_CAPACITY,"NAMESPACE INSUFFICIENT CAPACITY" },
	{ NVME_SC_NAMESPACE_ID_UNAVAILABLE,	"NAMESPACE ID UNAVAILABLE" },
	{ NVME_SC_NAMESPACE_ALREADY_ATTACHED,	"NAMESPACE ALREADY ATTACHED" },
	{ NVME_SC_NAMESPACE_IS_PRIVATE,		"NAMESPACE IS PRIVATE" },
	{ NVME_SC_NAMESPACE_NOT_ATTACHED,	"NAMESPACE NOT ATTACHED" },
	{ NVME_SC_THINPROVISIONING_NOT_SUPPORTED,"THINPROVISIONING NOT SUPPORTED" },
	{ NVME_SC_CONTROLLER_LIST_INVALID,	"CONTROLLER LIST INVALID" },
	{ NVME_SC_CONFLICTING_ATTRIBUTES,	"CONFLICTING ATTRIBUTES" },
	{ NVME_SC_INVALID_PROTECTION_INFO,	"INVALID PROTECTION INFO" },
	{ NVME_SC_ATTEMPTED_WRITE_TO_RO_PAGE,	"WRITE TO RO PAGE" },
	{ 0xFFFF,				"COMMAND SPECIFIC" }
};

static const struct nvme_qpair_string media_error_status[] = {
	{ NVME_SC_WRITE_FAULTS, 		"WRITE FAULTS" },
	{ NVME_SC_UNRECOVERED_READ_ERROR, 	"UNRECOVERED READ ERROR" },
	{ NVME_SC_GUARD_CHECK_ERROR, 		"GUARD CHECK ERROR" },
	{ NVME_SC_APPLICATION_TAG_CHECK_ERROR, 	"APPLICATION TAG CHECK ERROR" },
	{ NVME_SC_REFERENCE_TAG_CHECK_ERROR, 	"REFERENCE TAG CHECK ERROR" },
	{ NVME_SC_COMPARE_FAILURE, 		"COMPARE FAILURE" },
	{ NVME_SC_ACCESS_DENIED, 		"ACCESS DENIED" },
	{ NVME_SC_DEALLOCATED_OR_UNWRITTEN_BLOCK, "DEALLOCATED OR UNWRITTEN BLOCK" },
	{ 0xFFFF, 				"MEDIA ERROR" }
};

static inline bool nvme_qpair_is_admin_queue(struct nvme_qpair *qpair)
{
	return qpair->id == 0;
}

static inline bool nvme_qpair_is_io_queue(struct nvme_qpair *qpair)
{
	return qpair->id != 0;
}

static const char*nvme_qpair_get_string(const struct nvme_qpair_string *strings,
					uint16_t value)
{
	const struct nvme_qpair_string *entry;

	entry = strings;

	while (entry->value != 0xFFFF) {
		if (entry->value == value)
			return entry->str;
		entry++;
	}
	return entry->str;
}

static void nvme_qpair_admin_qpair_print_command(struct nvme_qpair *qpair,
						 struct nvme_cmd *cmd)
{
	nvme_info("%s (%02x) sqid:%d cid:%d nsid:%x cdw10:%08x cdw11:%08x\n",
		  nvme_qpair_get_string(admin_opcode, cmd->opc), cmd->opc,
		  qpair->id, cmd->cid,
		  cmd->nsid, cmd->cdw10, cmd->cdw11);
}

static void nvme_qpair_io_qpair_print_command(struct nvme_qpair *qpair,
					      struct nvme_cmd *cmd)
{
	nvme_assert(qpair != NULL, "print_command: qpair == NULL\n");
	nvme_assert(cmd != NULL, "print_command: cmd == NULL\n");

	switch ((int)cmd->opc) {
	case NVME_OPC_WRITE:
	case NVME_OPC_READ:
	case NVME_OPC_WRITE_UNCORRECTABLE:
	case NVME_OPC_COMPARE:
		nvme_info("%s sqid:%d cid:%d nsid:%d lba:%llu len:%d\n",
			  nvme_qpair_get_string(io_opcode, cmd->opc),
			  qpair->id, cmd->cid, cmd->nsid,
			  ((unsigned long long)cmd->cdw11 << 32) + cmd->cdw10,
			  (cmd->cdw12 & 0xFFFF) + 1);
		break;
	case NVME_OPC_FLUSH:
	case NVME_OPC_DATASET_MANAGEMENT:
		nvme_info("%s sqid:%d cid:%d nsid:%d\n",
			  nvme_qpair_get_string(io_opcode, cmd->opc),
			  qpair->id, cmd->cid, cmd->nsid);
		break;
	default:
		nvme_info("%s (%02x) sqid:%d cid:%d nsid:%d\n",
			  nvme_qpair_get_string(io_opcode, cmd->opc),
			  cmd->opc, qpair->id, cmd->cid, cmd->nsid);
		break;
	}
}

static void nvme_qpair_print_command(struct nvme_qpair *qpair,
				     struct nvme_cmd *cmd)
{
	nvme_assert(qpair != NULL, "qpair can not be NULL");
	nvme_assert(cmd != NULL, "cmd can not be NULL");

	if (nvme_qpair_is_admin_queue(qpair))
		return nvme_qpair_admin_qpair_print_command(qpair, cmd);

	return nvme_qpair_io_qpair_print_command(qpair, cmd);
}

static const char *get_status_string(uint16_t sct, uint16_t sc)
{
	const struct nvme_qpair_string *entry;

	switch (sct) {
	case NVME_SCT_GENERIC:
		entry = generic_status;
		break;
	case NVME_SCT_COMMAND_SPECIFIC:
		entry = command_specific_status;
		break;
	case NVME_SCT_MEDIA_ERROR:
		entry = media_error_status;
		break;
	case NVME_SCT_VENDOR_SPECIFIC:
		return "VENDOR SPECIFIC";
	default:
		return "RESERVED";
	}

	return nvme_qpair_get_string(entry, sc);
}

static void nvme_qpair_print_completion(struct nvme_qpair *qpair,
					struct nvme_cpl *cpl)
{
	nvme_info("Cpl: %s (%02x/%02x) sqid:%d cid:%d "
		  "cdw0:%x sqhd:%04x p:%x m:%x dnr:%x\n",
		  get_status_string(cpl->status.sct, cpl->status.sc),
		  cpl->status.sct,
		  cpl->status.sc,
		  cpl->sqid,
		  cpl->cid,
		  cpl->cdw0,
		  cpl->sqhd,
		  cpl->status.p,
		  cpl->status.m,
		  cpl->status.dnr);
}

static bool nvme_qpair_completion_retry(const struct nvme_cpl *cpl)
{
	/*
	 * TODO: spec is not clear how commands that are aborted due
	 *  to TLER will be marked.  So for now, it seems
	 *  NAMESPACE_NOT_READY is the only case where we should
	 *  look at the DNR bit.
	 */
	switch ((int)cpl->status.sct) {
	case NVME_SCT_GENERIC:
		switch ((int)cpl->status.sc) {
		case NVME_SC_NAMESPACE_NOT_READY:
		case NVME_SC_FORMAT_IN_PROGRESS:
			if (cpl->status.dnr)
				return false;
			return true;
		case NVME_SC_INVALID_OPCODE:
		case NVME_SC_INVALID_FIELD:
		case NVME_SC_COMMAND_ID_CONFLICT:
		case NVME_SC_DATA_TRANSFER_ERROR:
		case NVME_SC_ABORTED_POWER_LOSS:
		case NVME_SC_INTERNAL_DEVICE_ERROR:
		case NVME_SC_ABORTED_BY_REQUEST:
		case NVME_SC_ABORTED_SQ_DELETION:
		case NVME_SC_ABORTED_FAILED_FUSED:
		case NVME_SC_ABORTED_MISSING_FUSED:
		case NVME_SC_INVALID_NAMESPACE_OR_FORMAT:
		case NVME_SC_COMMAND_SEQUENCE_ERROR:
		case NVME_SC_LBA_OUT_OF_RANGE:
		case NVME_SC_CAPACITY_EXCEEDED:
		default:
			return false;
		}
	case NVME_SCT_COMMAND_SPECIFIC:
	case NVME_SCT_MEDIA_ERROR:
	case NVME_SCT_VENDOR_SPECIFIC:
	default:
		return false;
	}
}

static void nvme_qpair_construct_tracker(struct nvme_tracker *tr,
					 uint16_t cid, uint64_t phys_addr)
{
	tr->prp_sgl_bus_addr = phys_addr + offsetof(struct nvme_tracker, u.prp);
	tr->cid = cid;
	tr->active = false;
}

static inline void nvme_qpair_copy_command(struct nvme_cmd *dst,
					   const struct nvme_cmd *src)
{
	/* dst and src are known to be non-overlapping and 64-byte aligned. */
#if defined(__AVX__)
	__m256i *d256 = (__m256i *)dst;
	const __m256i *s256 = (const __m256i *)src;

	_mm256_store_si256(&d256[0], _mm256_load_si256(&s256[0]));
	_mm256_store_si256(&d256[1], _mm256_load_si256(&s256[1]));
#elif defined(__SSE2__)
	__m128i *d128 = (__m128i *)dst;
	const __m128i *s128 = (const __m128i *)src;

	_mm_store_si128(&d128[0], _mm_load_si128(&s128[0]));
	_mm_store_si128(&d128[1], _mm_load_si128(&s128[1]));
	_mm_store_si128(&d128[2], _mm_load_si128(&s128[2]));
	_mm_store_si128(&d128[3], _mm_load_si128(&s128[3]));
#else
	*dst = *src;
#endif
}

static void nvme_qpair_submit_tracker(struct nvme_qpair *qpair,
				      struct nvme_tracker *tr)
{
	struct nvme_request *req = tr->req;

	/*
	 * Set the tracker active and copy its command
	 * to the submission queue.
	 */
	nvme_debug("qpair %d: Submit command, tail %d, cid %d / %d\n",
		   qpair->id,
		   (int)qpair->sq_tail,
		   (int)tr->cid,
		   (int)tr->req->cmd.cid);

	qpair->tr[tr->cid].active = true;
	nvme_qpair_copy_command(&qpair->cmd[qpair->sq_tail], &req->cmd);

	if (++qpair->sq_tail == qpair->entries)
		qpair->sq_tail = 0;

	nvme_wmb();
	nvme_mmio_write_4(qpair->sq_tdbl, qpair->sq_tail);
}

static void nvme_qpair_complete_tracker(struct nvme_qpair *qpair,
					struct nvme_tracker *tr,
					struct nvme_cpl *cpl,
					bool print_on_error)
{
	struct nvme_request *req = tr->req;
	bool retry, error;

	if (!req) {
		nvme_crit("tracker has no request\n");
		qpair->tr[cpl->cid].active = false;
		goto done;
	}

	error = nvme_cpl_is_error(cpl);
	retry = error && nvme_qpair_completion_retry(cpl) &&
		(req->retries < NVME_MAX_RETRY_COUNT);
	if (error && print_on_error) {
		nvme_qpair_print_command(qpair, &req->cmd);
		nvme_qpair_print_completion(qpair, cpl);
	}

	qpair->tr[cpl->cid].active = false;

	if (cpl->cid != req->cmd.cid)
		nvme_crit("cpl and command CID mismatch (%d / %d)\n",
			  (int)cpl->cid, (int)req->cmd.cid);

	if (retry) {
		req->retries++;
		nvme_qpair_submit_tracker(qpair, tr);
		return;
	}

	if (req->cb_fn)
		req->cb_fn(req->cb_arg, cpl);

	nvme_request_free_locked(req);

done:
	tr->req = NULL;

	LIST_REMOVE(tr, list);
	LIST_INSERT_HEAD(&qpair->free_tr, tr, list);
}

static void nvme_qpair_submit_queued_requests(struct nvme_qpair *qpair)
{
	STAILQ_HEAD(, nvme_request) req_queue;
	STAILQ_INIT(&req_queue);

	pthread_mutex_lock(&qpair->lock);

	STAILQ_CONCAT(&req_queue, &qpair->queued_req);

	/*
	 * If the controller is in the middle of a reset, don't
	 * try to submit queued requests - let the reset logic
	 * handle that instead.
	 */
	while (!qpair->ctrlr->resetting && LIST_FIRST(&qpair->free_tr)
			&& !STAILQ_EMPTY(&req_queue)) {
		struct nvme_request *req = STAILQ_FIRST(&req_queue);
		STAILQ_REMOVE_HEAD(&req_queue, stailq);

		pthread_mutex_unlock(&qpair->lock);
		nvme_qpair_submit_request(qpair, req);
		pthread_mutex_lock(&qpair->lock);
	}

	STAILQ_CONCAT(&qpair->queued_req, &req_queue);

	pthread_mutex_unlock(&qpair->lock);
}

static void nvme_qpair_manual_complete_tracker(struct nvme_qpair *qpair,
					       struct nvme_tracker *tr,
					       uint32_t sct,
					       uint32_t sc,
					       uint32_t dnr,
					       bool print_on_error)
{
	struct nvme_cpl	cpl;

	memset(&cpl, 0, sizeof(cpl));
	cpl.sqid = qpair->id;
	cpl.cid = tr->cid;
	cpl.status.sct = sct;
	cpl.status.sc = sc;
	cpl.status.dnr = dnr;

	nvme_qpair_complete_tracker(qpair, tr, &cpl, print_on_error);
}

static void nvme_qpair_manual_complete_request(struct nvme_qpair *qpair,
					       struct nvme_request *req,
					       uint32_t sct, uint32_t sc,
					       bool print_on_error)
{
	struct nvme_cpl	cpl;
	bool error;

	memset(&cpl, 0, sizeof(cpl));
	cpl.sqid = qpair->id;
	cpl.status.sct = sct;
	cpl.status.sc = sc;

	error = nvme_cpl_is_error(&cpl);

	if (error && print_on_error) {
		nvme_qpair_print_command(qpair, &req->cmd);
		nvme_qpair_print_completion(qpair, &cpl);
	}

	if (req->cb_fn)
		req->cb_fn(req->cb_arg, &cpl);

	nvme_request_free_locked(req);
}

static void nvme_qpair_abort_aers(struct nvme_qpair *qpair)
{
	struct nvme_tracker *tr;

	tr = LIST_FIRST(&qpair->outstanding_tr);
	while (tr != NULL) {
		nvme_assert(tr->req != NULL,
			    "tr->req == NULL in abort_aers\n");
		if (tr->req->cmd.opc == NVME_OPC_ASYNC_EVENT_REQUEST) {
			nvme_qpair_manual_complete_tracker(qpair, tr,
					      NVME_SCT_GENERIC,
					      NVME_SC_ABORTED_SQ_DELETION,
					      0, false);
			tr = LIST_FIRST(&qpair->outstanding_tr);
			continue;
		}
		tr = LIST_NEXT(tr, list);
	}
}

static inline void _nvme_qpair_admin_qpair_destroy(struct nvme_qpair *qpair)
{
	nvme_qpair_abort_aers(qpair);
}

static inline void _nvme_qpair_req_bad_phys(struct nvme_qpair *qpair,
					    struct nvme_tracker *tr)
{
	/*
	 * Bad vtophys translation, so abort this request
	 * and return immediately, without retry.
	 */
	nvme_qpair_manual_complete_tracker(qpair, tr, NVME_SCT_GENERIC,
					   NVME_SC_INVALID_FIELD,
					   1, true);
}

/*
 * Build PRP list describing physically contiguous payload buffer.
 */
static int _nvme_qpair_build_contig_request(struct nvme_qpair *qpair,
					    struct nvme_request *req,
					    struct nvme_tracker *tr)
{
	uint64_t phys_addr;
	void *seg_addr;
	uint32_t nseg, cur_nseg, modulo, unaligned;
	void *md_payload;
	void *payload = req->payload.u.contig + req->payload_offset;

	phys_addr = nvme_mem_vtophys(payload);
	if (phys_addr == NVME_VTOPHYS_ERROR) {
		_nvme_qpair_req_bad_phys(qpair, tr);
		return -1;
	}
	nseg = req->payload_size >> PAGE_SHIFT;
	modulo = req->payload_size & (PAGE_SIZE - 1);
	unaligned = phys_addr & (PAGE_SIZE - 1);
	if (modulo || unaligned)
		nseg += 1 + ((modulo + unaligned - 1) >> PAGE_SHIFT);

	if (req->payload.md) {
		md_payload = req->payload.md + req->md_offset;
		tr->req->cmd.mptr = nvme_mem_vtophys(md_payload);
		if (tr->req->cmd.mptr == NVME_VTOPHYS_ERROR) {
			_nvme_qpair_req_bad_phys(qpair, tr);
			return -1;
		}
	}

	tr->req->cmd.psdt = NVME_PSDT_PRP;
	tr->req->cmd.dptr.prp.prp1 = phys_addr;
	if (nseg == 2) {
		seg_addr = payload + PAGE_SIZE - unaligned;
		tr->req->cmd.dptr.prp.prp2 = nvme_mem_vtophys(seg_addr);
	} else if (nseg > 2) {
		cur_nseg = 1;
		tr->req->cmd.dptr.prp.prp2 = (uint64_t)tr->prp_sgl_bus_addr;
		while (cur_nseg < nseg) {
			seg_addr = payload + cur_nseg * PAGE_SIZE - unaligned;
			phys_addr = nvme_mem_vtophys(seg_addr);
			if (phys_addr == NVME_VTOPHYS_ERROR) {
				_nvme_qpair_req_bad_phys(qpair, tr);
				return -1;
			}
			tr->u.prp[cur_nseg - 1] = phys_addr;
			cur_nseg++;
		}
	}

	return 0;
}

/*
 * Build SGL list describing scattered payload buffer.
 */
static int _nvme_qpair_build_hw_sgl_request(struct nvme_qpair *qpair,
					    struct nvme_request *req,
					    struct nvme_tracker *tr)
{
	struct nvme_sgl_descriptor *sgl;
	uint64_t phys_addr;
	uint32_t remaining_transfer_len, length, nseg = 0;
	int ret;

	/*
	 * Build scattered payloads.
	 */
	nvme_assert(req->payload_size != 0,
		    "cannot build SGL for zero-length transfer\n");
	nvme_assert(req->payload.type == NVME_PAYLOAD_TYPE_SGL,
		    "sgl payload type required\n");
	nvme_assert(req->payload.u.sgl.reset_sgl_fn != NULL,
		    "sgl reset callback required\n");
	nvme_assert(req->payload.u.sgl.next_sge_fn != NULL,
		    "sgl callback required\n");
	req->payload.u.sgl.reset_sgl_fn(req->payload.u.sgl.cb_arg,
					req->payload_offset);

	sgl = tr->u.sgl;
	req->cmd.psdt = NVME_PSDT_SGL_MPTR_SGL;
	req->cmd.dptr.sgl1.unkeyed.subtype = 0;

	remaining_transfer_len = req->payload_size;

	while (remaining_transfer_len > 0) {

		if (nseg >= NVME_MAX_SGL_DESCRIPTORS) {
			_nvme_qpair_req_bad_phys(qpair, tr);
			return -1;
		}

		ret = req->payload.u.sgl.next_sge_fn(req->payload.u.sgl.cb_arg,
						     &phys_addr, &length);
		if (ret != 0) {
			_nvme_qpair_req_bad_phys(qpair, tr);
			return ret;
		}

		length = nvme_min(remaining_transfer_len, length);
		remaining_transfer_len -= length;

		sgl->unkeyed.type = NVME_SGL_TYPE_DATA_BLOCK;
		sgl->unkeyed.length = length;
		sgl->address = phys_addr;
		sgl->unkeyed.subtype = 0;

		sgl++;
		nseg++;

	}

	if (nseg == 1) {
		/*
		 * The whole transfer can be described by a single Scatter
		 * Gather List descriptor. Use the special case described
		 * by the spec where SGL1's type is Data Block.
		 * This means the SGL in the tracker is not used at all,
		 * so copy the first (and only) SGL element into SGL1.
		 */
		req->cmd.dptr.sgl1.unkeyed.type = NVME_SGL_TYPE_DATA_BLOCK;
		req->cmd.dptr.sgl1.address = tr->u.sgl[0].address;
		req->cmd.dptr.sgl1.unkeyed.length = tr->u.sgl[0].unkeyed.length;
	} else {
		/* For now we only support 1 SGL segment in NVMe controller */
		req->cmd.dptr.sgl1.unkeyed.type = NVME_SGL_TYPE_LAST_SEGMENT;
		req->cmd.dptr.sgl1.address = tr->prp_sgl_bus_addr;
		req->cmd.dptr.sgl1.unkeyed.length =
			nseg * sizeof(struct nvme_sgl_descriptor);
	}

	return 0;
}

/*
 * Build Physical Region Page list describing scattered payload buffer.
 */
static int _nvme_qpair_build_prps_sgl_request(struct nvme_qpair *qpair,
					      struct nvme_request *req,
					      struct nvme_tracker *tr)
{
	uint64_t phys_addr, prp2 = 0;
	uint32_t data_transferred, remaining_transfer_len, length;
	uint32_t nseg, cur_nseg, total_nseg = 0, last_nseg = 0;
	uint32_t modulo, unaligned, sge_count = 0;
	int ret;

	/*
	 * Build scattered payloads.
	 */
	nvme_assert(req->payload.type == NVME_PAYLOAD_TYPE_SGL,
		    "sgl payload type required\n");
	nvme_assert(req->payload.u.sgl.reset_sgl_fn != NULL,
		    "sgl reset callback required\n");
	req->payload.u.sgl.reset_sgl_fn(req->payload.u.sgl.cb_arg,
					req->payload_offset);

	remaining_transfer_len = req->payload_size;

	while (remaining_transfer_len > 0) {

		nvme_assert(req->payload.u.sgl.next_sge_fn != NULL,
			    "sgl callback required\n");

		ret = req->payload.u.sgl.next_sge_fn(req->payload.u.sgl.cb_arg,
						    &phys_addr, &length);
		if (ret != 0) {
			_nvme_qpair_req_bad_phys(qpair, tr);
			return -1;
		}

		nvme_assert((phys_addr & 0x3) == 0, "address must be dword aligned\n");
		nvme_assert((length >= remaining_transfer_len) || ((phys_addr + length) % PAGE_SIZE) == 0,
			"All SGEs except last must end on a page boundary\n");
		nvme_assert((sge_count == 0) || (phys_addr % PAGE_SIZE) == 0,
			"All SGEs except first must start on a page boundary\n");

		data_transferred = nvme_min(remaining_transfer_len, length);

		nseg = data_transferred >> PAGE_SHIFT;
		modulo = data_transferred & (PAGE_SIZE - 1);
		unaligned = phys_addr & (PAGE_SIZE - 1);
		if (modulo || unaligned)
			nseg += 1 + ((modulo + unaligned - 1) >> PAGE_SHIFT);

		if (total_nseg == 0) {
			req->cmd.psdt = NVME_PSDT_PRP;
			req->cmd.dptr.prp.prp1 = phys_addr;
		}

		total_nseg += nseg;
		sge_count++;
		remaining_transfer_len -= data_transferred;

		if (total_nseg == 2) {
			if (sge_count == 1)
				tr->req->cmd.dptr.prp.prp2 = phys_addr +
					PAGE_SIZE - unaligned;
			else if (sge_count == 2)
				tr->req->cmd.dptr.prp.prp2 = phys_addr;
			/* save prp2 value */
			prp2 = tr->req->cmd.dptr.prp.prp2;
		} else if (total_nseg > 2) {
			if (sge_count == 1)
				cur_nseg = 1;
			else
				cur_nseg = 0;

			tr->req->cmd.dptr.prp.prp2 =
				(uint64_t)tr->prp_sgl_bus_addr;

			while (cur_nseg < nseg) {
				if (prp2) {
					tr->u.prp[0] = prp2;
					tr->u.prp[last_nseg + 1] = phys_addr +
						cur_nseg * PAGE_SIZE - unaligned;
				} else {
					tr->u.prp[last_nseg] = phys_addr +
						cur_nseg * PAGE_SIZE - unaligned;
				}
				last_nseg++;
				cur_nseg++;
			}
		}
	}

	return 0;
}

static void _nvme_qpair_admin_qpair_enable(struct nvme_qpair *qpair)
{
	struct nvme_tracker *tr, *tr_temp;

	/*
	 * Manually abort each outstanding admin command.  Do not retry
	 * admin commands found here, since they will be left over from
	 * a controller reset and its likely the context in which the
	 * command was issued no longer applies.
	 */
	LIST_FOREACH_SAFE(tr, &qpair->outstanding_tr, list, tr_temp) {
		nvme_info("Aborting outstanding admin command\n");
		nvme_qpair_manual_complete_tracker(qpair, tr, NVME_SCT_GENERIC,
						   NVME_SC_ABORTED_BY_REQUEST,
						   1 /* do not retry */, true);
	}

	qpair->enabled = true;
}

static void _nvme_qpair_io_qpair_enable(struct nvme_qpair *qpair)
{
	struct nvme_tracker *tr, *temp;
	struct nvme_request *req;

	qpair->enabled = true;

	qpair->ctrlr->enabled_io_qpairs++;

	/* Manually abort each queued I/O. */
	while (!STAILQ_EMPTY(&qpair->queued_req)) {
		req = STAILQ_FIRST(&qpair->queued_req);
		STAILQ_REMOVE_HEAD(&qpair->queued_req, stailq);
		nvme_info("Aborting queued I/O command\n");
		nvme_qpair_manual_complete_request(qpair, req, NVME_SCT_GENERIC,
						   NVME_SC_ABORTED_BY_REQUEST,
						   true);
	}

	/* Manually abort each outstanding I/O. */
	LIST_FOREACH_SAFE(tr, &qpair->outstanding_tr, list, temp) {
		nvme_info("Aborting outstanding I/O command\n");
		nvme_qpair_manual_complete_tracker(qpair, tr, NVME_SCT_GENERIC,
						   NVME_SC_ABORTED_BY_REQUEST,
						   0, true);
	}
}

static inline void _nvme_qpair_admin_qpair_disable(struct nvme_qpair *qpair)
{
	qpair->enabled = false;
	nvme_qpair_abort_aers(qpair);
}

static inline void _nvme_qpair_io_qpair_disable(struct nvme_qpair *qpair)
{
	qpair->enabled = false;

	qpair->ctrlr->enabled_io_qpairs--;
}

/*
 * Reserve room for the submission queue
 * in the controller memory buffer
 */
static int nvme_ctrlr_reserve_sq_in_cmb(struct nvme_ctrlr *ctrlr,
					uint16_t entries,
					uint64_t aligned, uint64_t *offset)
{
	uint64_t round_offset;
	const uint64_t length = entries * sizeof(struct nvme_cmd);

	round_offset = ctrlr->cmb_current_offset;
	round_offset = (round_offset + (aligned - 1)) & ~(aligned - 1);

	if (round_offset + length > ctrlr->cmb_size)
		return -1;

	*offset = round_offset;
	ctrlr->cmb_current_offset = round_offset + length;

	return 0;
}

/*
 * Initialize a queue pair on the host side.
 */
int nvme_qpair_construct(struct nvme_ctrlr *ctrlr, struct nvme_qpair *qpair,
			 enum nvme_qprio qprio,
			 uint16_t entries, uint16_t trackers)
{
	volatile uint32_t *doorbell_base;
	struct nvme_tracker *tr;
	uint64_t offset;
	unsigned long phys_addr = 0;
	uint16_t i;
	int ret;

	nvme_assert(entries != 0, "Invalid number of entries\n");
	nvme_assert(trackers != 0, "Invalid trackers\n");

	pthread_mutex_init(&qpair->lock, NULL);

	qpair->entries = entries;
	qpair->trackers = trackers;
	qpair->qprio = qprio;
	qpair->sq_in_cmb = false;
	qpair->ctrlr = ctrlr;

	if (ctrlr->opts.use_cmb_sqs) {
		/*
		 * Reserve room for the submission queue in ctrlr
		 * memory buffer.
		 */
		ret = nvme_ctrlr_reserve_sq_in_cmb(ctrlr, entries,
						   PAGE_SIZE,
						   &offset);
		if (ret == 0) {

			qpair->cmd = ctrlr->cmb_bar_virt_addr + offset;
			qpair->cmd_bus_addr = ctrlr->cmb_bar_phys_addr + offset;
			qpair->sq_in_cmb = true;

			nvme_debug("Allocated qpair %d cmd in cmb at %p / 0x%llx\n",
				   qpair->id,
				   qpair->cmd, qpair->cmd_bus_addr);

		}
	}

	if (qpair->sq_in_cmb == false) {

		qpair->cmd =
			nvme_mem_alloc_node(sizeof(struct nvme_cmd) * entries,
				    PAGE_SIZE, NVME_NODE_ID_ANY,
				    (unsigned long *) &qpair->cmd_bus_addr);
		if (!qpair->cmd) {
			nvme_err("Allocate qpair commands failed\n");
			goto fail;
		}
		memset(qpair->cmd, 0, sizeof(struct nvme_cmd) * entries);

		nvme_debug("Allocated qpair %d cmd %p / 0x%llx\n",
			   qpair->id,
			   qpair->cmd, qpair->cmd_bus_addr);
	}

	qpair->cpl = nvme_mem_alloc_node(sizeof(struct nvme_cpl) * entries,
				 PAGE_SIZE, NVME_NODE_ID_ANY,
				 (unsigned long *) &qpair->cpl_bus_addr);
	if (!qpair->cpl) {
		nvme_err("Allocate qpair completions failed\n");
		goto fail;
	}
	memset(qpair->cpl, 0, sizeof(struct nvme_cpl) * entries);

	nvme_debug("Allocated qpair %d cpl at %p / 0x%llx\n",
		   qpair->id,
		   qpair->cpl,
		   qpair->cpl_bus_addr);

	doorbell_base = &ctrlr->regs->doorbell[0].sq_tdbl;
	qpair->sq_tdbl = doorbell_base +
		(2 * qpair->id + 0) * ctrlr->doorbell_stride_u32;
	qpair->cq_hdbl = doorbell_base +
		(2 * qpair->id + 1) * ctrlr->doorbell_stride_u32;

	LIST_INIT(&qpair->free_tr);
	LIST_INIT(&qpair->outstanding_tr);
	STAILQ_INIT(&qpair->free_req);
	STAILQ_INIT(&qpair->queued_req);

	/* Request pool */
	if (nvme_request_pool_construct(qpair)) {
		nvme_err("Create request pool failed\n");
		goto fail;
	}

	/*
	 * Reserve space for all of the trackers in a single allocation.
	 * struct nvme_tracker must be padded so that its size is already
	 * a power of 2. This ensures the PRP list embedded in the nvme_tracker
	 * object will not span a 4KB boundary, while allowing access to
	 * trackers in tr[] via normal array indexing.
	 */
	qpair->tr = nvme_mem_alloc_node(sizeof(struct nvme_tracker) * trackers,
					sizeof(struct nvme_tracker),
					NVME_NODE_ID_ANY, &phys_addr);
	if (!qpair->tr) {
		nvme_err("Allocate request trackers failed\n");
		goto fail;
	}
	memset(qpair->tr, 0, sizeof(struct nvme_tracker) * trackers);

	nvme_debug("Allocated qpair %d trackers at %p / 0x%lx\n",
		   qpair->id, qpair->tr, phys_addr);

	for (i = 0; i < trackers; i++) {
		tr = &qpair->tr[i];
		nvme_qpair_construct_tracker(tr, i, phys_addr);
		LIST_INSERT_HEAD(&qpair->free_tr, tr, list);
		phys_addr += sizeof(struct nvme_tracker);
	}

	nvme_qpair_reset(qpair);

	return 0;

fail:
	nvme_qpair_destroy(qpair);

	return -1;
}

void nvme_qpair_destroy(struct nvme_qpair *qpair)
{
	if (!qpair->ctrlr)
		return; // Not initialized.

	if (nvme_qpair_is_admin_queue(qpair))
		_nvme_qpair_admin_qpair_destroy(qpair);

	if (qpair->cmd && !qpair->sq_in_cmb) {
		nvme_free(qpair->cmd);
		qpair->cmd = NULL;
	}
	if (qpair->cpl) {
		nvme_free(qpair->cpl);
		qpair->cpl = NULL;
	}
	if (qpair->tr) {
		nvme_free(qpair->tr);
		qpair->tr = NULL;
	}
	nvme_request_pool_destroy(qpair);

	qpair->ctrlr = NULL;

	pthread_mutex_destroy(&qpair->lock);
}

static bool nvme_qpair_enabled(struct nvme_qpair *qpair)
{
	if (!qpair->enabled && !qpair->ctrlr->resetting)
		nvme_qpair_enable(qpair);

	return qpair->enabled;
}

int nvme_qpair_submit_request(struct nvme_qpair *qpair,
			      struct nvme_request *req)
{
	struct nvme_tracker *tr;
	struct nvme_request *child_req, *tmp;
	struct nvme_ctrlr *ctrlr = qpair->ctrlr;
	bool child_req_failed = false;
	int ret = 0;

	if (ctrlr->failed) {
		nvme_request_free(req);
		return ENXIO;
	}

	nvme_qpair_enabled(qpair);

	if (req->child_reqs) {

		/*
		 * This is a splitted (parent) request. Submit all of the
		 * children but not the parent request itself, since the
		 * parent is the original unsplit request.
		 */
		TAILQ_FOREACH_SAFE(child_req, &req->children, child_tailq, tmp) {
			if (!child_req_failed) {
				ret = nvme_qpair_submit_request(qpair, child_req);
				if (ret != 0)
					child_req_failed = true;
			} else {
				/* free remaining child_reqs since
				 * one child_req fails */
				nvme_request_remove_child(req, child_req);
				nvme_request_free(child_req);
			}
		}

		return ret;
	}

	pthread_mutex_lock(&qpair->lock);

	tr = LIST_FIRST(&qpair->free_tr);
	if (tr == NULL || !qpair->enabled || !STAILQ_EMPTY(&qpair->queued_req)) {
		/*
		 * No tracker is available, the qpair is disabled due
		 * to an in-progress controller-level reset, or
		 * there are already queued requests.
		 *
		 * Put the request on the qpair's request queue to be
		 * processed when a tracker frees up via a command
		 * completion or when the controller reset is completed.
		 */
		STAILQ_INSERT_TAIL(&qpair->queued_req, req, stailq);
		pthread_mutex_unlock(&qpair->lock);

		if (tr)
			nvme_qpair_submit_queued_requests(qpair);
		return 0;
	}

	/* remove tr from free_tr */
	LIST_REMOVE(tr, list);
	LIST_INSERT_HEAD(&qpair->outstanding_tr, tr, list);
	tr->req = req;
	req->cmd.cid = tr->cid;

	if (req->payload_size == 0) {
		/* Null payload - leave PRP fields zeroed */
		ret = 0;
	} else if (req->payload.type == NVME_PAYLOAD_TYPE_CONTIG) {
		ret = _nvme_qpair_build_contig_request(qpair, req, tr);
	} else if (req->payload.type == NVME_PAYLOAD_TYPE_SGL) {
		if (ctrlr->flags & NVME_CTRLR_SGL_SUPPORTED)
			ret = _nvme_qpair_build_hw_sgl_request(qpair, req, tr);
		else
			ret = _nvme_qpair_build_prps_sgl_request(qpair, req, tr);
	} else {
		nvme_qpair_manual_complete_tracker(qpair, tr, NVME_SCT_GENERIC,
						   NVME_SC_INVALID_FIELD,
						   1 /* do not retry */, true);
		ret = -EINVAL;
	}

	if (ret == 0)
		nvme_qpair_submit_tracker(qpair, tr);

	pthread_mutex_unlock(&qpair->lock);

	return ret;
}

/*
 * Poll for completion of NVMe commands submitted to the
 * specified I/O queue pair.
 */
unsigned int nvme_qpair_poll(struct nvme_qpair *qpair,
			     unsigned int max_completions)
{
	struct nvme_tracker *tr;
	struct nvme_cpl	*cpl;
	uint32_t num_completions = 0;

	if (!nvme_qpair_enabled(qpair))
		/*
		 * qpair is not enabled, likely because a controller reset is
		 * is in progress.  Ignore the interrupt - any I/O that was
		 * associated with this interrupt will get retried when the
		 * reset is complete.
		 */
		return 0;

	if ((max_completions == 0) ||
	    (max_completions > (qpair->entries - 1U)))
		/*
		 * max_completions == 0 means unlimited, but complete at most
		 * one queue depth batch of I/O at a time so that the completion
		 * queue doorbells don't wrap around.
		 */
		max_completions = qpair->entries - 1;

	pthread_mutex_lock(&qpair->lock);

	while (1) {

		cpl = &qpair->cpl[qpair->cq_head];
		if (cpl->status.p != qpair->phase)
			break;

		tr = &qpair->tr[cpl->cid];
		if (tr->active) {
			nvme_qpair_complete_tracker(qpair, tr, cpl, true);
		} else {
			nvme_info("cpl does not map to outstanding cmd\n");
			nvme_qpair_print_completion(qpair, cpl);
			nvme_panic("received completion for unknown cmd\n");
		}

		if (++qpair->cq_head == qpair->entries) {
			qpair->cq_head = 0;
			qpair->phase = !qpair->phase;
		}

		if (++num_completions == max_completions)
			break;
	}

	if (num_completions > 0)
		nvme_mmio_write_4(qpair->cq_hdbl, qpair->cq_head);

	pthread_mutex_unlock(&qpair->lock);

	if (!STAILQ_EMPTY(&qpair->queued_req))
		nvme_qpair_submit_queued_requests(qpair);

	return num_completions;
}

void nvme_qpair_reset(struct nvme_qpair *qpair)
{
	pthread_mutex_lock(&qpair->lock);

	qpair->sq_tail = qpair->cq_head = 0;

	/*
	 * First time through the completion queue, HW will set phase
	 * bit on completions to 1.  So set this to 1 here, indicating
	 * we're looking for a 1 to know which entries have completed.
	 * we'll toggle the bit each time when the completion queue rolls over.
	 */
	qpair->phase = 1;

	memset(qpair->cmd, 0, qpair->entries * sizeof(struct nvme_cmd));
	memset(qpair->cpl, 0, qpair->entries * sizeof(struct nvme_cpl));

	pthread_mutex_unlock(&qpair->lock);
}

void nvme_qpair_enable(struct nvme_qpair *qpair)
{
	pthread_mutex_lock(&qpair->lock);

	if (nvme_qpair_is_io_queue(qpair))
		_nvme_qpair_io_qpair_enable(qpair);
	else
		_nvme_qpair_admin_qpair_enable(qpair);

	pthread_mutex_unlock(&qpair->lock);
}

void nvme_qpair_disable(struct nvme_qpair *qpair)
{
	pthread_mutex_lock(&qpair->lock);

	if (nvme_qpair_is_io_queue(qpair))
		_nvme_qpair_io_qpair_disable(qpair);
	else
		_nvme_qpair_admin_qpair_disable(qpair);

	pthread_mutex_unlock(&qpair->lock);
}

void nvme_qpair_fail(struct nvme_qpair *qpair)
{
	struct nvme_tracker *tr;
	struct nvme_request *req;

	pthread_mutex_lock(&qpair->lock);

	while (!STAILQ_EMPTY(&qpair->queued_req)) {

		nvme_notice("Failing queued I/O command\n");
		req = STAILQ_FIRST(&qpair->queued_req);
		STAILQ_REMOVE_HEAD(&qpair->queued_req, stailq);
		nvme_qpair_manual_complete_request(qpair, req, NVME_SCT_GENERIC,
						   NVME_SC_ABORTED_BY_REQUEST,
						   true);

	}

	/* Manually abort each outstanding I/O. */
	while (!LIST_EMPTY(&qpair->outstanding_tr)) {

		/*
		 * Do not remove the tracker. The abort_tracker path
		 * will do that for us.
		 */
		nvme_notice("Failing outstanding I/O command\n");
		tr = LIST_FIRST(&qpair->outstanding_tr);
		nvme_qpair_manual_complete_tracker(qpair, tr, NVME_SCT_GENERIC,
						   NVME_SC_ABORTED_BY_REQUEST,
						   1, true);

	}

	pthread_mutex_unlock(&qpair->lock);
}