mpir/mpn/x86_64w/mullow_n_basecase.asm

;  AMD64 mpn_mullow_n_basecase
;
;  Copyright 2015 Free Software Foundation, Inc.
;
;  This file is part of the GNU MP Library.
;
;  The GNU MP Library is free software; you can redistribute it and/or modify
;  it under the terms of either:
;
;    * the GNU Lesser General Public License as published by the Free
;      Software Foundation; either version 3 of the License, or (at your
;      option) any later version.
;
;  or
;
;    * the GNU General Public License as published by the Free Software
;      Foundation; either version 2 of the License, or (at your option) any
;      later version.
;
;  or both in parallel, as here.
;
;  The GNU MP Library is distributed in the hope that it will be useful, but
;  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
;  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
;  for more details.
;
;  You should have received copies of the GNU General Public License and the
;  GNU Lesser General Public License along with the GNU MP Library.  If not,
;  see https://www.gnu.org/licenses/.
;
;void mpn_mullow_n_basecase (mp_ptr rp, mp_srcptr up, mp_srcptr vp, mp_size_t n)
;                                  rdi           rsi           rdx          rcx
;                                  rcx           rdx            r8           r9

%include 'yasm_mac.inc'

	TEXT

	LEAF_PROC mpn_mullow_n_basecase
    cmp     r9, 3
    je      asm_sym(?mpn_mullow1)
    jg      asm_sym(?mpn_mullow2)
	mov     rax, [rdx]
    mov     r11, [r8+8]
	mov     r8, [r8]
    cmp     r9, 1
    jg      .3
	
.2:	imul    rax, r8
	mov     [rcx], rax
	ret
	
.3:	mov     r9, [rdx+8]
    imul    r11, rax
	mul     r8
	mov     [rcx], rax
	imul    r8, r9
	lea     rax, [r11+rdx]
	add     rax, r8
	mov     [rcx+8], rax
    ret

%define reg_save_list rsi, rdi
	
	FRAME_PROC ?mpn_mullow1, 0, reg_save_list
    mov     rdi, rcx
    mov     rsi, rdx
    mov     rdx, r8
    mov     rcx, r9
    mov	    rax, [rsi]
	mov	    r8, [rdx]
    mov     r9, [rdx+8]
	mov     r11, [rdx+16]
	mul     r8
	mov     [rdi], rax
	mov     rax, [rsi]
	mov     rcx, rdx
	mul     r9
	imul    r9, [rsi+8]
	mov     r10, [rsi+16]
	imul    r10, r8
	add     rcx, rax
	adc     r9, rdx
	add     r9, r10
	mov     rax, [rsi+8]
	mul     r8
	add     rcx, rax
	adc     r9, rdx
	mov     rax, r11
	imul    rax, [rsi]
	add     r9, rax
	mov     [rdi+8], rcx
	mov     [rdi+16], r9
	END_PROC reg_save_list

%define reg_save_list rsi, rdi, rbx, rbp, r13, r14, r15

	align  16
	FRAME_PROC ?mpn_mullow2, 0, reg_save_list
    mov     rdi, rcx
    mov     rsi, rdx
    mov     rdx, r8
    mov     rcx, r9
.5:	mov     rax, [rsi]
	mov     r13, [rdx]
	mov     r11, rdx
	lea     rdi, [rdi+rcx*8]
	lea     rsi, [rsi+rcx*8]
	neg     rcx
	mul     r13
	test    cl, 1
	jz      .12
.6: lea     rdi, [rdi-8]
	lea     rsi, [rsi-8]
	test    cl, 2
	jnz     .8
.7: lea     r9, [rcx-1]
	lea     r8, [rel .18]
	mov     rbx, rax
	mov     r15, rdx
	xor     ebp, ebp
	xor     r10d, r10d
	mov     rax, [rsi+rcx*8+16]
	jmp     .11

.8: lea     r9, [rcx+1]
	lea     r8, [rel .19]
	mov     rbp, rax
	mov     r10, rdx
	xor     ebx, ebx
	jmp     .10

	align  16
.9: mov     [rdi+r9*8-16], rbx
	add     r15, rax
	mov     rax, [rsi+r9*8]
	adc     rbp, rdx
	xor     ebx, ebx
	mul     r13
	mov     [rdi+r9*8-8], r15
	add     rbp, rax
	adc     r10, rdx
.10:mov     rax, [rsi+r9*8+8]
	mul     r13
	mov     [rdi+r9*8], rbp
	add     r10, rax
	adc     rbx, rdx
	mov     rax, [rsi+r9*8+16]
	mul     r13
	mov     [rdi+r9*8+8], r10
	xor     ebp, ebp
	mov     r10, rbp
	add     rbx, rax
	mov     rax, [rsi+r9*8+24]
	mov     r15, rbp
	adc     r15, rdx
.11:mul     r13
	add     r9, 4
	js      .9
	mov     [rdi-16], rbx
	add     r15, rax
	mov     [rdi-8], r15
	adc     rbp, rdx
	imul    r13, [rsi]
	add     rbp, r13
	mov     [rdi], rbp
	add     rcx, 1
	jz      .23
	mov     r13, [r11+8]
	mov     r14, [r11+16]
	lea     rsi, [rsi+16]
	lea     r11, [r11+8]
	lea     rdi, [rdi+24]
	jmp     r8

.12:mov     r14, [r11+8]
	test    cl, 2
	jz      .14

	align  16
.13:lea     r9, [rcx+0]
	mov     r10, rax
	mov     rbx, rdx
	xor     r15d, r15d
	mov     rax, [rsi+rcx*8]
	lea     r8, [rel .19]
	jmp     .17
	
	align  16
.14:lea     r9, [rcx+2]
	mov     r10d, 0
	mov     r15, rax
	mov     rax, [rsi+rcx*8]
	mov     rbp, rdx
	lea     r8, [rel .18]
	jmp     .16
	
	align  16
.15:mov     rax, [rsi+r9*8-32]
	mul     r14
	add     rbx, rax
	adc     r15, rdx
	mov     rax, [rsi+r9*8-24]
	xor     ebp, ebp
	mul     r13
	add     rbx, rax
	mov     rax, [rsi+r9*8-24]
	adc     r15, rdx
	adc     ebp, 0
	mul     r14
	add     r15, rax
	mov     [rdi+r9*8-24], rbx
	adc     rbp, rdx
	mov     rax, [rsi+r9*8-16]
	mul     r13
	mov     r10d, 0
	add     r15, rax
	adc     rbp, rdx
	mov     rax, [rsi+r9*8-16]
	adc     r10d, 0
.16:mov     ebx, 0
	mov     [rdi+r9*8-16], r15
	mul     r14
	add     rbp, rax
	mov     rax, [rsi+r9*8-8]
	adc     r10, rdx
	mov     r15d, 0
	mul     r13
	add     rbp, rax
	mov     rax, [rsi+r9*8-8]
	adc     r10, rdx
	adc     ebx, r15d
	mul     r14
	add     r10, rax
	mov     [rdi+r9*8-8], rbp
	adc     rbx, rdx
	mov     rax, [rsi+r9*8]
	mul     r13
	add     r10, rax
	adc     rbx, rdx
	adc     r15d, 0
.17:add     r9, 4
	mov     [rdi+r9*8-32], r10
	js      .15
	imul    r14, [rsi-16]
	add     rbx, r14
	imul    r13, [rsi-8]
	add     rbx, r13
	mov     [rdi-8], rbx
	add     rcx, 2
	jz      .23
	mov     r13, [r11+16]
	mov     r14, [r11+24]
	lea     r11, [r11+16]
	lea     rdi, [rdi+16]
	jmp     r8
.18:lea     r9, [rcx-2]
	mov     rax, [rsi+rcx*8-16]
	mul     r13
	mov     r10, rax
	mov     rax, [rsi+rcx*8-16]
	mov     rbx, rdx
	xor     r15d, r15d
	lea     r8, [rel .19]
	jmp     .22
.19:lea     r9, [rcx+0]
	mov     rax, [rsi+rcx*8-16]
	xor     r10d, r10d
	mul     r13
	mov     r15, rax
	mov     rax, [rsi+rcx*8-16]
	mov     rbp, rdx
	lea     r8, [rel .18]
	jmp     .21
	
	align  16
.20:add     [rdi+r9*8-32], r10
	adc     rbx, rax
	mov     rax, [rsi+r9*8-24]
	adc     r15, rdx
	xor     ebp, ebp
	mul     r13
	add     rbx, rax
	mov     rax, [rsi+r9*8-24]
	adc     r15, rdx
	adc     ebp, ebp
	mul     r14
	xor     r10d, r10d
	add     [rdi+r9*8-24], rbx
	adc     r15, rax
	mov     rax, [rsi+r9*8-16]
	adc     rbp, rdx
	mul     r13
	add     r15, rax
	mov     rax, [rsi+r9*8-16]
	adc     rbp, rdx
	adc     r10d, 0
.21:mul     r14
	add     [rdi+r9*8-16], r15
	adc     rbp, rax
	mov     rax, [rsi+r9*8-8]
	adc     r10, rdx
	mul     r13
	xor     ebx, ebx
	add     rbp, rax
	adc     r10, rdx
	mov     r15d, 0
	mov     rax, [rsi+r9*8-8]
	adc     ebx, r15d
	mul     r14
	add     [rdi+r9*8-8], rbp
	adc     r10, rax
	adc     rbx, rdx
	mov     rax, [rsi+r9*8]
	mul     r13
	add     r10, rax
	mov     rax, [rsi+r9*8]
	adc     rbx, rdx
	adc     r15d, 0
.22:mul     r14
	add     r9, 4
	js      .20
	add     [rdi-32], r10
	adc     rbx, rax
	imul    r13, [rsi-24]
	add     rbx, r13
	add     [rdi-24], rbx
	add     rcx, 2
	jns     .23
	lea     r11, [r11+16]
	mov     r13, [r11]
	mov     r14, [r11+8]
	lea     rsi, [rsi-16]
	jmp     r8
.23:
    END_PROC reg_save_list
add mullow_n_basecase common assembler code to the Windows build 2017-02-16 06:51:48 -05:00			`; AMD64 mpn_mullow_n_basecase`
			`;`
			`; Copyright 2015 Free Software Foundation, Inc.`
			`;`
			`; This file is part of the GNU MP Library.`
			`;`
			`; The GNU MP Library is free software; you can redistribute it and/or modify`
			`; it under the terms of either:`
			`;`
			`; * the GNU Lesser General Public License as published by the Free`
			`; Software Foundation; either version 3 of the License, or (at your`
			`; option) any later version.`
			`;`
			`; or`
			`;`
			`; * the GNU General Public License as published by the Free Software`
			`; Foundation; either version 2 of the License, or (at your option) any`
			`; later version.`
			`;`
			`; or both in parallel, as here.`
			`;`
			`; The GNU MP Library is distributed in the hope that it will be useful, but`
			`; WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY`
			`; or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License`
			`; for more details.`
			`;`
			`; You should have received copies of the GNU General Public License and the`
			`; GNU Lesser General Public License along with the GNU MP Library. If not,`
			`; see https://www.gnu.org/licenses/.`
			`;`
			`;void mpn_mullow_n_basecase (mp_ptr rp, mp_srcptr up, mp_srcptr vp, mp_size_t n)`
			`; rdi rsi rdx rcx`
			`; rcx rdx r8 r9`

			`%include 'yasm_mac.inc'`

			`TEXT`

			`LEAF_PROC mpn_mullow_n_basecase`
			`cmp r9, 3`
			`je asm_sym(?mpn_mullow1)`
			`jg asm_sym(?mpn_mullow2)`
			`mov rax, [rdx]`
			`mov r11, [r8+8]`
			`mov r8, [r8]`
			`cmp r9, 1`
			`jg .3`

			`.2: imul rax, r8`
			`mov [rcx], rax`
			`ret`

			`.3: mov r9, [rdx+8]`
			`imul r11, rax`
			`mul r8`
			`mov [rcx], rax`
			`imul r8, r9`
			`lea rax, [r11+rdx]`
			`add rax, r8`
			`mov [rcx+8], rax`
			`ret`

			`%define reg_save_list rsi, rdi`

			`FRAME_PROC ?mpn_mullow1, 0, reg_save_list`
			`mov rdi, rcx`
			`mov rsi, rdx`
			`mov rdx, r8`
			`mov rcx, r9`
			`mov rax, [rsi]`
			`mov r8, [rdx]`
			`mov r9, [rdx+8]`
			`mov r11, [rdx+16]`
			`mul r8`
			`mov [rdi], rax`
			`mov rax, [rsi]`
			`mov rcx, rdx`
			`mul r9`
			`imul r9, [rsi+8]`
			`mov r10, [rsi+16]`
			`imul r10, r8`
			`add rcx, rax`
			`adc r9, rdx`
			`add r9, r10`
			`mov rax, [rsi+8]`
			`mul r8`
			`add rcx, rax`
			`adc r9, rdx`
			`mov rax, r11`
			`imul rax, [rsi]`
			`add r9, rax`
			`mov [rdi+8], rcx`
			`mov [rdi+16], r9`
			`END_PROC reg_save_list`

			`%define reg_save_list rsi, rdi, rbx, rbp, r13, r14, r15`

			`align 16`
			`FRAME_PROC ?mpn_mullow2, 0, reg_save_list`
			`mov rdi, rcx`
			`mov rsi, rdx`
			`mov rdx, r8`
			`mov rcx, r9`
			`.5: mov rax, [rsi]`
			`mov r13, [rdx]`
			`mov r11, rdx`
			`lea rdi, [rdi+rcx*8]`
			`lea rsi, [rsi+rcx*8]`
			`neg rcx`
			`mul r13`
			`test cl, 1`
			`jz .12`
			`.6: lea rdi, [rdi-8]`
			`lea rsi, [rsi-8]`
			`test cl, 2`
			`jnz .8`
			`.7: lea r9, [rcx-1]`
			`lea r8, [rel .18]`
			`mov rbx, rax`
			`mov r15, rdx`
			`xor ebp, ebp`
			`xor r10d, r10d`
			`mov rax, [rsi+rcx*8+16]`
			`jmp .11`

			`.8: lea r9, [rcx+1]`
			`lea r8, [rel .19]`
			`mov rbp, rax`
			`mov r10, rdx`
			`xor ebx, ebx`
			`jmp .10`

			`align 16`
			`.9: mov [rdi+r9*8-16], rbx`
			`add r15, rax`
			`mov rax, [rsi+r9*8]`
			`adc rbp, rdx`
			`xor ebx, ebx`
			`mul r13`
			`mov [rdi+r9*8-8], r15`
			`add rbp, rax`
			`adc r10, rdx`
			`.10:mov rax, [rsi+r9*8+8]`
			`mul r13`
			`mov [rdi+r9*8], rbp`
			`add r10, rax`
			`adc rbx, rdx`
			`mov rax, [rsi+r9*8+16]`
			`mul r13`
			`mov [rdi+r9*8+8], r10`
			`xor ebp, ebp`
			`mov r10, rbp`
			`add rbx, rax`
			`mov rax, [rsi+r9*8+24]`
			`mov r15, rbp`
			`adc r15, rdx`
			`.11:mul r13`
			`add r9, 4`
			`js .9`
			`mov [rdi-16], rbx`
			`add r15, rax`
			`mov [rdi-8], r15`
			`adc rbp, rdx`
			`imul r13, [rsi]`
			`add rbp, r13`
			`mov [rdi], rbp`
			`add rcx, 1`
			`jz .23`
			`mov r13, [r11+8]`
			`mov r14, [r11+16]`
			`lea rsi, [rsi+16]`
			`lea r11, [r11+8]`
			`lea rdi, [rdi+24]`
			`jmp r8`

			`.12:mov r14, [r11+8]`
			`test cl, 2`
			`jz .14`

			`align 16`
			`.13:lea r9, [rcx+0]`
			`mov r10, rax`
			`mov rbx, rdx`
			`xor r15d, r15d`
			`mov rax, [rsi+rcx*8]`
			`lea r8, [rel .19]`
			`jmp .17`

			`align 16`
			`.14:lea r9, [rcx+2]`
			`mov r10d, 0`
			`mov r15, rax`
			`mov rax, [rsi+rcx*8]`
			`mov rbp, rdx`
			`lea r8, [rel .18]`
			`jmp .16`

			`align 16`
			`.15:mov rax, [rsi+r9*8-32]`
			`mul r14`
			`add rbx, rax`
			`adc r15, rdx`
			`mov rax, [rsi+r9*8-24]`
			`xor ebp, ebp`
			`mul r13`
			`add rbx, rax`
			`mov rax, [rsi+r9*8-24]`
			`adc r15, rdx`
			`adc ebp, 0`
			`mul r14`
			`add r15, rax`
			`mov [rdi+r9*8-24], rbx`
			`adc rbp, rdx`
			`mov rax, [rsi+r9*8-16]`
			`mul r13`
			`mov r10d, 0`
			`add r15, rax`
			`adc rbp, rdx`
			`mov rax, [rsi+r9*8-16]`
			`adc r10d, 0`
			`.16:mov ebx, 0`
			`mov [rdi+r9*8-16], r15`
			`mul r14`
			`add rbp, rax`
			`mov rax, [rsi+r9*8-8]`
			`adc r10, rdx`
			`mov r15d, 0`
			`mul r13`
			`add rbp, rax`
			`mov rax, [rsi+r9*8-8]`
			`adc r10, rdx`
			`adc ebx, r15d`
			`mul r14`
			`add r10, rax`
			`mov [rdi+r9*8-8], rbp`
			`adc rbx, rdx`
			`mov rax, [rsi+r9*8]`
			`mul r13`
			`add r10, rax`
			`adc rbx, rdx`
			`adc r15d, 0`
			`.17:add r9, 4`
			`mov [rdi+r9*8-32], r10`
			`js .15`
			`imul r14, [rsi-16]`
			`add rbx, r14`
			`imul r13, [rsi-8]`
			`add rbx, r13`
			`mov [rdi-8], rbx`
			`add rcx, 2`
			`jz .23`
			`mov r13, [r11+16]`
			`mov r14, [r11+24]`
			`lea r11, [r11+16]`
			`lea rdi, [rdi+16]`
			`jmp r8`
			`.18:lea r9, [rcx-2]`
			`mov rax, [rsi+rcx*8-16]`
			`mul r13`
			`mov r10, rax`
			`mov rax, [rsi+rcx*8-16]`
			`mov rbx, rdx`
			`xor r15d, r15d`
			`lea r8, [rel .19]`
			`jmp .22`
			`.19:lea r9, [rcx+0]`
			`mov rax, [rsi+rcx*8-16]`
			`xor r10d, r10d`
			`mul r13`
			`mov r15, rax`
			`mov rax, [rsi+rcx*8-16]`
			`mov rbp, rdx`
			`lea r8, [rel .18]`
			`jmp .21`

			`align 16`
			`.20:add [rdi+r9*8-32], r10`
			`adc rbx, rax`
			`mov rax, [rsi+r9*8-24]`
			`adc r15, rdx`
			`xor ebp, ebp`
			`mul r13`
			`add rbx, rax`
			`mov rax, [rsi+r9*8-24]`
			`adc r15, rdx`
			`adc ebp, ebp`
			`mul r14`
			`xor r10d, r10d`
			`add [rdi+r9*8-24], rbx`
			`adc r15, rax`
			`mov rax, [rsi+r9*8-16]`
			`adc rbp, rdx`
			`mul r13`
			`add r15, rax`
			`mov rax, [rsi+r9*8-16]`
			`adc rbp, rdx`
			`adc r10d, 0`
			`.21:mul r14`
			`add [rdi+r9*8-16], r15`
			`adc rbp, rax`
			`mov rax, [rsi+r9*8-8]`
			`adc r10, rdx`
			`mul r13`
			`xor ebx, ebx`
			`add rbp, rax`
			`adc r10, rdx`
			`mov r15d, 0`
			`mov rax, [rsi+r9*8-8]`
			`adc ebx, r15d`
			`mul r14`
			`add [rdi+r9*8-8], rbp`
			`adc r10, rax`
			`adc rbx, rdx`
			`mov rax, [rsi+r9*8]`
			`mul r13`
			`add r10, rax`
			`mov rax, [rsi+r9*8]`
			`adc rbx, rdx`
			`adc r15d, 0`
			`.22:mul r14`
			`add r9, 4`
			`js .20`
			`add [rdi-32], r10`
			`adc rbx, rax`
			`imul r13, [rsi-24]`
			`add rbx, r13`
			`add [rdi-24], rbx`
			`add rcx, 2`
			`jns .23`
			`lea r11, [r11+16]`
			`mov r13, [r11]`
			`mov r14, [r11+8]`
			`lea rsi, [rsi-16]`
			`jmp r8`
			`.23:`
			`END_PROC reg_save_list`