mpir/mpn/x86_64w/mulmid_basecase.asm

;
;  AMD64 mpn_mulmid_basecase
;
;  Based on mul_basecase.asm from GMP 4.3.1, modifications are copyright
;  (C) 2009, David Harvey. The original mul_basecase.asm was released under
;  LGPLv3+, license terms reproduced below. These modifications are hereby
;  released under the same terms.
;
;  Windows Conversion Copyright 2010 Dr B R Gladman
;
;  Contributed to the GNU project by Torbjorn Granlund and David Harvey.
;
;  Copyright 2008 Free Software Foundation, Inc.
;
;  This file is part of the GNU MP Library.
;
;  The GNU MP Library is free software; you can redistribute it and/or modify
;  it under the terms of the GNU Lesser General Public License as published
;  by the Free Software Foundation; either version 3 of the License, or (at
;  your option) any later version.
;
;  The GNU MP Library is distributed in the hope that it will be useful, but
;  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
;  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
;  License for more details.
;
;  You should have received a copy of the GNU Lesser General Public License
;  //www.gnu.org/licenses/.
;
; void mpn_mulmid_basecase(mp_ptr, mp_ptr, mp_size_t, mp_ptr, mp_size_t)
;  rax                        rdi     rsi        rdx     rcx         r8
;  rax                        rcx     rdx         r8      r9   [rsp+40]

%define reg_save_list   rbx, rsi, rdi, rbp, r12, r13, r14, r15

%include 'yasm_mac.inc'

        BITS 64
	TEXT
	
	xalign  16
	WIN64_GCC_PROC mpn_mulmid_basecase, 5, frame
	mov     r15, rcx


	lea     r13, [rdx+1]
	sub     r13, r8

	lea     rdi, [rdi+r13*8]

	cmp     r13, 4
	jc      .29

	lea     rsi, [rsi+rdx*8]

	test    r8, 1
	jz      .10

.0:	mov     ebx, r13d

	neg     r13
	mov     rax, [rsi+r13*8]
	mov     r12, [r15]
	mul     r12

	and     r13, -4
	mov     r11, r13

	and     ebx, 3
	jz      .2
	cmp     ebx, 2
	jc      .3
	jz      .4

.1:	mov     r10, rax
	mov     rbx, rdx
	lea     r14, [rel .23]
	jmp     .8

	xalign  16
.2:	mov     rbp, rax
	mov     r10, rdx
	lea     r14, [rel .20]
	jmp     .7

	xalign  16
.3:	add     r11, 4
	mov     rcx, rax
	mov     rbp, rdx
	mov     r10d, 0
	mov     rax, [rsi+r11*8]
	lea     r14, [rel .21]
	jmp     .6

	xalign  16
.4:	mov     rbx, rax
	mov     rcx, rdx
	mov     rax, [rsi+r11*8+24]
	mov     ebp, 0
	mov     r10d, 0
	lea     r14, [rel .22]
	jmp     .9

	xalign  16
.5:	mov     [rdi+r11*8-16], rbx
	add     rcx, rax
	mov     rax, [rsi+r11*8]
	adc     rbp, rdx
.6:	mov     ebx, 0
	mul     r12
	mov     [rdi+r11*8-8], rcx
	add     rbp, rax
	adc     r10, rdx
.7:	mov     rax, [rsi+r11*8+8]
	mul     r12
	mov     [rdi+r11*8], rbp
	add     r10, rax
	adc     rbx, rdx
.8:	mov     rax, [rsi+r11*8+16]
	mul     r12
	mov     [rdi+r11*8+8], r10
	mov     ebp, 0
	mov     r10, rbp
	add     rbx, rax
	mov     rax, [rsi+r11*8+24]
	mov     rcx, rbp
	adc     rcx, rdx
.9:	mul     r12
	add     r11, 4
	js      .5
	mov     [rdi-16], rbx
	add     rcx, rax
	mov     [rdi-8], rcx
	mov     [rdi+8], rbp
	adc     rbp, rdx
	mov     [rdi], rbp
	dec     r8
	jz      .40
	lea     rsi, [rsi-8]
	lea     r15, [r15+8]
	mov     r11, r13
	mov     r12, [r15]
	mov     r9, [r15+8]
	jmp     r14

	xalign  16
.10:mov     ebx, r13d

	neg     r13
	mov     rax, [rsi+r13*8-8]
	mov     r12, [r15]
	mov     r9, [r15+8]
	mul     r9
	and     r13, -4
	mov     r11, r13
	and     ebx, 3
	jz      .12
	cmp     ebx, 2
	jc      .13
	jz      .14
.11:mov     rcx, rax
	mov     rbp, rdx
	lea     r14, [rel .23]
	jmp     .17

	xalign  16
.12:mov     rbx, rax
	mov     rcx, rdx
	lea     r14, [rel .20]
	jmp     .16

	xalign  16
.13:mov     r10, rax
	mov     rbx, rdx
	mov     ecx, 0
	lea     r14, [rel .21]
	jmp     .19

	xalign  16
.14:mov     rbp, rax
	mov     r10, rdx
	mov     ebx, 0
	mov     rax, [rsi+r11*8+16]
	lea     r14, [rel .22]
	jmp     .18

	xalign  16
.15:mov     rax, [rsi+r11*8-8]
	mul     r9
	add     rbx, rax
	adc     rcx, rdx
.16:mov     ebp, 0
	mov     rax, [rsi+r11*8]
	mul     r12
	add     rbx, rax
	mov     rax, [rsi+r11*8]
	adc     rcx, rdx
	adc     ebp, 0
	mul     r9
	add     rcx, rax
	mov     [rdi+r11*8], rbx
	adc     rbp, rdx
.17:mov     rax, [rsi+r11*8+8]
	mul     r12
	mov     r10d, 0
	add     rcx, rax
	adc     rbp, rdx
	mov     ebx, 0
	adc     r10d, 0
	mov     rax, [rsi+r11*8+8]
	mov     [rdi+r11*8+8], rcx
	mul     r9
	add     rbp, rax
	mov     rax, [rsi+r11*8+16]
	adc     r10, rdx
.18:mov     ecx, 0
	mul     r12
	add     rbp, rax
	mov     rax, [rsi+r11*8+16]
	adc     r10, rdx
	adc     ebx, 0
	mul     r9
	add     r10, rax
	mov     [rdi+r11*8+16], rbp
	adc     rbx, rdx
.19:mov     rax, [rsi+r11*8+24]
	mul     r12
	add     r10, rax
	adc     rbx, rdx
	adc     ecx, 0
	add     r11, 4
	mov     [rdi+r11*8-8], r10
	jnz     .15
	mov     [rdi], rbx
	mov     [rdi+8], rcx
	sub     r8, 2
	jz      .40
	lea     r15, [r15+16]
	lea     rsi, [rsi-16]
	mov     r11, r13
	mov     r12, [r15]
	mov     r9, [r15+8]
	jmp     r14

	xalign  16
.20:mov     rax, [rsi+r11*8-8]
	mul     r9
	mov     rcx, rax
	mov     rbp, rdx
	mov     r10d, 0
	jmp     .25

	xalign  16
.21:mov     rax, [rsi+r11*8+16]
	mul     r9
	mov     rbx, rax
	mov     rcx, rdx
	mov     ebp, 0
	mov     rax, [rsi+r11*8+24]
	jmp     .28

	xalign  16
.22:mov     rax, [rsi+r11*8+8]
	mul     r9
	mov     r10, rax
	mov     rbx, rdx
	mov     ecx, 0
	jmp     .27

	xalign  16
.23:mov     rax, [rsi+r11*8]
	mul     r9
	mov     rbp, rax
	mov     r10, rdx
	mov     ebx, 0
	mov     ecx, 0
	jmp     .26
	
	xalign  16
.24:mov     r10d, 0
	add     rbx, rax
	mov     rax, [rsi+r11*8-8]
	adc     rcx, rdx
	adc     ebp, 0
	mul     r9
	add     [rdi+r11*8-8], rbx
	adc     rcx, rax
	adc     rbp, rdx
.25:mov     rax, [rsi+r11*8]
	mul     r12
	add     rcx, rax
	mov     rax, [rsi+r11*8]
	adc     rbp, rdx
	adc     r10d, 0
	mul     r9
	add     [rdi+r11*8], rcx
	mov     ecx, 0
	adc     rbp, rax
	mov     ebx, 0
	adc     r10, rdx
.26:mov     rax, [rsi+r11*8+8]
	mul     r12
	add     rbp, rax
	mov     rax, [rsi+r11*8+8]
	adc     r10, rdx
	adc     ebx, 0
	mul     r9
	add     [rdi+r11*8+8], rbp
	adc     r10, rax
	adc     rbx, rdx
.27:mov     rax, [rsi+r11*8+16]
	mul     r12
	add     r10, rax
	mov     rax, [rsi+r11*8+16]
	adc     rbx, rdx
	adc     ecx, 0
	mul     r9
	add     [rdi+r11*8+16], r10
	nop ; < not translated >
	adc     rbx, rax
	mov     ebp, 0
	mov     rax, [rsi+r11*8+24]
	adc     rcx, rdx
.28:mul     r12
	add     r11, 4
	jnz     .24
	add     rbx, rax
	adc     rcx, rdx
	adc     ebp, 0
	add     [rdi-8], rbx
	adc     [rdi], rcx
	adc     [rdi+8], rbp
	sub     r8, 2
	jz      .40
	lea     r15, [r15+16]
	lea     rsi, [rsi-16]
	mov     r11, r13
	mov     r12, [r15]
	mov     r9, [r15+8]
	jmp     r14

	xalign  16
.29:xor     ebx, ebx
	xor     ecx, ecx
	xor     ebp, ebp
	neg     r13
	mov     eax, r8d
	and     eax, 3
	jz      .31
	cmp     eax, 2
	jc      .32
	jz      .33
.30:lea     r15, [r15-8]
	mov     r10, r15
	add     r8, 1
	mov     r11, r8
	lea     r14, [rel .36]
	jmp     .36
.31:mov     r10, r15
	mov     r11, r8
	lea     r14, [rip+0]
	mov     rax, [rsi+r11*8-8]
	jmp     .35
.32:lea     r15, [r15+8]
	mov     r10, r15
	add     r8, 3
	mov     r11, r8
	lea     r14, [rip+0]
	mov     rax, [r10-8]
	jmp     .38
.33:lea     r15, [r15-16]
	mov     r10, r15
	add     r8, 2
	mov     r11, r8
	lea     r14, [rip+0]
	mov     rax, [r10+16]
	jmp     .37

	xalign  16
.34:add     rbx, rax
	adc     rcx, rdx
	mov     rax, [rsi+r11*8-8]
	adc     rbp, 0
.35:mul     qword [r10]
	add     rbx, rax
	adc     rcx, rdx
	adc     rbp, 0
.36:mov     rax, [rsi+r11*8-16]
	mul     qword [r10+8]
	add     rbx, rax
	mov     rax, [r10+16]
	adc     rcx, rdx
	adc     rbp, 0
.37:mul     qword [rsi+r11*8-24]
	add     rbx, rax
	mov     rax, [r10+24]
	adc     rcx, rdx
	lea     r10, [r10+32]
	adc     rbp, 0
.38:mul     qword [rsi+r11*8-32]
	sub     r11, 4
	jnz     .34
	add     rbx, rax
	adc     rcx, rdx
	adc     rbp, 0
	mov     [rdi+r13*8], rbx
	inc     r13
	jz      .39
	mov     r11, r8
	mov     r10, r15
	lea     rsi, [rsi+8]
	mov     rbx, rcx
	mov     rcx, rbp
	xor     ebp, ebp
	jmp     r14
.39:mov     [rdi], rcx
	mov     [rdi+8], rbp
.40:
	WIN64_GCC_END

	end
Add mulmid_basecase assembler to Windows x64 builds 2010-02-24 15:37:51 -05:00			`;`
			`; AMD64 mpn_mulmid_basecase`
			`;`
			`; Based on mul_basecase.asm from GMP 4.3.1, modifications are copyright`
			`; (C) 2009, David Harvey. The original mul_basecase.asm was released under`
			`; LGPLv3+, license terms reproduced below. These modifications are hereby`
			`; released under the same terms.`
			`;`
			`; Windows Conversion Copyright 2010 Dr B R Gladman`
			`;`
			`; Contributed to the GNU project by Torbjorn Granlund and David Harvey.`
			`;`
			`; Copyright 2008 Free Software Foundation, Inc.`
			`;`
			`; This file is part of the GNU MP Library.`
			`;`
			`; The GNU MP Library is free software; you can redistribute it and/or modify`
			`; it under the terms of the GNU Lesser General Public License as published`
			`; by the Free Software Foundation; either version 3 of the License, or (at`
			`; your option) any later version.`
			`;`
			`; The GNU MP Library is distributed in the hope that it will be useful, but`
			`; WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY`
			`; or FITNESS FOR A PARTICULAR PURPOSE. See the GNU Lesser General Public`
			`; License for more details.`
			`;`
			`; You should have received a copy of the GNU Lesser General Public License`
			`; //www.gnu.org/licenses/.`
			`;`
			`; void mpn_mulmid_basecase(mp_ptr, mp_ptr, mp_size_t, mp_ptr, mp_size_t)`
			`; rax rdi rsi rdx rcx r8`
			`; rax rcx rdx r8 r9 [rsp+40]`

			`%define reg_save_list rbx, rsi, rdi, rbp, r12, r13, r14, r15`

			`%include 'yasm_mac.inc'`

			`BITS 64`
			`TEXT`

			`xalign 16`
			`WIN64_GCC_PROC mpn_mulmid_basecase, 5, frame`
			`mov r15, rcx`


			`lea r13, [rdx+1]`
			`sub r13, r8`

			`lea rdi, [rdi+r13*8]`

			`cmp r13, 4`
			`jc .29`

			`lea rsi, [rsi+rdx*8]`

			`test r8, 1`
			`jz .10`

			`.0: mov ebx, r13d`

			`neg r13`
			`mov rax, [rsi+r13*8]`
			`mov r12, [r15]`
			`mul r12`

			`and r13, -4`
			`mov r11, r13`

			`and ebx, 3`
			`jz .2`
			`cmp ebx, 2`
			`jc .3`
			`jz .4`

			`.1: mov r10, rax`
			`mov rbx, rdx`
			`lea r14, [rel .23]`
			`jmp .8`

			`xalign 16`
			`.2: mov rbp, rax`
			`mov r10, rdx`
			`lea r14, [rel .20]`
			`jmp .7`

			`xalign 16`
			`.3: add r11, 4`
			`mov rcx, rax`
			`mov rbp, rdx`
			`mov r10d, 0`
			`mov rax, [rsi+r11*8]`
			`lea r14, [rel .21]`
			`jmp .6`

			`xalign 16`
			`.4: mov rbx, rax`
			`mov rcx, rdx`
			`mov rax, [rsi+r11*8+24]`
			`mov ebp, 0`
			`mov r10d, 0`
			`lea r14, [rel .22]`
			`jmp .9`

			`xalign 16`
			`.5: mov [rdi+r11*8-16], rbx`
			`add rcx, rax`
			`mov rax, [rsi+r11*8]`
			`adc rbp, rdx`
			`.6: mov ebx, 0`
			`mul r12`
			`mov [rdi+r11*8-8], rcx`
			`add rbp, rax`
			`adc r10, rdx`
			`.7: mov rax, [rsi+r11*8+8]`
			`mul r12`
			`mov [rdi+r11*8], rbp`
			`add r10, rax`
			`adc rbx, rdx`
			`.8: mov rax, [rsi+r11*8+16]`
			`mul r12`
			`mov [rdi+r11*8+8], r10`
			`mov ebp, 0`
			`mov r10, rbp`
			`add rbx, rax`
			`mov rax, [rsi+r11*8+24]`
			`mov rcx, rbp`
			`adc rcx, rdx`
			`.9: mul r12`
			`add r11, 4`
			`js .5`
			`mov [rdi-16], rbx`
			`add rcx, rax`
			`mov [rdi-8], rcx`
			`mov [rdi+8], rbp`
			`adc rbp, rdx`
			`mov [rdi], rbp`
			`dec r8`
			`jz .40`
			`lea rsi, [rsi-8]`
			`lea r15, [r15+8]`
			`mov r11, r13`
			`mov r12, [r15]`
			`mov r9, [r15+8]`
			`jmp r14`

			`xalign 16`
			`.10:mov ebx, r13d`

			`neg r13`
			`mov rax, [rsi+r13*8-8]`
			`mov r12, [r15]`
			`mov r9, [r15+8]`
			`mul r9`
			`and r13, -4`
			`mov r11, r13`
			`and ebx, 3`
			`jz .12`
			`cmp ebx, 2`
			`jc .13`
			`jz .14`
			`.11:mov rcx, rax`
			`mov rbp, rdx`
			`lea r14, [rel .23]`
			`jmp .17`

			`xalign 16`
			`.12:mov rbx, rax`
			`mov rcx, rdx`
			`lea r14, [rel .20]`
			`jmp .16`

			`xalign 16`
			`.13:mov r10, rax`
			`mov rbx, rdx`
			`mov ecx, 0`
			`lea r14, [rel .21]`
			`jmp .19`

			`xalign 16`
			`.14:mov rbp, rax`
			`mov r10, rdx`
			`mov ebx, 0`
			`mov rax, [rsi+r11*8+16]`
			`lea r14, [rel .22]`
			`jmp .18`

			`xalign 16`
			`.15:mov rax, [rsi+r11*8-8]`
			`mul r9`
			`add rbx, rax`
			`adc rcx, rdx`
			`.16:mov ebp, 0`
			`mov rax, [rsi+r11*8]`
			`mul r12`
			`add rbx, rax`
			`mov rax, [rsi+r11*8]`
			`adc rcx, rdx`
			`adc ebp, 0`
			`mul r9`
			`add rcx, rax`
			`mov [rdi+r11*8], rbx`
			`adc rbp, rdx`
			`.17:mov rax, [rsi+r11*8+8]`
			`mul r12`
			`mov r10d, 0`
			`add rcx, rax`
			`adc rbp, rdx`
			`mov ebx, 0`
			`adc r10d, 0`
			`mov rax, [rsi+r11*8+8]`
			`mov [rdi+r11*8+8], rcx`
			`mul r9`
			`add rbp, rax`
			`mov rax, [rsi+r11*8+16]`
			`adc r10, rdx`
			`.18:mov ecx, 0`
			`mul r12`
			`add rbp, rax`
			`mov rax, [rsi+r11*8+16]`
			`adc r10, rdx`
			`adc ebx, 0`
			`mul r9`
			`add r10, rax`
			`mov [rdi+r11*8+16], rbp`
			`adc rbx, rdx`
			`.19:mov rax, [rsi+r11*8+24]`
			`mul r12`
			`add r10, rax`
			`adc rbx, rdx`
			`adc ecx, 0`
			`add r11, 4`
			`mov [rdi+r11*8-8], r10`
			`jnz .15`
			`mov [rdi], rbx`
			`mov [rdi+8], rcx`
			`sub r8, 2`
			`jz .40`
			`lea r15, [r15+16]`
			`lea rsi, [rsi-16]`
			`mov r11, r13`
			`mov r12, [r15]`
			`mov r9, [r15+8]`
			`jmp r14`

			`xalign 16`
			`.20:mov rax, [rsi+r11*8-8]`
			`mul r9`
			`mov rcx, rax`
			`mov rbp, rdx`
			`mov r10d, 0`
			`jmp .25`

			`xalign 16`
			`.21:mov rax, [rsi+r11*8+16]`
			`mul r9`
			`mov rbx, rax`
			`mov rcx, rdx`
			`mov ebp, 0`
			`mov rax, [rsi+r11*8+24]`
			`jmp .28`

			`xalign 16`
			`.22:mov rax, [rsi+r11*8+8]`
			`mul r9`
			`mov r10, rax`
			`mov rbx, rdx`
			`mov ecx, 0`
			`jmp .27`

			`xalign 16`
			`.23:mov rax, [rsi+r11*8]`
			`mul r9`
			`mov rbp, rax`
			`mov r10, rdx`
			`mov ebx, 0`
			`mov ecx, 0`
			`jmp .26`

			`xalign 16`
			`.24:mov r10d, 0`
			`add rbx, rax`
			`mov rax, [rsi+r11*8-8]`
			`adc rcx, rdx`
			`adc ebp, 0`
			`mul r9`
			`add [rdi+r11*8-8], rbx`
			`adc rcx, rax`
			`adc rbp, rdx`
			`.25:mov rax, [rsi+r11*8]`
			`mul r12`
			`add rcx, rax`
			`mov rax, [rsi+r11*8]`
			`adc rbp, rdx`
			`adc r10d, 0`
			`mul r9`
			`add [rdi+r11*8], rcx`
			`mov ecx, 0`
			`adc rbp, rax`
			`mov ebx, 0`
			`adc r10, rdx`
			`.26:mov rax, [rsi+r11*8+8]`
			`mul r12`
			`add rbp, rax`
			`mov rax, [rsi+r11*8+8]`
			`adc r10, rdx`
			`adc ebx, 0`
			`mul r9`
			`add [rdi+r11*8+8], rbp`
			`adc r10, rax`
			`adc rbx, rdx`
			`.27:mov rax, [rsi+r11*8+16]`
			`mul r12`
			`add r10, rax`
			`mov rax, [rsi+r11*8+16]`
			`adc rbx, rdx`
			`adc ecx, 0`
			`mul r9`
			`add [rdi+r11*8+16], r10`
			`nop ; < not translated >`
			`adc rbx, rax`
			`mov ebp, 0`
			`mov rax, [rsi+r11*8+24]`
			`adc rcx, rdx`
			`.28:mul r12`
			`add r11, 4`
			`jnz .24`
			`add rbx, rax`
			`adc rcx, rdx`
			`adc ebp, 0`
			`add [rdi-8], rbx`
			`adc [rdi], rcx`
			`adc [rdi+8], rbp`
			`sub r8, 2`
			`jz .40`
			`lea r15, [r15+16]`
			`lea rsi, [rsi-16]`
			`mov r11, r13`
			`mov r12, [r15]`
			`mov r9, [r15+8]`
			`jmp r14`

			`xalign 16`
			`.29:xor ebx, ebx`
			`xor ecx, ecx`
			`xor ebp, ebp`
			`neg r13`
			`mov eax, r8d`
			`and eax, 3`
			`jz .31`
			`cmp eax, 2`
			`jc .32`
			`jz .33`
			`.30:lea r15, [r15-8]`
			`mov r10, r15`
			`add r8, 1`
			`mov r11, r8`
			`lea r14, [rel .36]`
			`jmp .36`
			`.31:mov r10, r15`
			`mov r11, r8`
			`lea r14, [rip+0]`
			`mov rax, [rsi+r11*8-8]`
			`jmp .35`
			`.32:lea r15, [r15+8]`
			`mov r10, r15`
			`add r8, 3`
			`mov r11, r8`
			`lea r14, [rip+0]`
			`mov rax, [r10-8]`
			`jmp .38`
			`.33:lea r15, [r15-16]`
			`mov r10, r15`
			`add r8, 2`
			`mov r11, r8`
			`lea r14, [rip+0]`
			`mov rax, [r10+16]`
			`jmp .37`

			`xalign 16`
			`.34:add rbx, rax`
			`adc rcx, rdx`
			`mov rax, [rsi+r11*8-8]`
			`adc rbp, 0`
			`.35:mul qword [r10]`
			`add rbx, rax`
			`adc rcx, rdx`
			`adc rbp, 0`
			`.36:mov rax, [rsi+r11*8-16]`
			`mul qword [r10+8]`
			`add rbx, rax`
			`mov rax, [r10+16]`
			`adc rcx, rdx`
			`adc rbp, 0`
			`.37:mul qword [rsi+r11*8-24]`
			`add rbx, rax`
			`mov rax, [r10+24]`
			`adc rcx, rdx`
			`lea r10, [r10+32]`
			`adc rbp, 0`
			`.38:mul qword [rsi+r11*8-32]`
			`sub r11, 4`
			`jnz .34`
			`add rbx, rax`
			`adc rcx, rdx`
			`adc rbp, 0`
			`mov [rdi+r13*8], rbx`
			`inc r13`
			`jz .39`
			`mov r11, r8`
			`mov r10, r15`
			`lea rsi, [rsi+8]`
			`mov rbx, rcx`
			`mov rcx, rbp`
			`xor ebp, ebp`
			`jmp r14`
			`.39:mov [rdi], rcx`
			`mov [rdi+8], rbp`
			`.40:`
			`WIN64_GCC_END`

			`end`