நகரத்தில் ஒரு புதிய மாடல் உள்ளது, மேலும் இது தொழில்துறையின் உள்ளே தலையைத் திருப்புகிறது, இருப்பினும் பெரும்பாலான அமெரிக்கர்கள் அதைப் பற்றி கேள்விப்பட்டிருக்க மாட்டார்கள்.
DeepSeek என்பது உயர் ஃப்ளையர் கேபிடல் மேனேஜ்மென்ட் எனப்படும் நிறுவனத்தால் உருவாக்கப்பட்ட ஒரு பெரிய மொழி மாதிரியாகும், இது ஒரு அளவு ஹெட்ஜ் நிதி என வல்லுநர்கள் விவரிக்கின்றனர். இந்த அமைப்பு பல DeepSeek மாதிரிகள் மற்றும் பதிப்புகளை உருவாக்கியுள்ளது, அவற்றில் சில OpenAI மற்றும் பிற இடங்களில் உருவாக்கப்பட்டு வரும் தற்போதைய மாடல்களை விட சிறப்பாக செயல்படுகின்றன.
குறிப்பாக, DeepSeek R1-Lite-Preview என்று அழைக்கப்படும் ஒரு புதிய மாடல் உள்ளது, இது சில ஆய்வாளர்களிடமிருந்து சிறந்த பில்லிங் பெறுகிறது, இது நமது சிந்தனைப் பகுத்தறிவு சகாப்தத்தின் தொடக்கத்தில் மிகவும் பயனுள்ள கருவிகளில் ஒன்றாகும்.
இந்த DeepSeek மாதிரியானது சிந்தனைச் சங்கிலியைக் காட்டுகிறது, மேலும் சில வகையான தர்க்க அனுமானம், கணிதப் பகுத்தறிவு மற்றும் நிகழ்நேர சிக்கல்களைத் தீர்க்கும் பணிகளைச் சிறப்பாகச் செய்கிறது.
உள்நாட்டு போட்டி மற்றும் சர்வதேச போட்டி
உள்நாட்டில், அலிபாபாவால் உருவாக்கப்பட்ட க்வென் மாடல்களுடன் DeepSeek போட்டியிடுகிறது. உயர்நிலைப் பள்ளிக் கணிதப் பாடத்திட்டத்தைப் பயன்படுத்தி மாதிரிகளைச் சோதிப்பதற்கும் அவற்றின் திறன்களை ஒப்பிட்டுப் பார்ப்பதற்கும் கணிதத் தரவுத் தொகுப்பில் க்வென் எவ்வாறு சிறப்பாகச் செயல்படுகிறார் என்பதை நான் நேற்று தெரிவித்தேன்.
DeepSeek-R1-Lite-Preview ஆனது MATH தரவுத் தொகுப்பு மற்றும் பிற தூண்டுதலுடன் அதன் வகையான மற்ற மாடல்களை விஞ்சியது.
சர்வதேச அளவில், OpenAI மற்றும் Anthropic மற்றும் பிற நிறுவனங்கள் இந்த துறையில் ஆதிக்கம் செலுத்த முயற்சிக்கின்றன. எவ்வாறாயினும், ஹக்கிங் ஃபேஸின் தலைமை நிர்வாக அதிகாரி, கிளெமென்ட் டெலாங்கு போன்றவர்கள் எங்களிடம் உள்ளனர், “(க்வென் மாதிரி) தான் ராஜா, மேலும் சீன திறந்த மாதிரிகள் ஒட்டுமொத்தமாக ஆதிக்கம் செலுத்துகின்றன.”
சீன AI குழுமமான iFlytek இன் நிறுவனர் Liu Qingfeng போன்ற நபர்கள் உங்களிடம் உள்ளனர், அவர் கூறினார், “அமெரிக்காவிற்கும் சீனாவிற்கும் இடையே உள்ள இடைவெளி அனைவரும் நினைப்பது போல் பெரிதாக இல்லை. பல செங்குத்துகளில் நமது [models] அவர்களை விட சிறந்தவை.”
தொழில்நுட்ப ஊடக மேடையில் அதிக நேரம் எடுக்கும் திறந்த மாதிரிகள் பற்றிய விவாதமும் உள்ளது. மூடிய மாதிரிகள் பாதுகாப்பானவை, ஆனால் திறந்த மாதிரிகள் மிகவும் சமமானவை.
டீப்சீக்கின் மாதிரி என்ன செய்ய முடியும்
மாடல்கள் எவ்வாறு ஒன்றுக்கொன்று சிறப்பாகச் செயல்படுகின்றன என்பதைப் பற்றிய உள்ளுணர்வு விவரங்களில் நீங்கள் இருந்தால், நீங்கள் ஆச்சரியப்படலாம்: மற்ற மாடல்களை விட DeepSeek-R1-Lite-Preview என்ன செய்கிறது?
வென்ச்சர் பீட்டில் உள்ள இந்தக் கட்டுரை, “ஸ்ட்ராபெரி என்ற வார்த்தையில் எத்தனை எழுத்து R’கள் உள்ளன?” என்ற கேள்வியைத் தீர்க்கும் மாதிரியின் இரண்டு உறுதியான உதாரணங்களை வழங்குகிறது. மற்றும், மாறி மாறி எண் மொழியில், “எது பெரியது, 9.11 அல்லது 9.9?”
எனவே அந்த வகையான கேள்வி-பதில் சிக்கல் தீர்க்கும் மற்றும் தர்க்கரீதியான அனுமான திறன்களைக் காட்டுகிறது.
குறிப்பாக, MATH இல் OpenAI-o1-Preview லெவல் செயல்திறனை விட மாடல் அதிகமாக இருப்பதாக வென்ச்சர் பீட் தெரிவிக்கிறது.
அதன் பகுத்தறிவு திறன்கள் அதன் வெளிப்படையான சிந்தனை செயல்முறையால் மேம்படுத்தப்படுகின்றன, இது மாதிரியானது சிக்கலான சவால்களை படிப்படியாக சமாளிக்கும் போது பயனர்களை பின்பற்ற அனுமதிக்கிறது.
சரியாகச் சொல்வதானால், OpenAI இன் o1 முன்னோட்டம் சிந்தனைச் சங்கிலியையும் செய்கிறது. நான் அதைப் பயன்படுத்தினேன் மற்றும் கேள்விக்கு பதிலளிக்கும் வழியில் அது செய்யும் பணிகளைப் பார்த்து ஈர்க்கப்பட்டேன். ஆனால் சந்தை சூழலைப் புரிந்துகொள்வது முக்கியம், மேலும் எந்த மாதிரிகள் இப்போது முன் மற்றும் மையமாக உள்ளன, பிரகாசமான LLM கள் வகுப்பறையின் முன் வருவதால்.
தர்க்கரீதியான பயன்பாடுகளைப் பொறுத்தவரை, இந்த புதிய மாடல்கள் அனைத்தும் பரந்த அளவிலான துறைகளில் தொழில்துறை கருவிகளில் ஒருங்கிணைக்கப்படுவதை நாங்கள் காண்கிறோம். ஆனால், இப்போதும் பீட்டாவில் இருக்கும், இன்னும் மிக ஆரம்பநிலையில் இருக்கும், இன்னும் நம் உலகில் உருவாகி வரும் மாடல்களை மதிப்பீடு செய்வதால், ஆய்வாளர்கள் இப்போது என்ன சொல்கிறார்கள் என்பதைப் பற்றி கொஞ்சம்.